Система государственных закупок создана согласно Указу Президента РФ от 7 августа 1992 года № 826 «О мерах по формированию Федеральной контрактной системы» и пережила четыре этапа развития: 1992–1997 годы — становление системы госзакупок на основе легитимации исходных формальных институтов; 1998–2006 годы — переход к обязательному использованию рыночного механизма государственных закупок; 2006–2013 годы — автоматизация системы государственных и муниципальных закупок; с 2014 года до настоящего времени — формирование целостного закупочного цикла, агрегирующего все этапы закупки (планирование, размещение закупки, заключение государственного контракта и др.) на базе официального всероссийского сайта государственных закупок (Единая информационная система в сфере закупок, ЕИС, zakupki.gov.ru) [1]. Система госзакупок постоянно модернизируется как с законодательной, так и с технической точки зрения с целью повышения эффективности и результативности закупок, обеспечения их прозрачности, предотвращения казнокрадства и других злоупотреблений.

Основной официальный источник данных о государственных закупках — портал ЕИС. Он содержит информацию о всех госзакупках, которые могут осуществляться в соответствии с законами 44-ФЗ и 223-ФЗ. Первый регулирует все детали процесса закупок и применяется к государственным и муниципальным бюджетным учреждениям, а также к большинству унитарных предприятий. Второй применяется к организациям с долей участия государства более 50%, компаниям, занимающимся регулируемыми видами деятельности (водоснабжение, энергетика и т. д.), естественным монополиям; этот закон регламентирует только основные правила проведения закупок, а детали и порядок процедур прописываются индивидуально для каждой закупки.

С целью минимизации рисков осуществляется мониторинг контрактов, для чего на федеральном уровне и в субъектах РФ имеются контролирующие органы, выполняющие выборочные проверки, однако, как правило, объект контроля (контракт) выбирается случайным образом, что неэффективно с точки зрения надзора.

Одно из решений, помогающих повысить результативность проверок, — система СПАРК, нацеленная на снижение финансовых и инвестиционных рисков организаций путем представления аналитики по контрагентам и оценки их благонадежности. СПАРК агрегирует сведения о регистрации и структуре компании, ее финансовую отчетность, метрики для оценки кредитных рисков и риска неблагонадежности, сведения об аудиторских проверках, данные по участию в государственных и коммерческих закупках, информацию о процедуре банкротства, судебных спорах и решениях арбитражных судов и др. Данные собираются из десятка различных источников, среди которых ФНС, Федеральное казначейство, ФССП и др. Функционал системы СПАРК «заточен» под оценку благонадежности компании, но не позволяет вести мониторинг государственных закупок. Другое решение предлагает компания Fintender (fintender.ru/ok), ее система «О контрагенте» консолидирует все доступные данные, но, как и СПАРК, нацелена на оценку благонадежности поставщика, а не рискованности контракта.

На различных тендерных платформах работают собственные программные модули, позволяющие повысить прозрачность закупок. Например, электронная площадка РТС-тендер, на которой производятся государственные и муниципальные закупки, имеет «Модуль исполнения контрактов», осуществляющий: контроль исполнения контракта в форме электронного плана графика работ; ведение статистики и автоматическую выгрузку данных по исполнению контрактов по регионам; предоставление доступа контролирующим органам для проверки и ведения статистики. Аналогичные модули на других тендерных площадках позволяют упростить работу с контрагентами и документацией, косвенно уменьшая риски, связанные с управлением контрактами. Однако такие решения обычно предоставляют слабые аналитические средства оценки рискованности контрактов либо вообще их не имеют.

С помощью методов машинного обучения можно построить модель классификации для оценки рискованности контрактов, которая позволит контролирующим органам проверять наименее надежные контракты, что, в отличие от случайной выборки, может повысить эффективность процедур контроля процесса госзакупок. При построении модели за основу были взяты закупки, выполненные в соответствии с 44-ФЗ, — данные здесь потенциально более однородны, чем в случае 223-ФЗ, и имеется больше возможностей для получения достоверных результатов на небольшой выборке. На выходе предполагалось получить модель, способную классифицировать контракты с точностью более 90%, а также выделить ключевые признаки, определяющие тот или иной исход.

Для проверки предлагаемого подхода из записей ЕИС была сформирована выборка, включающая 11 926 контрактов для Ярославской области. На этапе сбора данных на базе экспертных оценок было выделено 18 признаков, описывающих контракт, поставщика и заказчика (рис. 1).

Рис. 1. Сформированные признаки контрактов (FLOAT — вещественное значение; INT — целое значение; BOOL — 1 или 0); тип переменной (К — количественная, Н — номинальная, НБ — бинарная номинальная); НМЦК — начальная (максимальная) цена контракта

На этапе предварительной обработки из рассмотрения были удалены наблюдения, признаки которых содержали пустые значения, вызванные наличием ошибок в базе ЕИС. В результате размер выборки сократился до 11 907 объектов. Затем была произведена обработка номинальных небинарных переменных. Переменная «сфера контракта», описываемая ОКПД2 (Общероссийский классификатор продукции по видам экономической деятельности, tender-rus.ru/okpd), насчитывает более 600 значений. Были предприняты два шага: во -первых, ее значения были заменены первыми двумя символами ОКПД2 (класс продукции), что позволило уменьшить количество уникальных значений до 64. Во-вторых, все значения, встречающиеся реже чем в 5% случаях, были сгруппированы. Аналогичный прием был применен и к переменной «тип организации» заказчика. Таким образом, количество значений для переменных «сфера контракта» и «тип организации» заказчика сократилось до трех (неуказанное значение, искусственный класс для группировки, пищевые продукты) и четырех (неуказанное значение, ООО, искусственный класс для группировки, ЗАО) соответственно. Затем ко всем номинальным небинарным переменным был применен метод фиктивного кодирования (dummy encoding), поскольку большинство алгоритмов машинного обучения не умеют работать с ними непосредственно с категориальными переменными. Фиктивное кодирование вместо исходного признака создает N-1 переменную, где N — количество уникальных значений признака. Итого, количество атрибутов в модели было увеличено до 25. У таких переменных, как «количество завершенных контрактов», «средняя сумма контракта», «количество заказов», «цена контракта» и «начальная максимальная оценка контракта», были обработаны выбросы, затем значения переменных были логарифмированы и стандартизированы.

Для решения задачи оценки риска обычно применяют алгоритмы классификации, а вероятность отнесения наблюдения к «плохому» рассматривают как оценку риска. Целевая бинарная переменная может принимать значения «1» — то есть «хороший» контракт, который был успешно завершен или расторгнут по обоюдному согласию при исполнении более 60% обязательств, и «0» — во всех иных случаях, обозначая «плохой» контракт. Разрыв контракта до его завершения влечет дополнительные издержки для заказчика, поэтому не каждый контракт с разрывом по обоюдному согласию является хорошим. Исполнение контракта определяется отношением выплаченной исполнителю суммы к общей цене контракта.

Задача оценки рискованности контракта близка по смыслу к задаче оценки благонадежности заемщиков банка, для которой существует проработанная теоретическая и практическая база. Поэтому для модели оценки закупок пригодны алгоритмы, применяемые для решения задачи кредитного скоринга: логистическая регрессия, машина опорных векторов c гауссовым ядром RBF (Gaussian RBF kernel), классический градиентный бустинг и алгоритм градиентного бустинга CatBoost (tech.yandex.ru/catboost) [2–4]. Первые три часто применяются для оценки заемщика, а их композиция позволяет описывать широкий класс закономерностей и восстанавливать сложные нелинейные зависимости, с которыми не может справиться одиночный алгоритм [2]. Модели на градиентном бустинге (XGBoost, LightGBM, CatBoost) побеждают в соревнованиях по машинному обучению и часто используются на практике и в исследованиях. Среди них можно выделить CatBoost, который отличается от классического градиентного бустинга наличием встроенной обработки категориальных переменных. Обучение первых трех алгоритмов проводилось на выборке с осуществлением полной предобработки категориальных переменных, а для обучения CatBoost группировка значений и фиктивное кодирование категориальных переменных не производились. Все алгоритмы были обучены на сбалансированной выборке с соотношением «плохих» и «хороших» контрактов 1:1.

Для тестирования качества модели использовались десятикратная перекрестная проверка на полной выборке до подбора параметров алгоритма (Т1), а также подбор параметров модели во время десятикратной перекрестной проверки с последующим тестированием на валидационной выборке, составляющей 20% от всей выборки (Т2).

В табл. 1 приведены результаты обучения моделей по четырем алгоритмам в разрезе трех параметров: точность (Acc), полнота «плохого» (Rec0) и «хорошего» (Rec1) классов.

Машинное обучение: прогнозирование рисков госзакупок

Алгоритм градиентного бустинга CatBoost показал наилучшую точность как до подбора параметров, так и после, а прирост в точности после подбора параметров составил всего 0,2%. Для модели CatBoost было построено распределение контрактов по предсказываемой для нее вероятности отнесения контрактов к группе «плохих» (рис. 2). Видно, что основная часть «хороших» контрактов скапливается в левой половине кривой, а преимущественная часть плохих — справа. Это показывает, что построенный классификатор имеет не только высокую точность классификации контрактов, но и является хорошей вероятностной моделью для оценки контрактных рисков.

Рис. 2. Распределение контрактов по предсказываемой величине плохого исхода

Стандартными методами оценить важность признаков для машины опорных векторов нельзя, поэтому этот алгоритм был исключен. В табл. 2 приведены пять наиболее важных переменных для построенных моделей на базе логистической регрессии и классического градиентного бустинга.

Машинное обучение: прогнозирование рисков госзакупок

Наиболее значимыми переменными, влияющими на результат исполнения контракта, являются: опыт поставщика; тип организации заказчика; средняя цена контракта; тип организации поставщика; опыт выполнения профильных контрактов. Именно эти переменные следует учитывать прежде всего при оценке рискованности контракта.

Несмотря на достижение хорошего результата, при разработке модели автоматической оценки рискованности контрактов остается еще поле для дальнейшего исследования. В частности, можно увеличить выборку и извлекать дополнительные признаки, а после увеличения выборки имеет смысл применить более сложные алгоритмы. Кроме того, в перспективе планируется разработать модель автоматической оценки рискованности контракта для закупок, проводимых в соответствии с 223-ФЗ.

***

В сфере госзакупок обращаются огромные денежные средства, поэтому сегодня прикладываются большие усилия для мониторинга процесса выполнения контракта — своевременное управление рисками поможет сэкономить миллиарды рублей. Построенная модель автоматизированной оценки рискованности государственных контрактов на базе алгоритмов машинного обучения имеет точность 94,6%, и ее применение может повысить эффективность государственных закупок, а следовательно, и оптимизировать бюджетные расходы.

Литература

  1. Белокрылова О. Институциональная модернизация системы госзакупок: зона риска // Государственное и муниципальное управление. Ученые записки СКАГС. — 2016. — № 4. — C. 21–29.
  2. Виктор Китов. Практические аспекты машинного обучения // Окрытые системы.СУБД. — 2016. — № 1. — С. 14–17. URL: https://www.osp.ru/os/2016/01/13048648/ (дата обращения: 23.04.2018).
  3. Henly D., Hand W. Statistical Classification Methods in Consumer Credit Scoring: a Review // Royal Statistical Society. — 1997. — № 3 (160). — P. 523–541.
  4. Huang C., Chen M., Wang C. Credit scoring with a data mining approach based on support vector machines // Expert Systems with Applications. — 2007. — № 33. — P. 847–856.

Дмитрий Елисеев (daeliseev@edu.hse.ru) — студент, Дмитрий Романов (dromanov@hse.ru) — доцент, Школа бизнес-информатики, факультет бизнеса и менеджмента, НИУ ВШЭ (Москва).