В рамках национальных проектов России федеральными и региональными органами исполнительной власти инициированы проекты «Цифровое государственное управление», «Кадры для цифровой экономики», «Цифровые технологии» и др. Подобные инициативы направлены на ускорение внедрения цифровых технологий с целью создания условий для работы высокотехнологичных отечественных компаний, повышения конкурентоспособности страны и пр. Для качественного управления цифровым развитием государства большие данные могут быть использованы как инструмент повышения прозрачности деятельности всех участников процесса госуправления благодаря применению средств аналитики и интеграции информационных систем для извлечения ценной информации из разнородных данных [1–3]. Однако на пути цифровизации имеется ряд проблем, в частности, отсутствие единого информационного пространства хранения, необходимость консолидации и обработки электронных данных для обеспечения оперативности предоставления достоверной информации в органах исполнительной власти и пр. Созданная в рамках [4] Аналитическая система Минэкономразвития Приморского края позволяет выполнять анализ социально-экономической обстановки в регионе для формирования региональных механизмов развития, принятия взвешенных решений, направленных на развитие края.
Цифровые данные охватывают многие аспекты социально-экономической деятельности в области государственного управления, образования, промышленности и бизнеса. Среди таких данных можно назвать данные о развитии предпринимательства в регионах, формируемые ФНС на основании Единого реестра субъектов малого и среднего предпринимательства и иных источников данных, а также наборы данных, характеризующие налоговую платежеспособность бизнеса на территориях муниципалитетов и пр. Однако петабайты данных, генерируемые подобными информационными системами государственного сектора, зачастую не используются служащими органов исполнительной власти, а лишь размещаются в открытых источниках и доступны для внешних пользователей. Например, ФНС ежемесячно формирует массивы сведений о развитии предпринимательства в регионах, однако такие данные представлены в формате XML, что усложняет их анализ и требует от служащих на местах особых навыков для обработки и приведения полученных сведений в понятный вид.
Сегодня для обработки данных применяется в основном Excel, что затрудняет работу: сложность и негибкость процессов создания пользовательских функций, невозможность автоматизации процессов — необходимость индивидуальной обработки каждого конкретного набора данных, медленная работа с большими объемами данных, ограничение в 1 048 576 строк и пр.
Краевому Минэкономразвития потребовалась аналитическая система, позволяющая без каких-либо ограничений собирать и обрабатывать данные из разных источников и в разных форматах для формирования обобщающих показателей с целью выявления уровня налоговой платежеспособности субъектов малого и среднего предпринимательства на территориях муниципалитетов. Такая аналитическая система нужна муниципалитетам, которым сегодня недостаточно актуальной достоверной информации по развитию бизнеса на своих территориях. Система призвана автоматизировать процессы подготовки аналитики, сократить временные издержки, предоставить доступ к ретроспективным данным для выполнения анализа за определенный период времени. Кроме этого, государственные и муниципальные служащие, специалисты организаций инфраструктуры поддержки малого и среднего предпринимательства, научные сотрудники и прочие заинтересованные лица, не владеющие специальными технологиями по обработке, хранению и визуализации данных, могут самостоятельно проводить анализ доступных данных по своей сфере ответственности.
Данные с сайта ФНС (более 55 тыс. файлов в формате XML) по налоговой платежеспособности субъектов малого и среднего предпринимательства на территориях муниципалитетов Приморского края включают: сведения из Единого реестра субъектов малого и среднего предпринимательства; сведения о суммах доходов и расходов по данным бухгалтерской (финансовой) отчетности организаций за год; сведения о специальных налоговых режимах, применяемых налогоплательщиками; сведения о суммах недоимки и задолженности по пеням и штрафам; сведения об уплаченных организациями в календарном году суммах налогов и сборов.
С помощью скриптов на Python происходят предварительная обработка и нормализация этих данных — приведение к формату CSV, удобному для использования библиотеками Python (Pandas) в табличном представлении. Далее данные объединяются в итоговый набор для проведения статистического анализа. В итоге формируется набор из почти 40 тыс. строк и 53 признаков, в котором каждая строка — одно юридическое лицо, имеющее признак субъекта малого и среднего предпринимательства, а колонки — характеристики данного субъекта: вид деятельности, категория бизнеса (микро, малый или средний), применяемая система налогообложения, выручка, уплаченные налоги, налоговая задолженность и т. д.
Следующий этап — проведение статистического анализа, предусматривающего корреляционный анализ и тестирование гипотез. Исследование данных (exploratory data analysis, EDA) предусматривает описание данных — размерность, типы данных, статистические меры (мода, медиана, дисперсия и др.), распределение данных; изменение типов данных (преобразование нечисловых значений в категориальный вид, приведение даты из строкового значения в формат даты и т. д.); описание пропусков (выявление процента пропущенных значения в данных и последующее их удаление или восстановление); описание дубликатов (поиск дублирующей информации в данных); работу с категориальными признаками (проверка орфографии, стандартизация наименований при необходимости и т. д.) и вывод (результат расчетов, отображение графиков, построение корреляционной матрицы и т. д.).
Для последующего анализа формулируются гипотезы, например: муниципальные образования отличаются по уровню налоговой платежеспособности у субъектов малого и среднего предпринимательства; существует группа муниципальных образований, имеющих наиболее низкий уровень налоговой платежеспособности у субъектов малого и среднего предпринимательства. Проверка гипотез проводится с помощью критерия Краскела — Уоллиса (www.statology.org/kruskal-wallis-test).
Проведение подобного анализа позволило не просто увидеть разницу между муниципальными образованиями, но и получить точную информацию по налоговой платежеспособности бизнеса на территориях конкретных муниципалитетов, что ранее невозможно было сделать средствами Excel.
Анализом наборов данных с целью формирования соответствующих рекомендаций (например, «контрольно-надзорным органам, наделенным полномочиями в области налогового контроля, в целях повышения уровня поступления налогов в консолидированный бюджет края рекомендовать усилить налоговый контроль на территориях муниципалитетов») работа не заканчивается — требуется еще обеспечить хранение данных, их согласованность (снижение количества ошибок), защиту от потерь (создание резервных копий), интеграцию со сторонними сервисами и создать условия для выполнения гибкой аналитики и построения витрин данных.
Другим, не менее важным этапом при работе с данными является визуализация, которая обычно выполняется с помощью специализированных инструментов бизнес-аналитики формирования интерактивной отчетности, уточнения данных с помощью фильтров и срезов, актуализации данных и их мониторинга.
На рисунке представлен конвейер потоков данных полнофункциональной аналитической системы, которая полностью заменяет Excel и автоматизирует весь процесс сборки, обработки и визуализации данных, предоставляя пользователям готовые витрины для проведения аналитических мероприятий.
Конвейер обработки данных |
Шаг 1. Извлечение и изучение данных. Аналогично уже апробированной технологии работы с данными ФНС здесь осуществляются загрузка и изучение структуры данных. Для сбора и выделения конкретных сведений используются скрипты на языке Python, данные приводятся к определенной структуре, а затем происходит их транспортировка в хранилище.
Шаг 2. Заполнение хранилища. Хранилище строится по модели «снежинка» и построено на основе СУБД PostgreSQL: бесплатная лицензия, богатый функционал (оконные функции, CTE — общие табличные выражения, материализованные представления, простая интеграция с приложениями бизнес-аналитики). По мере загрузки данных в хранилище выполняется их проверка на ошибки. За счет хранения данных в табличном виде (а не в XML) упрощается их использование.
Шаг 3. Формирование витрин данных и интеграция с приложениями бизнес-аналитики. После загрузки данных и проверки ошибок формируются витрины данных и выполняется интеграция с Microsoft Power BI. Использование этой системы бизнес-аналитики обусловлено возможностью частично бесплатного доступа и наличием достаточно гибкого функционала (российских аналогов сегодня нет), позволяющего решать задачи, стоящие перед госслужащими. Витрины необходимы для агрегации данных, подаваемых на вход систем бизнес-аналитики, что позволяет увеличить производительности и уменьшить объемы (количество строк уменьшается в 50 раз). После интеграции на стороне Power BI с помощью языка DAX рассчитываются и визуализируются необходимые целевые показатели.
Таким образом, аналитическая система преобразует конкретный набор данных к виду, понятному конечному пользователю, не обладающему техническими навыками, но способному теперь самостоятельно провести необходимые аналитические мероприятия. Аналитическая система может адаптироваться к работе с широким спектром разнородных данных независимо от предполагаемой области исследования, что не ограничивает ее применение только региональными органами исполнительной власти.
***
Без грамотного использования больших данных невозможна реализация таких федеральных и региональных проектов, как «Цифровое государственное управление». Пример работы с большими данными — Аналитическая система Минэкономразвития Приморского края, позволяющая территориальным органам исполнительной власти проводить глубокий анализ для совершенствования, например, контрольно-надзорной деятельности.
Литература
1. Леонид Черняк. Большие Данные — новая теория и практика // Открытые системы.СУБД. — 2011. — № 10. — С. 18–25. URL: www.osp.ru/os/2011/10/13010990 (дата обращения: 26.03.2022).
2. Леонид Черняк. Свежий взгляд на Большие Данные // Открытые системы.СУБД. — 2013. — № 7. — С. 48–51. URL: https://www.osp.ru/os/2013/07/13037355 (дата обращения: 24.03.2022).
3. Дмитрий Волков. В поисках сокровищ // Открытые системы.СУБД. — 2014. — № 1. — С. 1. URL: https://www.osp.ru/os/2014/01/13039638 (дата обращения: 21.03.2022).
4. Стратегия в области цифровой трансформации отраслей экономики, социальной сферы и государственного управления Приморского края. URL: https://www.tadviser.ru/images/7/7c/Стратегия_Приморский_край.pdf
5. Проект по анализу налоговой платежеспособности малого и среднего бизнеса на территориях муниципальных образований Приморского края. URL: https://github.com/ivannatarov/Data_analysis_msp
Станислав Кузора (webkuzora@mail.ru) – ассистент, Дальневосточный федеральный университет, Иван Натаров (natarov_ivan@bk.ru) – аналитик данных, Министерство экономического развития Приморского края (Владивосток).