Современное цифровое общество тонет в океане данных, пытаясь извлечь из него полезную информацию и задыхаясь при этом от нехватки знаний. Кроме этого, в условиях, когда языковые модели искусственного интеллекта все чаще используются для создания контента, растет вероятность замаскированных намеренных или случайных ошибок, предвзятости и дезинформации. Если не быть осторожным, то ловушки как для бизнеса, так и отдельных граждан могут быть такими же, как в социальных сетях, но на порядки хуже. Модели ИИ явно имеют потенциал для создания дипфейковых текстов. Возможные последствия для бизнеса, политики, журналистики и социальных сетей от засорения источников экономики данных вызывают серьезную тревогу — требуются доступные средства фильтрации, семантического анализа и визуализации, позволяющие всем заинтересованным субъектам экономики данных «отделять зерна от плевел».

Авторы книги на примере отечественной платформы PolyAnalyst, включенной в Реестр российского ПО Минцифры РФ, разбирают методологии и технологии работы с различными источниками структурированных и неструктурированных данных. Необходимый функционал подобных платформ — это средства анализа и обогащения данных, интерпретации результатов и визуализации онтологий, поддержки иностранных языков и построения интерактивных витрин, интерфейсы с популярными моделями машинного обучения, а также инструменты проектирования аналитических решений, не требующие знания программирования.

С точки зрения авторов книги, значительная часть практических аналитических задач окружающего цифрового мира может быть решена на основе уже имеющейся алгоритмической базы. Имеется множество готовых библиотек, а алгоритмы и модели можно рассматривать как элементы конструктора, из которых остается лишь собирать все что угодно. Вопрос лишь в том — как? Обычно компании вынуждены приобретать несколько продуктов: ETL (Extract, Transformation, Load — загрузка, агрегация, очистка и преобразование данных), библиотеки алгоритмов Data Mining и Text Mining, ПО для визуализации результатов бизнес-анализа. Далее, для построения готового сервиса еще необходимо все эти продукты интегрировать. Но есть и более демократичный подход — когда в единой среде все этапы работы (Data Processing Pipeline) выполняются самим потребителем. Такой «инженерный» подход сочетается с концепцией Low-code, в которой построение сценариев анализа данных и представление результатов выполняются с помощью визуального программирования в интуитивно понятном графическом интерфейсе. Именно такой подход и предлагают авторы книги.


Разбираемая в книге платформа имеет набор из более сотни функциональных узлов OCR (распознавание текстов), ETL, Data Mining, Text Mining, а также узлов, позволяющих реализовать комбинацию методов анализа. Создание сценариев обработки данных осуществляется путем сборки решения из деталей «конструктора», в котором элементами выступают алгоритмы, оформленные в виде отдельных функциональных узлов со своим входом, настройками и выходом. Широкий набор инструментов позволяет в единой среде сформировать многошаговые аналитические сценарии анализа данных: загрузка и преобразование, исследование, интерактивное тестирование и доработка моделей, визуализация результатов на основе интерактивных графических объектов. Использование платформы упрощает процесс разработки моделей и обеспечивает владельцам данных возможность самостоятельно проводить анализ данных, не обращаясь к высокооплачиваемым специалистам.

Книга содержит десять глав, в которых разбираются все процессы создания сценариев анализа данных с использованием методов машинного обучения и инструментов Low-code. Изложение ведется в парадигме работы с конструктором, из которого собираются модули описания логики обработки данных: группы узлов распознавания текстов, загрузки, агрегации, очистки и преобразования данных, анализа текстов на естественном языке, реализации алгоритмов DataMining, узлы бизнес-аналитики и пр.

В книгу также включено описание базовых концепций и принципов анализа текстовых данных: автоматическая таксономия, анализ тональности, анализ трендов, извлечение ключевых слов и сущностей, классификация и кластеризация текстов, перевод текстов, расшифровка сокращений и пр. Кроме этого в книге разбираются методы анализа данных, средства интеграции с алгоритмами машинного обучения: адаптивный бустинг, сверточная нейронная сеть, факторный анализ, случайный лес решений, кластеризация, дерево решений, и др. Авторы подробно разбирают средства импорта и экспорта данных в различных форматах, инструменты манипуляции с данными, средства визуализации и представления данных: OLAP-таблицы, агрегированный график, граф, диаграмма рассеяния, карта, линейный график, облако тегов и пр.

Заключительная часть книги посвящена обсуждению особенностей разработки интерактивных графических аналитических панелей (витрин, дашбордов). Кроме этого приведены примеры решения практических задач семантической фильтрации для различных предметных областей.

Книгу не стоит рассматривать лишь как учебник, хотя она и рекомендована Ученым советом РАНХиГС при Президенте РФ студентам, обучающимся по специализации анализа данных, в том числе в рамках проекта «Цифровые кафедры» программы Минобрнауки России «Приоритет 2030» — знакомство с книгой будет полезно аспирантам, преподавателям, ИТ-специалистам и бизнес-менеджерам, расширяющим свой кругозор или решающим аналитические задачи.

Аналитическая платформа PolyAnalyst: архитектура, функциональность, практика применения: учебное пособие для вузов / Ананян С. М., Сазонов Д. С., Слынько Ю. Н., Соломатин Е. Б. — М.: Горячая линия — Телеком, 2023. — 232 с.: ил. — Библиогр.: с. 223-225. ISBN 978-5-9912-1076-8

DOI: 10.51793/OS.2024.19.87.001