Форум BIG DATA & AI 2023, проведенный в конце марта издательством «Открытые системы», — это одно из центральных мероприятий для представителей российской ИТ-индустрии, на котором традиционно обсуждаются использование и обработка больших данных, решения и технологии бизнес-аналитики, методы искусственного интеллекта. Кардинальное отличие форумов этого и предыдущего года — особое внимание к ключевым для профессионального сообщества проблемам замещения продуктов зарубежных разработчиков, покинувших российский рынок (см. также статью «BIG DATA & AI 2023: работа с данными в новых реалиях»). Вопросы импортозамещения были представлены на всех сессиях форума, а на одной из них — «Подходы и инструменты» — участники познакомились с отечественными аналитическими решениями, а также обсудили темы управления данными в облаке и развития прикладных систем на базе открытого кода.

Платформы

«Мы узнали о десятках различных российских BI-решений и оказались перед непростой задачей: выбрать лучшую систему в сжатые сроки. Поэтому решили самостоятельно протестировать самые популярные российские предложения», — пояснила Анастасия Остапенко, руководитель центра компетенций BI компании Axenix (правопреемник Accenture на российском рынке).

В Axenix разработали собственную методологию, с помощью которой сравнили функционал более десятка популярных BI-систем, доступных на российском рынке. Наряду с общими критериями сравнения (включая возможности самообслуживания, интуитивно понятный интерфейс, качество поддержки), учитывали широкий спектр функций работы с данными и возможности визуализации. Результаты опубликованы в «Исследовании рынка российских BI-платформ».

Анастасия Остапенко
Анастасия Остапенко: «В процессе импортозамещения можно не только ориентироваться на отечественное ПО, но и рассматривать решения на базе открытого кода, а также продукты из дружественных стран»

Авторы исследования, оценив преимущества и риски работы с отечественными продуктами, отмечают, что на российском рынке регулярно появляются новые BI-решения, а существующие платформы наращивают функционал. В то же время российские платформы заметно отличаются друг от друга и от западных продуктов, обладая отдельными уникальными функциями, которых нет в других решениях.

Анализ рынка показал, что сегодня не существует универсального решения, которое подойдет всем. Для каждого конкретного случая необходимо подбирать BI-платформу по определенным критериям. Ожидается, что через несколько лет отечественные BI-системы будут удовлетворять почти 90% требований пользователей.

«В процессе импортозамещения можно не только ориентироваться на отечественное ПО, но и рассматривать решения на базе открытого кода и продукты из дружественных стран», — подчеркнула Остапенко.

Продукт «Дельта BI», по словам Максима Озерова, директора проектов по аналитике компании Navicon, является OEM-версией зарубежного ПО и легально поставляется через дружественную РФ юрисдикцию. «Дельта BI» полностью локализован Navicon, которая вместе партнерами осуществляет его техническую поддержку.

Этот аналитический инструмент с развитой поддержкой самообслуживания и корпоративным уровнем функциональности в Navicon считают оптимальным решением для замены Tableau, Power BI и Qlik. К его характеристикам можно отнести возможность делать запросы на естественном языке и применять графические конструкторы расчетов, наличие веб-интерфейса, встроенного ETL, встроенной интеграции с Python и R, открытого API, а также использование иерархии данных, масштабируемой архитектуры, поддержку любой ОС, допустимость локального, облачного или гибридного развертывания.

Среди недавних внедрений «Дельта BI» — проекты перехода с Qlik Sense в компании «Ультрамар», являющейся оператором портовой инфраструктуры и контейнерных перевозок, и миграции с Tableau системы корпоративной HR-отчетности в Axenix.

Дмитрий Инокентьев, директор направления компании «Дата Сапиенс», считает, что использование решений на базе открытого кода в информационных системах предприятий требует определенных доработок: «На основе Open Source вы можете собрать СУБД Greenplum. Однако для решения аналитических задач предприятиям нужны не только базы данных, но и прикладные сервисы. Мы решили упростить жизнь тем, кто сразу берется за Open Source».

Марк Лебедев, архитектор «Дата Сапиенс», сообщил, что в компании освоили сборку Greenplum v6 со всеми стандартными пакетами и сфокусировались на таких дополнениях, как мониторинг и быстрая установка.

Так, для мониторинга кластера используют набор Prometheus-экспортеров, а также компоненты Prometheus и Grafana соответственно для сбора и хранения метрик и построения дашбордов. Мониторинг активных запросов осуществляют на основе библиотеки собственной разработки. Созданы набор утилит для автоматизации установки кластера GreenPlum и фреймворк нагрузочного тестирования.

Среди работ текущего года — сборка дистрибутива 7-й версии GreenPlum и адаптация продуктов для корректной работы с новой версией.

Юрий Ефаров, генеральный директор компании Sapiens solutions, утверждает, что доступность BI-решений — важнейший стимул для их использования сотрудниками предприятий. По его опыту, необходимость обучения персонала и дальнейшей работы со специализированными приложениями снижает интерес потенциальных пользователей к BI.

Юрий Ефаров
Юрий Ефаров: «Важнейшим стимулом внедрения BI-решений является их доступность для сотрудников предприятий»

Ефаров представил BI-решение Easy Report, созданное на основе технологий обработки естественного языка, которое предоставляет бизнес-отчеты в чате любого мессенджера, включая российские разработки.

Easy Report развертывается в облаке или на площадке предприятия и по запросам пользователей в мессенджере получает доступ к разнообразным источникам данных, включая «1С», SAP и многие другие популярные системы, а также хранилища и озера данных. Пользователи могут выбирать данные, для которых формируется отчет в информационных системах предприятия.

Стоимость Easy Report не зависит от числа пользователей, подчеркнул Ефаров, что упрощает масштабирование. Решение Easy Report внедрено как в зарубежных, так и в российских («Комус» и «Самолет») компаниях. Время внедрения не превышало трех недель.

Проекты

Докладчики представили ряд практических примеров реализованных решений в области больших данных.

В компании VK Tech, подразделении VK, развивающей продукты и сервисы для цифровой поддержки бизнеса, выполнили проект, позволивший значительно повысить скорость обработки больших данных в розничной онлайн-торговле. В его основе — интеграция высокопроизводительной базы данных Tarantool, содержащей сервер приложений in-memory, и колоночной аналитической СУБД ClickHouse.

Евгений Афанасьев, архитектор VK Tech, пояснил, что СУБД Tarantool позволила в сжатые сроки построить быстродействующую витрину данных, в которой в режиме, близком к реальному времени, агрегируются актуальные сведения о товарных остатках в десятках тысяч магазинов. Аналитика на основе исторических данных осуществляется в ClickHouse. Передачу данных об актуальных остатках (около 20 млрд записей в сутки) выполняет модуль Tarantool Change Data Capture. В случае, когда непосредственное взаимодействие Tarantool с аналитической СУБД невозможно, в VK Tech рекомендуют использовать формат Parquet.

«Каждый инструмент применяется для своего дела, а их совместное использование дает синергетический эффект», — резюмировал Афанасьев.

Еще один масштабный проект выполнила компания «Инфосистемы Джет», создавшая платформу управления данными в облаке Yandex Cloud для промышленного предприятия. «Представьте себе прокатный стан длиной более километра с более чем тысячей датчиков. Требовалось создать аналитические витрины технологических данных с почти полутора тысячами показателей, организовать в реальном времени потоковую обработку данных термосканера, сбор и анализ изображений с видеокамеры в прокатной клети», — рассказал Станислав Шлишевский, руководитель направления продвижения центра управления данными «Инфосистем Джет».

Оценки показали, что стоимость владения в облаке кластером из 9 узлов по 120 ядер составляет 20 млн руб. в год, в то время как цена собственной инсталляции — 77 млн. Сроки развертывания в облаке — 2,5 месяца, на предприятии — 11 месяцев. Кроме того, облачное решение позволило устранить проблемы с нехваткой ИТ-персонала и сложностями с закупкой оборудования.

Не вдаваясь в подробности архитектуры решения, значительная часть которой размещена в облаке, можно отметить некоторое усложнение, которое внесло облако. Максим Серпухов, руководитель группы управления проектами компании «Инфосистемы Джет», сообщил, что пришлось реализовать промежуточное хранение реляционных данных в файлах Parquet в S3, а также ввести в облаке дополнительный экземпляр оркестратора на базе Airflow, чтобы приблизить обработку к данным. Потоковая обработка данных в реальном времени осталась в инфраструктуре предприятия.

В то же время он отметил, что в облаке сервисы Greenplum, S3 и другие работают «из коробки» с минимальными настройками и постоянно доступны без затрат на администрирование. Кроме того, имеются вычислительные ресурсы для глубокого обучения моделей и, если потребуется, обеспечивается простое масштабирование решения.

Переход на собственную платформу управления данными осуществили в компании SberDevices, занимающейся разработкой, производством и продажами умных устройств. «До начала реализации проекта у нас было очень много сторонних и унаследованных решений, а также масса источников и продуктовых показателей. Тогда собирали примерно 1 млрд событий в месяц. Нужно было устранить технологические риски, а затем и санкционные. Мы решили все делать сами», — описал задачу Андрей Евтихов, управляющий директор SberDevices.

В новом решении, основанном на облачной инфраструктуре, были использованы стек технологий Vanilla Stack, включающий в себя множество компонентов с открытым кодом, ClickHouse, PostgreSQL, три BI-системы и ряд других продуктов. Эта открытая для всей компании платформа обрабатывает боле 25 млрд событий в месяц, а ее пользователями стали около тысячи сотрудников. Реализована концепция «данные как продукт», в рамках которой формируются количественные показатели для всех сценариев работы с платформой, аудиторные показатели использования инструментов визуализации и исследования данных, а также технические показатели для каждого действия по сбору, обработке, аналитике и распространению данных. Кроме того, осуществляется детализация показателей по пользователям, командам, временным периодам.

В дальнейших планах — внедрение в работу SberDevices подхода Data-driven, включая прогнозную аналитику для каждого продукта и процесса, аналитику в реальном времени, предоставление данных в удобном для машинного обучения виде.

СХД для российского рынка

Основанная в 2009 году компания «Рэйдикс» — российский разработчик программных решений для систем хранения данных. «Наше ПО работает в любых системах с 64-разрядными процессорами архитектуры x86 и с набором команд AVX. Оно поставляется более чем в три десятка стран и используется для систем хранения в корпоративном секторе, медиаиндустрии, суперкомпьютерных проектах и других областях», — заявил Алексей Казаков, пресейл-инженер «Рэйдикс».

В «Рэйдикс» разработали и запатентовали в России и США технологию помехоустойчивого кодирования, с применением которой созданы решения для управления серверами систем хранения и для построения масштабируемых высокопроизводительных кластеров узлов хранения.

Среди продуктов «Рэйдикс» — операционная система RAIDIX 5.X для формирования гибридных и твердотельных систем хранения с высокоскоростным блочным и файловым доступом; ПО RAIDIX Hydra для кластерных вычислений; RAIDIX ERA для создания RAID-массивов из твердотельных накопителей.