Российские промышленные предприятия все активнее интересуются возможностями анализа данных, собираемых в цехах и на производственных площадках. Речь идет не о «рядовой» отчетности о происходящих процессах или простом сборе данных, а об использовании Data Science, или науки о данных, представляющей собой совокупность математических и алгоритмических методов для выявления сложных закономерностей в данных и их продвинутого анализа, который, в частности, подразумевает моделирование с использованием методов машинного обучения, оценки и верификации данных, а также их визуализации. Об этой тенденции и о нынешнем состоянии рынка Data Science в нашей стране Computerworld рассказал Иван Вахмянин, генеральный директор российской компании Visiology, участник форума BIG DATA 2017, организованного издательством «Открытые системы».
— Что сегодня представляет собой российский сегмент науки о данных?
Этот сегмент еще очень новый и очень маленький, и его пока рано рассматривать как отдельный, полноценный рынок. Практически для всех компаний, которые на нем присутствуют, это своего рода эксперимент в надежде, что этот сегмент в скором времени превратится в настоящий Клондайк для тех, кто умеет серьезно работать с данными, как для заказчиков, так и для поставщиков соответствующих услуг.
Уровень зрелости российских заказчиков быстро растет. Если раньше многие из них не видели особой разницы между подобными проектами и внедрениями бизнес-систем (например, ERP или CRM), имеющими ясную стоимость, понятные сроки, рамки и результаты, то теперь заказчики осознают, что проекты Data Science следует рассматривать как НИОКР: в первую очередь предприятиям необходимо тщательно исследовать свои активы — разобраться, какие данные у них имеются, чего можно с их помощью добиться и каких целей достичь. Такой уровень восприятия Data Science характеризует гораздо более зрелое, чем прежде, отношение к подобным проектам.
Иван Вахмянин: «Интерес к проектам Data Science в промышленности — новое, интересное и перспективное веяние» |
— Как и почему в этот сегмент пришла компания Visiology?
Для работы в области науки о данных требуются навыки как аналитиков, так и разработчиков, и синергия этих двух направлений может дать очень сильный эффект. Visiology создана на базе бывшего центра разработки компании Polymedia, специалисты которого накопили немалый опыт в решении задач продвинутой аналитики по тематике ситуационных центров. В частности, у нас есть опыт создания «центров управления бизнесом», ключевая функция которых — помогать выявлять и предугадывать проблемы, своевременно информировать о них бизнес-пользователей, предлагать варианты предотвращения сложных ситуаций или выхода из них.
Кроме того, мы разработали аналитическую платформу Visiology — мощный, гибкий и надежный инструмент сбора данных, их расширенного анализа (в том числе машинного обучения, прогнозной аналитики и исследования Больших Данных) и визуализации. На основе нашей платформы мы разрабатываем и внедряем аналитические решения для различных отраслей: строительства, фармацевтики, здравоохранения, логистики, дистрибуции, ретейла, финансового сектора, транспорта и других.
Таким образом, у нас есть серьезные знания и опыт и в сфере анализа данных, и в разработке ПО. Поскольку сегмент науки о данных действительно новый и перспективный, мы решили выйти на него и продолжить развитие наших компетенций аналитиков и разработчиков.
— С чем связан интерес российских заказчиков к проектам в области науки о данных? На получение каких выгод они рассчитывают?
Некоторые интересуются собственно наукой о данных, поскольку стремятся попробовать все новое, что появляется на ИТ-рынке. В то же время большинство подходит к проектам в области науки о данных вполне рационально, видя в них возможность повысить эффективность отдельных бизнес-процессов без чрезмерных капитальных затрат. Например, производственные процессы во многих предприятиях уже оптимизированы стандартными методами настолько, насколько это только возможно, и для дополнительного их улучшения требуются серьезные инвестиции, часто связанные с приобретением нового, дорогостоящего оборудования. Используя подходы науки о данных, можно получить прирост эффективности за относительно небольшую плату. Конечно, гарантировать радикальное улучшение процессов нельзя, но получить какое-то увеличение отдачи от них вполне реально. Правда, чтобы добиться экономической эффективности, масштаб проекта должен быть достаточно велик. Не случайно заказчики проектов Data Science — это в основном крупные компании.
— В каких отраслях спрос на такие проекты наиболее велик?
Высокий спрос наблюдается в банках и телекоммуникационных компаниях, причем, как мы видим, наиболее крупные из них стараются наращивать собственную экспертизу. Наша компания работает в основном с промышленными предприятиями и другими организациями, для которых работа с данными не является профильным бизнесом. В частности, мы имеем дело с энергетическими компаниями, а также с банками и организациями страхового бизнеса, но не с самыми крупными, а с теми, кто не может себе позволить развитие глубокой собственной компетенции в данной области и потому привлекает сторонние организации для решения задач, требующих использования расширенной аналитики. Разумеется, есть и другие области, где сегодня открываются очень широкие возможности для продвинутого анализа данных, но не во всех из них мы работаем; в частности, мы не планируем развитие в сфере цифрового маркетинга.
— Можно ли составить «портрет» типичного отечественного заказчика проекта в области Data Science?
Я могу описать типичную стадию, на которой находятся наши клиенты: многие из них знакомы с зарубежными проектами в области Data Science, которые принесли бизнесу пользу (например, обеспечили получение конкурентных преимуществ), и хотели бы попробовать реализовать нечто подобное, но не знают, с чего начать. Мы предлагаем таким заказчикам разделить проекты на две части: исследовательскую и практическую, то есть внедрение. Исследовательская часть — это, по сути, аудит данных (включая оценку их качества и других важных характеристик) и предварительное моделирование, направленное на решение потенциальных бизнес-задач заказчиков. По завершении этого этапа мы готовим развернутый отчет о качестве данных, а также даем заключение о том, какие задачи заказчика возможно решить, используя подходы и инструменты науки о данных. По нашей оценке, большинству заказчиков исходя из их уровня зрелости следует начать именно с исследовательской части.
— Какие направления проектов в этой области, вероятнее всего, получат развитие в обозримой перспективе?
Мы ожидаем стремительного роста числа проектов в промышленных компаниях, сумевших накопить большие объемы производственных данных, но не знающих, как их можно использовать с заметной выгодой для себя. Разумеется, зачастую эти данные необходимо проверять, «вычищать», но, главное, эти данные есть. Источниками их являются MES, АСУ ТП и другие системы, развернутые на производстве. Используя подходы науки о данных, можно извлечь из них реальную выгоду. В финансовом секторе, телекоме, ретейле проекты в области науки о данных также, разумеется, будут развиваться, но направления, по которым ожидается всплеск в этих секторах, достаточно очевидны. На их фоне интерес к проектам Data Science в промышленности — это действительно новое, интересное и перспективное веяние.