Российский рынок больших данных стремительно развивается: растет и уровень представленных на нем отечественных продуктов и сервисов, и уровень компетенций организаций-заказчиков. О текущей ситуации на рынке, имеющихся катализаторах и барьерах, проблемах и факторах, влияющих на выбор стека решений, а также о возможностях облачных сервисов для работы с большими данными рассказывает Александр Фикс, менеджер продукта компании K2 Cloud.
— Какова сегодня ситуация на российском рынке больших данных?
Рынок активно расширяется, и мы видим, что в среднем рост данных в российских организациях составляет 25–30% в год, что в два-три раза превышает мировые показатели. Думаю, это связано с тем, что объемы накопленных у нас баз данных в среднем меньше, чем в остальном мире, и сейчас мы активно догоняем развитые экономики именно по объемам данных.
Также мы наблюдаем снижение стоимости решений для работы с данными. Уже сейчас даже небольшие компании могут начать пользоваться такими инструментами, применяя облачные сервисы, например корпоративное хранилище данных из облака с встроенными инструментами для аналитики.
И, конечно же, сейчас идет активное развитие отечественных решений — их конкурентоспособность на внутреннем рынке по сравнению с западными прдуктами стремительно повышается.
— Лет 10–12 назад компании сталкивались с серьезными трудностями при хранении и обработке больших объемов данных — это требовало дорогостоящей инфраструктуры, узкопрофильных специалистов и незрелых решений. Можно ли сказать, что эти барьеры сегодня преодолены?
Я бы не торопился так утверждать. Впрочем, очень много зависит от ситуации в конкретной организации, ведь каждая компания решает свои потребности в области данных. Кроме того, постоянно появляются новые задачи и новые вызовы. Но в целом считаю, что на текущий момент спектр инструментов для реализации проектов в области больших данных значительно расширился.
— Какие проблемы, связанные с большими данными, остаются актуальными и сегодня?
В первую очередь это проблемы, касающиеся изменения подходов к работе с данными и связанных с ними процессов внутри компании. Многим компаниям предстоит трансформировать свою корпоративную культуру и организационные аспекты, так или иначе затрагивающие работу с данными и процессы принятия решений. Кроме того, по данным проведенного К2 Cloud совместно с компанией Arenadata исследования проектов в области больших данных, 32% компаний испытывают технические трудности интеграции новых решений с существующими ИТ-системами.
— Несколько лет назад появилось предположение о том, что на волне быстрого роста массивов и потоков информации практически все корпоративные данные станут большими. Насколько это предположение оправдалось?
Сейчас граница между большими и небольшими данными весьма и весьма размыта. Очень многое зависит от конкретной компании и от того, как у нее выстроена работа с информацией. Кто-то признает данные большими, оценивая их, прежде всего, по объему, кто-то — по степени их структурированности, кто-то — сразу по целому набору показателей. Нередко, например, пока идет сбор и накопление, их не считают большими, а после того, как появляется аналитическая надстройка и начинаются попытки извлекать пользу из данных, они уже рассматриваются как большие. Повторюсь, граница здесь очень и очень нечеткая.
— Какие преимущества могут дать компаниям проекты на основе технологий больших данных, и научились ли компании оценивать их пользу для своего бизнеса?
Получаемые преимущества и выгоды сильно зависят от специфики конкретной компании. Это подтверждают и результаты нашего исследования: 38% компаний уже сейчас измеряют сроки окупаемости и эффективность таких проектов, их влияние на бизнес, ясно понимают выгоды от этих инвестиций. Аналитика больших данных может повысить эффективность процессов в логистике (управление цепочками поставок, снижение CPI), продажах (аналитика чеков, анализ план-факт, оценка P&L) и финансовых процессах (подготовка отчетности). Однако большая часть компаний сегодня инвестирует в проекты больших данных, не имея ясного понимания возможной окупаемости и того, какую ценность эти проекты принесут. Вероятно, они рассматривают эти вложения как необходимые, как инвестиции в будущее.
— Научился ли бизнес монетизировать большие данные?
Да, мы знаем примеры, когда данные приносят деньги. В первую очередь мы встречаем такие кейсы в больших бигтехах — компаниях, которые уже достаточно давно, лет по 10 и более, работают в этом направлении и научились извлекать прибыль. Также видим кейсы с монетизацией данных в компаниях ритейла, FMCG, финтех-индустрии.
— Есть ли какие-либо барьеры, замедляющие дальнейшее развитие инициатив в области больших данных или препятствующие их реализации?
Сейчас это, прежде всего, высокая ставка рефинансирования: стоимость денег остается достаточно высокой, поэтому инвестировать в дорогостоящие проекты на базе технологий больших данных затруднительно.
Есть в компаниях и внутренние барьеры, но в целом они примерно те же самые, что были раньше и наверняка сохранятся в будущем, все они известны, и с ними можно и нужно работать.
— Насколько ресурсоемкими сегодня оказываются проекты внедрения системы больших данных? Какого уровня экспертиза требуется для их реализации?
Практически все проекты такого рода являются ресурсоемкими. Как показал наш опыт, средняя продолжительность проектов в области больших данных составляет полтора года, для их реализации требуется достаточно большое количество высококвалифицированных специалистов: дата-инженеров, дата-сайентистов, бизнес-аналитиков. Кроме того, зачастую приходится преодолевать огромные трудности, касающиеся интеграции с существующими ИТ-системами. Для выстраивания дата-платформ необходимы высокие компетенции. И не случайно: как мы видим, более 60% компаний привлекают к реализации проектов внешних партнеров, чтобы воспользоваться их помощью.
— Как считаете, ресурсоемкость проектов в области больших данных в ближайшие годы скорее вырастет или, напротив, снизится?
Снизится, потому что сейчас идет активное развитие облачных сервисов: 65% компаний заявляют, что в ближайшее время намерены начать использовать облака для работы с большими данными. Облачные провайдеры предлагают готовые сервисы, которые заметно снижают и необходимый для реализации проектов уровень компетенций, и ценовой порог вхождения в такие проекты. Кроме того, все больше компаний из разных отраслей начинают лояльнее относиться к облачным решениям, рынок расширяется — а это, в свою очередь, помогает снижать цены.
— На какие ключевые факторы стоит обращать внимание компаниям при выборе технологического стека для проектов в области больших данных?
Такие факторы есть, но они не одинаково значимы для всех без исключения компаний. Например, некоторым организациям очень важно наличие у поставщиков определенных лицензий, поскольку таковы требования регуляторов. Поэтому приходится выбирать в основном среди отечественных решений. Для кого-то первостепенное значение имеют функциональные возможности, поэтому рассматриваются и решения с открытым кодом, и отечественные продукты. Кто-то стремится, насколько возможно, снизить затраты и инвестиции на старте, поэтому подбирает подходящие варианты среди решений Open Source и облачных сервисов. В качестве ключевых факторов выбора я бы назвал требования регуляторов, стоимость решения, его функциональные и технические особенности, а также наличие гарантированной техподдержки.
— Насколько конкурентоспособны, на ваш взгляд, имеющиеся сегодня российские продукты и сервисы для работы с большими данными в сравнении с западными?
Они на 100% конкурентоспособны. В России есть вендоры, которые работают на рынке больших данных уже достаточно давно. Arenadata, например, развивает свои решения с 2016 года. Компания накопила огромную экспертизу, в ее портфеле есть множество промышленных решений, успешно работающих во многих организациях, в том числе очень крупных. На рынке немало и других BI-решений, которые за последние три года очень сильно выросли и в плане функциональности, и в том, что касается качества. В целом уровень отечественных решений уже вполне сравним с уровнем продуктов глобальных игроков рынка. И 36% компаний на рынке заявляют, что уже используют отечественные продукты.
— Насколько важны сегодня облачные сервисы для работы с большими данными?
Они применяются и для хранения, и для различных видов обработки данных. Более того, на сегодняшний день есть возможность выстроить весь стек технологий для работы с большими данными на основе облачных сервисов. Подобные реализованные проекты есть и в нашем портфеле.
Первым среди преимуществ облачных сервисов для больших данных я бы назвал сокращение капитальных затрат — они фактически сводятся к нулю. Второе преимущество заключается в снижении нагрузки на сотрудников и ресурсы компании за счет того, что облачный провайдер берет на себя и поддержку инфраструктуры, и поддержку самого сервиса. Поэтому заказчику не нужно ломать голову по поводу инфраструктуры, программного слоя для развертывания оперативного хранилища данных или построения корпоративного хранилища — он получает все и сразу в виде сервисов. То, о чем заказчику придется позаботиться, — это интеграция облачного решения с имеющимися ИТ-системами и выстраивание бизнес-логики внутри хранилища.
Третье ключевое преимущество в том, что облачные решения позволяют ускорить реализацию проектов больших данных и снизить их стоимость. Небольшим компаниям они к тому же помогают проверить различные гипотезы, касающиеся работы с большими данными: быстро развернуть, попробовать, увидеть результат, а если он не устроит, отказаться от дальнейшей реализации проекта, не неся при этом никаких существенных потерь.
— Насколько высоки требования облачных сервисов к сетевым ресурсам и телекоммуникационной инфраструктуре при работе с большими данными?
Все зависит от специфики работы компании-заказчика. К примеру, у розничной сети есть огромное количество магазинов, данные из которых стекаются в ЦОД. Но в роли такого ЦОДа может выступить и облако. Да, конечно, в целом накапливаемые объемы будут большими, но поток данных, одновременно передаваемых в хранилище, не так уж и велик, какие-то уникальные сети передачи не требуются. Большие данные будут какое-то время накапливаться, после чего их можно начать анализировать, строить по ним отчеты и так далее. И вот эти самые отчеты и дашборды можно использовать где-то вне облака. При этом основная работа с большими данными будет происходить именно внутри облака, передавать их куда-то вовне не нужно.