— Как бы вы суммировали итоги прошедшего года по направлению Больших Данных? Какие основные тренды можно выделить?
Главный итог состоит в том, что именно в прошлом, 2014 году, предприятия, реализующие проекты на основе Больших Данных, стали переходить от пилотных проектов и тестирования к промышленной эксплуатации. В ближайшем будущем эти технологии получат еще более широкое распространение, многие заказчики от пакетной обработки Больших Данных для создания статистических и аналитических отчетов перейдут к использованию их для принятия управленческих решений в реальном времени. Уже сейчас достигнуты большие успехи в интеграции платформ на основе Больших Данных с аналитическими системами, которые могут обрабатывать информацию «на лету» и оперативно реагировать на изменения в бизнесе. Наступил бум экосистемы Hadoop, он ознаменовался широким распространением новых приложений, инструментов и программных компонентов.
Потребность в быстрой актуализации данных остается одной из самых насущных задач, поскольку унаследованные базы данных не обладают достаточной гибкостью, чтобы удовлетворить запросы современного бизнеса. Вместо наращивания объемов данных предприятия начнут больше заниматься оценкой их актуальности и повышением оперативности получения требуемой информации. Речь идет об обеспечении непрерывного доступа к результатам обработки данных с целью оперативного получения самой свежей информации и мгновенного принятия нужных мер.
— Постепенно приходит понимание, что в первую очередь Большие Данные должны приносить пользу бизнесу. Превратились ли Большие Данные в массе своей в рабочий инструмент для бизнеса или пока до этого еще далеко?
Возможности Больших Данных пока только начали осваиваться – можно сказать, что мы стоим на пороге новых открытий, связанных с использованием этих технологий. Спектр их применения гораздо шире, чем представлялось вначале, а последствия могут оказаться куда серьезнее, чем мы это видим сегодня. Дело в том, что не для всех типов заказчиков потребность в таких технологиях очевидна. Если в банковской сфере, розничной торговле и телекоммуникациях эти технологии востребованы уже сейчас, и они становятся по-настоящему рабочим инструментом для бизнеса, то в других сферах деятельности – промышленности, ЖКХ, муниципальном управлении, госсекторе – к ним только начинают присматриваться. Можно сказать, что чем выше конкуренция в той или иной отрасли, тем больше востребованность подобных решений, повышающих скорость реакции на изменения и тем самым увеличивающих конкурентное преимущество.
Кроме того, не стоит забывать об относительно высокой стоимости таких проектов, которая в первую очередь складывается из оплаты труда разработчиков и консультантов. И по этой причине тоже далеко не все могут позволить себе такой программный продукт – ведь необходимо достаточное бизнес-обоснование и серьезный ИТ-бюджет. Хотя со временем, думается, по мере накопления практик внедрения и их более широкого распространения стоимость подобных проектов будет снижаться.
Отметим, что собственные данные компании, такие как перечень клиентов, контактные данные, являются наиболее дешевыми в плане сбора, хранения, обработки и актуализации. Чуть дороже косвенные данные, то есть информация о поведении, скажем, покупателей в торговой сети – размер среднего чека, частота посещений, предпочтительные покупки и т.д. А вот самыми дорогими являются данные о заказчиках компании, полученные из внешних источников – открытых баз данных, социальных сетей, кобрендинговых программ лояльности и пр. Поэтому задумываться о необходимости использования таких внешних данных и соответствующих проектах имеет смысл только тогда, когда уже имеющиеся данные используются максимально эффективно, например, при помощи BI-инструментов, и нуждаются в обогащении для дальнейшего повышения эффективности работы с ними.
— В относительно недавнем исследовании Capgemini была зафиксирована любопытная деталь — в двух третях опрошенных компаний нет четко сформулированных критериев для оценки успешности внедрения технологий Больших Данных. На ваш взгляд, какими критериями следует пользоваться для оценки успешности внедрения?
Крайне важно на этапе выбора решения, поставщика и продукта четко сформулировать, зачем это необходимо, какие бизнес-результаты должны быть достигнуты и каким образом предполагается оценить степень достижения этих результатов, то есть должна быть выстроена целостная система KPI для оценки эффективности предлагаемого к использованию решения. Именно грамотно подобранные KPI и возможность оценить степень их достижения в ходе операционной деятельности и являются главными критериями для оценки успешности проекта внедрения и последующей эксплуатации системы. Безусловно, для разных сфер коммерческой деятельности такие показатели могут и должны различаться. Например, для розничной торговой сети это три группы целей, каждая из которых разбивается на несколько KPI: транзакционные (увеличение процента конвертации посетителей в покупатели), поведенческие (увеличение количества скачиваний каталога товаров, увеличение процента возврата посетителей сайта), коммерческие (увеличение размера среднего чека). Только такой подход может обеспечить обоснованный выбор и ответственную эксплуатацию решения. То есть необходимо вместо термина «затраты» использовать термин ROI (возврат инвестиций).
— Как обстоят дела с наличием квалифицированных специалистов по этому направлению? Достаточно ли их сейчас? Кто их сейчас готовит — сами компании, или начинают появляться соответствующие курсы?
Конечно, настоящих профессионалов по этому направлению сейчас мало. Те, кто есть, занимались самообразованием или были выращены внутри компании. Однако уже появились настоящие гуру — отечественные специалисты, сформировавшие экспертное сообщество, активно участвующие в общественной жизни и занимающиеся просветительской деятельностью.
Сейчас стал доступен и ряд образовательных программ и курсов для ИТ-специалистов. Передовые вузы тоже не стоят на месте – например, в НИУ ВШЭ организована магистратура по программе «Big data». Курсы по Hadoop, R и другим технологиям Больших Данных становятся почти стандартом на соответствующих факультетах. Аналитики полагают, что роль взращивания квалифицированных ИТ-кадров также должны брать на себя непосредственно компании, которые в них остро нуждаются, поскольку именно они в состоянии сформулировать бизнес-требования к использованию этих технологий. Наличие в штате таких сотрудников станет для них пропуском в новую информационную экономику будущего.
— Каким станет наступивший 2015 год для этого направления? Вы ожидаете каких-то качественных или количественных прорывов?
Мы ожидаем и количественных, и качественных изменений. Будут бурно развиваться методики для анализа Больших Данных, соответствующий аналитический инструментарий, технологии визуализации, семантического и лингвистического анализа текстов. Для решения практических задач в области углубленной аналитики очень перспективно использование статистических и математических методов, а также языка R. К примеру, мы исследуем возможности автоматической обработки неструктурированных текстов для извлечения из них полезных фактов и последующего анализа средствами класса Data Discovery.
В ожидании новых возможностей, которые принесут с собой технологии обработки Больших Данных, уже сейчас многие компании организуют процесс сбора и хранения различного рода информации – не только корпоративной. Существенный потенциал для трансформации бизнеса заложен в сочетании корпоративных данных с так называемыми dark data (дословно – «темными данными»), к ним относятся сообщения электронной почты, логи, архивы документов, архивы мультимедиа и другой подобный контент. Технологии Больших Данных позволяют извлечь существенную выгоду и из этих данных, которые зачастую просто накапливаются, требуя дополнительных затрат, но не принося операционной пользы. По мнению Gartner, в гонке данных победят именно те, кто научится наиболее виртуозно обращаться с самыми разными источниками информации.
Большинством вендоров ведется разработка комплексных технологий для управления Большими Данными, а не только их хранения. Этот новый технологический тренд тоже активно обсуждается профессиональным сообществом — как разработчиками, так и отраслевыми аналитиками и потенциальными потребителями таких решений.
— Существуют ли уже сегодня какие-то решения в этой области? Что могут предложить отечественные разработчики?
Разработчики стараются предвосхищать требования рынка. Так, учитывая огромный интерес к информации, содержащейся в социальных сетях, мы разработали решение, позволяющее находить и извлекать нужные данные о зарегистрированных там пользователях – об их предпочтениях, интересах, вкусах, увлечениях и т.д. Эти пользователи либо уже являются клиентами каких-то банков, розничных сетей, страховых компаний, операторов связи, либо потенциально могут быть ими. И тогда заказчик, даже если у него уже есть полнофункциональная система CRM, получает инструмент, который позволяет ему проанализировать огромный массив информации из социальных сетей и проактивно предложить своим клиентам новый продукт или услугу, уже зная, что она будет востребована. Решение обеспечивает наглядное и структурированное представление всей извлеченной информации и поэтому может послужить инструментом целевого маркетинга, кредитного скоринга и массового продвижения новых продуктов и услуг.
— Каким образом осуществляется извлечение этой информации?
Это происходит посредством лингвистической обработки текстовых данных профилей пользователей — к примеру, опубликованных ими постов. Сначала существующий у компании клиент идентифицируется среди всех остальных пользователей социальных сетей, а затем производится сбор, мониторинг и анализ данных его профиля. Для этого используется целый стек различных технологий, включая Hadoop и Oracle Endeca Information Discovery. К слову, доступна и облачная версия этого решения.