На данный момент data scientist — своеобразный супермен, обладающий широкими знаниями в математике, ИТ и бизнесе, — это во многом собирательный образ Источник: SAP |
2014 год стал переломным для Больших Данных. В IDC подчеркивают, что появляющиеся результаты первых проектов достигли определенной критической массы. Дополнение уже существующих практик бизнес-аналитики технологиями, позволяющими извлекать пользу из больших массивов неструктурированных данных, приносит заметные плоды.
Александр Прохоров, старший аналитик рынка ИТ-услуг российского офиса IDC, в рамках форума IDC «Большие Данные и бизнес-аналитика» отметил, что в прошлом году мировой рынок Больших Данных составил 12,6 млрд долл., показав рост на 30%. При подсчетах учитывалось несколько групп проектов. Чтобы попасть в эту категорию, помимо больших объемов обрабатываемых данных, проект должен был характеризоваться объединением разнородных данных из множества источников, анализом «на лету» данных, поступающих через высокоскоростную потоковую передачу, или демонстрировать рост объема хранения более чем на 60% в год.
Одним из главных сдерживающих факторов для технологий Больших Данных становится дефицит кадров. Вузы в спешном порядке формируют соответствующие программы, но отдача от них будет заметна лишь через несколько лет. Частично компенсировать нехватку специалистов будет использование специализированных программно-аппаратных комплексов (appliance) и облачных сервисов.
По сравнению с «обычными» облаками применение облачных технологий для обработки Больших Данных растет втрое быстрее, и к 2020 году четверть систем Больших Данных будут облачными. В частности, заметно вырастет число компаний, предлагающих сервисы облачной обработки данных в реальном времени на платформе Amazon Web Services.
Пусть работают машины
Новые возможности по обработке данных влекут за собой коренные перемены в маркетинге: персонификация вместо сегментации, прямые описания аудитории вместо косвенной, а также адаптация интерфейса систем под потребности конкретного человека.
«Главный барьер для внедрения новых моделей в бизнес — психологический, особенно у руководителей, привыкших к традиционным схемам работы», — считает Андрей Себрант, директор по маркетингу сервисов компании «Яндекс». Зачастую алгоритмы могут работать гораздо лучше экспертов, особенно это касается принятия массовых однотипных решений: машина многократно эффективнее работает не вместе с людьми, а вместо них. В этих случаях дорогих, опытных специалистов можно смело увольнять или, как минимум, серьезно переучивать для выполнения новых задач. Вместо поиска ответов специалисты должны учиться задавать правильные вопросы — пока это единственное, чего не умеют делать алгоритмы.
«Я не люблю термин ‘Большие Данные’ и предпочитаю говорить про науку о данных — data science», — подчеркнул Себрант. По его словам, зачастую от гигабайтов данных можно добиться большего результата, чем от терабайтов, только лишь за счет правильного обращения с ними.
«Не так важно, насколько велики ваши данные, как то, насколько вы умеете извлекать из них пользу», — согласился Александр Аникин, руководитель отдела аналитики компании «Связной». Традиционные подходы к работе с данными перестают быть эффективными в связи с многогранностью задач и их сложностью. Бизнес демонстрирует неудовлетворенность результатами аналитических усилий. Именно это становится причиной появления data science, которая, по мнению Аникина, вскоре превратится в одну из стандартных функций компаний — такую же, как юридический отдел или подразделение логистики.
На данный момент data scientist — своеобразный супермен, обладающий широкими знаниями в математике, ИТ и бизнесе, — это во многом собирательный образ. Такие специалисты практически не встречаются, поэтому в большинстве случаев речь идет о построении сбалансированной команды сотрудников, вкупе обладающих необходимой экспертизой.
Свобода действий и минимум бюрократии
В случае инноваций, какими сейчас являются Большие Данные, возврат инвестиций в них просчитать практически невозможно, и это огромная проблема — такие инициативы очень сложно защитить. Кроме того, возможности ИТ-департаментов ограниченны, и проекты встают в очередь, иногда весьма долгую. Наконец, у бизнес-подразделений нет стимула заниматься такими работами, что усугубляет ситуацию. Для Сбербанка выходом стало обособление исследовательского подразделения: оно имеет свой бюджет, отдельную команду, свою лабораторию, собственные показатели эффективности.
«Высококвалифицированная команда специалистов по гибким методам разработки, небольшие бюджеты, минимум бюрократии», — перечисляет факторы успеха Алексей Винниченко, руководитель направления Больших Данных отдела технологических исследований Сбербанка.
Платформой для исследований является Cloudera Hadoop, но по необходимости используются и другие решения. С этой точки зрения важны небольшие сроки проектов, в ходе которых многие вендоры дают возможность «поиграть» со своими продуктами бесплатно, а иногда даже выделяют консультантов. При этом стоит отметить подход «отрицательный результат — тоже результат»: сотрудники имеют право на ошибку. Успешной становится примерно каждая третья инициатива: из 25 пилотных проектов, реализованных за последний год, восемь были внедрены в промышленную эксплуатацию. Их экономический эффект многократно превосходит затраты на исследовательские работы.
«Пока самые выгодные для нас проекты Больших Данных — из области безопасности, но о них говорить нельзя», — констатировал Винниченко. Среди прочих проектов он выделил расширение сегмента премиальных карт и оптимизацию эквайринговой сети.
Задачей первого из них стал поиск среди массового сегмента пользователей, готовых перейти на более выгодные продукты премиум-класса. В его ходе потребовалось выделить признаки, разделяющие массовых и премиальных пользователей, построить поведенческую модель премиального клиента. В результате среди массового сегмента было выявлено 54 тыс. потенциальных клиентов премиум-продуктов, а в качестве бонуса — 3 тыс. премиальных клиентов, склонных к оттоку.
В рамках проекта по оптимизации сети эквайринга потребовалось выделить населенные пункты с высоким присутствием POS-терминалов, но низким показателем распространения карточных продуктов и наоборот. Дополнительным эффектом стала добытая информация об эквайринге и карточных продуктах конкурентов.
Средства манипуляций
Мощнейшим полигоном для обкатки технологий Больших Данных становятся социальные сети. Летом Facebook признался в бесчеловечном эксперименте, в ходе которого пользователям в ленту новостей искусственно внедрялись материалы различной направленности. Проект подтвердил, что социальные площадки предоставляют огромные возможности по манипулированию обществом. Люди, получавшие негативные новости, впадали в депрессию: у них понижалась активность и появлялась агрессия в комментариях. При позитивной тональности внедряемых материалов активность пользователей резко росла, они сами начинали активно размещать фотографии и жизнерадостные новости.
Огромное применение Большие Данные находят и в игровой индустрии. Одним из важных направлений деятельности крупных операторов онлайн-игр становится анализ действий игроков в реальном времени. В зависимости от происходящих событий прогнозируется дальнейшее их развитие и формируется персонифицированное предложение по приобретению игровых предметов. С учетом масштабов маркетинговых кампаний, затея по мониторингу действий пользователей является вполне оправданной. Если с нескольких миллионов игроков в результате таких действий удается дополнительно получить хотя бы по несколько долларов, окупаемость проекта становится очевидной.