СЕРГЕЙ КАРЕЛОВ: «Главное препятствие на пути Больших Данных — разруха в головах» |
«Когда данных становится слишком много, меняется отношение к ним. И проблема именно в этом — в смене вычислительной парадигмы, в изменении подходов», — заявил Сергей Карелов, председатель совета лиги экспертов «Линэкс», в ходе форума Big Data 2013, проведенного 21 марта издательством «Открытые системы».
Интерес, проявленный со стороны заказчиков и поставщиков решений к предыдущему форуму, который состоялся в марте 2012 года, недвусмысленно указывает на то, что проблема Больших Данных актуальна для многих отечественных организаций, представляющих самые разные отрасли. За время, прошедшее после предыдущего форума, необходимость обращения с накопленной корпоративной информацией как с Большими Данными осознало еще большее число российских компаний, технологии обработки Больших Данных, казавшиеся экзотикой, стали находить промышленное применение, вендоры выпустили новые средства хранения, анализа и защиты Больших Данных, наконец, работа с Большими Данными стала еще активнее рассматриваться в контексте облачных сервисов, причем не только частных, но и публичных. Более того, многие эксперты полагают, что именно Большие Данные станут катализатором бурного развития облачных инфраструктур.
Основные препятствия на пути Больших Данных очевидны. Главное из них — «разруха в головах»: термин «Большие Данные» каждый понимает по-своему, это скорее модная тенденция, чем реальная методология. Большие Данные стали «зонтичным» брендом, под которым вендоры зачастую подразумевают совершенно разное.
Вторая по значимости проблема, считает Карелов, нехватка специалистов. Несмотря на все свои возможности, средства анализа Больших Данных не могут работать без людей. Такие специалисты, получившие название data scientist, пока в огромном дефиците даже за рубежом.
Наконец, следует изменить практику принятия решений, что особенно актуально для России. До сих пор к аналитике относятся как к вспомогательному, необязательному средству, а не как к основной платформе для принятия решений и предпочитают руководствоваться иными критериями.
Есть и еще один фактор, о котором, по словам Карелова, пока мало кто задумывается: на массовое использование Больших Данных может не хватить электроэнергии. Один поисковый запрос в Google по энергопотреблению сравним с кипячением чайника. Современная энергетическая инфраструктура не выдержит таких нагрузок.
Новые возможности порождают новую форму работы с данными, которая получила название Data Discovery. В ее ходе человек хочет не подсчитать что-либо, а выявить тенденцию, причем иногда сам не зная, какую именно. Особенностями такой деятельности являются отсутствие типовых задач и четко определенной модели данных, а также использование «чужих» (а не только корпоративных) данных. Но главное — в этом случае количество гораздо важнее качества. «Грязные» данные дают вполне приемлемые результаты.
Данные становятся «центром притяжения»
Как отметил Сергей Мацоцкий, председатель правления IBS, на рынке наблюдается парадоксальная ситуация: вендоры обладают полным набором технологий, позволяющих удовлетворить запросы компаний, однако заказчиков у них практически нет. Тому есть вполне объективные причины. Во-первых, чтобы заработать деньги на Больших Данных, сначала надо деньги вложить, а риски подобных проектов, с точки зрения потенциальных заказчиков, пока огромны. Неконкурентность российской экономики не способствует интересу к поиску дополнительных источников повышения эффективности.
Во-вторых, российский рынок еще незрел. Даже «традиционные» аналитические системы для многих российских компаний являются инновационными. Более того, зачастую качественно внедренные системы бизнес-аналитики (Business Intelligence, BI) никто не использует, хотя их назначение очевидно. Такие компании могут повысить свои бизнес-результаты с помощью менее затратных и рискованных проектов.
Наконец, нужно «продавать» не саму технологию, а ее ценность для бизнеса. Следует меньше говорить о технологиях и больше — о реальном опыте их использования, который, правда, пока в основном западный.
Согласно проведенному IBM исследованию, лишь 6% компаний запустили системы анализа Больших Данных. Еще 22% организаций проводят пилотные проекты, а 47% — оценивают применимость баз данных в своем бизнесе.
По словам Сергея Лихарева, руководителя по развитию бизнеса IBM Big Data в Центральной и Восточной Европе, можно выделить три ключевых направления, интересные потенциальным заказчикам. Первое — более глубокое изучение клиентов, оценка их настроения по данным внутренних и внешних источников, связь профилей клиентов в CRM-системах и социальных сетях, определение их местоположения, выявление региональных тенгденций. Второе направление позволяет укрепить систему безопасности, объединив в едином целом все типы и источники данных. Например, таким образом могут формироваться модели стандартного поведения пользователей и поиск аномалий в их действиях.
Третье направление — анализ операций, отслеживание в реальном времени разнообразных машинных данных с целью оптимизации бизнес-результатов. Примером может служить методика интеллектуальных сетей (Smart Grid), находящая применение в энергетике. Она заключается в корректировке показателей сети в зависимости от информации, получаемой со счетчиков потребления электроэнергии.
«Если раньше центром притяжения были приложения, то теперь это данные. С учетом объемов перемещать их для обработки становится непрактичным», — отметил Сергей Золотарев, руководитель направления «Большие Данные» российского офиса ЕМС. По его словам, из любых данных можно извлечь пользу. Однако пока слишком мало инструментов, а главное — компаний, которые желают это делать.
Одной из разновидностей Больших Данных стали, по его словам, так называемые быстрые данные. Во многих случаях обрабатывать базы данных надо «на лету», пока они не утратили актуальности. Типовые задачи — клиентская аналитика (точечный маркетинг), противодействие мошенничеству, оптимизация настроек оборудования.
Важность резидентных технологий также подчеркнули Вадим Табаков, менеджер по развитию направления SAP Database & Technology, и Даниил Калядин, менеджер по развитию бизнеса Software AG. Наиболее эффективный доступ к данным для анализа можно обеспечить, храня их в оперативной памяти, там, где и работают приложения.
«Чем быстрее работает аналитика, тем охотнее сотрудники компании ее используют», — констатировал Александр Пинский, директор по развитию бизнеса Teradata в России. Неважно, каковы объемы анализируемых данных — требования пользователей от этого мягче не станут. В LinkedIn считают, что, если время отклика BI-системы составляет более трех секунд, она будет игнорироваться пользователями. Именно поэтому имеет смысл сегментировать пользователей исходя из видов необходимых им решений. Некоторым из них Большие Данные вовсе не нужны. Например, топ-менеджерам будет полезнее «обычная» аналитика. Для других категорий Большие Данные могут быть, наоборот, критически важны — например, для аналитиков, выискивающих новые бизнес-возможности.
«Специфика анализа Больших Данных заключается в том, что простые, далекие от математической статистики методы способны дать качественные результаты», — уверена Ольга Горчинская, директор по исследовательским проектам ФОРС. Например, анализ поисковых запросов Google позволяет узнать об эпидемии гораздо быстрее, чем об этом сообщит официальная медицина. Проблема заключается в том, чтобы догадаться использовать подобные данные.
Любовь по-научному
«В настоящее время словосочетание «Большие Данные» вызывает в бизнес-сообществе в первую очередь скепсис», — признал Вячеслав Цыганов, ИТ-директор банка «Тинькофф Кредитные Системы». Предлагаемых решений много, а вот историй успеха и, стало быть, понимания, как этого успеха достичь, — гораздо меньше.
Вместе с тем, заметил он, влияние Больших Данных на рынок аналитики трудно переоценить. И решения общепризнанных лидеров, например SAS и IBM SPSS, рискуют повторить путь забытых языков программирования, безнадежно устаревая.
Как отмечает Цыганов, любые конкурентные преимущества носят временный характер, в том числе статус первопроходца, который до сих пор имеет его банк. Необходимо постоянно искать новые направления и возможности развития. Кроме того, в банках, как и во многих других компаниях, накопилось достаточно данных для получения дополнительных преимуществ. Данные становятся активом компании, способным приносить прибыль.
«Большие Данные сами по себе не интересуют бизнес. Необходимо сформулировать бизнес-задачу и продвигать работы по ее решению как бизнес-проект», — рекомендует Цыганов, недавно внедривший в своей организации хранилище в реальном времени на базе программных продуктов ЕМС Greenplum.
«Заказчиком проекта должен быть бизнес. Если ему удастся продать такой проект, он может быть реализован, например, как пристройка к корпоративному хранилищу данных», — согласился Дмитрий Красилов, директор центра систем управления данными «Энвижн Груп». При этом перед компанией открываются новые возможности: получение новых знаний за счет комплексного анализа всей информации в едином хранилище, а также расширение функционала уже существующих систем.
Помимо финансовой отрасли, в возможностях Больших Данных крайне заинтересован телеком, как одна из самых динамичных и технологически развитых отраслей, с высокой конкуренцией. В борьбе за клиента компании ориентированы на прогнозирование изменений в предпочтениях пользователей, на поиск новых возможностей для удовлетворения рыночного спроса, повышения качества оказываемых услуг.
«Крайне интересны попытки объединить в единую сеть транспорт», — отметил Алексей Сидоров, технический директор Informatica в России. Пока в этой сфере наблюдаются лишь локальные инициативы. Например, Volvo запустила программу Connected Vehicle Services, целью которой стал сбор с автомобилей всей доступной информации и предложение на ее основе сервисов. В их число входит прогнозирование поломок, планирование технического обслуживания и оперативная помощь на дорогах. Более того, оказалось, что подобные услуги интересны и страховым компаниям, которые, исходя из поведения водителя на дороге, определяют ценовую политику по отношению к нему.
Как более нестандартный можно выделить подход, применяемый брачным агентством eHarmony, работающим на американском рынке. Заполняемые при регистрации анкеты являются лишь «прикрытием»; на самом деле аналитики компании отслеживают в реальном времени поведение многотысячной аудитории клиентов, ежедневно обрабатывая сотни миллионов событий. Научный подход дает результаты: «с подачи» этого агентства в США ежедневно проходит около 500 свадеб.
Разумеется, каково именно будет влияние новой парадигмы на будущее, абсолютно точно предсказать невозможно, однако можно попытаться понять, что даст появление нового направления. Пока оптимисты и пессимисты сходятся в том, что Большие Данные — это не только большие деньги, но и Большой Брат.
Если появится возможность собирать и анализировать всевозможную информацию о человеке, то ни о какой неприкосновенности частной жизни речи идти не может. На основе анализа можно составить портрет человека и его социального окружения, предсказывать его действия. Не случайно основные проекты ЦРУ и ФБР, связанные с Большими Данными, касаются наблюдения за людьми.
Большие Данные — это не только Hadoop
Конечно же, большие объемы данных ставят перед компаниями сложные задачи в области хранения и обработки. Однако, как напомнил Антон Иванов, начальник отдела комплексного пресейла Центра разработки инфраструктурных решений «Ай-Теко», эти же данные могут служить главным источником знаний, и тут действует прямая зависимость: чем больше данных есть в закромах компании, тем точнее будут результаты анализа. Главное, чтобы методы анализа соответствовали объемам.
«Практически во всех данных есть крупицы золотой информации. Однако любая компания вынуждена по финансовым соображениям отказываться от хранения многих данных, в том числе исторических», — подчеркнул Иван Тимофеев, директор канала продаж HP Autonomy в России и СНГ. Таким образом, она добровольно отказывается от массы возможностей. Разумеется, анализ большего количества факторов усложняет процессы принятия решений, однако дает более точные результаты.
Как согласился Андрей Пивоваров, руководитель группы перспективных технологий департамента предпроектного консалтинга Oracle СНГ, часть проблемы Больших Данных заключается в том, что их обработку необходимо радикально удешевить. Обработка больших объемов данных с помощью традиционных технологий чрезвычайно дорога и неэффективна. Это становится особенно актуальным с учетом того, что у компаний появляется желание проанализировать данные, которые они даже не пытались хранить (например, журналы информационных систем).
«Большие Данные могут не только помогать в осознании научных проблем или извлечении прибыли. Они могут делать жизнь лучше», — заявил Константин Замков, специалист по корпоративным технологиям Intel, подчеркивая, что анализ Больших Данных найдет широкое применение не только в корпоративном, но и в потребительском секторе.
Intel с 2009 года активно сотрудничает с проектом Apache Hadoop, внося значительный вклад в его развитие. Подавляющая часть информации не обрабатывается потому, что это слишком дорого — затраты могут не оправдать потенциальные выгоды. Именно в связи с этим наблюдается рост популярности решений Apache Hadoop, позволяющих радикально снизить стоимость хранения и обработки информации.
Тем не менее ставить знак равенства между Hadoop и Большими Данными не стоит. Эта технология ориентирована на массовую пакетную обработку данных, а не на мониторинг в режиме реального времени. Кроме того, Hadoop предоставляет только базовые сервисы по хранению и обработке, а все необходимые надстройки компаниям приходится делать самим. Необходимой экспертизой обладают не все компании, поэтому поставщики, предлагающие законченные решения в виде программно-аппаратных комплексов, имеют неплохие перспективы.
Есть и промежуточные варианты. Например, Роман Ройфман, ведущий архитектор решений NetApp, представил концепцию «крупноблочного» строительства решений в области Больших Данных. К этой же категории решений можно отнести и продукты Microsoft. Как заявил Вячеслав Архаров, менеджер по маркетингу платформы приложений Microsoft, продукты компании могут быть включены в любые технологии Больших Данных — от сбора и хранения до анализа и глубинного исследования.
В создании узкоспециализированных решений видит конкурентное преимущество Вадим Русин, региональный управляющий Splunk в России. «Управление ИТ с помощью анализа машинных данных может дать новые возможности для развития бизнеса», — заявил он. Так, например, поступает разработчик игр Zynga, ускоряя процессы разработки и отслеживая игровые пристрастия своих клиентов. Отдельной задачей может быть анализ данных в рамках решений по управлению событиями информационной безопасности (Security Information and Event Management, SIEM), где требуется оперативная обработка множества источников.