«Когда данных становится слишком много, меняется отношение к ним» — таков был лейтмотив выступления Сергея Карелова, председателя совета лиги экспертов «Линэкс», в ходе форума Big Data 2013, проведенного издательством «Открытые системы». Мы попросили его поделиться взглядами на перспективы Больших Данных и проблемы, связанные с ними.
Как переход к работе с Большими Данными изменяет парадигму решения бизнес-задач с применением корпоративных ИТ?
Есть как минимум два подхода к проблеме Больших Данных. Один состоит в том, что Big Data — это всего лишь количественное накопление огромных объемов информации, для извлечения из которой хоть какого-то толка уже не годятся имеющиеся суперкомпьютеры, сети и хранилища данных. Таково мнение прагматиков и консерваторов, считающих, что переход к распределенной, неограниченно масштабируемой аппаратной и программной инфраструктуре хранения, обработки и извлечения информации способен решить все вопросы по работе с Большими Данными.
По-иному считают визионеры и энтузиасты, к которым отношусь и я. Они полагают, чтоBig Data — это проявление смены парадигмы в использовании информации как отдельными людьми, так и всем человечеством. До последнего времени, сталкиваясь с необходимостью решить какую-то задачу, человек следовал простой и понятной последовательности этапов: найти алгоритм решения; собрать данные, необходимые для решения; применить избранный алгоритм на имеющихся данных. Смена парадигмы открывает для человека иной, доселе немыслимый подход к решению всевозможных задач. Шаги для решения задач тоже будут принципиально иными. Первый: организовать сбор и анализ всей доступной информации о процессах, происходящих в области решаемой задачи. Второй: наладить в возникающем гигантском потоке информации постоянное выявление и анализ «информационных паттернов» — последовательностей и связок информационных элементов — для построения на их основе моделей наблюдаемых процессов. Третий: организовать поиск системы закономерностей, чтобы найти ответы как на уже существующие вопросы, так и на еще не поставленные. В итоге основным способом получения конкурентных преимуществ станет умение раньше конкурентов распознать «информационные паттерны», проанализировать их и суметь отреагировать на них.
Перспективы Больших Данных, предсказываемые оптимистами, известны. А какие наблюдаются значимые барьеры на пути их освоения?
Существуют четыре основных препятствия. Главное из них — «разруха в головах»: каждый понимает этот термин по-своему. А потому нет ни конкретного рынка этих технологий, ни более-менее стыкующихся прогнозов развития. Как следствие, подрывается доверие пользователей. Кроме того, Большие Данные — пока что не мейнстрим, а лишь мода. Как известно, всякая мода изменчива, вот компании и остерегаются крупных инвестиций в это направление. Важно отметить, что у Больших Данных до сих пор слишком малое проникновение — по оценкам Gartner, оно не превышает 24%.
И вполне может повториться история с приложениями BI, существующими уже 15 лет, но так и не достигшими проникновения более 30%. Наконец, на эту тему чересчур много разговоров — она очень часто просто «забалтывается» на конференциях и в СМИ.
Второй крупной проблемой станет нехватка специалистов: мощностей образовательных заведений не хватит, чтобы в короткие сроки ликвидировать дефицит, особенно если говорить про масштабы не только крупного бизнеса и не отдельно взятой страны. Третьей проблемой — она особенно актуальна для нашей страны — является существующая практика принятия решений. К аналитике зачастую относятся как к вспомогательному, а вовсе не основному средству, руководствуясь иными критериями. Наконец, нельзя не учитывать проблемы энергопотребления. Уже сейчас ЦОД потребляют 30 ГВт, что соответствует мощности 30 атомных станций. Энергии, необходимой на один поисковый запрос в Google, хватит, чтобы вскипятить чайник. Массовый анализ Больших Данных может оказаться удовольствием, которое человечество не сможет себе позволить.
Какие ключевые направления применения анализа Больших Данных в бизнесе вы можете выделить?
Если говорить о бизнесе, то это предсказание событий и принятие оперативных решений, что найдет применение в системах управления, а также выявление тенденций, в том числе негативных, что может быть использовано в борьбе с мошенничеством, да и преступностью в целом. Отдельно следует выделить построение стратегий развития и управления на основе выявляемых моделей (Pattern Based Strategy). Найдут Большие Данные применение и в потребительских продуктах, помогая радикально изменить качество жизни людей.