Многие ИТ-руководители, когда обсуждается проблема Больших Данных, искренне не понимают, откуда такие данные могут взяться в их организации. Между тем проблема зарождается там, откуда ИТ-руководители ее не ждут, — из новых требований и задач, постановщиками и спонсорами решения которых могут стать бизнес-подразделения.
Как следовало из докладов на форуме Big Data 2012 — первом в России крупном мероприятии, посвященном проблематике Больших Данных (его организатором выступило издательство «Открытые системы»), все задачи, связанные с обработкой больших потоков и массивов данных, можно, хотя и довольно условно, разделить на две группы. Задачи первой группы — изучение весьма детализированных данных, характеризующих поведение людей (как правило, это розничные клиенты). Такие данные генерируются в основном при взаимодействии этих людей с компаниями и организациями посредством электронных каналов. Вторая категория задач — анализ в реальном времени информации из множества источников: новостных и биржевых лент, телевизионных и видеоканалов, датчиков технологических процессов и пр.
Прикладные задачи, в которых может возникнуть проблема Больших Данных, встречаются на предприятиях и в организациях самых разных отраслей и сегментов: в финансовом, телекоммуникационном, транспортном и логистическом секторах, крупных контакт-центрах, ЖКХ, СМИ и индустрии развлечений, в ходе массовых розничных продаж всевозможных товаров и услуг, на энергетических, химических и фармацевтических предприятиях, в госсекторе, науке и образовании. Среди «типичных» задач Больших Данных — отслеживание и анализ поведения клиентов в секторах B2C, оценка рисков, борьба с мошенничеством, обработка данных исследований и экспериментов, реагирование в реальном времени на сообщения, поступающие из большого количества источников, и пр. Большими Данными могут стать самые разные порождения цифровой «энтропии»: щелчки мыши и переходы по ссылкам сайтов, показатели различных датчиков, изображения, видео- и фонограммы разных форматов, потоки текстов, аудио и видео, сообщения электронной почты, социальных сред и пр.
Как правило, сами по себе Большие Данные оказываются сильно разреженными с точки зрения содержащейся в них информации, и далеко не всегда есть смысл — да и возможность — хранить такие исходные данные. Как сказал поэт: «Лицом к лицу лица не увидать. Большое видится на расстоянье». Точно так же и Большие Данные: по отдельным относительно небольшим фрагментам вряд ли можно понять что-нибудь существенное, поэтому они обычно подвергаются обработке с учетом контекста прикладной задачи и гипотезы об их разумной интерпретации, после чего сохраняется информация, извлеченная из этих данных, и уже на ее основе проводится дальнейший анализ.
Ради чего бизнес платит за Большие Данные, за их обработку и анализ? По всей вероятности, чтобы быть успешным, бизнес хочет лучше понять, как ведут себя ключевые объекты, от которых зависят его доходы, рентабельность, иногда безопасность, а порой и само существование. Поскольку транзакционные данные обеспечивают далеко не полную картину поведения этих объектов, бизнес рассчитывает получить недостающую информацию в ходе «осмысления» (то есть обработки и анализа) иных данных. Миссия ИТ-руководителей — помочь бизнесу в этом.