За шесть десятилетий существования компьютеров сложилось устойчивое и, казалось бы, не вызывающее сомнения представление о естественном разделении вычислительных ресурсов на две основные составляющие: аппаратура (hardware) и программы (software). Слову hardware более 500 лет – оно использовалось для обозначения любого типа оборудования, а вот возраст понятия software в десять раз меньше, и его появлению мы обязаны Джону Тьюки, математику, работавшему вместе с Джоном фон Нейманом. Тьюки – автор еще одного популярного слова – bit (сокращение от binary digit), причем то, что именно он дал имя основной единице измерения данных, не случайно – основным делом его жизни был поисковый анализ данных (Exploratory Data Analysis, EDA). Этот тип анализа отличается от более известного и широко используемого метода статистической проверки гипотез тем, что не предполагает наличия некоторой априорной гипотезы, нуждающейся в подтверждении, — в EDA формулирование гипотезы, анализ и ее доказательство выполняются параллельно. И поныне труды Тьюки используются в добыче данных (data mining). Человек, придумавший название для второй части компьютерных систем, раньше других задумался о важности его третьей части. Еще в 1962 году он писал: «После долгих лет работы в области классической статистики я стал сомневаться в том, что для получения полной картины достаточно обрабатывать готовые наборы собранных данных. Мои интересы стали смещаться в сторону более полного анализа данных, включая тонкие процедуры и методы анализа и интерпретации данных».
Большие данные — большие проблемы
За все годы существования так называемых информационных технологий, которые на самом деле имеют дело с данными, а вовсе не с информацией, о важности самостоятельной роли данных почти никто не задумывался. Сложилась странная ситуация: есть технологии, якобы информационные, а вот что именно является предметом этих технологий, неизвестно, в одних случаях – результаты расчетов, в других – отчеты, в третьих – управляющие сигналы и т.д. Можно ли представить себе еще какую-то технологию, не имеющую четкого представления о предмете обработки или переработки? Но в ИТ пренебрежительное отношение к данным воспринимается как нечто само собой разумеющееся, такое положение могло продолжаться и далее, если бы количество данных не стало угрожающе большим, а сетевые методы доступа к данным не превратились в фактор заметного влияния на жизнь общества.
Пренебрежение к природе данных и информации привело к тому, что на протяжении десятилетий вплоть до нынешнего времени развивались исключительно инженерные методы, обеспечивающие передачу, хранение и обработку данных. Все, что необходимо было знать о них, сводилось к двоичным или десятичным единицам измерения количества данных, форматам и формам организации (массивы, байты, блоки и файлы), а совсем недавно на авансцену вместе с языками разметки вышли метаданные. Но в последние годы ситуация резко изменилась, и одним из самых популярных стал лозунг «It's the data, stupid», отражающий возрастающую роль данных в современной науке, бизнесе и других отраслях человеческой деятельности. В данном случае перед нами парафраз «Это экономика, тупица» – знаменитого лозунга предвыборной кампании Билла Клинтона, который помог ему в 1992 году победить Джорджа Буша-старшего. А совсем недавно заговорили еще и о проблеме больших данных (Big Data Problem), причем не где-нибудь, а на уровне ведущих экономических изданий. В февральском номере журнала Economist за 2010 год вышла статья «Данные, везде данные» (Data, data everywhere), в которой приведены выказывания ряда ведущих специалистов: Джеймса Кортада, исследователя из корпорации IBM, автора нескольких книг о роли информации в обществе: «Мы вступили в принципиально новый период существования, потому что никогда не было так много информации», и Джоя Хеллерстайна, профессора Калифорнийского университета в Беркли, специалиста по базам данных: «Это индустриальная революция данных». Вряд ли стоит пока говорить о революции, скорее ситуацию можно назвать предреволюционной: проблема больших данных поставлена, но далека от решения. Неспособность работы с большими объемами данных признана в качестве одной из основных причин нынешнего финансового кризиса – финансовые институты использовали устаревшие модели, неспособные переварить обрушившийся на них поток данных, как следствие они не смогли реально оценить риски. Крейг Манди, руководящий исследованиями и стратегией в Microsoft, отмечает: «Экономика, ориентированная на данные, находится в зародышевом состоянии, и пока мы можем увидеть только ее будущие контуры, но ее техническая, инфраструктурная стороны и даже бизнес-модель еще недостаточно поняты».
Научные издания отреагировали на проблему больших данных несколько раньше деловых: в сентябре 2008 года вышел специальный выпуск журнала Nature, посвященный данной проблеме. Однако определенного ответа на вопрос «что такое большие данные?» пока нет. Многие отвечающие на него сходятся во мнении, что Big Data – это метафора, что с данными связаны события последнего десятилетия, которые называют «второй промышленной революцией в ИТ», что мы вступаем в исторический период, получивший название «Эпоха данных» (Age of Data). Иногда новый мир называют «миром, движимым данными» (Data-Driven World). Но проще всего представлять проблему больших данных так, как это делают индустриальные аналитики, ведь для них всюду и везде есть единственный критерий – количество, поэтому нет ничего удивительного, что в их трактовке Big Data есть не что иное, как экспоненциальный рост объемов накапливаемых и передаваемых данных, переход через петабайтный барьер. О количественных показателях этого явления можно узнать, например, из отчетов IDC, один из них, «Исследование цифровой вселенной 2010» (2010 Digital Universe Study), был опубликован в апреле, и в данном случае аналитикам можно поверить, поскольку аналогичный отчет «Расширяющаяся цифровая вселенная» (The Expanding Digital Universe) 2007 года с прогнозом на текущий год оправдался. Оба отчета хороши для формальных оценок, более всего интересующих производителей систем хранения данных, которые выступают в роли заказчиков, но почти ничего не дают для качественного понимания происходящего. Общая методическая слабость этих и им подобных работ заключается в том, что в них не делается различия между данными и информацией, более того, эти два понятия отождествляются и в результате получается странное словосочетание digital information. Если оставить в стороне детали, то все содержание отчетов сведется к тому, что удвоение объемов данных происходит с периодом примерно полтора-два года, обычно этот процесс интерпретируют как некую фатальную неизбежность, что-то вроде информационного цунами. В 2007 году для всплеска объемов данных было найдено специальное слово exaflood, неологизм, образованный от exabyte (единицы измерения данных, равной 1018 байт, следующей за петабайтом) и flood (наводнение).
Более интересны рассуждения, связывающие источники Big Data с технологиями работы с ними. На нынешний день гигантские объемы данных порождаются различного рода сенсорами, научными приборами, системами управления бизнесом, социальными сетями и другими источниками. Пока подобных систем не слишком много и можно привести наиболее яркие примеры.
- Розничная сеть Wal-Mart недавно заключила контракт с HP на создание хранилища в 4 Пбайт, способного накапливать данные о 300 млн транзакций, совершаемых на 6 тыс. торговых площадок по всему миру.
- Большой обзорный телескоп (Large Synoptic Survey Telescope, LSST), который планируется ввести в строй в 2015 году в Чили, будет порождать ежедневно 30 Тбайт изображений, а Большой адронный коллайдер в ЦЕРНе — вдвое больше.
- Количество данных, собираемых современными методами медицинских исследований, не поддается оценке.
- Гигантским источником данных являются средства наблюдения за окружающей средой и другие инструменты электронной науки (eScience).
- Спецслужбы и органы правопорядка накапливают неисчислимое количество видеозаписей с камер наблюдения и данных из других источников.
- В промышленности, логистике и торговле огромное число данных поступает от датчиков радиочастотной идентификации.
Для того чтобы эти объемы данных были продуктивно использованы, необходимы соответствующие технологии, образующие цепочку, которая состоит из систем обнаружения данных, их сбора, хранения и аналитической обработки. На разных ее участках могут быть использованы следующие группы технологий:
- аналитические алгоритмы;
- методы параллельного программирования;
- облачные вычислительные ресурсы;
- вычислительные системы, от ПК до суперкомпьютеров стратегического назначения;
- системы хранения;
- сети, от локальных до Интернет;
- разного рода устройства ввода от сложнейших телескопов и томографов до простых RFID-меток.
Этих групп семь, точно так же как в эталонной сетевой модели OSI, – чем выше уровень в списке, тем выше степень абстрактности в представлении данных, тем ближе данные к знаниям. Аналитика завершает процесс преобразования данных в знание. Нижние уровни основываются на проверенных научных и инженерных решениях, а верхние в силу их новизны развиты пока слабо и не имеют достаточного научного обеспечения. Из непосредственно информационных технологий в категорию технологий для Big Data включают: аналитические системы на MPP-платформах, облачные сервисы данных, технологии Hadoop и Map/Reduce, резидентные в памяти СУБД и распределенные СУБД типа NoSQL. Следующую волну больших данных могут создать новые устройства, обеспечивающие взаимодействие человека с компьютером, в их числе электронная бумага, технологии тактильной обратной связи (haptics), различного рода видеошлемы (video visor), а также такие вещи, как продукты и изделия с собственной памятью, системы для работы с отрытым контекстом, подобные Википедии.
Двадцать лет назад в книге «Жизнь после телевидения» (Life After Television) известный визионер и политический деятель Джордж Гилдер одним из первых предсказал роль цифровых данных, отмирание широковещательной модели распространения информации и массовое распространение телекомпьютеров (telecomputers), которые мы сегодня называем мобильными устройствами для доступа к сети. Чуть позже он предложил новое слово «дигерати» (digerati) – от digital (цифровой) и literati (образованные люди, эрудиты) – для обозначения членов онлайн-сообществ, объединяющих известных ученых и тех, кого мы сегодня называем блогерами.
Еще более радикально переосмыслил роль данных в науке Джим Грей, выдающийся специалист в области баз данных и обработки транзакций. За несколько недель до таинственного и бесследного исчезновения его яхты где-то у Калифорнийского побережья он выступил с речью, в которой представил свои соображения о качественных изменениях в современной науке, связанных с возможностью собирать большие объемы экспериментальных данных. Для характеристики нового периода в науке Грей использовал термин «четвертая парадигма» (fourth paradigm), которым называют многомерный подход к анализу результатов в хемометрике – науке, находящейся на стыке химии и математики, применяющей математические методы для изучения химических явлений. По Грею, тремя предыдущими парадигмами были экспериментальная, теоретическая и вычислительная. Время действия первой – от античности до XVII-XVIII веков, а начало последней датируется серединой XX века, она стала возможной вместе с появлением первых компьютеров. Глубокий сравнительный анализ этих парадигм – удел специалистов по науковедению, а в данном случае достаточно ограничиться утверждением, что основными инструментами четвертой парадигмы становятся средства накопления и управления данными, визуализации и анализа их потоков. Упоминавшееся выражение «Это данные, тупица» стали использовать в компьютерных кругах для определения четвертой парадигмы.
Как ни странно, но наибольшим консерватизмом во взглядах на проблему больших данных отличаются признанные специалисты в области баз данных. В этом отношении показательна статья The Pathologies of Big Data, которую опубликовал Адам Якобс в журнале ACM Queue (см. также перевод Сергея Кузнецова). Автор – ведущий специалист нью-йоркской компании 1010data, создавшей специализированную аналитическую высокопроизводительную СУБД Tenbase с поколоночной организацией, предназначенную для рынка ипотечных ценных бумаг. Казалось бы, кому, как не ему, дать профессиональную оценку, однако Якобс пишет: «Патологии больших данных – это патологии их анализа. Хотя моя точка зрения может показаться спорной, я считаю, что проблемы обработки транзакций и хранения данных в значительной степени уже решены. Если не считать научные проекты масштаба Большого адронного коллайдера, не многие предприятия генерируют данные с такой скоростью, чтобы их сбор и хранение представлял сегодня серьезную проблему».
Если действительно начинается новая промышленная революция, то, скорее всего, на нее распространяются те же закономерности, что и на Великую промышленную революцию XVIII века, а ключевым моментом является внедрение новых индустриальных технологий. Четверть тысячелетия назад сложившиеся кустарные технологии были заменены фабрично-заводскими, собственно, тогда и было придумано слово «технология», предложенное Иоганном Бекманом в труде «Введение в технологию». Признано, что в широком смысле технология – это капитал знаний, необходимый для производства товаров и услуг, а в прикладном смысле – методы, служащие для преобразования вещества, энергии, информации в процессе изготовления продукции, обработки и переработки материалов, сборки готовых изделий, контроля качества и управления. Машины и механизмы, собранные в технологическую цепочку, преобразуют исходное сырье в продукт, готовый к потреблению. Нынешняя революция отвергнет аморфные, неопределенные и в известном смысле кустарные «информационные технологии» и утвердит понятные и строгие «технологии данных». На входе технологической цепочки здесь будут сырые данные, а на выходе – данные, готовые к использованию человеком.
Одна из основных отличительных особенностей технологий работы с данными состоит в том, что они работают на человека. За исключением автоматических встроенных систем, все остальные компьютерные системы в конечном счете служат для подготовки данных, используемых человеком, только он может продолжить и преобразовать данные в информацию и далее в знания. Парадоксальность этого рода технологий в том, что количество данных на входе технологической цепочки постоянно растет, отсюда и проблема больших данных, а количество данных на выходе должно расти гораздо медленнее, потому что присущая людям способность воспринимать данные, если и увеличивается, то незначительно. Индивидуальная способность к восприятию данных астрономом, работающим на Большом обзорном телескопе, не выше, чем у Галилео Галилея, построившего первый телескоп.
Лекарство от exaflood
Диспропорция между количеством данных на входе и на выходе, по существу, определяет главные направления в развитии технологий работы с данными: необходимо каким-то образом обуздать входной поток, не теряя вводимые данные, затем выбрать из всех данных наиболее существенные и представить в виде, удобном для восприятия человеком. Иначе говоря, надо найти лекарство от болезни под названием exaflood.
Нынешний экономический кризис не остановил развитие в областях, связанных с exaflood, а еще и ускорил развитие технологий обработки сложных событий (Compex Event Processing, CEP), которые по сути, служат фильтрами для выделения существенно важных данных из тех, которыми можно пренебречь. Эти группы технологий решают одну из главных задач, связанных с Большими данными, – помогают из сырых данных построить Большую картину (биологическую, астрономическую, финансовую), создание которой облегчает переход от данных к информации.
Вне зависимости от прикладной области технологическая цепочка обработки Больших данных может быть разделена на семь основных этапов.
- Получение данных (acquire). Сырые данные могут быть получены из хранилищ, от датчиков устройств, из сетевых источников. Этот этап наиболее традиционен с инженерной точки зрения, но и здесь следует различать типы данных, скажем, нельзя перепутать текстовые данные с двоичными.
- Синтаксический и грамматический разбор данных (parse). Здесь осуществляется структуризация данных, их распределение по категориям, а разбор выполняется на нескольких уровнях. На нижнем он включает обработку физических сигналов, распаковку упакованных файлов и дешифровку, на битовом уровне выделяются текстовые файлы, медийные и другие файлы, а на текстовом уровне производится грамматический и структурный разбор.
- Фильтрация (filter). Необходимо оставить только полезные данные, уменьшив входной поток не прибегая к методам анализа данных, например средствами CEP.
- Разработка данных (mine). Разработка включает статистические и иные методы, позволяющие выделять образы и данные, помещая их в соответствующий математический контекст.
- Представление (represent). Требуется определить наиболее подходящие для данных формы их представления (диаграммы, списки, деревья). Способы визуализации данных варьируются от простейших таблиц и графиков до сложнейших двух- и трехмерных изображений и «лиц Чернова».
- Уточнение представления (refine). Редактирование форм представления данных.
- Взаимодействие (interact). Для активной работы с данными используются приемы манипулирования данными и приемы, обеспечивающие наилучшую наглядность представления.
Получение данных и их разбор реализуются средствами традиционных технологий, фильтрация и разработка – предмет новой «науки о данных», а представление и уточнение данных входят в область графического дизайна.
Переосмысление роли данных приводит к возникновению новых специальностей или изменению классификации уже существующих, например:
- создатель данных (data creator) – специалист, контролирующий процесс создания и накопления, имеющий глубокие знания в конкретной прикладной области и в консалтинге;
- исследователь данных (data scientist) – специалист по фильтрации и разработке данных, обычно из числа ученых, имеющих опыт в близких разделах компьютерной науки;
- менеджер данных (data manager) – группа традиционных ИТ-специалистов, работающих с данными;
- библиотекарь данных (data librarian) – человек, имеющий квалификацию библиотекаря и компьютерные навыки.
Можно говорить, что начиная с середины текущего десятилетия идет формирование отдельной науки о данных (Data Science) – она развивается в США, Канаде, Австралии и Великобритании, в меньшей степени в континентальной Европе. В США создана группа Interagency Working Group on Digital Data (IWGDD), объединяющая 22 основных федеральных агентства, включая Национальный научный фонд США. Эта группа ведает финансированием общенациональной программы развития науки о данных. В Великобритании создана служба поддержки исследований в области данных – U.K. Research Data Service (UKRDS). Австралийское правительство учредило национальный совет Australian National Data Service (ANDS), а в Канаде эту волну работы с данными стремятся использовать для компенсации недостатков в существующей системе архивов – здесь открыта программа Canadian Digital Information Strategy, координированная с другими государственными программами.
Очевидно, что ключевая роль в деятельности, связанной с данными, будет принадлежать профессионалам в этой области, но пока таких специалистов нигде в мире не готовят. Для новой специализации предложено название Data Scientist, по-русски, может быть, стоит назвать «датавед» по аналогии с «почвовед» или «музыковед». А если серьезно, то год назад Хал Вариан, главный экономист Google, автор нескольких бестселлеров в области микроэкономики и микроэкономического анализа, в прошлом профессор Калифорнийского университета в Беркли, дал свой прогноз о том, какую роль специалисты по данным будут играть в ближайшем десятилетии. По мнению Вариана, самой привлекательной будет профессия статистика, под статистиком он понимает того, кто извлекает информацию из больших объемов данных и представляет ее в форме, доступной эксперту в прикладной области: «Кто-то может подумать, что я шучу, но можно ли было в свое время предположить, что начиная с 90-х годов одной из самых привлекательных профессий станет компьютерная инженерия во всех ее проявлениях. Способность понимать и обрабатывать данные, извлекать из них содержание, визуализировать и передавать станет важнейшим умением не только на профессиональном уровне, но и в образовании, от младшей школы до университетов. Причина понятна – объемы и свобода доступа к данным, с одной стороны, и наша ограниченная способность осознавать данные, извлекать из них смысл с другой. Разумеется, собственно статистика как наука – это только часть, не менее важны различные иные методы анализа данных и текстов. В будущем этими навыками должны будут обладать не только профессионалы в области работы с данными, но и линейные менеджеры».
***
Вывод из всего сказанного прост – новейшие тенденции в мире компьютерных систем превращают данные в его третью опору, обеспечивающую ему большую устойчивость. Основными действующими лицами сегодня становятся две категории специалистов – те, кто обеспечивает операции разработки и фильтрации данных, и те, кто обеспечивает их визуализацию.
На пути к технологиям работы с информацией
Компьютерные технологии чаще всего называют информационными, хотя, по существу, это неверно, поскольку в подавляющем большинстве своем они имеют косвенное отношение к информации – они предназначены почти исключительно для работы с данными.
Десятилетиями ИТ были сосредоточены исключительно на технологических операциях, реализуемых теми или иными устройствами и приложениями, оставляя в забвении сам предмет своей деятельности – информацию.