К 2020 году объем данных, хранимых в электронном виде, достигнет 35 трлн Гбайт и увеличится по сравнению с 2009 годом в 44 раза. По оценкам аналитиков IDC, к концу 2010 года объемы хранимой информации уже превысили 1,2 млн петабайт, или 1,2 зеттабайт. Если переписать все это на диски DVD, высоты полученного штабеля хватит, чтобы добраться от Земли до Луны и обратно – около 386 тыс. км в каждом направлении.
Паникерам такой угрожающий рост объемов данных рисует картины Страшного суда. Тем же, кто умеет приспосабливаться к ситуации, прогнозы сулят золотые горы. Причем по мере дальнейшего развития технологий получить желаемые дивиденды становится все проще.
Под Большими Данными будем понимать группы развивающихся технологий глубинного анализа, позволяющие сделать процесс хранения, манипулирования и анализа больших объемов информации дешевым и быстрым как никогда. Существовавшие когда-то только в суперкомпьютерной среде технологии Больших Данных сегодня становятся доступны и корпоративным массам. Ожидается, что на этом пути способы ведения бизнеса во многих отраслях претерпят существенные изменения.
В Computerworld под Большими Данными понимаются огромные наборы структурированной и неструктурированной информации. Для организации поиска и выборки из них используются нетрадиционные инструменты фильтрации данных, в том числе и Hadoop.
Как и в случае с облаком, упоминания о Больших Данных сопровождаются характерной шумихой и неопределенностью. Желая докопаться до истины, мы попросили аналитиков и энтузиастов этого направления пояснить, что все-таки относится и что не относится к Большим Данным, а также какая роль отводится им с точки зрения перспектив глубинного анализа.
Подготовка почвы для Больших Данных
Большие Данные получили развитие в корпоративной среде во многом благодаря удешевлению вычислительной техники и развитию многозадачных систем. Упали цены на память, и у компаний появилась возможность обрабатывать «в памяти» больше данных, чем раньше. Компьютеры стали объединяться в серверные кластеры. По мнению аналитика компании IDC Карла Олофсона, специализирующегося на системах управления базами данных, эти три фактора и стали основными причинами появления Больших Данных.
«Мы смогли не только хорошо решать соответствующие задачи, но и делать это с приемлемыми затратами, – пояснил Олофсон. – В прошлом некоторые суперкомпьютеры включали в себя мощные многопроцессорные системы, которые объединялись в тесно связанные кластеры. Но стоило все это сотни тысяч долларов и больше, потому что речь шла о специализированном оборудовании. Сейчас аналогичные конфигурации можно выстраивать на основе оборудования массового производства. Благодаря этому появилась возможность обрабатывать данные намного быстрее и дешевле».
Не каждая компания с объемными хранилищами данных может похвастаться использованием Больших Данных. Технология, претендующая на звание Больших Данных, должна быть прежде всего доступной, а уже затем отвечать двум из трех критериев, которые корпорация IBM определяет как три V: variety, volume, velocity (многообразие, объем, быстродействие).
Многообразие означает, что данные могут быть представлены как в структурированной, так и в неструктурированной форме. Объем предполагает, что количество собираемых и анализируемых данных очень велико. А быстродействие характеризует скорость, с которой обрабатываются данные. «Речь не всегда идет о сотнях терабайтов, – заметил Олофсон. – В зависимости от характера использования несколько сотен гигабайтов вполне могут оказаться достаточно весомым объемом, потому что есть еще и третье измерение, характеризующееся параметрами скорости или времени. Если ранее процесс анализа 300 Гбайт информации занимал около часа, а теперь его удалось выполнить за секунду, обработка результатов существенно улучшается, следовательно, были привнесены новые ценности. Большие Данные превращаются в доступное приложение, если выполняются хотя бы два условия из трех».
Три мифа о Больших Данных
Существует путаница между тем, что действительно представляют собой Большие Данные, и тем, что может скрываться за этим понятием. Истории о Больших Данных сопровождаются тремя мифами:
1. Реляционные базы данных нельзя масштабировать до действительно больших объемов, а следовательно, в категорию Больших Данных они не попадают. (Это неверно.)
2. Среда Hadoop или MapReduce – наилучший выбор для создания Больших Данных независимо от рабочей нагрузки и характера использования. (Это тоже неверно.)
3. Эпоха схематических систем управления базами данных прошла. Разработка схем только мешает развертыванию Больших Данных. (Неверно до абсурда.)
Источник: IDC, The Big Deal about Big Data, February 2011 (Carl W. Olofson)
Объединение с открытым кодом
«Многие считают Hadoop и Большие Данные синонимами, – отметил Олофсон. – Но это ошибка. Некоторые реализации Teradata, MySQL и "технологий умной кластеризации», не использующие Hadoop, тоже можно считать Большими Данными".
Hadoop – среда для выполнения приложений, работающих с Большими Данными. Всеобщее внимание к себе она привлекла благодаря парадигме MapReduce – подходу, который широко применялся в суперкомпьютерах, а его упрощенный и более элегантный вариант нашел отражение в проектах, финансируемых Google. Hadoop – совокупность тесно связанных между собой приоритетных проектов фонда Apache, к числу которых относится и СУБД HBase, работающая в среде MapReduce.
Разработчики программного обеспечения предложили массу разнообразных приемов, использующих Hadoop и аналогичные передовые технологии, многие из них создавались сообществом сторонников программного обеспечения с открытым кодом. «Было разработано множество так называемых СУБД noSQL, – отметил Олофсон. – Большинство из них обслуживают базы данных, содержащие пары ключзначение и оптимизированные для достижения оптимальной производительности или размера баз данных».
Технологии с открытым кодом не имеют коммерческой поддержки, поэтому какое-то время они должны развиваться и совершенствоваться. Процесс развития может занять несколько лет. Это неотъемлемое свойство Больших Данных, которые еще не достигли зрелости и не принимаются рынком. Вместе с тем в IDC ожидают, что к концу года коммерческую поддержку Hadoop предложат по крайней мере три поставщика услуг. А некоторые производители (например, Datameer) готовы выпустить аналитические инструменты с компонентами Hadoop. Это позволит предприятиям разрабатывать свои собственные приложения. Компании Cloudera и Tableau уже используют Hadoop в своих продуктах.
Обновленные реляционные СУБД
Обозреватели расходятся во мнениях, стоит ли относить к категории Больших Данных обновленные реляционные системы управления базами данных. «Думаю, они вполне соответствуют критериям увеличения производительности и объемов и снижения стоимости, – заметил Олофсон. – Компания Teradata, например, сделала свою кластерную среду более доступной, не забыв при этом и про масштабируемость».
Однако не все разделяют эту точку зрения. «Обычно при работе с реляционными СУБД используются стандартные инструменты бизнес-анализа, которые на самом деле нельзя отнести к Большим Данным, – подчеркнул Маркус Коллинз, аналитик компании Gartner, специализирующийся на вопросах управления данными. – Такая технология пользуется популярностью на протяжении уже многих лет».
Итак, кто же занимается анализом Больших Данных?
Год назад основными пользователями технологий Больших Данных оставались крупные веб-компании (такие, как Facebook и Yahoo), желающие анализировать информацию о маршрутах перемещения пользователей. «Сейчас практически любая компания располагает большими объемами данных, – отметил Коллинз. – Банки, коммунальные службы, разведывательное сообщество – все они стремятся примкнуть к лидерам, оперирующим Большими Данными».
Некоторые технологии активно используются людьми, которые находятся на переднем крае развития и занимаются созданием веб-сервисов для интерактивного общения. Они же вносят наиболее весомый вклад в эти проекты.
В других вертикальных отраслях предприниматели тоже понимают, что большая часть предлагаемых ими ценностей базируется на информации. Это придает технологиям Больших Данных дополнительный импульс для быстрого совершенствования. С учетом доступности необходимого оборудования и программного обеспечения перед предприятиями открываются идеальные возможности для преобразования бизнеса.
Компания TRA помогает организациям оценивать эффективность телевизионной рекламы, сравнивая количество транслируемой рекламы с изменениями покупательского спроса. Данные, поступающие на приемные устройства кабельного телевидения, сопоставляются с информацией выпускаемых магазинами карт лояльных клиентов. Система Больших Данных TRA обрабатывает огромные объемы информации, отражающие зрительские предпочтения жителей 1,7 млн домов. Такое количество просто невозможно было бы охватить без использования технологии Больших Данных. СУБД Kognitio WX2 позволяет компании быстро загружать, обрабатывать и анализировать данные, собирая с телевизионных приемных устройств сведения о просмотре рекламы и интегрируя их с информацией кассовых терминалов. В конечном итоге заказчики получают интересующие их отчеты.
«Система Kognitio предлагает решение, работающее непосредственно в оперативной памяти, благодаря чему добрая половина текущей базы данных хранится в памяти, – сообщил генеральный директор TRA Марк Либерман. – А это в свою очередь означает, что запросы клиентов будут обрабатываться в течение нескольких секунд, а не часов или дней.
СУБД работает на обычном оборудовании массового характера, а наши специалисты используют собственные приложения взаимодействия с клиентами, разработанные в среде Visual Studio. Net. В некоторых ситуациях мы по-прежнему используем MySQL, а пользовательский интерфейс создавался с помощью программного обеспечения DevExpress».
Большие Данные обладают достаточно высоким потенциалом, для того чтобы осуществить революцию в бизнесе телевизионной рекламы, оборот которого оценивается в 70 млрд. долл. Традиционные методы сбора информации о предпочтениях телевизионной аудитории требуют установки 20 тыс. специальных телевизионных приставок по всей стране. Сегодня можно подробно проанализировать данные, поступающие на 2,5 млн цифровых магнитофонов и кабельных устройств.
«Мы наладили отчетность в сегменте с оборотом 70 млрд долл. и сумели убедить рекламодателей в том, что телевидение – хорошее место для размещения рекламы, – добавил Либерман. – Сделан немалый шаг вперед, и произошло это благодаря аналитике Больших Данных».
Грег Белкин, аналитик Aberdeen Group, полагает, что инструменты, используемые TRA и другими компаниями, отвечают требованиям, предъявляемым к быстродействию, объемам и многообразию Больших Данных. Особенно эффективны они в сфере розничной торговли, где присутствует множество источников информации, которая ранее не подвергалась обработке. К таким источникам относятся сайты социальных сетей, устройства приема телевизионного сигнала и карты лояльных покупателей. Данные эти настолько сложны и необъятны, что анализировать их с помощью методов традиционных СУБД не представляется возможным. Поэтому предприятия розничной торговли и обращаются к платформам Больших Данных.
Аналогичную революцию технология Больших Данных помогла провести и компании Catalina Marketing, обслуживающей огромную базу данных, в которой хранятся сведения о лояльности клиентов. В базе объемом 2,5 петабайта присутствует многолетняя история покупок, сделанных в 190 млн продуктовых магазинах США. В базе данных насчитывается 425 млрд строк, и каждый день туда добавляются еще 625 млн строк.
Анализируя данные, Catalina помогает крупнейшим производителям потребительских товаров и крупным сетям супермаркетов прогнозировать покупательские предпочтения и аудиторию, которая проявит интерес к новой продукции.
«Мы хотели бы привести технологию к данным, а не данные к технологии, – заявил Эрик Уильямс, исполнительный вице-президент и ИТ-директор Catalina. – Существующая технология позволяет компаниям наподобие SAS перемещать свои аналитические инструменты в СУБД. В результате в деятельности всего нашего предприятия произошли значительные изменения. Мы уже пытались проделывать нечто подобное раньше, но столкнулись с серьезными ограничениями, которые не позволили добиться желаемого. При этом использовались инструменты нашей собственной разработки, находившиеся в зачаточном состоянии. А вывод на передний край технологии Больших Данных изменил всю нашу организацию».
Помимо программного обеспечения с открытым кодом, в своих уникальных системах Catalina использует приложения SAS Analytics на платформе хранилищ данных Netezza.
«Компании разрабатывают технологию, функционирующую на обычном оборудовании Intel и позволяющую управлять вторичными и третичными продуктами, – пояснил Уильямс. – Оценочное решение SAS Analytics работает непосредственно на платформе Netezza, которая в свою очередь управляет базой данных. Получение доступа к этой технологии и манипуляции непосредственно с базой данных позволили Catalina ускорить выполнение процедур добычи данных и сократить их продолжительность с нескольких недель до нескольких часов».
«Большие Данные фундаментально меняют способы ведения бизнеса компанией Bank of America, – сообщил бывший директор Bank of America по вопросам управления Большими Данными и аналитикой Абхишек Мехта на конференции Hadoop World в октябре 2010 года. – Сегодня я смотрю на Hadoop, как смотрел на Linux 20 лет тому назад. Все мы видели, что сделала Linux в сфере корпоративного программного обеспечения. Произошло массовое разрушение устоев. То же нас ждет и с Hadoop. Вопрос уже не в том, произойдет ли это, а в том, когда это произойдет».
Помимо анализа маршрутов перемещения пользователей и выполненных транзакций, среда Hadoop помогла Bank of America оперативно решить целый ряд важных вопросов. «Сейчас я могу думать о предотвращении фактов мошенничества в масштабах всего банка, – заметил Мехта. – Сегодня у нас есть возможность спроектировать модель, которая будет анализировать все факты нарушений со стороны каждого сотрудника на протяжении последних пяти лет, тогда как ранее приходилось создавать опытные образцы, понимая, что отдельные элементы способны разрушить ее целостность и заставить перестраивать всю модель. Те времена уже прошли».
Представители отрасли коммунальных услуг тоже начинают понимать, какие огромные объемы данных становятся им доступны и какую выгоду из этого можно извлечь. Один из поставщиков коммунальных услуг на Среднем Западе уже применяет Hadoop для анализа входной информации, поступающей на интеллектуальные датчики. Раньше эти датчики использовались главным образом для автоматизации биллинговых процедур, а теперь собирают сведения о любых колебаниях нагрузки на линии. «Сравнив собранную информацию с шаблонами, можно выявить неполадки в работе трансформатора до того, как он выйдет из строя, – указал Олофсон. – В случае перебоев в подаче электроэнергии на линии возникают колебания, которые могут быть обнаружены и устранены еще до поступления соответствующего звонка от клиента».
В дальнейшем предприятия коммунальных услуг будут использовать Большие Данные для улучшения обслуживания клиентов и уменьшения операционных затрат за счет мониторинга электрических сетей, своевременного выявления возникающих неисправностей и внесения изменений в работу сети путем смены соответствующих микронастроек. Но, возможно, для этого потребуется существенно модернизировать устаревшую инфраструктуру.
При продвижении торговых марок технология Hadoop используется для проведения в социальных сетях экспериментов в области «анализа ожиданий». Поставщики услуг утверждают, что Hadoop поможет «просеивать» Twitter в поисках записей, посвященных конкретным продуктам.
Вперед, но аккуратно
Технология Больших Данных развивается очень быстро. Компании, использующие ее уже сейчас, располагают ИТ-специалистами очень высокой квалификации, способными адаптировать преимущества новой технологии к потребностям своей организации.
«Если вы не в состоянии сделать это самостоятельно, обратитесь к своему поставщику услуг (например, к поставщику услуг в облаке) или подождите появления уже готовых программных продуктов, к которым прилагаются услуги технической поддержки, – рекомендует Олофсон. – Вы должны предложить сотрудникам основных подразделений нечто понятное для них».
Без сомнения, процесс глубинного анализа изменился навсегда. Но аналитики полагают, что технология Больших Данных не сможет полностью вытеснить современные хранилища данных и инструменты поиска данных.
«Сегодня глубинный анализ на практике представляет собой построение относительно сложных моделей, охватывающих не так много данных, – заметил Коллинз. – Большие Данные предоставляют доступ к огромным объемам информации. Хотелось бы в дальнейшем обойтись без сложных моделей. Возможно, мы имеем дело со сдвигом на пути дальнейшего развития обработки данных».
«На мой взгляд, появление Больших Данных способствует укреплению рынка хранилищ данных, – указал Олофсон. – Здесь будет использоваться технология наподобие MapReduce, Hadoop или какой-то коммерческой интерпретации, которая позволит получать недоступные ранее данные для бизнес-анализа. Затем в целях повторного использования и отслеживания шаблонов все это поместят в хранилище данных, расширив тем самым сферу применения соответствующих механизмов».
«Помимо того что устойчивых архитектурных шаблонов для развертывания и использования этой технологии не существует, при увеличении масштабов возникают и другие сложности, – сообщил Коллинз. – Приходится учиться по мере дальнейшего продвижения вперед.
Некоторые технические риски исчезают после появления уже готовых инструментов, но пока технология представляет собой по большей части программный интерфейс, что уже является шагом назад с точки зрения бизнес-анализа. К примеру, Hadoop, по сути, система для технарей, а охват направления бизнес-анализа способствовал ее продвижению в сторону корпоративного сектора и настольных компьютеров с дружественным пользователю интерфейсом. С Hadoop мы сделали шаг назад, но новые поставщики помогут этой среде вернуться в сообщество пользователей, где она и обязана находиться.
В конечном итоге не только ИТ-специалисты должны обратить внимание на технологию Больших Данных. А нам следует вручить пользователям инструменты для работы с ней. Однако пока этого не произошло».