В IDC определяют Большие Данные как «совокупное название нового поколения технологий и архитектур, обеспечивающих экономически эффективное извлечение ценных знаний из очень больших объемов разнородных данных посредством осуществляемых с высокой скоростью операций получения, выявления или анализа данных»
Как следует из определения, одним из ключевых элементов концепции Больших Данных (Big Data), является анализ данных. Немаловажным нюансом является то, что информация зачастую должна извлекаться в реальном времени, чтобы ее можно было использовать для прогнозного моделирования. Речь идет не только об объеме, но и о возможности обработки разнородных данных, а также о сборе информации из различных источников. Также важно, что в ряде случаев хранить столь большие объемы поступающих данных оказывается крайне затруднительно, да и неэффективно, поэтому их «на лету» анализируют и хранят не сами данные, а информацию, которую удалось их них извлечь.
Проблему Больших Данных иногда упрощают, представляя ее лишь как феномен кратного роста количества данных в определенный промежуток времени, — с этой точки зрения говорят о сотнях терабайтов и петабайтах данных. Зачастую этот термин применяется по отношению не только к большим объемам структурированной информации, но и к неструктурированным данным — информации из социальных сетей, данным, поступающим с датчиков АСУТП, RFID и т. п.
Несмотря на значительное внимание, уделяемое концепции Больших Данных вендорами в своих стратегиях, ей еще только предстоит свой путь развития. Это скорее потенциальная концепция, нежели реальная потребность рынка.
В реальности число проектов в области Больших Данных (по крайней мере в России) пока измеряется единицами. Говорить о динамике спроса на них можно будет через пару лет, когда минует время завышенных ожиданий и наступит этап взвешенных оценок, а заказчики-энтузиасты совместно с вендорами наработают положительный опыт внедрения таких продуктов.
Банк «Санкт-Петербург» приступил к внедрению программно-аппаратного комплекса Oracle Exadata Database Machine с базой данных Oracle Database 11g. Это должно обеспечить банку высочайший уровень надежности и производительности — у него появилась необходимость в переходе на платформу, способную поддерживать большие объемы розничных операций. Банк планирует увеличить число заказчиков на 50% в корпоративном сегменте и на 80% — в частном, а также открыть больше отделений.
Oracle Exadata позволяет добиться необходимых результатов благодаря аппаратным системам, оптимизированным для работы с конкретным программным обеспечением. Программно-аппаратный комплекс будет гармонично интегрирован в инфраструктуру банка и станет ее ключевой компонентой. В подразделениях банка установлены два таких решения — основное и резервное, что соответствует требованиям к изменениям в инфраструктуре банка и его техническому оснащению.
Как ни странно, но в опросе, проведенном Data Warehousing Institute среди американских компаний, более трети респондентов сообщили, что уже сейчас в той или иной форме занимаются аналитикой Больших Данных — в основном при помощи средств бизнес-анализа, прогнозирования, data mining и статистического анализа.
Гигантские объемы обрабатываемых данных в сочетании с высокой скоростью обработки предъявляют высокие требования к оборудованию, поэтому на сегодняшний день практически все основные производители предлагают специализированные программно-аппаратные системы. Среди решений известных производителей можно выделить SAP HANA, Oracle Big Data Appliance, HP Vertica, Teradata Extreme Performance Appliance, IBM Netezza Data Appliance, а также EMC Greenplum. Помимо этого в игру вступило множество небольших и начинающих компаний.
В России на сегодняшний день подобные решения могут быть востребованы лишь очень узким кругом компаний и организаций. Например, первыми заказчиками систем EMC для управления большими объемами данных в России стали ВГТРК, Scanex и Pronto Media, приобретшие системы хранения Isilon, а также банк «Тройка Диалог», остановивший выбор на решении для бизнес-анализа Greenplum.