Однако обработка огромных объемов информации требует эффективных средств и новых инструментов — нужны реальные примеры использования аналитики больших данных, демонстрирующие преимущества оценки всех имеющихся сведений. Кроме этого неизбежно потребуется модернизации ЦОД путем применения облачных технологий и программно определяемых инфраструктур, позволяющих оптимально справляться с большими нагрузками и объемами данных, масштабируя конфигурацию по мере необходимости и интегрируя средства аналитики больших данных в программно-аппаратную инфраструктуру ЦОД.
Для работы с большими данными требуются новые программные инструменты: СУБД со встроенными средствами аналитики, поддерживающие работу с традиционными OLTP реляционными СУБД; специализированные решения для бизнеса, обязательно включающие в себя средства для работы с большими данными; решения Hadoop, ставшие центром интеграции инфраструктуры бизнес-аналитики, причем значительное развитие и все новые возможности получают встроенные функции бизнес-аналитики.
Для получения всех преимуществ от выполнения анализа больших данных корпорация Intel предлагает ряд решений на базе специальных микросхем и универсальных серверов, построенных с соблюдением отраслевых стандартов и интегрированных с платформой Apache Hadoop. Однако прежде всего следует определить цели анализа, оценить имеющиеся возможности, обозначить требования и выявить технические потребности. Если для работы с Большими Данными применяется уже существующая конфигурация, при помощи технологий Intel можно расширить ее возможности, упростить процессы интеграции и заложить фундамент для быстрого роста. Вдвое ускорить аналитическую обработку больших данных можно путем модернизации процессоров до Intel Xeon E5, замены традиционных жестких дисков на флеш-массивы семейства Intel SSD 520 и усовершенствования сети за счет применения Intel 10 Gigabit Converged Network Adapter. Семейство универсальных процессоров Intel Xeon E5-2600 v3 позволяет безболезненно масштабировать конфигурацию, увеличить быстродействие, снизить задержки, повысить производительность операций ввода/вывода и увеличить эффективность всей системы. Все это стало возможным благодаря увеличению количества ядер, объема кэш-памяти и усовершенствования средств работы с оперативной памятью.
Посредством аппаратных решений Intel создается сбалансированная инфраструктура кластера Apache Hadoop, построенного на базе пакета Intel Distribution for Apache Hadoop Software, позволяющего средствами менеджера Intel Manager for Apache Hadoop на 40% повысить быстродействие системы при загрузке Больших Данных (по сравнению со стандартным дистрибутивом Apache Hadoop). Кроме того, для построения систем анализа больших данных корпорация предоставляет рекомендации по тюнингу конфигурации, соответствующей конкретным условиям. Например, число соединений TCP/IP для работы с файловой системой HDFS и движком MapReduce может быть увеличено до 3,240,000, что позволяет уменьшить задержки и ускорить операции обработки больших данных.
Однако для создания и эксплуатации системы анализа Больших Данных важно не только модернизировать ЦОД на базе процессоров Intel Xeon, серверных адаптеров Intel 10 Gigabit, флеш-массивов Intel и пакета Intel Distribution for Apache Hadoop Software — не меньшее значение имеет создание экосистемы больших данных, предполагающей инвестиции в повышение квалификации аналитиков, привлечение отраслевых специалистов, проведение тестирования и настройки конфигураций, создание среды обмена опытом. Сегодня корпорация Intel активно участвует в создании такой экосистемы, позволяющей полнее использовать ее собственные решения и продукты партнеров, чтобы мощные расширенные средства аналитики больших данных непременно открыли перед информационным обществом новые возможности и позволили обнаружить новые направления развития на основе изучения скрытых пока взаимосвязей.
Статья подготовлена Computerworld Россия совместно с Intel IT Center.