В ПЕНТАГОНЕ НАМЕРЕНЫ ежегодно инвестировать ежегодно до 250 млн долл. в инициативы, так или иначе связанные с Больших Данными Источник: David Gleason/Wikipedia, CC BY-SA 2.0 |
Президент США Барак Обама объявил об учреждении исследовательской программы, направленной на развитие инструментов и методов доступа к огромным объемам цифровой информации, ее классификации и извлечения из нее ценных сведений. Общий бюджет программы — 200 млн долл.
«Подобно тому как прежние инвестиции федерального правительства в области ИТ привели к революционным прорывам в сфере суперкомпьютеров и созданию Интернета, инициатива, которую мы начинаем, откроет абсолютно новые возможности использования Больших Данных в совершении научных открытий, экологических и биомедицинских исследованиях, образовании и национальной безопасности», — заявил Джон Холдрен, помощник президента и директор Управления Белого дома по политике в области науки и техники.
Программа получила название Big Data Research and Development Initiative. В ней примет участие целый ряд ключевых госструктур США. В частности, Национальный научный фонд осуществит долгосрочную стратегию, включающую в себя разработку новых методов извлечения знаний из данных; создание инфраструктуры для отбора и сохранения данных, управления ими и их предоставления тем, кто в них заинтересован, а также выработку новых подходов в области образования и подготовки трудовых ресурсов. Фонд будет поощрять исследовательские учреждения к разработке междисциплинарных учебных программ для подготовки нового поколения ученых и инженеров по обработке данных; выделит 10 млн долл. на проект Expeditions in Computing Калифорнийского университета в Беркли, цель которого — интегрировать три мощных метода «превращения данных в информацию»: машинное обучение, облачные вычисления и краудсорсинг; предоставит первый транш грантов в поддержку создания EarthCube — системы, позволящей геологам и геофизикам осуществлять доступ к информации о нашей планете, анализировать данные и обмениваться ими; выдаст премию 2 млн долл. организации, в которой студентов учат применять методы визуализации сложных данных; выделит 1,4 млн долл. исследовательской группе статистиков и биологов, занимающейся идентификацией структуры белков и изучением изменений в клетках.
В сферу интересов Национального института здравоохранения, в свою очередь, входит обработка медицинских снимков, а также молекулярных, клеточных, электрофизиологических, химических, поведенческих, эпидемиологических, клинических и других наборов данных, относящихся к здоровью и заболеваниям.
Крупную ставку на Большие Данные делает Пентагон, который будет инвестировать ежегодно около 250 млн долл. (в том числе по 60 млн на новые исследовательские проекты) в инициативы, направленные на использование больших массивов данных новыми способами, а также на объединение средств регистрации и интерпретации данных в целях создания истинно автономных систем, способных самостоятельно маневрировать и принимать решения. В Минобороны рассчитывают радикально расширить способности аналитиков в области извлечения полезных сведений из текстов на любых языках и наблюдения за объектами, действиями и событиями..
Агентство перспективных оборонных исследований DARPA начинает четырехлетнюю программу XDATA, в рамках которой будет ежегодно выделяться около 25 млн долл. на разработку вычислительных методов и программных инструментов анализа больших объемов данных, как «полуструктурированных», так и неструктурированных. XDATA будет поддерживать развитие инструментариев с открытым кодом, чтобы гибко создавать программное обеспечение для обработки больших объемов данных в сроки, заданные оборонными проектами.
Национальный институт здоровья объявил о бесплатной доступности в облаке Amazon Web Services самого большого набора данных о генетической наследственной изменчивости людей, созданного в рамках международного проекта 1000 Genomes. Его размер — 200 Тбайт, что примерно соответствует объему информации в 16 млн картотечных шкафах, заполненных текстовыми документами, или 30 тыс. стандартных DVD-дисков. Набор данных 1000 Genomes — типичный образец Больших Данных, массива настолько огромного, что для его обработки нужны дорогостоящие вычислительные ресурсы, доступ к которым есть не у всех исследователей. В AWS данные 1000 Genomes Project размещены в свободном доступе; исследователям нужно платить только за вычислительные сервисы, которыми они будут пользоваться для анализа.
Министерство энергетики выделит 25 млн долл. на создание Института масштабируемого управления данными, их анализа и визуализации. Проект объединит силы шести национальных лабораторий и семи университетов, чтобы создать новые инструменты, помогающие ученым управлять данными и визуализировать их на суперкомпьютерах минэнерго, с целью упростить процессы совершения открытий.