В авангарде Больших ДанныхВ год своего пятилетия центр разработок EMC в Санкт-Петербурге обзавелся «младшим» братом — в «Сколково» открылся научно-исследовательский центр корпорации; впрочем, эпитет «младший» справедлив только в отношении численности сотрудников двух центров. По масштабу задач, которые планируется решать в новом центре, EMC может опередить в России лаборатории ряда других ИТ-производителей. Генеральный директор центра разработок EMC в Санкт-Петербурге Вячеслав Нестеров, возглавляющий также и центр в «Сколково», рассказал о текущих и перспективных проектах своих команд.

Как создавался центр в Санкт-Петербурге?

Несколько лет назад в EMC было принято решение об открытии центров исследований и разработок в разных странах, которые под одной крышей должны были бы объединять проекты, проводимые в интересах различных бизнес-подразделений корпорации. До этого момента подобные центры ЕМС за пределами США уже были, но появлялись как следствие приобретений и, как правило, работали на развитие какой-либо одной продуктовой линейки. Так были созданы центры в Индии, Китае и ряде других стран. В определенный момент появилась идея воспользоваться квалифицированными и пока относительно недорогими ресурсами в России. Центр разработок в Санкт-Петербурге был официально открыт 1 июня 2007 года, хотя работы начались несколько раньше.

Центр ориентируется на выполнение проектов, требующих высокой квалификации, хотя не является таким масштабным, как в других странах. Если в лаборатории EMC в Индии работает несколько тысяч человек, в Китае — больше тысячи, то в Петербурге сейчас несколько сотен. В 2012 году мы рассчитываем увеличить штат на 25%.

Какие проекты ведутся в петербургском центре?

На момент открытия центра в городе располагалось инженерное подразделение компании Captiva, купленной EMC, которое занималось работами, связанными с ПО для перевода информации с бумажных носителей на электронные; его 50 сотрудников влились в создаваемый центр. Центр разработок был представлен бизнес-подразделениям EMC, в результате чего у нас было решено разместить определенные проекты. Ключевым направлением бизнеса корпорации являются устройства хранения, и в нашем центре были развернуты работы, связанные с Symmetrix — флагманским семейством систем хранения EMC. Проекты по Symmetrix продолжаются у нас по сегодняшний день, а большая группа специалистов ведет работы по семейству систем начального уровня VNXe.

Центр занимается системным программным обеспечением устройств хранения разного уровня, в основном не очень близким к «железу», хотя и такие работы тоже есть. Продолжаются проекты по Captiva.

Какие темы разработок вы считаете наиболее интересными?

Сейчас на повестке дня большой проект, связанный с новой системой хранения EMC для малого бизнеса. Мы стремимся к тому, чтобы все инженерные работы по ее созданию были сосредоточены именно в российском центре. У нас еще не было прецедента, чтобы в одном центре была целиком сосредоточена разработка какого-либо продукта. Обычно в проекте задействованы сотни разработчиков и мы действуем в кооперации с другими центрами EMC. Но в данном случае мы рассчитываем сконцентрировать в Петербурге большую часть разработки программного обеспечения новой системы.

Кто является инициатором проектов центра?

В корпорации нет «командной» группы, которая дает распоряжения о том, что конкретный проект должен выполняться в тех или иных центрах разработок. Решение о размещении проекта у нас является результатом обсуждений между руководством центра и менеджерами бизнес-подразделений EMC. В процессе таких переговоров мы демонстрируем сложившиеся у нас области компетенции, результаты своих предыдущих работ, говорим о том, что у нас есть сотрудники, которые имеют необходимый опыт, квалификацию и репутацию в определенных областях, на основании чего мы делаем вывод, что сможем выполнить тот или иной проект на высоком уровне. Решение об участии в проекте центров в Петербурге, в Бангалоре или где-либо еще принимается на уровне бизнес-подразделения.

Взаимодействие различных центров в рамках проекта зависит от конкретной разработки. Это может быть постоянная тесная связь, когда определенную часть ПО вместе разрабатывают специалисты из разных центров, но возможна большая автономия, когда в центре разрабатывается некоторая самостоятельная часть ПО, которая затем интегрируется с остальными компонентами. К этому мы стремимся: тесная совместная работа сотрудников разных офисов, зачастую через несколько часовых поясов, как правило, не очень эффективна.

Можно ли привести пример, когда ваша собственная инициатива вылилась в новый проект?

Нашим решением было развивать у себя экспертизу по анализу Больших Данных. Именно по нашей инициативе новый центр в «Сколково» будет заниматься исследованиями, связанными с обработкой больших объемов данных. Корпорация некоторое время назад провозгласила Большие Данные приоритетным направлением своего бизнеса, для развития которого были куплены несколько компаний, обладающих экспертизой в этой области, прежде всего Greenplum. Мы рассчитываем перенести в Россию часть связанных с этим работ.

Оптимизм в отношении реализации этих планов вселяет потребность европейских подразделений EMC в развитии экспертизы Больших Данных в Европе для консультирования своих европейских заказчиков. Нашей целью является «выращивание» таких консультантов — data scientists, которые разбираются в методах и инструментах обработки больших объемов данных. Это непростая задача — необходимо развивать экспертизу, которой до сих пор фактически не существовало. Но следует отметить, что мы имеем к этому все необходимые предпосылки. В России есть специалисты мирового уровня, обладающие экспертизой в области математической статистики, извлечения знаний и искусственного интеллекта. Новые задачи потребуют некоторой переподготовки, но основой является прочный фундамент базового образования, которое пока еще дают российские университеты.

Какие исследования планируется проводить в «Сколково»?

Анализ Больших Данных необходим в ряде важных задач. Первая область, которой мы будем заниматься, — биоинформатика, в частности анализ генома человека. Результаты таких исследований могут иметь непосредственное влияние на решение различных задач в медицине — например, помогут в борьбе с тяжелыми заболеваниями. К сегодняшнему дню стоимость получения информации о геноме конкретного человека значительно сократилась. Если для секвенирования первого генома потребовалось 5 млрд долл., то сейчас стоимость решения этой задачи составляет несколько тысяч долларов, а через пару лет анализ генома человека станет настолько дешев, что его можно будет уже использовать в медицинской практике. Цель — предоставить практикующему врачу механизмы работы с информацией о геноме конкретного человека для извлечения данных, необходимых в процессе его лечения. Например, будет ли действовать на конкретного пациента то или иное лекарство, возможны ли побочные эффекты, существует ли связь между информацией в геноме и тем или иным заболеванием и т. д. Для получения ответа на эти вопросы необходимы программные средства, опирающиеся на методы анализа больших объемов данных.

Вторая область исследований, которую планируется развивать в центре в «Сколково», это оптимизация сетей передачи электроэнергии. Этот проект также связан с анализом больших объемов данных. Энергетические сети, генерирующие и потребляющие мощности, линии электропередач — все это снабжено интеллектуальными датчиками, собирающими очень большое количество телеметрии. Кто сколько выработал электроэнергии, кто сколько потребил, где сколько электроэнергии потеряно и т. д. Если эти данные грамотно обработать и извлечь те крупицы информации, которые помогут сделать выводы, то можно значительно сэкономить электроэнергию. В силу объемов генерируемого электричества здесь даже один процент экономии выливается в миллионные сбережения.

Для решения этих задач вам потребуются специалисты, обладающие знаниями прежде всего в области математики?

Фундаментальная и прикладная математика, статистика, добыча данных (data mining) — нам нужны специалисты с такими компетенциями. У нас уже есть несколько людей с необходимой экспертизой, но мы активно ищем новых сотрудников, а также проводим обучение своих специалистов по биоинформатике, извлечению информации, приглашая для этого ведущих экспертов.

В области биоинформатики в Петербурге есть ученые мирового уровня. Так, мы недавно познакомились с профессором биофака Санкт-Петербургского университета Андреем Козловым, возглавляющим Биомедицинский центр СПбГУ, где сейчас разворачиваются очень серьезные исследования. Мы также планируем сотрудничать с лабораторией алгоритмической биологии Санкт-Петербургского академического университета, которой руководит Павел Певзнер, профессор Калифорнийского университета в Сан-Диего. Он принял приглашение возглавить лабораторию в Петербурге, набрал талантливых ребят, с которыми занимается сейчас задачами синтеза генома человека, то есть анализом данных, которые получаются с секвенатора, для сборки генома.

Здесь требуются математические знания?

В группе Певзнера в основном математики, поскольку основные работы для решения этих задач лежат в области математики. Специальный аппарат секвенирует геном по сданному человеком биологическому образцу, обычно это капля слюны. Геном — это 3 млрд пар нуклеотидов, из которых лишь небольшая часть — существенно менее процента — отличается от человека к человеку. Но именно в ней скрыто очень много информации: о наследственных заболеваниях, предрасположенности к чему-либо, рисках развития новых заболеваний и т. д. Эта информация может лечь в основу персонифицированной медицины, которая позволит лечить конкретного человека, но для этого нужен соответствующий анализ, который реализуется математическими методами. На выходе секвенатора получается большой набор сырых данных, до нескольких сотен гигабайт, которые несут информацию об отдельных участках генома определенной длины. Чтобы собрать эти участки в одну цепочку и сделать это с минимальным количеством ошибок, нужно применять достаточно сложные методы.

Другие методы служат для сравнительного анализа геномов разных людей. Есть задачи пренатальной диагностики, когда анализируется геном будущего человека на предмет рисков возможных заболеваний. Биологическая часть этих задач относительно изучена, но на определенном этапе их решение переходит полностью в область анализа информации. Как реализовать этот анализ без ошибок — это чисто математическая, статистическая задача, которой занимаются ученые и собираемся заниматься мы с практической точки зрения.

Видимо, специалисты центра в «Сколково» должны будут обладать компетенциями и в ИТ?

Безусловно. Например, есть алгоритмы, которые позволяют решить эти задачи, но они неэффективны и затрачивают недопустимо большое время, поэтому необходимо применять знания в области оптимизации алгоритмов, теории сложности вычислений. Еще одна очень актуальная для нашей компании проблема состоит в том, что огромные объемы данных, полученных при секвенировании и анализе генома, надо где-то хранить, что делает актуальными задачи компрессии и дедупликации. Кроме того, необходимо решать проблему защиты информации, поскольку речь идет о персональных данных человека. Необходимо учиться так хранить эту информацию, чтобы она была доступна только тем, кому предназначена.

В нашем центре есть очень сильная группа, специализирующаяся на различных аспектах компрессии данных. В данном случае ключевой задачей становится компрессия, не сопряженная с потерями информации. Для новых исследований в биоинформатике мы сможем предложить алгоритмы компрессии, ориентированные не на данные вообще, а именно на данные генома. Такие алгоритмы позволят в разы поднять эффективность хранения этих данных, а ведь даже повышение на несколько процентов уже дает большой выигрыш.

Как будет выстраиваться связь результатов исследований центра с основным бизнесом EMC?

Мы планируем проводить исследования, которые в конечном итоге приведут к построению не отдельных продуктов, а решений, связывающих между собой различные продукты EMC и ее партнеров. Так, в области биоинформатики появятся решения, которые найдут применение либо в исследованиях, либо во врачебной практике. Мы ориентируемся на создание решений, востребованных и в России, и на мировом рынке.

Скорее всего, должна быть выстроена следующая цепочка. Центр проводит исследование, получает результаты и реализует на их основе прототипы, которые еще рано использовать на практике, а далее на базе этих наработок в других центрах, например в Петербурге, будут создаваться решения промышленного уровня.

У EMC есть подразделение в США, которое занимается разработкой интегрированных решений с привлечением продуктов сторонних компаний. Центр в «Сколково» будет с ним активно сотрудничать.

Какие еще проблемы на уровне ИТ-инфраструктуры возникают при обработке и хранении Больших Данных?

Передача по сети сведений, связанных с геномом человека, не может быть эффективно реализована из-за объема данных, который может измеряться петабайтами. Передавать их с приемлемой скоростью из одного исследовательского центра в другой не в состоянии даже очень производительные сети. Поэтому решения промышленного уровня в этой области необходимо базировать на облачном подходе. Однако это не единственная причина использования облачных инфраструктур для хранения и обработки геномной информации. Другими причинами являются требования к эффективности использования оборудования и необходимость обеспечения совместного доступа. Требуется облако, совмещающее большие вычислительные мощности с возможностями хранения огромных объемов данных. Человек сдает анализ для извлечения генетической информации, эта информация хранится в облаке с применением необходимых технологий по шифрованию, компрессии и т. д., и когда поступает запрос на анализ генома для получения ответов на конкретные вопросы, информацию не придется перегонять из лаборатории, где был сдан анализ, в исследовательский центр, где она будет анализироваться. Все заинтересованные стороны будут взаимодействовать с одним облаком.

Что сейчас организационно представляет собой центр EMC в «Сколково», каковы планы по его развитию?

Мы решили не выделять для центра в «Сколково» людей из центра в Петербурге — это отдельный исследовательский центр, для которого будет наниматься персонал в Москве, но организационно центр будет частью центра в Петербурге.

В течение этого года планируется набрать в центр в «Сколково» шесть-семь человек и 25–30 человек в следующем году. К концу 2014 года штат центра должен вырасти до 50 человек. Однако это предварительные планы, которые могут быть скорректированы в ту или другую сторону в зависимости от хода запланированных проектов и других обстоятельств.

Мы хотим, чтобы один проект в центре отставал в стадии своего развития от другого по времени на три – шесть месяцев. Сейчас представляется, что с опережением будет идти проект по биоинформатике. Но многое зависит от того, когда удастся найти руководителей проектов должного уровня: нужно, чтобы каждый из двух проектов возглавил зрелый исследователь, способный ставить задачи в данной области. Найти такого специалиста сложно, и на это может уйти много времени, поэтому пока мы очень осторожны в оценках.

Как вы набираете кадры в центр разработок в Петербурге?

Сейчас рынок труда определяется кандидатами, а не работодателями, поэтому мы предпринимаем различные шаги, для того чтобы набрать лучших специалистов, нанимая опытных людей. Помимо этого, мы реализуем многоплановую университетскую программу, призванную привлекать в наши ряды молодых, талантливых и мотивированных сотрудников. В частности, у нас есть программа стажировок, в рамках которой студенты старших курсов включаются в работу на проектах центра в качестве младших инженеров, обычно на неполный рабочий день. Участники этой программы отбираются на профильных факультетах ведущих университетов Петербурга, с которыми у нас установились хорошие контакты. После года стажировки, как правило, больше половины студентов переходят на полноценную инженерную работу, становясь лучшими нашими сотрудниками как с точки зрения мотивированности, так и по уровню подготовки. В результате на момент получения диплома студент уже является опытным инженером центра.

Для студентов третьего-четвертого курсов предлагается другой сценарий. С наиболее близкими нам кафедрами реализуются проекты, которые, как правило, не имеют практического значения для бизнеса EMC, а преследуют чисто образовательные цели. Эти проекты придумывают специалисты центра в свободное от работы время. В проектах работают группы из трех-четырех студентов, обычно под руководством преподавателя, непосредственно в университете. Они получают за это небольшие деньги и отчитываются перед нами за результаты. Такие проекты позволяют отбирать лучших студентов на стажировку, а некоторые их результаты могут быть использованы уже и в серьезных работах центра, причем в последнее время это становится тенденцией вследствие повышения уровня этих проектов.

Около года назад в нашей университетской программе появилось новое направление: центр заказывает университетам серьезные исследования по нашей проблематике. Например, группа ученых, аспирантов и студентов Санкт-Петербургского университета аэрокосмического приборостроения проводит для нас исследования в области алгоритмов компрессии данных, зависящих от их характера. Темы исследований определяются бизнес-подразделениями EMC, причем компания очень активно поддерживает и стимулирует развитие таких взаимоотношений центра с академическим сообществом. Хотя, поскольку это чисто исследовательские проекты, их итоги не обязательно должны воплотиться в продуктах EMC и имеют законное право на отрицательный результат. Однако до сих пор большинство таких исследовательских проектов заканчивалось практически значимыми результатами.

С какими университетами сотрудничает центр?

Мы тесно взаимодействуем с матмехом СПбГУ, факультетом технической кибернетики Политеха, ИТМО, Санкт-Петербургским университетом аэрокосмического приборостроения и еще рядом ведущих технических вузов. Мы сотрудничаем с отраслевым Санкт-Петербургским государственным университетом путей сообщения, где ведется подготовка по такой редкой сегодня специализации, как программирование для мэйнфреймов. Системы EMC Symmetrix очень часто работают вместе с такими машинами, поэтому для разработки и тестирования нам нужны специалисты, которые хорошо разбираются в мэйнфреймах. Их сейчас почти нигде не готовят — не только в России, но и в мире, а в университете есть группа, которая этим занимается, поскольку в вычислительных центрах РЖД используются такие платформы.

В «Сколково», видимо, будут работать не студенты?

Частая ошибка мировых производителей, открывающих центры разработок за рубежом, в частности в России, состоит в том, что они требуют набирать только лучших специалистов. Собирается группа, предположим, из десяти профессионалов в данной области, а затем выясняется, что предложенная им задача не требует привлечения людей такой высокой квалификации. И эти специалисты сначала скучают, а потом разбегаются. Квалификация группы, будь то исследования или разработки, должна точно соответствовать задаче, а, как правило, задача такова, что группа должна быть разнообразной по составу. В ней должен быть специалист очень высокого уровня, несколько людей уровнем чуть ниже, должна быть амбициозная молодежь и исполнители, которые делают рутинную работу. Идеально, если удается создать такую сбалансированную группу по типу ромба. Можно набрать группу в виде пирамиды — много специалистов низкого уровня и один человек самой высокой квалификации. Можно — по типу перевернутой пирамиды, когда в группе много высокоуровневых специалистов и почти никого для рутинной работы. Но лучше всего именно ромб, в котором немного специалистов самой высокой квалификации, сильная середина и несколько исполнителей.

Мы будем стремиться реализовать такой подход в центре в «Сколково», и в нем найдется место и для студентов, которые будут делать работу, соответствующую их уровню.

Есть ли вузы в России, готовящие специалистов, которых можно назвать data scientist?

Мы сейчас работаем над организацией такой подготовки на базе факультета бизнес-информатики Высшей школы экономики. Также мы начали сотрудничать с Computer Science Center в Петербурге, который активно занимается подготовкой специалистов в этой области.

 

Инновации — основа успеха

Ведущие ИТ-игроки не мыслят своего существования без специальных лабораторий, проводящих масштабные исследования в самых различных областях.

О мэйнфреймах и не только

Директор московской лаборатории систем и технологий IBM рассказывает о задачах и месте лаборатории в структуре исследовательских подразделений корпорации и в академическом сообществе.

Наталья Дубова

 Наука о документах

Исследовательское подразделение Xerox берет свои истоки в знаменитом Xerox PARC, откуда вышли графический пользовательский интерфейс, мышь и Ethernet. Вице-президент Европейского центра Xerox рассказывает о деятельности центра.

Наталья Дубова

 На пересечении интеллектуальных пространств

Компания Nokia не только выпускает мобильные телефоны, но и совместно с университетами по всему миру проводит перспективные исследования в сфере ИТ. Как организована исследовательская деятельность компании и каково участие в ней российских ученых?

Наталья Дубова

 Идея, исследование, продукт

В основе технологий управления информацией лежит математический аппарат, а российские специалисты славятся высоким уровнем математической подготовки. Именно поэтому лаборатории HP Labs в Санкт-Петербурге, тесно сотрудничающей с ведущими университетами страны, была поручена работа в области управления неструктурированной информацией.

Наталья Дубова

 Методики принятия решений при разработке ПО

Санкт-Петербургский центр разработки программных продуктов Motorola был открыт в 1997 году и сегодня ведет работы по четырем основным направлениям: Java-технологии; программное обеспечение для телекоммуникаций; решения и средства удаленного доступа; мультимедийные решения и технологии.

Александр Бабкин, Елена Беляева 

 Лидер команды прагматиков

Вопреки распространенному убеждению «либо бизнес, либо наука», Дик Лампман, старший вице-президент по исследованиям компании Hewlett-Packard и директор HP Labs, уверен: можно одновременно заниматься фундаментальными исследованиями и создавать конкурентоспособные продукты для массового рынка.

Дмитрий Волков