Сфера разведки углеводородов сегодня сильно отстает от других отраслей по использованию Больших Данных: многообразие источников разнообразных данных о месторождении, проприетарные форматы, а также высокая стоимость проверки гипотез геологического моделирования создают массу препятствий на пути к применению технологий Больших Данных. В отчете McKinsey Global Institute «Big Data: The next frontier for innovation, competition, and productivity», упоминаемом в обращении Джефа Спата, президента Сообщества инженеров нефтегазовой промышленности SPE.org (авторитетная отраслевая организация, основанная в 1957 году и объединяющая сегодня 143 тыс. участников, аналог IEEE), недвусмысленно говорится о том, что отрасли надо обратить внимание на Большие Данные. Между тем руководители ИТ-подразделений российских нефтегазодобывающих компаний пока даже не включают работу с Большими Данными в свои планы [1, 2].
По мнению экспертов SPE, сегодня в сфере добычи и разработки углеводородов актуальны следующие вопросы, связанные с обработкой данных: что такое аналитика, управляемая данными (Data-Driven), и к чему она относится — к ИТ или к бурению, геологии, добыче; в чем специфика применения такой аналитики в нефтегазовой отрасли; как соотносятся Большие Данные и аналитика, управляемая данными; в каких направлениях нефтегазовой отрасли наиболее востребованы технологии Больших Данных? Даже не обращая внимания на то, что в этом контексте аналитика, управляемая данными, по сути, означает не более чем описательную статистику, сама постановка вопросов представителями нефтегазовой отрасли показывает, что к проблеме Больших Данных здесь еще не приступали. Одна из причин этого кроется в отсутствии доверия к данным: мало кто из геологов и разработчиков месторождений воспринимает данные и аналитику на их основе как помощь в расчетах и построении моделей. Обычно петрофизические модели основываются на законах физики, а не на данных, так же как и физики-теоретики почти не обращаются к данным экспериментов для построения своих теорий, которые, однако, потом доказывают или опровергают физики-экспериментаторы. Вместе с тем единичные случаи показывают, что технологии Больших Данных успешнее всего применяются, когда проект ведется инженерами, а не приглашенными консультантами и стартапами — их специалисты обычно не обладают нужными ресурсами для проверки гипотез.
Весьма показательно, что многие докладчики на конференции SPE Oslo [3, 4] отмечали, что уровень использования ИТ в сфере добычи и разработки углеводородов « крайне низок». И это несмотря на то, что в работе конференции принимали участие представители SAS Institute, Oracle, Microsoft, Teradata и IBM. В нефтегазовой отрасли сложилась ситуация, когда уже поздно заниматься управлением данными: работа с ними требует столько ресурсов, что отдаляющийся во времени момент, когда они наконец-то начнут приносить пользу, никого уже не устраивает. Чтобы начать работать с данными, нужны другие специалисты и другие инструменты — не Фортран и C#, а языки типа Python и R с встроенными аналитическими возможностями.
В отрасли на сегодняшний день все больше скапливается «темных», или «подземных», данных, что порождает библиотекарское отношение к данным — «знаем, где лежит, но сами не читали». Часто реальные данные игонорируются, и принятие решений стоимостью в миллиарды, по сути, зависит от художников, рисующих презентации. К тому же данные никто не проверяет, это сложно, они содержатся в разных системах и базах, что приводит, в частности, к сохранению ошибок в данных, даже когда те обнаружены. Наконец, в нефтегазовой отрасли пока еще мало ярких, убедительных примеров проектов, позволивших получить эффект от Больших Данных. Все это происходит на фоне того, что данные имеются как бы вообще, а не доступны для обработки — в нефтегазовой отрасли теряется много данных, лежащих в файловых архивах на устаревших носителях и в форматах, которые уже давно не поддерживаются.
Вместе с тем активность ИТ-производителей, работающих для нефтегазовой отрасли, свидетельствует о том, что тенденция может измениться и поднимется лавина проектов Больших Данных, которые станут осознанной необходимостью. Однако пока публикации SPE по тематике Больших Данных свидетельствуют об обратном. Например, из 169 статей в базе OnePetro.org, так или иначе связанных с Большими Данными, только пять содержат описание практического опыта или исследования проблемы, большинство же представляют собой материалы конференций. Конечно, на написание статей уходит время, но, скорее всего, причина в том, что многие авторы, признавая наступление «эры Больших Данных», еще не знают, что с этим делать. Например, появляются работы, в которых декларируется использование Больших Данных для создания модели предсказания утечек CO2 из резервуаров, хотя на деле речь идет лишь о накоплении статистических данных по разным координатам. Авторы таких работ используют слово «big» в основном для передачи смысла «много», хотя, как известно, Большие Данные — это не только объемы. С другой стороны, традиционные инструменты моделирования резервуаров уже достигли своих пределов по производительности — сегодня приходится моделировать резервуары со сложной тектоникой. Как следствие, некоторые авторы в своих работах используют модель резервуара, на создание которой затрачено 1095 дней, — возможно, такие эксперименты обоснованы в научно-исследовательских целях, но неприемлемо продолжительны для бизнеса. Это лишний раз подтверждает необходимость поиска компромиссов с применением современных подходов для работы с Большими Данными.
Вместе с тем во многих публикациях обращается внимание на важность данных, собираемых от беспроводных датчиков и сенсоров, а в некоторых уже можно встретить упоминание о применении фирменных реализаций Hadoop (например, IBM BigInsights) для обработки данных сейсморазведки. Осенью 2015 года в отраслевой прессе появилось сразу три примера успешного применения технологий Больших Данных: анализ волоконно-оптического измерения температуры 14 тыс. скважин с тяжелой нефтью с периодичностью один раз в 10 минут, что означает поток примерно в 1 Тбайт в день; анализ температуры и давления с целью предсказания целостности скважин; анализ информации от систем SCADA (Supervisory Control And Data Acquisition — «диспетчерское управление и сбор данных») для предсказания возможных поломок добывающего оборудования.
Отрадно наблюдать появление в отрасли интереса к объединению данных, полученных из разных областей, — например, к интеграции телеметрии от датчиков температуры и давления с текстовыми архивами для получения кросс-функциональной аналитики. Кроме этого, есть примеры использования Semantic Web для слежения за появлением коррозии.
В базе SPE уже встречаются методологические работы — например, рекомендации по изменениям в операционных процессах, необходимых для начала использования Больших Данных, или мнение о том, что без принятия соответствующих технологий в нефтегазовой отрасли невозможно широко использовать концепцию цифрового месторождения (Digital Oilfield), важным практическим аспектом которого являются межмашинные коммуникации (Machine-to-Machine, M2M).
Иными словами, роль Больших Данных в отрасли констатирована, но конкретные применения обозначаются пока редко, что объясняет и небольшое число успешных практических примеров. С помощью методов Больших Данных упаковывают показатели, поступающие от датчика нагрузки на крюк буровой установки без потери сведений о ее изменении. Ряд исследователей делают оценки степени стандартизации процессов бурения на основе журналов бурения, накопленных одним оператором за три года. Еще одна область применения Больших Данных — осуществление мониторинга для отображения данных с цифровых месторождений. Однако обычно детали реализации таких проектов и особенности применяемых технологий не раскрываются. В таблице приведены направления блока разведки и добычи углеводородов, в которых наиболее целесообразно применение технологий Больших Данных.
Наиболее перспективные направления применения технологий Больших Данных |
При решении задач в компании «Газпромнефть НТЦ» применяется файловая система HDFS вместе с открытой поисковой системой Solr, обрабатывающей более 3 млн файлов разных форматов, начиная от специальных, таких как LAS (Log ASCII Standard), применяемых для хранения данных геофизического исследования скважин, до общеупотребительных, типа Microsoft Powerpoint. Полнотекстовый поиск работает с учетом русской морфологии. Аппаратная конфигурация образована тремя узлами на базе серверов стандартной конфигурации, а выдача результатов производится с использованием фасетной классификации — автоматической группировки выдачи по авторам, годам, типу контента и кластеризации по алгоритму Lingo. В перспективе визуализация результатов будет усовершенствована за счет организации формата выдачи с учетом специфики конкретной геологии и разработки месторождений, обогащена поиском по формулам в Excel и средствами настройки к индивидуальным требованиям пользователя.
Для совершенствования экспертной поддержки процессов принятия решений применяется технология Wiki — в организации развернут корпоративный вики-каталог на базе открытой программы MediaWiki, с помощью которого решаются задачи категоризации информации о месторождениях и связанных с ними процессов.
***
Нефтегазовая отрасль заметно отстает от ряда других отраслей в использовании Больших Данных. Многообразие источников данных о подземной части месторождений, требующих взаимоувязки; устаревшие проприетарные форматы, используемые подрядчиками; устаревание данных; высокая стоимость проверки гипотез; отсутствие открытых API для импорта данных из специализированного программного обеспечения для геологического моделирования — вот лишь некоторые препятствия на пути к реальному использованию технологий Больших Данных. Вместе с тем потенциал здесь огромен, и может случиться так, что технологии стека Hadoop станут катализатором для перехода сразу к цифровым месторождениям, как это произошло в телефонии. В России цифровой телефонии с ее тоновым набором почти и не было — произошел сразу переход от аналоговых телефонов к мобильным. Однако пока имеется разрыв между технологиями нефтесервисных компаний, пребывающих в 1990-х годах, и подрядчиками, использующими современные технологии, но предлагающими свои услуги дороже, чем первые. Примечательно, что, по мнению отраслевых аналитиков, компании, уже работающие с Большими Данными, в три раза чаще реализуют свои планы, однако лишь 4% компаний нефтегазовой отрасли следуют намеченной стратегии в области Больших Данных.
Литература
- Кравченко К. Ю. Стратегия развития ИТ ОАО «Газпром нефть» в период трансформации. CNews Forum 2014.
- Беспалов А. П. Информационные технологии — тенденции построения интеллектуального месторождения ОАО «Татнефть». URL: https://sites.google.com/site/42itconf2013/reglament/-1-1/doklad-a-p-bespalova (дата обращения: 18.10.2015).
- Big Data Solutions & Analytics in Upstream Oil and Gas Industry, SPE Oslo, 10.02.2015. URL: http://oslo.spe.org/bigdata (дата обращения: 18.10.2015).
- Duncan Irving, Jane McConnell. Big Value from Big Data. Big Data Analytics for the Upstream Domain. Teradata Oil and Gas Team, 10th February, 2015.
Федор Краснов (Krasnov.FV@Gazprom-neft.ru) — ведущий эксперт, «Газпромнефть НТЦ» (Санкт-Петербург).