Интеллектуальная платформа экологического мониторинга

Несмотря на внимание мировой общественности к вопросам контроля загрязнения окружающей среды и экологической безопасности, человечество продолжает сталкиваться как с локальными, так и с глобальными катастрофами, влияющими на жизнь и здоровье людей. По данным ВОЗ, около 7 млн человек ежегодно умирают только из-за проблем, связанных с загрязнением воздуха. Проблемы с экологией актуальны не только для слаборазвитых стран: сложившаяся в феврале 2021 года ситуация, когда половина Европы была засыпана песком из Сахары, показала, что государственных границ для загрязнений не существует.

Для контроля и мониторинга окружающей среды запущены различные государственные и международные программы. Например, еще в начале 70-х годов в США была инициирована региональная долгосрочная программа управления качеством воздуха. В 1979 году приняли конвенцию ООН о трансграничном загрязнении воздуха, а в 1992-м — конвенцию по охране и использованию трансграничных водотоков и международных озер. Реализуются и локальные программы, отслеживающие состояние окружающей среды в масштабах областей, городов или предприятий.

Как правило, исследования строятся на данных, получаемых вручную или с помощью тех или иных датчиков и приборов в точках сбора образцов. Собранный материал анализируют с использованием различных техник на местах или в лабораториях. Затем данные объединяют и интерпретируют, причем часто результаты неоднозначны и требуется привлечение экспертов, хотя в программах экологического мониторинга постоянно растет уровень автоматизации. Сегодня в проектах контроля загрязнения окружающей среды начинают применять технологии Интернета вещей, искусственного интеллекта и больших данных, что позволяет говорить о переходе к интеллектуальным цифровым платформам экологического мониторинга, способным генерировать новые знания на базе поступающих и уже имеющихся данных, а также самостоятельно принимать решения, для чего раньше требовалось привлекать экспертов.

Интеллектуальные платформы (Watson Decision Platform for Agriculture, Google Health, Azure Industrial IoT, Oracle Enterprise Performance Management, Infosys NIA и др.) используются в финансах, промышленности, телекоммуникациях, медицине, сельском хозяйстве и многих других областях. В сфере экологического мониторинга также имеются различные решения, в основном регионального и локального уровня. Например, «МегаФон» предлагает платформу экологического мониторинга на базе Интернета вещей — «МегаФон.Экология». Компания SimpliVity продвигает универсальное решение интеллектуального мониторинга Omnicube, позволяющее контролировать различные аспекты функционирования предприятий, в том числе параметры окружающей среды. Платформа компаний EXM и Libelium предназначена для повышения эффективности экологического мониторинга. Подобные решения предлагают также компании Filippetti Group и Novolyze. Существуют решения, объединяющие в единую инфраструктуру метеостанции различного уровня. В рамках программы комиссии ООН по дальнему трансграничному переносу воздушных загрязнений ICP Vegetation разработана интеллектуальная платформа мониторинга, позволяющая выявить наиболее неблагополучные области в Европе и Азии, создать региональные карты и в целом повысить понимание исследовательским сообществом, объединяющим сотни ученых из 43 стран Европы и Азии, природы долгосрочных трансграничных загрязнений. Изучение в рамках ICP Vegetation атмосферных выпадений опасных элементов и соединений основано на анализе мхов-биомониторов.

Платформа экологического мониторинга

Разработка системы управления данными для проекта ICP Vegetation началась в 2016 году в Объединенном институте ядерных исследований [1] с целью автоматизации операций с данными и создания региональных карт. Вобравшая в себя новые технологии и накопившая огромный массив данных, сегодня система переросла в интеллектуальную платформу (см. рисунок). Например, мобильное приложение позволяет упростить процесс сбора и проверки данных, а для классификации изображений и прогнозирования загрязнений по данным дистанционного зондирования Земли активно используются модели глубинного обучения. Платформа построена на микросервисной архитектуре, что позволяет оперативно расширять ее функциональные возможности, автоматизировать операционные задачи и развивать блок аналитики.

Многие приложения контроля загрязнения воздуха выполняют анализ содержания в образцах мелкодисперсных частиц (particulate matter) и химических соединений, например CO₂. Для этого применяют специализированные датчики и сенсоры, устанавливаемые в региональных, локальных, передвижных или персональных станциях. Объединение таких устройств в единое цифровое пространство осуществляется с помощью технологий Интернета вещей, однако пока станции способны предоставить небольшую часть данных о составе загрязнений. Для получения полной картины используют натуральные методы мониторинга, основанные на отборе проб. В рамках проекта ICP Vegetation участники собирают образцы мха, фиксируя метаинформацию о местах сбора и используя различные техники, например нейтронно-активационный анализ, для получения данных по содержанию тяжелых металлов, азота, стойких органических соединений и радионуклидов. Естественно, в процессе сбора метаинформации возможны ошибки, которые негативно сказываются на результатах. Для их минимизации разработано мобильное приложение, позволяющее заполнять большинство обязательных полей формы описания образца, многие из которых (координаты на местности и пр.) заполняются автоматически. Существует возможность фотографировать места сбора и сами образцы, а затем отправлять их для распознавания, что позволяет значительно повысить точность определения типа мха — раньше это часто вызывало трудности даже у экспертов. Платформа включает несколько моделей глубинного обучения для решения задач распознавания на ограниченной выборке. Например, сиамская нейронная сеть с трехчленной функцией потерь позволяет с точностью 97% классифицировать разновидности мха.

В процессе внесения метаинформации точкам отбора проб присваивают уникальные идентификаторы, которые используют после проведения анализа образцов для импорта данных по концентрациям элементов и соединений. Проверка данных — важный этап в исследованиях, позволяющий на ранних стадиях избежать проблем при их интерпретации. В рамках платформы она производится как на уровне получения данных от участников, так и на уровне координаторов программы. Выполняется поиск статистических аномалий и проверка полноты данных, а также определяются точки отбора проб, указанные типы мха в которых не соответствуют прогнозам модели. Полная автоматизация данного процесса затруднительна, поскольку аномалии могут иметь естественный характер, и для принятия решения об их включении или исключении требуется согласованное мнение участника и координатора.

Одна из возможностей платформы — предоставление исследователям полного комплекта инструментов для сведения к минимуму необходимости использовать сторонние системы. Участники проекта могут непосредственно в платформе производить манипуляции с данными, строить локальные и региональные карты загрязнений, запускать задачи прогнозирования и получать аналитические отчеты. Помимо простых статистических выкладок, доступны инструменты более высокого уровня — например, кластерный анализ или метод главных компонент. Пользователи могут проанализировать временные тренды и выполнить сравнение с результатами, полученными другими участниками. Например, для лучшего понимания сложившейся в конкретном регионе ситуации можно вывести на одной диаграмме медианные значения загрязнения тяжелыми металлами в граничащих странах и регионах. Координаторам доступны все инструменты рядовых участников, а кроме того, они могут осуществлять групповые операции с данными, получать сводные отчеты и строить глобальные карты загрязнений.

Прогнозирование — важный этап экологического мониторинга, позволяющий заполнить пробелы в данных. В платформе реализован механизм прогнозирования, основанный на применении машинного обучения совместно с данными дистанционного зондирования Земли. Подход не универсален, но для некоторых химических элементов (например, алюминия, меди, сурьмы, мышьяка, хрома, никеля, железа, ванадия) показывает хорошие результаты. Снимки используют для получения индексов, которые становятся дополнительными данными при обучении модели и основными данными при построении прогноза. Индекс включает в себя название программы, в рамках которой получены снимки, размер анализируемой площади, идентификатор спектрального канала, в котором осуществлялась съемка, математическую функцию, применяемую к цифровой матрице полученного изображения. Для вычисления индексов применяется платформа Google Earth Engine, содержащая данные десятков различных спутниковых программ и продуктов. Отдельные сервисы используют для сбора индексов, построения глобальных и локальных моделей, подбора оптимальных параметров и прогнозирования. В текущей реализации, в зависимости от количества исходных данных, применяют статистические модели машинного обучения либо нейронные сети. Решают задачи регрессии и классификации, причем последние более приоритетны. Во-первых, модельные данные в основном необходимы для построения карт, в которых изначально заложена градация уровней загрязнения. Во-вторых, критерии оценки точности при решении задачи классификации более простые, чем при решении задачи регрессии. В-третьих, точек отбора проб, в которых присутствует высокий уровень загрязнения, обычно на порядок меньше, чем точек с нормальным уровнем, и при использовании методов балансировки обучающей выборки можно добиться лучших результатов. В итоге при построении глобальных и региональных карт точность моделей может достигать 95%.

Платформа построена в облачной инфраструктуре на базе ПО OpenNebula [2], что обеспечивает необходимую масштабируемость. Объем поступающих в платформу данных относительно невелик, однако у них достаточно сложная структура. Собираемые в автоматическом режиме данные для прогнозирования содержат миллионы записей, для обработки которых лучше использовать СУБД NoSQL — например, MongoDB, которая работает с геопространственными данными и демонстрирует высокую производительность. Модели машинного обучения реализованы на Python с использованием библиотек Keras и TensorFlow. Для задач, связанных с машинным обучением и нейронными сетями, используют гетерогенную вычислительную инфраструктуру ОИЯИ HybriLIT. Серверная часть платформы предоставляет клиентские и программные интерфейсы, а также отвечает за поддержку работы сервисов. Для выполнения задач, требующих разнообразных вычислений (например, сбор дополнительных данных для моделей или подбор их оптимальных параметров), с помощью микросервисной архитектуры обеспечивается масштабирование решения и поддержка коррекции модулей только в тех процессах, где происходят изменения, при этом другие части платформы не затрагиваются.

***

Одна из приоритетных задач дальнейшего развития платформы экологического мониторинга — автоматизация процессов обработки данных с использованием моделирования. Планируется интеграция с метеостанциями для получения данных по мелкодисперсным частицам и летучим соединениям. Кроме того, весьма актуальна задача сбора и предоставления данных по заболеваемости населения, что позволит в рамках платформы проводить корреляцию уровней загрязнения и количества определенных заболеваний в различных регионах.

Литература

1. Александр Ужинский, Геннадий Ососков, Марина Фронтасьева. Управление данными мониторинга окружающей среды // Открытые системы.СУБД. — 2017. — № 4. — С. 42–43. URL: https://www.osp.ru/os/2017/04/13053390 (дата обращения: 21.05.2021).

2. Сергей Белов, Игорь Пелеванюк, Александр Ужинский. Проблемы и решения распределенной обработки // Открытые системы.СУБД. — 2014. — № 10. — С. 18–19. URL: https://www.osp.ru/os/2014/10/13044384 (дата обращения: 21.05.2021).

Александр Ужинский (auzhinskiy@jinr.ru) — ведущий программист, ОИЯИ (Дубна).