РИНАТ ГИМРАНОВ: «Использование технологий обработки данных в оперативной памяти приведет к уменьшению количества данных» |
На предприятии, в котором минимизированы все задержки в управлении и которое, по сути, в реальном времени реагирует на складывающиеся обстоятельства, потоки обрабатываемых данных наверняка увеличатся, вместе с тем современные технологии Больших Данных позволят не только успешно их анализировать, но и сдержать рост объемов хранимой информации. Так считает Ринат Гимранов, начальник управления ИТ компании «Сургутнефтегаз».
Представляя на форуме Big Data 2014 свое видение «предприятия реального времени» (Real Time Enterprise), Гимранов привел аналогию с автомобилем: водитель должен видеть ту картину, которая складывается на дороге прямо сейчас, а не в предыдущую минуту и тем более не сутки назад. После своего выступления он поделился с Computerworld своими мыслями относительно возможностей Больших Данных в современной производственной компании, а также на предприятиях недалекого будущего.
Какой вам видится практическая реализация «предприятия реального времени»?
Сейчас нет готового подхода к реализации Real Time Enterprise, он только создается. Могу предположить, что максимальное внимание в нем будет уделяться системам поддержки принятия решений и системам обработки событий.
Какие инструменты могут оказаться полезными для «предприятия реального времени»?
Полагаю, что к традиционным технологиям, которые применяются на предприятиях, добавятся нейросети и системы искусственного интеллекта — сегодня их возможности не используются широко. На базе систем обработки данных в оперативной памяти нужно создавать новые системы поддержки принятия решений — самообучающиеся, использующие функции искусственного интеллекта. Следующим шагом может стать переход к саморазвивающимся информационным системам, создающим в качестве выходных данных исполняемый код.
Должны ли данные предприятия, в котором минимизированы все задержки в управлении, обрабатываться в реальном времени? И может ли такая обработка привести к росту потоков данных, которые нужно отслеживать?
Да, данные придется обрабатывать в реальном времени. И, скорее всего, потоки данных при этом действительно увеличатся. Но поскольку парадигма обработки данных в оперативной памяти предлагает анализировать данные на лету и затем решать, что именно сохранять, то можно обрабатывать большие их потоки, однако хранить далеко не все, поскольку не все данные существенны для понимания того, что именно произошло.
Как вы считаете, какого рода данных на «предприятии реального времени» будет больше — потоков, которые обрабатываются в реальном времени, или данных, хранящих следы событий, когда-то произошедших?
Конечно, исторических данных через какое-то время будет больше, поскольку их пополняют потоки текущих данных, в том числе транзакционных.
Ожидаете ли вы резкого роста объемов обрабатываемых или хранимых данных при переходе к «предприятию реального времени»?
На мой взгляд, все будет как раз наоборот: использование технологий обработки данных в оперативной памяти приведет к уменьшению количества данных. Сегодня данные в различных решениях, применяемых на предприятиях, часто дублируются. В частности, в аналитических системах хранится по несколько копий транзакционных данных. Благодаря переходу к новым технологиям анализа дублирование не потребуется, поэтому роста объемов данных вообще не будет. Хотя, возможно, в перспективе он возобновится — например, если в подходе к управлению жизненным циклом принятия решений пользователю будет предлагаться несколько вариантов решения, каждый из них сохраняется, какой-то один выбирается, затем ситуация после принятия решения отслеживается и новое состояние также сохраняется. Это лишь один из возможных сценариев, способный привести к росту данных. Точно сказать, что именно и за счет чего произойдет в обозримой перспективе, не берусь.
Какие основные факторы могут привести к уменьшению объемов обрабатываемых или хранимых данных?
Во-первых, как я уже сказал, это исключение дублирования, благодаря чему базы данных станут компактнее. Во-вторых, иной станет технология: из поколоночной СУБД, обрабатываемой в оперативной памяти, исключаются индексы и агрегаты — это намного уменьшит объемы данных. В-третьих, поколоночная база значительно более сжата по сравнению с традиционной построчной. Эти три фактора будут в наибольшей степени способствовать снижению объемов данных.
Можно ли полагать, что переход к «предприятию реального времени» повлечет за собой необходимость работы с Большими Данными?
Прямой связи между «предприятием реального времени» и технологиями Больших Данных нет, поскольку, чтобы управлять предприятием в реальном времени, нет необходимости обрабатывать Большие Данные.
Для какого рода задач обработка Больших Данных на «предприятии реального времени» может потребоваться?
Для производственных компаний нашего профиля я вижу два актуальных направления их использования. Первое — построение геологических моделей, в частности гидродинамических: расчет для более мелкой сетки разметки приводит к резкому увеличению объемов обрабатываемых данных. Второе — управление потоками данных уровня АСУ ТП. Наши системы обработки событий позволяют анализировать данные с определенными интервалами времени. В будущем наверняка станет возможен анализ данных с более короткими интервалами. Потребуется ли он на практике — пока не могу сказать.
Для решения каких основных задач производственных предприятий технологии Больших Данных могли бы пригодиться уже сегодня?
В первую очередь это всевозможные симуляционные задачи: «что будет, если произойдет такая ситуация» или «что будет, если принять такое-то решение». Задачи эти сложные: для их решения нужна модель, через которую необходимо «пропустить» множество данных. Сегодня, как правило, используются сильно «загрубленные» модели, точность которых зачастую не годится для принятия эффективных решений. Если сделать модель более точной, можно рассчитывать на получение более качественных решений.
На какую пользу может уже сейчас рассчитывать бизнес, инвестируя в обработку Больших Данных?
Системы Больших Данных, построенные на технологиях обработки данных в оперативной памяти, обладают очень ценным свойством — они позволяют создавать «неразрушающие» инновации: инвестиции «точечно» вкладываются в конкретные компоненты, которые затем постепенно развиваются. Это дает возможность получить от инноваций немедленную отдачу, сохраняя при этом прежние инвестиции. Кстати, быстрая окупаемость — еще одно ценное свойство технологий обработки данных в оперативной памяти.
В нашей компании мы поступили следующим образом: сохраняя все прежние системы, добавили к ним систему на платформе SAP HANA, практически сразу же получили от нее отдачу, после чего спланировали следующие шаги по использованию платформы, поскольку были уверены в их быстрой окупаемости. Бизнесу по большому счету все равно, что за инструментарий будет применяться для тех или иных задач, ему важно, чтобы эти задачи решались эффективно и чтобы инвестиции при этом окупались побыстрее.