СОНЕТ: инструмент информационной разведки

Вышла вторая версия системы обработки неформализованных текстов СОНЕТ

СОНЕТ 2.0 можно использовать как самостоятельный инструмент поиска и обработки информации, так и в составе автоматизированных информационных систем Разрабатываемая компанией ИВК информационно-аналитическая Система обработки неформализованных естественных текстов, СОНЕТ, ведет свою историю с середины 90-х годов. Ее первое внедрение было осуществлено в администрации Президента РФ в 1996 году. К 1998 году закончилось внедрение в «Восточной нефтяной компании», где с помощью этой системы проводилась классификация входного потока данных и составление дайджеста для руководства. Для решения аналогичной задачи в 2000 году СОНЕТ внедрила у себя корпорация «Парус». Сбор и классификация данных из Internet с помощью СОНЕТа с 2001 года производится в First Market Capital Group. В 2006 году закончена интеграция полнофункционального варианта продукта в систему «ГАС Правосудие».

Вторая версия программной системы была представлена компанией ИВК в середине апреля. По словам начальника отдела программных продуктов Сергея Колесника, задача перед разработчиками стояла весьма нетривиальная: требовалось автоматизировать сбор и аналитическую обработку неструктурированной текстовой информации. То есть проводить классификацию, кластеризацию, анализ контекста, составлять тезаурусы, описывающие ту или иную предметную область. В СССР подобные разработки велись, но наработки оказались со временем частично утеряны, а частично ушли за рубеж.

В основе обработки текстов программой СОНЕТ лежат два процесса. В одном из них используется вероятностная нейросетевая модель обработки информации. Другой процесс — лингвистическая обработка текста, состоящая из морфологического, синтаксического и семантического анализа.

В системе возможен поиск информации по сложным критериям — по ключевым словам или их комбинации с использованием булевой алгебры, по дате или за период, по атрибутам. Далее информация классифицируется по рубрикам, которые можно просматривать в виде списка, сформированного из заголовков сообщений, либо их полного текста. Имеется возможность формирования списка сообщений, пересекающихся по содержанию с анализируемым в текущий момент текстом, а также списка словосочетаний, указывающего на основные проблемные вопросы, сопутствующие анализируемому объекту.

Работа с информацией в СОНЕТе возможна как в автоматическом, так и в диалоговом режиме.

В автоматическом режиме может проводиться первичная обработка информации из разнородных источников. При этом скорость обработки входного потока составляет несколько тысяч документов различных форматов в сутки. Для анализа информация преобразуется в единый формат данных с помощью программ-конвертеров. База данных сообщений пополняется ежедневно, сообщения индексируются, производится их классификация, включая морфологический и синтаксический анализ.

В диалоговом режиме можно производить поиск информации по заданным параметрам, проводить ее кластеризацию и контент-анализ (в том числе по временным срезам) с отслеживанием динамики изменения основных понятий. Во время настройки системы можно сформировать описание рубрик.

Структурно СОНЕТ представляет собой лингвистическую базу данных и несколько взаимосвязанных между собой программных модулей. Комплекс создан с использованием языков Perl, Visual Prolog и Oracle Developer Suite 10.0. Пользователь работает с программой через браузер, поэтому, по словам разработчиков, дополнительные модули не требуются.

В числе сфер применения Колесник назвал такие как информационная разведка, анализ действий конкурентов, выявление спроса и перспективных направлений, изучение рынка и ряд других.

В дальнейшем СОНЕТ планируется дополнить возможностью тонального анализа оценки высказываний в выбранной совокупности статей по категориям: нейтральные, положительные, отрицательные. Будет создана семантическая сеть терминов, составляющих контент анализируемого объекта (персоны, процессы, явления), а также семантическая сеть объектов и понятий, присутствующих в сообщениях. Планируется разработка функций установления возможных транзитивных связей между объектами, присутствующими в группе сообщений, а также реферирование выбранной совокупности статей или формируемого дайджеста.