Вышла вторая версия системы обработки неформализованных текстов СОНЕТ
Разрабатываемая компанией ИВК информационно-аналитическая Система обработки неформализованных естественных текстов, СОНЕТ, ведет свою историю с середины 90-х годов. Ее первое внедрение было осуществлено в администрации Президента РФ в 1996 году. К 1998 году закончилось внедрение в «Восточной нефтяной компании», где с помощью этой системы проводилась классификация входного потока данных и составление дайджеста для руководства. Для решения аналогичной задачи в 2000 году СОНЕТ внедрила у себя корпорация «Парус». Сбор и классификация данных из Internet с помощью СОНЕТа с 2001 года производится в First Market Capital Group. В 2006 году закончена интеграция полнофункционального варианта продукта в систему «ГАС Правосудие».
Вторая версия программной системы была представлена компанией ИВК в середине апреля. По словам начальника отдела программных продуктов Сергея Колесника, задача перед разработчиками стояла весьма нетривиальная: требовалось автоматизировать сбор и аналитическую обработку неструктурированной текстовой информации. То есть проводить классификацию, кластеризацию, анализ контекста, составлять тезаурусы, описывающие ту или иную предметную область. В СССР подобные разработки велись, но наработки оказались со временем частично утеряны, а частично ушли за рубеж.
В основе обработки текстов программой СОНЕТ лежат два процесса. В одном из них используется вероятностная нейросетевая модель обработки информации. Другой процесс — лингвистическая обработка текста, состоящая из морфологического, синтаксического и семантического анализа.
В системе возможен поиск информации по сложным критериям — по ключевым словам или их комбинации с использованием булевой алгебры, по дате или за период, по атрибутам. Далее информация классифицируется по рубрикам, которые можно просматривать в виде списка, сформированного из заголовков сообщений, либо их полного текста. Имеется возможность формирования списка сообщений, пересекающихся по содержанию с анализируемым в текущий момент текстом, а также списка словосочетаний, указывающего на основные проблемные вопросы, сопутствующие анализируемому объекту.
Работа с информацией в СОНЕТе возможна как в автоматическом, так и в диалоговом режиме.
В автоматическом режиме может проводиться первичная обработка информации из разнородных источников. При этом скорость обработки входного потока составляет несколько тысяч документов различных форматов в сутки. Для анализа информация преобразуется в единый формат данных с помощью программ-конвертеров. База данных сообщений пополняется ежедневно, сообщения индексируются, производится их классификация, включая морфологический и синтаксический анализ.
В диалоговом режиме можно производить поиск информации по заданным параметрам, проводить ее кластеризацию и контент-анализ (в том числе по временным срезам) с отслеживанием динамики изменения основных понятий. Во время настройки системы можно сформировать описание рубрик.
Структурно СОНЕТ представляет собой лингвистическую базу данных и несколько взаимосвязанных между собой программных модулей. Комплекс создан с использованием языков Perl, Visual Prolog и Oracle Developer Suite 10.0. Пользователь работает с программой через браузер, поэтому, по словам разработчиков, дополнительные модули не требуются.
В числе сфер применения Колесник назвал такие как информационная разведка, анализ действий конкурентов, выявление спроса и перспективных направлений, изучение рынка и ряд других.
В дальнейшем СОНЕТ планируется дополнить возможностью тонального анализа оценки высказываний в выбранной совокупности статей по категориям: нейтральные, положительные, отрицательные. Будет создана семантическая сеть терминов, составляющих контент анализируемого объекта (персоны, процессы, явления), а также семантическая сеть объектов и понятий, присутствующих в сообщениях. Планируется разработка функций установления возможных транзитивных связей между объектами, присутствующими в группе сообщений, а также реферирование выбранной совокупности статей или формируемого дайджеста.