В данной статье мы рассмотрим взгляд на решение этой проблемы, с точки зрения компании "Гарант", специализирующейся на технологиях обработки и распространения правовой информации.

Основа наполнения массивов правовых данных — нормативные акты и сопутствующие им документы: комментарии, арбитражная практика и другие источники, количество которых растет с каждым днем. По оценкам ФАПСИ, общее число выпущенных на сегодняшний день федеральных, региональных и ведомственных актов, приказов, постановлений приближается к 3 млн. Даже если считать только наиболее значимые нормативные документы, их количество превышает 100 тыс.

В большинстве своем юридические документы — это хорошо структурированные объекты. Известны диапазоны значений признаков и формы представления такой информации — это справочные правовые системы (СПС), обладающие развитым механизмом поиска. Кроме времени ожидания ответа для пользователей СПС наиболее значимыми параметрами являются четкость ответа и возможность строить сложные, уточняющие вопросы. Здесь уже не обойтись без глубокой аналитической проработки информации, предварительно проведенной профессиональным юристом. Это приводит к необходимости разрабатывать не просто информационный банк данных с удобным пользовательским доступом, а информационный комплекс с распределенной системой сбора, обработки и доставки информации.

Программно-аналитический комплекс, обеспечивающий эффективную работу с правовой информацией специалистов различных профессий, должен состоять как минимум из трех частей:

  • системы сбора и обработки информации, в которой проходит полный цикл подготовки информации;
  • справочной правовой системы, обеспечивающей оперативный доступ к информации;
  • интегрированных инструментов для принятия решений на основе комплексной, в том числе правовой, информации.

Эффективность работы каждой системы повышается, если все они организованы на одной технологической платформе. Для построения единого решения по автоматизации всех трех частей программно-аналитического комплекса компания "Гарант" предложила следующую технологию.

  • Подготовка информации с использованием комплекса "Архивариус".
  • Доступ к информации с помощью справочной правовой системы "Гарант", реализующей интеллектуальный поиск "по ситуации".
  • Правовая поддержка профессиональных автоматизированных рабочих мест посредством интеграции правового блока в программные продукты других производителей.

Решения на основе единой технологической платформы

РешениеНазначение разработкиПользовательДата создания
"Архивариус" - комплекс совместной обработки документов Сбор, параллельная обработка, структурный анализ неограниченных объемов текстовой информации Юрист-разработчик документов, юрист-аналитик 1997 г.
Справочная правовая система ГАРАНТ Получение ответа на любые вопросы правовой тематики Практикующий юрист, бухгалтер, руководитель, менеджер Версия 1.0 - 1990 г., серия ГАРАНТ 4.х - 1997 г.
Технология интеграции правового блока в Windows-программы Разработка профессиональных автоматизированных рабочих мест со встроенной правовой поддержкой Разработчики ПО Версия 1.0 - 1996 г., коммерческая версия - 1997 г.
Программные комплексы на основе технологии интеграции с правовой поддержкой ГАРАНТ Принятие профессиональных решений, основанных на нормах действующего законодательства Практикующий бухгалтер, фармацевт, банковский служащийи др. 1998 г.

"Архивариус" — технология параллельной обработки документов

До недавнего времени объемы информации, поступавшей в систему "Гарант", позволяли вести качественную обработку документов в последовательном режиме. Однако с ростом законотворческой активности встал вопрос о повышении произодительности. Информационный банк, обрабатываемый на базе последовательных технологий, обязательно страдает одним из двух недостатков: либо он содержит плохо обработанную и, следовательно, неудобную в применении информацию, либо заполняется новыми данными с должным качеством, но достаточно медленно. Исследования рынка систем обработки информации показали, что подходящего для компании "Гарант" решения не существует. Дело в том, что в обычной системе сбора и обработки информации стандартными значимыми параметрами с точки зрения разработчика считаются:

  • типы хранимой информации;
  • масштабируемость;
  • разграничение доступа и администрирование;
  • пропускная способность (отношение объема документов к времени их аналитической обработки), зависящая от режима классификации информации (автоматическая или полуавтоматическая);
  • физические ограничения (объем документа, их число);
  • журнал событий с возможностью восстановления состояний;
  • рабочие параметры (скорость индексирования текстов и словарей, поиска);
  • тип поиска: полнотекстовый, по словоформам, по зафиксированным полям базы данных, по ключевым словам;
  • интеграция с другими системами (на уровне интерфейсов, выходных форматов).

Однако в специализированной правовой информационной системе существуют некоторые специфические требования:

  • "единицей исчисления" является не документ, а фрагмент текста, поскольку один документ может содержать несколько различных норм права;
  • многообразие стилей оформления документа;
  • совместная работа с документами: одновременная обработка одного документа несколькими операторами, передача сообщений и документов;
  • автоматизация рутинных аналитических операций: разбор заголовка документа, структуризация документа на блоки, установка тривиальных связей внутри документа, между документом и информационным банком;
  • корректный экспорт в популярные форматы.

Система параллельной обработки информации в режиме реального времени, названная за свою педантичность "Архивариус" (рис. 1) была разработана с учетом перечисленных требований. Фактически подготовка версий СПС ГАРАНТ, которые обновляются еженедельно, ведется с помощью этой системы. Данная технология позволяет создать единую структурированную информационную среду без ограничений на объем. "Пропускная способность" этой системы подготовки документов и организации документооборота, в отличие от технологий предыдущего поколения, может расти неограничено без потери качества обработки информации.

Система хранения

Текст документа хранится отдельно от атрибутов, доступ к которым осуществляется средствами реляционной СУБД. В текущей реализации имеется техническое ограничение на количество документов и междокументных связей в системе — 16 млн., этого вполне достаточно. Система хранения обеспечивает динамическое архивирование (алгоритм LZO) и мультипользовательский доступ по чтению и записи. О качестве архивации и индексации говорит отношение объема исходных текстов в формате ASCII к объему данных в самой базе — 1:1. Этот показатель свидетельствует также об избыточности правовой текстовой информации.

Предусмотренный в системе блок построения инверсного контекстного индекса (все слова -> все документы) после нормализации исходных текстов объемом 900 Мбайт строит индекс менее чем за час на ПК Pentium-166. Таким образом, дилемма " быстрый поиск и большой объем индекса или небольшой объем базы и медленный поиск" была разрешена вполне приемлемым образом.

Средства анализа информации

В системе "Архивариус" имеется лингвистический блок, лицензированный у компании "Информатик", который позволяет нормализовать слова и вести словари синонимов. Поиск по тексту доступен после доиндексации новых документов и может быть выполнен с использованием логических операций "И", "ИЛИ", "И НЕ", а также с учетом всех словоформ, которые встретились на заданном интервале. Например, если задан поиск по слову "иду", то будут найдены также все вхождения слова "шел".

Единая гипертекстовая среда, содержащая миллионы ссылок — необходимое условие работы с массивами правовой информации. Вместе с тем, расстановка ссылок в документах — это работа профессионального юриста, гарантирующая качество и достоверность информации в компьютерной правовой системе. Поэтому именно автоматизации процесса включения нового документа в действующую модель законодательства (процесс расстановки юридических взаимосвязей документов) в комплексе "Архивариус" уделяется особое внимание. Размещение гиперссылки организовано как наглядное выделение начальной и конечной точек связи.

Механизм поиска конечной точки предусматривает разбор текста в начальной точке, нормализацию и построение запроса к полям базы данных, который может быть автоматически уточнен контекстным запросом при слишком большой выборке документов. В результате получается список из документов, наиболее релевантных нужным конечным точкам. Если же найдено несколько "подходящих" точек, то возможно создание мультиссылки, предусматривающей организацию связи со списком документов или их фрагментов. Такой подход можно рассматривать как развитие идеи гипертекста.

Текстовый редактор обеспечивает возможности, необходимые для оформления документа (стили, работа с таблицами, поиск/замена и т.д.). При создании редактора особое внимание уделялось производительности при работе с объемными документами (например, общероссийский классификатор основных фондов имеет размер 1,5 Мб). В результате быстродействие базовых операций (загрузка и навигация по документу) оказалось выше чем у ряда популярных текстовых редакторов. Кроме того, в текстовом редакторе системы "Архивариус" проставляются гипертекстовые ссылки, по которым можно сразу перемещаться после создания документа.

Совместная работа с документами

В зависимости от прав пользователя система предоставляет возможность совместного доступа к атрибутам и различным частям документа информационного банка: текст, классификация, атрибуты, Энциклопедия ситуаций и т.д. Для согласованной работы создана система обмена пользовательскими сообщениями, в которой предусмотрено сохранение сообщений и их рассылка группам пользователей.

Процесс подготовки документа состоит из нескольких последовательно/параллельных этапов, на каждом из которых документ может проходить через руки разных аналитиков. Для обеспечения такого режима работы в системе реализована гибкая концепция этапов или состояний документа в течение заданного промежутка времени. При помощи этапов удобно оценивать общее состояние информационного банка и выявлять узкие места в цикле его наполнения.

"Энциклопедия ситуаций" как модель иерархического классификатора

Специфика российского законодательства, к сожалению, такова, что огромное количество относящихся к нему документов часто имеет противоречивое толкование. "Пойди туда, не знаю куда, принеси то, не знаю что" - именно так многие представляют выуживание информации из массива российских законов, как бы хорошо он не был систематизирован. Конечно, обычные электронные средства поиска (по контексту, реквизитам или классификатору и т.п.) помогают при работе, но часто отнимают много времени и требуют от пользователя глубокого знания предметной области.

Опыт работы с массивами российского законодательства подсказал создателям "Архивариуса" решение этой проблемы. Согласно модели иерархического классификатора системы "Архивариус" юрист-аналитик связывает документы с некими устойчивыми сочетаниями, например, "налоги по льготам пенсионерам", а система пытается распознать входящие в сочетание элементарные понятия — "налоги", "пенсионеры", "льготы" — и создает многоуровневые классификаторы на основе комбинаций понятий. Автоматизация этого процесса позволяет "разбирать" документ, переводя сложные юридические термины на привычный язык. Такой классификатор или "Энциклопедия ситуаций" позволяет мгновенно получать правовое решение ситуации даже в том случае, когда атрибуты документа неизвестны.

Двухуровневая модель классификатора, реализованная для СПС ГАРАНТ, служит сегодня основным инструментом принятия решений для практикующих специалистов в области права. Более 46% пользователей системы ГАРАНТ активно работают с "Энциклопедией ситуаций", одновременно используя ее как архив ситуаций и мощное поисковое средство в составе СПС ГАРАНТ. С помощью комплекса "Архивариус" составление и расширение "Энциклопедии ситуаций" ведется в параллельном режиме.

По сути дела, "Энциклопедия ситуаций" — это, с одной стороны, полный каталог действующих правовых норм (алфавитно-предметный указатель российского законодательства), а с другой — средство анализа всего имеющегося массива правовых документов.

Двухуровневая модель содержит сегодня свыше 100 тыс. словосочетаний. Запрос на поиск формулируется в привычных для любого человека терминах путем описания проблемной ситуации.

Наполнение "Энциклопедии ситуаций"

Каждая правовая норма или группа норм регулирует конкретное правоотношение между субъектами права, возникающее по различным основаниям, определяет условия правового режима вещей и т.п. Подобное правоотношение или "правовая ситуация" — это чаще всего неоднократно возникающая конкретная жизненная ситуация, участниками которой может быть определенное или неопределенное количество субъектов. Обязательным условием является правовое регулирование ситуации или(и) разъяснения компетентного органа по конкретному вопросу (ситуации). Возникновение правовой ситуации и ее решение требует от субъектов анализа возможных негативных последствий различных действий. Инструментом такого анализа и является "поиск по ситуации".

Для реализации этого поиска требуется систематизация правовых ситуаций, которая проводится юристом-аналитиком и представляет собой объединение правовых ситуаций в группы по общему основанию - фактически производится их классификация.

Объединение правовых ситуаций в группы может происходить как относительно субъекта (например, группа "Малое предприятие" содержит правовые ситуации, участником которых является малое предприятие), так и относительно правоотношения или явления, регулируемого правом (например, группа "налог на прибыль" содержит правовые ситуации, связанные с исчислением и уплатой налога). При объединении в группу учитывается важность указанных правовых ситуаций для пользователя.

Формирование "Энциклопедии ситуаций" и поиск

При анализе документа содержащиеся в нем нормы права или разъяснения компетентных органов относятся к определенной группе или нескольким группам правовых ситуаций. Далее внутри группы ситуаций определяется конкретная правовая ситуация, регулируемая нормой права и/или разъясняемая. При работе с "Энциклопедией ситуаций" пользователь действует аналогичным образом, но исходя из конкретной правовой ситуации (проблемы). Например, ситуация: "Право собственности на информацию":

1 уровень — Информация;

2 уровень — собственность на информационные ресурсы и продукты:

  • ст. 6 ФЗ "Об информации, информатизации и защите информации";
  • ст 6 ФЗ "Об участии в международном информационном обмене";
  • п. 4 Письма ВАС о Федеральном законе "Об информации, информатизации и защите информации".

В левом списке двухуровневой структуры "Энциклопедии ситуаций" (рис. 2.) названы основные ситуации, выражающие достаточно широкие понятия, например, "акцизы". В правом списке приводится деление на более конкретные вопросы. Выбрав в левой колонке нужное ключевое слово, пользователь в правой получит список соответствующих ключевых слов дополнительного уровня (например, слову "акцизы" соответствует 66 дополнительных: "акцизные таможенные посты", "акцизы при импорте", "возврат акцизов" и т. п.).

Рис. 2

Рис. 2. Интерфейс "Энциклопедия ситуаций" системы "Гарант".

Каждой ситуации дополнительного уровня соответствует подборка действующих нормативных актов, регулирующих данный вопрос. Имеется возможность вывести объединенный список сразу по нескольким ситуациям. Количество одновременно выбранных ситуаций не ограничено, поэтому можно решать любой комплекс вопросов. Для быстрого нахождения необходимого ключевого слова используются специальные поисковые механизмы — прежде всего, "поиск по первому слову". Более глубокий контекстный поиск внутри списка позволяет найти не только первое, но и любое другое понятие, словосочетание или аббревиатуру, встречающиеся во всех списках ситуаций.

Ответом на запрос служат не сами нормативные акты, а содержащиеся в них правовые нормы, поэтому открывая документ из итогового списка пользователь сразу попадает на правовую норму, которая и послужила основанием ответа на заданную ситуацию. Независимо от того, как сформулирована проблема, пользователь неизбежно выйдет на искомую ситуацию. Так, например, вопрос "доплаты работникам автомобильного транспорта" можно встретить и в разделе "Автомобильный транспорт", и в "Заработной плате", и в "Оплате труда", и в "Транспорте автомобильном". Следует также учитывать возможность перестановки слов в отдельных фразах ("заграничный паспорт" — "паспорт заграничный", "валютная биржа" — "биржа валютная" и т. п.).

Рассмотрим конкретный вопрос: "Какую информацию о сертификации товара должен предоставить покупателю продавец?". Пользователь не имеет представления, в каком документе искать ответ на свой вопрос, не знает ни номера, ни других реквизитов необходимых ему документов. В левом окне "Энциклопедии" выбирается или вводится слово "Торговля", а в правом отмечается его разъяснение — "информация о сертификации товаров". Так описывается искомая ситуация, решение которой система выдает через несколько секунд. В нашем случае это единственный документ — Постановление Правительства РФ от 19 января 1998 г. N 55 "Об утверждении Правил продажи отдельных видов товаров..." (с изм. и доп. от 20 октября 1998 г.). Открывая его, попадаем в статью 12, где и содержится искомая информация.

Отметим также, что в названии найденного документа трудно распознать слова из заданного вопроса. И контекстный поиск, например, по фразе "сертификация товара" или ее усечению не может дать ответа на поставленный вопрос. Список из 11 документов, найденных методом контекстного поиска, также не содержит указанного постановления, а значит и решения проблемы пользователя. К сожалению, в российском законодательстве подобных примеров не счесть.

Настройка "Энциклопедии ситуаций"

"Энциклопедию ситуаций" можно интегрировать в состав программных продуктов других разработчиков, например, при интеграции с бухгалтерскими программами система настраивается юристами в сотрудничестве со специалистами по бухучету. При этом под конкретный вопрос из плана счетов или журнала хозяйственных операций юрист-аналитик подбирает документы, которые регулируют поведение в этой ситуации.

Разработчикам прикладных бухгалтерских систем передается библиотека программ (DLL), позволяющая выполнить интеграцию. Обе компании, участвующие в интеграционном процессе, меняют код своих основных программ: в систему ГАРАНТ добавляется механизм обработки запроса, а в бухгалтерскую часть — вызов запроса. Связь происходит через динамическую библиотеку DLL. Параметрами функций, из которых состоит DLL, являются ключевые слова из "Энциклопедии ситуаций".

Предлагаемая технология межпрограммного гипертекста позволяет интегрировать сколь угодно большой объем правовой информации, которая может быть встроена в любую Windows-программу.

В "Энциклопедии ситуаций" предусмотрены все возможные правовые вопросы — примерно 30% задач из числа самых сложных решается при помощи поиска по ситуации. Списки ключевых слов обновляются одновременно с пополнением базы данных ГАРАНТ. Каждый новый правовой акт может приносить от 1 до 1000 ключевых слов (ситуаций). При таком потоке поступающей информации сохранять быстродействие системы на должном уровне и обеспечивать компактное хранение позволяет уже упомянутый принцип параллельной обработки информации системы "Архивариус".

Программная интеграция

В какой степени компьютер может заменить, например, бухгалтера? Ответы существуют самые разные, однако большинство сводится к идее создания интегрированных рабочих мест, позволяющих специалисту заниматься только творческой деятельностью, и не тратить время на поиск информации или оформительскую работу. В этой связи весьма популярен сегодня интеграционный подход к созданию рабочих мест специалистов.

Суть одного из интеграционных проектов компании "Гарант" - перенос в систему функций опытного аудитора и их предоставление всем бухгалтерам. Правовая система в этом случае сама предлагает необходимые справки в виде контекстно — зависимых переходов, которые могут осуществляться, например, из текста плана счетов, форм отчетности или журнала хозяйственных операций. Технологический принцип встраивания правового блока в другие программные разработки получил название межпрограммный гипертекст. Данный принцип предполагает поддержку связей между документами любых компьютерных систем, содержащих разнородную информацию, типы и форматы данных.

Благодаря механизму межпрограммного гипертекста бухгалтеру доступен быстрый вызов поиска "по ситуациям" — можно непосредственно обратиться к двухуровневому правовому справочнику, содержащему тематические подборки основных документов, например, связанных с конкретной хозяйственной операцией. Таких разъясняющих ситуаций имеется порядка 300, а собранные для них документы являются основополагающими для решения вопросов по различным направлениям бухгалтерского учета и налогообложения. Если запросы бухгалтера шире ,и ему нужно получить более полную картину, он может перейти непосредственно к поиску документов по всей базе данных.

Технологические принципы интеграции

Принцип "гипертекста" включает, как известно, три технологических узла:

  • организация точки выхода из блока;
  • организация точки входа в блок;
  • реализация связи между блоками.

По определению Т.Нельсона, только в случае реализации каждого из трех узлов будет получен стопроцентный гипертекст.

"Энциклопедия ситуаций" состоит из 100 тыс. готовых точек выхода из массива законодательства в практику хозяйственной деятельности, образующих буфер (гипертекстовую связь) между законами и реальной жизнью. Данный набор ситуаций позволяет реализовывать гипертекстовые связи с любым другим информационным массивом: бухгалтерскими проводками, банковскими данными, описанием лекарственных препаратов.

Для упрощения работы в бухгалтерской программе предусмотрена возможность вызова интерактивной подсказки. Межпрограммный гипертекст, организованный в системе ГАРАНТ, позволяет вызывать необходимую правовую поддержку в контекстно-зависимом режиме практически из любого информационного блока и любой точки входа. Благодаря такой связи нормативные документы становятся "понятными" любой программе.

Работа с интегрированным продуктом

Рассмотрим конкретный пример из бухгалтерии, допустим, "План счетов" — "счет №8". Бухгалтер формирует запрос к правовой базе: "Найдите все, что относится к счету №8", а программа подберет необходимые документы с указанием конкретных абзацев, разъясняющих суть проблемы. В "Энциклопедии ситуациий" уже имеются все возможные точки входа из бухгалтерии, перечень которых всегда поддерживается в актуальном виде благодаря использованию в качестве точек входа смысловых понятий.

Предположим, например, что пользователь, получив на экране план счетов и остановившись на Счете 12 (МБП), захотел уточнить, правильно ли он собирается осуществить операцию. Для того, чтобы увидеть регламентирующие документы, надо нажать только одну кнопку "Правовая справка". В результате на экран будут выведены все документы, которые пригодятся в работе с данным счетом (Инструкция Минфина СССР с изменениями и дополнениями, Приказ Минфина РФ и т.д.).

Перспективы и выводы

В августе 1998 г. компания "Гарант" получила контракт из средств Мирового Банка Реконструкции и Развития на консультационные услуги в связи с реализацией в России проекта правовой реформы. В программе дальнейшего развития интеграционных проектов — реализация не только возможности по предоставлению пользователю документов, проектов, законов, бизнес-справок, налоговых календарей, но и автоматического ввода в нужную ячейку бухгалтерской программы такой полезной для бизнеса информации, как, например, курсы валют на конкретную дату.

Преимущества комплексного подхода и единой технологической платформы очевидны — это прежде всего удобство, простота использования, а также отсутствие ограничений на развитие. Автоматизированная технология позволяет каждую неделю пополнять систему ГАРАНТ более чем 500-ми новыми документами. Причем аналогичная работа ведется региональными представительствами компании, которые создают блоки региональной информации, используя ту же технологию обработки данных.


Примеры "новой" интеграции

На сегодняшний день компания "Гарант" реализовала интеграционные проекты с компаниями "1С" (между "1С:Бухгалтерией" и "1С:ГАРАНТ ПРАВОВАЯ ПОДДЕРЖКА", между "1С:Зарплата и Кадры" и "1С:ГАРАНТ ПРАВОВАЯ ПОДДЕРЖКА"), ДИЦ (совместный продукт "Турбо-бухгалтер с правовой поддержкой") и "Информатик" (совместный продукт "Инфо-бухгалтер с правовой поддержкой").