В статье «Зашифрованные интеллектуальные поисковые системы» (Открытые системы, №11, 2004) впервые разбирается ряд аспектов создания систем полнотекстового поиска, однако совсем не затрагиваются проблемы разработки таких систем, весьма затрудняющие создание конкретных приложений.
Главным и, возможно, единственным критерием работы поисковой системы является ее эффективность — скорость нахождения пользователем нужной ему информации. В наиболее общем виде работа информационно-поисковой системы сводится к накоплению массива текстовых документов, его индексированию и выполнению пользовательских поисковых запросов.
В большинстве систем полнотекстового поиска запросом может служить любая текстовая строка, а критерием использования документа при формировании ответа является его релевантность поданному запросу. Система, рассмотренная в упомянутой работе, не накладывает (судя по примерам текстов) никаких дополнительных ограничений на содержимое текстов и позволяет в качестве запросов применять вопросительные предложения на русском языке. При этом «…критерием релевантности является возможность эквивалентного преобразования с помощью интеллектуальной обработки полученного ответа к виду запроса. Если такое преобразование возможно, то полученный ответ считается в полной мере релевантным запросу, или точным». В статье не указывается, какие именно типы вопросов способна обрабатывать система. Если никаких ограничений на задаваемые вопросы не накладывается, то следует заметить, что, с точки зрения русского языка, понятие «вопросительное предложение» является сложным и не имеет четких границ, а сам смысл вопроса может оказаться неоднозначным. Более того, если взять за основу практически любое утвердительное или восклицательное предложение и поставить после него знак вопроса, то будет получено вопросительное предложение, и насколько корректно оно будет обрабатываться рассматриваемой системой — не понятно.
В теоретических исследованиях рассматривается понятие «точность поиска» -абстрактная величина, заметно отличающаяся от релевантности и показывающая, насколько указанный документ удовлетворяет реальным потребностям пользователя. В качестве примера можно рассмотреть запрос «защита информации» и саму рассматриваемую статью. Показатель релевантности будет очень высок, но точность мала, поскольку пользователя могут интересовать не стохастический метод защиты информации, а, например, юридические аспекты ее защиты. Если же подать запрос «Что позволяет стохастическая технология?» к тексту этой же статьи, то ответом будет примерно следующий текст: «Использование стохастической информационной технологии позволяет комплексно повысить «интеллект» поисковой системы без ослабления ее защищенности». Такой ответ релевантен, но не точен, поскольку сильно сужает реальные возможности указанного метода защиты информации.
В рассматриваемой авторами данной статьи системе результатом выполнения запроса может быть либо выборка документов, либо построенный на ее основе краткий текст. В первом случае единственным отличием обсуждаемой системы от уже существующих является способность «понимать вопросительные предложения». Во втором случае при «закреплении» за предлагаемой системой права на ошибку кардинальным образом снижается эффективность, поскольку пользователь вынужден самостоятельно проверять все получаемые ответы. Из-за данного ограничения «классическая» поисковая система, предоставляющая только выборку документов, окажется более эффективной и удобной. А для того, чтобы обсуждаемая система гарантированно не делала ошибок (задача создания краткого текста на основе нескольких документов известна как «автоматическое аннотирование»), потребуется решить несколько серьезных научных задач.
Отдельного рассмотрения заслуживают требования к быстродействию системы, поскольку эффективность сколь угодно интеллектуальной, но медленно работающей поисковой системы близка к нулю. В рассматриваемой системе при выполнении каждого запроса необходимо выполнять огромное количество сложных операций, в том числе работы со знаниями, что может потребовать анализа неоднозначностей и перебора множества вариантов, а следовательно, при обработке запроса система должна быть защищена от возможного комбинаторного «взрыва».
Информационно-поисковые системы «изнутри»
Для определения релевантности текстовых документов, правильной трактовки вопросительных предложений и корректного построения аннотаций необходимо решить ряд серьезных научных проблем обработки текстов. Задачу разбиения текста на отдельные слова и морфологического анализа (определение рода, числа, падежа и т.д.) каждого слова можно считать решенной. С последующими этапами синтаксического анализа (определение связей между отдельными словами предложения) и семантического анализа (определения смысла отдельных слов и фрагментов текста) дело обстоит намного хуже:
- При неоднозначном построении синтаксической структуры предложения (например, предложение «Масса рабочего стекла») необходимо определять все варианты синтаксической его структуры.
- Модули должны корректно обрабатывать большинство общеупотребительных синтаксических конструкций русского языка, иметь высокое быстродействие и защиту от комбинаторного «взрыва».
- Модули должны уметь обрабатывать предложения, содержащие ошибки и настраиваться на дополнительные, специфичные для какой-либо предметной области синтаксические конструкции.
Пока не существует готовых к использованию программных средств синтаксического анализа предложений на русском языке, удовлетворяющих данным требованиям.
Последним этапом обработки текста является семантический анализ, состоящий в соотнесении слов или словосочетаний из запроса (либо документа) со специальным тезаурусом — словарем, содержащим все слова языка и бинарные семантические связи между ними (синонимия, антонимия, омонимия и т.д.). Программная реализация тезауруса должна позволять не только хранить его содержимое, но и анализировать семантические связи между словами с учетом их контекста. Из обсуждаемой статьи нельзя однозначно заключить, удовлетворяет ли входящий в рассматриваемую систему модуль синтаксического анализа указанным требованиям. Мало внимания уделено и тезаурусу поисковой системы, его наполнению, возможностям внесения дополнительных сведений и т.д.
Защита данных в информационно-поисковых системах
Все средства защиты информации можно отнести к двум типам: ограничивающие доступ на уровне данных (все системы шифрования информации); ограничивающие доступ на уровне программных средств. Использование средств первого типа дает преимущества в тех ситуациях, когда нарушитель имеет несанкционированный доступ к бинарному представлению защищенной информации, например путем прослушивания канала связи при передаче данных по сети. В других случаях, когда злоумышленник взаимодействует с системой только с помощью штатных средств и не имеет прямого доступа к бинарным данным, средства первого и второго типа практически эквивалентны. Очевидно, что описанная в обсуждаемой работе система относится к первому типу, поскольку хранит содержимое базы данных в закодированном виде, чем, конечно же, существенно отличается от других систем. Тем не менее возможно построение аналогичной, с точки зрения функциональности, защищенной системы полнотекстового поиска, действующей по второму принципу. В этом случае вся система (включая модуль контроля над правами доступа) располагается на отдельной вычислительной машине, взаимодействие с которой возможно только по защищенному каналу связи.
Создание интеллектуальных систем полнотекстового поиска документов является одной из важных практических задач обработки русскоязычных текстов, однако все исследования в этом направлении упираются в одни и те же проблемы: необходимо создание модуля синтаксического анализа, удовлетворяющего всем указанным требованиям; необходимо построение и использование наиболее полного электронного тезауруса русского языка, что является сложной задачей как с точки зрения лингвистики, так и с точки зрения программирования. Если авторам обсуждаемой статьи удалось решить данные проблемы, то это уже само по себе является серьезным прорывом и заслуживает самых высоких оценок. Если же ни одна из таких задач не решена, то о «комплексном повышении интеллектуальности поисковой системы» и речи быть не может.
Константин Селезнев (skostik@relex.ru) — сотрудник компании РЕЛЭКС (Воронеж).