Динамическая классификация для аналитиков

Современные технологии поиска позволяют обрабатывать огромные массивы данных в разных форматах, но оправдывают себя, только если пользователи знают, что именно хотят найти, а так бывает далеко не всегда. Технология динамической классификации информации помогает определить конкретный объект поиска даже в тех случаях, когда пользователи заранее его не знают.

Поиск информации зачастую представляет собой заранее не запланированный, дедуктивный, происходящий в режиме реального времени процесс, иногда приводящий к появлению новых знаний. Технология динамической классификации вносит в процесс мышления аналитика элементы творчества и усиливает его интуицию. Кроме того, она может служить основой взаимодействия исследователей благодаря возможностям сохранения полученных знаний и обмена дедуктивными процессами, приводящими к их получению. На ее базе могут быть организованы сообщества экспертов с общими методологиями исследований, что, в свою очередь, обеспечивает экспоненциальный рост скорости генерации нового знания.

Технология динамической классификации реализуется программными средствами, позволяющими определить предмет поиска, что особенно эффективно в тех ситуациях, когда невозможно предварительно сформулировать информационную потребность. Динамическая классификация поддерживает не сам поиск, а реорганизацию данных на основе потребности в информации. Соответствующие программные средства обеспечивают в режиме реального времени отображение найденной информации в структурированном виде и классификацию результатов каждой итерации. Они дают возможность сократить путь от «поиска» к «нахождению» за счет отображения информационной структуры данных в виде матрицы, которую исследователь может «окинуть взглядом». Кроме того, он может передвигаться по информационной структуре, вносить в нее изменения и настраивать ее в соответствии с особенностями своего мышления и формирования умозаключений.

Понятие «поиск»

Слово «поиск», как правило, понимается как метафора, описывающая процесс нахождения каких-либо объектов. До сегодняшнего дня поиск — наилучшая, наиболее разумная форма сбора информации независимо от того, какая технология при нем используется. С технической точки зрения поиск является процессом получения документов и других объектов, соответствующих запросу. Однако очевидно, что в технологии поиска чего-то не хватает: многие пользователи говорят о том, что им нужен более простой способ получения информации.

В подходе, который получил название «динамическая классификация», предполагается, что проблема неэффективности поиска решается в процессе обнаружения информации, а не в процессе ее поиска. До сих пор считалось, что эти процессы дополняют друг друга или даже являются «синонимами», но на самом деле они различаются. Внимательно рассмотрев и исследовав их различия, можно увидеть, что отдельно взятая технология поиска, с одной стороны, соответствует нуждам компании, а с другой, не вполне удовлетворяет потребности отдельно взятых пользователей.

Поиск — это итерационный процесс, который состоит из нескольких повторяющихся этапов уточнения, направленных на обнаружение не обобщенной информации об объекте поиска, а отклонений и неоднородностей в структуре этой информации. Повышение интенсивности подобного обнаружения часто становится результатом применения динамичного процесса связывания массивов данных для получения некоторой информационной матрицы, трансформация которой напоминает «путешествие» в пространстве информации путем изменения семантического аспекта рассмотрения исходных данных. До недавнего времени это «путешествие» проходило в сознании пользователя, и большая его часть оставалась невидимой, а тем более не отображалась на экране компьютера.

Классические поисковые технологии предоставляют пользователю только часть информации, наиболее релевантную критериям поиска, причем значительный объем информации не анализируется, хотя и остается доступным. При использовании динамической классификации происходят отображение информационной матрицы, произвольная перестройка ее структуры пользователем и анализ с возможностью сохранения вновь скомбинированных данных на любой итерации поиска для последующего обмена с другими пользователями и конкретного применения. Иными словами, трудно уловимый интуитивный процесс обнаружения информации оснащается инструментами визуализации и отладки.

Допустим, человеку необходимо найти и снять квартиру на севере Москвы. При использовании технологии поиска он вводит запрос «сдача квартиры внаем в САО Москвы». В результате множества запросов «вслепую» он принимает решение арендовать коттедж в Химкинском районе. Решение принято, и поиск можно считать успешным. Но когда этот человек сделал первый запрос, мог ли он предполагать, что поиск закончится коттеджем в Подмосковье, даже понимая, что некая логическая связь между квартирой в Москве и коттеджем в Подмосковье существует? В процессе обнаружения информации он принял тысячи простых последовательных решений, допустил некоторые компромиссы, и все это — на основе анализа результатов первоначального поиска, которые его не удовлетворили. Предпринятое «путешествие» с технической точки зрения невозможно спрогнозировать или автоматизировать.

Из данного примера можно выделить одно из направлений улучшения качества традиционной технологии поиска. Поисковая технология позволяет идентифицировать и предоставлять пользователю документы или какие-то другие объекты, соответствующие его запросу. И хотя сегодня именно этот процесс определяется как поиск, он весьма условно соответствует принципам человеческого мышления. Зачастую человек не способен отчетливо сформулировать, что именно он хочет найти, а может только распознать искомую информацию или определить цель поиска.

Еще чаще поиск завершается обнаружением совсем не той информации, которую первоначально предполагалось найти, причем человек не может отчетливо понять, как это происходит, или как-то предопределить этот процесс. Отклонение от начальной цели становится результатом ряда неожиданных решений, принятых при анализе промежуточных данных. Суть в том, что и первоначальные критерии поиска, и его направление не всегда соответствуют тому, что будет считаться успешным решением. В таких ситуациях динамическая классификация может быть очень полезной, поскольку позволяет сформировать развернутую «информационную картину», способствующую исследованию и углубленному анализу информации, которая первоначально не ассоциировалась с решаемой задачей.

Вернемся к примеру с поиском недвижимости. При первом поиске данные представляются в виде двумерного массива: местонахождение и тип недвижимости. Скажем, местонахождение — Москва, Химки, Долгопрудный, Куркино; особенности местонахождения — близость к метро, парковая зона, наличие автостоянки; типы арендуемого жилья — комнаты, квартиры (одно-, двух-, трехкомнатные), коттеджи; типы аренды — на короткий срок, на длительный срок. Пользователь не увидит классификационную информацию, которую система посчитала релевантной поиску, хотя подобные классификации известны заранее. Можно представить, насколько быстрее пойдет поиск, если пользователь сможет одним взглядом охватить всю информационную картину классификации, если ему будет доступны навигация по всей иерархии классификаций и наблюдение результатов комбинирования разных классификаций с возможностью их сохранения.

Этот процесс исключительно сложен, поскольку пользователь переходит от линейного, статичного, итерационного процесса поиска к многомерному и постоянно меняющемуся процессу обнаружения информации. К счастью, наше сознание обучено запоминать и упорядочивать понятия, выстраивать взаимосвязи между ними — естественно, с субъективными искажениями. Мы принимаем на веру эту мыслительную онтологию как индивидуальную модель мира и его основных категорий. Но единственный способ, с помощью которого мы можем передать такую способность нашего сознания в среду, в которой осуществляются процессы поиска, — это изоляция онтологий и помещение их в однородную семантическую среду. Тогда процессы обнаружения информации смогут реализоваться без сверхмерного усложнения информационной системы, по принципу «разделяй и властвуй». Применение данного рассуждения на практике состоит двух этапов:

построение семантического основания на базе таксономических словарей в процессе индексирования информации;
использование семантического основания как средства представления знаний с помощью технологии динамической классификации при выполнении поисковых запросов.

Совмещенная технология поиска и категоризации

При тривиальном подходе операции поиска и категоризации (классификации) документов осуществляются двумя разными программами-серверами. При этом информация обрабатывается дважды (отдельно сервером индексации и сервером категоризации) — при неизбежном дублировании. Представляется разумным объединить процессы поиска, индексирования и категоризации. Тогда за счет сокращения числа процессов значительно уменьшатся количество сложных функций управления, объем передаваемой внутри системы информации и повысится безопасность работы системы. Кроме того, при значительном уменьшении числа процессов повысится производительность системы, в частности — за счет оптимизации и согласованности работы единого «конвейера».

В обсуждаемом решении операции индексирования и категоризации документов объединены в комплексный процесс, благодаря которому формируется единый, унифицированный и насыщенный информационный ресурс. В ходе данного процесса идет поиск в поступающих документах ключевых слов и фраз при одновременном их сопоставлении с заранее сформированными таксономиями и категоризацией документов. Таким образом, анализ данных и индексирование производятся «в тандеме». В данном случае категоризация рассматривается как расширение процесса индексации и необходимая платформа поиска, организованного в виде однократного настраиваемого технологического цикла. Даже в системах небольшого масштаба очевидны преимущества однократного технологического цикла, в рамках которого выполняются несколько функций, а в крупных распределенных системах они становятся критически важными: некоторые компании начали хранить для последующего анализа всю свою информацию, от почтовых сообщений до переписки между подразделениями.

Таксономии

На рис. 1 схематически показан технологический процесс категоризации и классификации данных в системе RetrievalWare компании Convera. Главным преимуществом категоризации в этой системе является таксономическая структура категорий, объединяющая семантические понятия в единую, универсальную и согласованную структуру. Такая структура связывает понятия отношениями «общее—частное» и представляет собой естественный способ описания модели мира. Например, очевидно, что человек — млекопитающее, но эти понятия не тождественны. Таксономические структуры могут описывать деловые процессы или предметную область клиентов системы с тем же успехом, с каким они описывают модель мира.

Рассмотрим, к примеру, процесс делопроизводства канцелярии. Существует входящий поток корреспонденции, который должен быть обработан самими сотрудниками или с помощью процедур канцелярского делового процесса. Обычно, сотрудник, принимающий корреспонденцию, должен ее зафиксировать, присвоив соответствующий входящий номер, перенаправить адресату (исполнителю) и сделать соответствующую отметку об этом. Однако всегда остается открытым вопрос о компетентности данного сотрудника (насколько он знает все возможные типы входящей корреспонденции). Пример фрагмента таксономии приведен на рис. 2.

Рис. 2. Фрагмент таксономии для канцелярии

Следующая таксономия, которая нам понадобится для описания этого процесса, отражает структуру организации и является в определенной степени уникальной, характерной только для этой компании. Процесс документооборота для данного «фрагмента» деятельности представляется следующим образом. Поступающий в организацию документ переводится в электронный формат и индексируется. В процессе индексации определяется тип документа на основе его исходных данных, титульных листов, заголовков и т.д. и их соответствия таксономии документов, являющейся устойчивой и даже закрепленной в ГОСТах. Затем на основании таксономии структуры организации и предписанных связей между таксономиями происходит выделение из текста сущностей, соответствующих конкретному получателю (исполнителю), документ получает внутренний номер и направляется на исполнение соответствующему адресату. В хорошо структурированных организациях с прописанными служебными обязанностями в данном случае уровень ошибок не превышает 7-10%, а при выполнении этого фрагмента бизнес-процесса вручную этот уровень может достигать 20-25%. Не надо забывать и о скорости: в автоматизированном варианте она в 100 раз выше, чем при исполнении вручную.

Между тем процесс создания и поддержания актуальности таксономий очень трудоемок и требует работы высококвалифицированных специалистов. Кроме того, его необходимо осуществлять непрерывно, отслеживая постоянно появляющиеся расхождения между узлами таксономий и словами, которыми соответствующие семантические понятия могут обозначаться в текстах документов. Предлагаются два способа решения этой проблемы.

Первое — поставка набора стандартных таксономий подразумевает его поддержку в актуальном состоянии. Этот набор охватывает все отрасли промышленности, а отдельные таксономии могут комбинироваться друг с другом в единую структуру, охватывающую предметную область клиента. Такие таксономические структуры дополняются специализированными семантическими словарями (семантическими сетями) и оптимизируются по производительности и поисковым характеристикам. Объединенные семантические ресурсы называют «таксономическими картриджами». Подключение новых таксономических картриджей требует повторной индексации, категоризации и классификации данных.

Второе — применение специальной технологии SmartLatching, которая позволяет выявлять семантические отношения между терминами, принадлежащими разным предметным областям, на основе их совместной встречаемости в составных терминах (рис. 3). Данная технология предназначена для поддержки соответствия между словами и словосочетаниями в документах клиента и его таксономическими картриджами. Использование поставляемых таксономических картриджей позволяет поддерживать в адаптированном для поиска состоянии те связи, которые первоначально определяются в семантических сетях и для каждого термина описывают все известные связи с семантическими понятиями и другими терминами, применяемыми для расширения в процессе поиска. Например, в семантических сетях уже содержится информация о том, что термины «помещение», «квартира», «дом» и «апартаменты» имеют общее семантическое значение. Независимо от того, какие термины присутствуют в документах, их категоризация будет выполняться автоматически и без дополнительных уточнений.

Каждый раз, когда документ поступает в систему RetrievalWare, он обрабатывается с помощью комплексного процесса обеспечения поиска, который взаимодействует с системой безопасности, поддерживает доступ к хранилищу документов и другие необходимые операции. В тексте документа автоматически фиксируются и отмечаются ключевые слова, семантические понятия и названия объектов (сущности). Обнаруживаются и фиксируются связи между ключевыми словами и терминами в таксономических картриджах. Этот процесс также выполняется для семантических понятий и сущностей. Для данной операции могут использоваться не только таксономические картриджи, поставляемые Convera, но и списки ключевых слов и словари, сформированные клиентом самостоятельно либо полученные у других компаний. Такой процесс выполняется одновременно с индексированием, в фоновом режиме под управлением процессов администрирования системой.

Таксономии применяются для динамической классификации, позволяющей потребителям в режиме реального времени просматривать анализируемый массив документов в соответствии с набором его категорий, использованием возможностей их группировки и выявления корреляций.

Динамическая классификация

Предположим, пользователь анализирует террористическую активность и отобрал документы, соответствующие поисковому запросу «автомобиль, начиненный взрывчаткой». При визуализации результатов поиска с помощью динамической классификации на экране отображается иерархическая структура тематических папок, состав которых соответствует найденным документам, а числовые коэффициенты характеризуют распределение документов между категориями. Классификация показывает в виде структуры папок все категории, к которым относятся релевантные запросу документы. Также для каждой папки отображаются подчиненные папки (подкатегории), которым соответствует наибольшее количество найденных документов.

При желании пользователь может переходить из папки в папку, просматривать содержащиеся в них документы и получать представление о структуре анализируемой информации. Если ему необходимо ознакомится лишь с общей картиной «правовой деятельности в отношении терактов с использованием автомобилей, начиненных взрывчаткой», он сразу поймет, что большая часть документов касается экстрадиции террористов, в два раза меньше — взаимопомощи при борьбе с терроризмом и т.д.

Рис. 4. Пример динамической классификации результатов запроса

Если необходимо проанализировать ту же информацию в двух семантических аспектах, можно выбрать сразу две системы классификации. При этом пользователь получает набор папок в форме таблицы: заголовками ее строк и столбцов служат элементы выбранных категорий, а в ячейках располагаются сведения о количестве соответствующих им документов (рис. 4). При выборе определенной ячейки можно получить список документов, соответствующих требуемому пересечению классификаций, и с его помощью подробно изучить интересующий вопрос. Таким образом, пользователь получает общее представление о предмете его интереса, а обнаруженные в общей картине закономерности или аномалии стимулируют его дедуктивное мышление и направляют дальнейшие усилия на выбор конкретной, четко определенной информации.

В том случае, если пользователь выявил полезную комбинацию классификаций и поисковых запросов, он может ее сохранить для дальнейшей работы или передать коллегам. Сохраненные классификации и поисковые запросы могут служить унифицированными информационными объектами для более глубокого анализа информации статистическими методами. Например, в приведенном примере можно сохранить классификацию «Правовые действия со случаями использования заминированных автомобилей в 2001 году», которая при необходимости будет применяться к другим наборам исходных данных.

Для чего это нужно?

В то время как категоризация позволяет проводить индексацию данных на уровне компании, динамическая классификация обеспечивает гибкую проблемно-ориентированную индексацию той же информации на уровне пользователя или рабочей группы. Может показаться, что наличие множества субъективных принципов структурирования информации не очень полезно, но это не так.

Во-первых, классификация побуждает пользователей к интуитивному и дедуктивному мышлению, благодаря чему повышается производительность их труда. Во-вторых, она предоставляет средства получения индивидуальных решений. В третьих, возможности сохранения и распространения методологий анализа и выявленной информации обеспечивает взаимодействие аналитиков на качественно новом уровне. Очевидно, что при таком взаимодействии может уменьшиться количество случаев выполнения сотрудниками одной и той же работы. Кроме того, оно позволяет распространять между ними «лучшие практики» и «эффективные теории» анализа информации.

Случайные открытия в структурированной предметной области

В отличие от категоризации, динамическая классификация предназначена для обнаружения новых особенностей модели и новых знаний о предметной области преимущественно за счет выявления корреляций и взаимосвязей между ее элементами. Например, «Автотранспорт/Грузовик» и «Вооружение/Мины» соответствуют разным таксономическим классификациям, а традиционное понимание иерархических отношений между понятиями предполагает, что мина является видом вооружений, а грузовик — автотранспортным средством.

Сохранение и использование таких знаний в форме таксономических структур полезно для обеспечения единого для всех понимания предметной области. Организация информации в соответствии с заранее сформированными структурами гарантирует, что при необходимости она будет найдена. Правда, этого не всегда достаточно для решения конкретных задач, поскольку, скажем, медики, сотрудники спецслужб и производители разных видов вооружения рассматривают термин «мина» по-разному и при поиске даже в массиве одинаковых документов нацелены на разную информацию.

Каждый эксперт хотел бы, чтобы информация была организована в соответствии с особенностями его мышления и стоящей перед ним конкретной задачей. Именно по этой причине категоризация применима на уровне организации, а классификация — на уровне пользователя. Таксономические структуры, обеспечивающие взаимопонимание людей, не способствуют решению стоящих перед ними проблем, поскольку таксономиям свойственна жесткая структура. Они моделируют слабо изменчивые концептуальные знания в определенной предметной области. Организации таксономии нужны для согласованного непротиворечивого представления сферы их деятельности и принятой терминологии. Для экспертов наблюдение на экране компьютера информации, в соответствии с которой мина является видом вооружений, не представляет интереса, поскольку при решении поставленной задачи их мысли находятся на десятки шагов впереди.

Когда пользователь получает инструмент динамической классификации, в результате поискового запроса с термином «мина» он получает список категорий, связанных со словом «мина» в найденных документах. При анализе этого списка пользователь не ощутит неудобств, связанных с организацией категорий в труднопонимаемую структуру. Он может создать свой способ их представления, свою классификацию на основе собственной точки зрения.

Предположим, сотрудник спецслужбы анализирует новые технологии создания взрывных устройств. Когда он увидит в результатах динамической классификации по запросу «начиненный взрывчаткой автомобиль» папку, соответствующую категории «оружие массового уничтожения», простое любопытство заставит его открыть эту папку и обнаружить в ней подкатегорию «химическое оружие». Он сможет классифицировать документы из этой категории с помощью географической таксономии и определить, что наибольшее количество документов связано с Ближним Востоком. Данные результаты исследований можно сохранить в виде новой категории либо сопоставить с какой-нибудь другой таксономией и лишь потом сохранить.

Однократная индексация и категоризации для решения разных задач

Динамическая классификация позволяет анализировать информацию с разных, порой непредсказуемых точек зрения. Поскольку категории могут формироваться динамически, нет необходимости в разработке системы категоризации для каждой конкретной задачи и в поддержании этой системы в актуальном состоянии. Выявление сущностей осуществляется однократно, а полученные результаты могут быть использованы по-разному. Информация и сущности, содержащиеся в документах, имеют смысл, только если они соответствуют текущей информационной потребности пользователя. По этой причине структура категории, в которую попадают документы, со временем меняется. Ее трансформация отражает реальные изменения в соответствующей предметной области, в языке и видении предметной области пользователем.

Нельзя предугадать, с какой точки зрения информация будет анализироваться. Например, термин «перекресток» определялся как описание транспортной системы, но не появлялся в структуре папок-категорий, поскольку это слово стало интересовать экспертов только после появления соответствующей сети магазинов. Динамическая классификация позволяет находить термины и анализировать информацию о них с точки зрения географии, торговли и т.д. Если пользователь обнаружит что-либо интересное, например скрытые закономерности, он может сохранить эту классификацию для последующего анализа или передать руководству для получения дальнейших указаний.

Насколько интересным для пользователя окажется конкретный документ, предсказать невозможно. Еще труднее угадать, как он может быть задействован в будущем. По этой причине на уровне организации необходимо индексировать всю информацию для формирования базы знаний, а классифицироваться она должна на уровне потребителей или подразделений с целью использования базы знаний при решении конкретных задач.

Простота, скорость и гибкость

Людям свойственно стремление к организации собственных информационных ресурсов, что проявляется в попытках создания персональных порталов. Динамическая классификация позволяет в режиме реального времени формировать структуры папок, которые можно динамически перестраивать в соответствии со своим мыслительным процессом. Динамика обработки информации обеспечивается за счет объединения процессов поиска и категоризации. В результате индексации и категоризации система получает информацию о семантике документов, сохраняемую в индексах вместе с весовыми характеристиками категорий, которым соответствуют эти документы. Таким образом, для поиска и динамической классификации применяются специально адаптированные структуры данных, а потому эти операции выполняются в течение секунд, а не дней.

После того как сформированная классификация признана полезной и сохранена, она становится динамическим объектом. При поступлении новых документов в зависимости от их семантики происходит перестройка сохраненных классификаций в автоматическом режиме. Таким образом, динамическая классификация превращается в непрерывный процесс поиска информации.

Процесс генерации человеком нового знания целиком и полностью зависит от гибкости интеллектуального механизма. В свою очередь, эта гибкость зависит от количества активных ассоциативных связей в конкретной области поиска решения плюс числа активируемых при поиске ассоциаций из смежных областей, отнесенных к общему числу приобретенных в процессе жизни ассоциаций. Поскольку количество таких ассоциаций не очень сильно различается у разных людей (по крайней мере, не на порядки), успех правильного решения зависит от суммы ассоциаций, принадлежащих области поиска решения.

Фактически, создавая таксономии, мы формируем ассоциативные связи между понятиями по образу и подобию своему. И от того, насколько эффективно мы можем сформулировать эти таксономии, зависит эффективность поиска для формирования нового знания.

Александр Громов (alexanderg@convera.ru) — генеральный директор, Константин Чубинидзе (konstantinch@convera.ru) — директор по науке компании Convera (Москва).