Служба новостей IDG, Париж
Компания Xerox разработала новый поисковый инструментарий, который пытается проанализировать смысл документов, а не просто ищет ключевые слова. Решение, получившее название FactSpotter, анализирует базовую грамматику текста для того, чтобы получить дополнительную информацию. По словам Фредерики Сегон, руководящей группой грамматического анализа и семантики в Xerox Research Center Europe, такой информацией, в частности, могут быть данные о том, используются ли неоднозначные слова как существительные или как глаголы и на кого ссылаются местоимения.
Такой анализ позволяет программному обеспечению «понять», что «Билл Гейтс», «он» и «глава Microsoft» в одном и том же документе, скорее всего, — это ссылки на одного человека. Но такая программа также должна «знать», что фразы «Билл Гейтс сказал…» и «друг Билла Гейтса сказал…» начинают прямую речь, произнесенную разными людьми. В такой ситуации, скорее всего, инструментальные средства, анализирующие только ключевые слова, выдадут ошибочный результат.
Одной из первых, кто воспользовался FactSpotter, была группа Xerox Litigation Services, которая в следующем году планирует интегрировать данный инструментарий в пакет программного обеспечения «электронного обнаружения», предназначенный для юристов.
На этапе поиска информации при подготовке судебного иска, когда группам юристов зачастую приходится анализировать миллионы сообщений электронной почты и других документов, это программное обеспечение можно будет использовать для определения отправителя и получателей сообщений, а также выбрать из этих сообщений информацию о событиях и датах. Эти возможности, по мнению Сегон, могли бы использоваться для формирования общей картины, показывающей, что и кто знает и когда это произошло.
Такая информация поможет выстроить надежные доказательства по судебному иску.
Исследовательская группа Сегон разработала свой собственный метаязык для описания грамматик различных языков. Пока разработчики используют его для создания описаний на голландском, английском, французском, немецком, итальянском, португальском и испанском языках.
Сам FactSpotter написан на языке программирования Си; кроме того, были созданы модули на Java и на Python, позволяющие этому инструментарию взаимодействовать с другими приложениями.
Несмотря на то что новое программное обеспечение анализирует только письменные тексты, его можно связать с инструментами, создающими письменные копии аудиозаписей, для того чтобы можно было вести поиск в радио- и телевизионных архивах, и с этой целью компания принимает участие в совместных исследовательских проектах.