Исследовательская фирма Palo Alto Research Center (PARC), являющаяся «дочкой» Xerox, заключила лицензионное соглашение с молодой компанией Powerset. Возможно, в результате этого им удастся создать поисковую машину, способную когда-нибудь потягаться с Google.
Компания Powerset располагается в Сан-Франциско и совместно с PARC работает над созданием поисковой машины, способной обрабатывать запросы на естественном языке. По словам основателя и директора Powerset Барни Пелла, PARC вела исследования в этой области на протяжении 30 лет, и новая поисковая машина будет готова уже к концу этого года.
Компания Powerset смогла привлечь 12,5 млн. долл. инвестиций от различных венчурных фирм и "инвесторов-ангелов", вкладывающих деньги в начинающие компании. В сентябре 2005 года, всего через месяц после основания и за месяц до официальной регистрации, которая состоялась в октябре, Powerset начала переговоры с PARC об использовании разработанных ею технологий.
Начинающей компании удалось даже заполучить лучших специалистов из PARC: например, Рон Каплан, возглавлявший в PARC группу, занятую технологиями обработки естественных языков, лицензии на которые теперь приобрела Powerset, займет в ней должность научного и технического директора.
Кроме лицензий, Powerset получит в свое распоряжение и патенты на данные технологии. В обмен на это PARC достанется доля акций Powerset и отчисления с прибыли за использование лицензий. Кроме того, Powerset профинансирует дальнейшие исследования группы технологий обработки естественных языков в PARC.
Поиск нового поколения?
По словам Пелла, различия между поисковой машиной, использующей обработку естественных языков, и поисковыми машинами Google, Yahoo и другими, осуществляющими поиск по ключевым словам, весьма значительны. «В настоящее время большинство ведущих поисковых машин индексируют страницы Web по ключевым словам, - отметил Пелл. - Но они не имеют никакого представления о том, что эти слова значат или как они соотносятся друг с другом».
Поисковая машина, основанная на обработке естественного языка, сможет принимать запросы, сформулированные так, как их сформулировали бы люди в обычном разговоре, например: "Какую компанию IBM приобрела в 1996 году?" В результате поиска должен быть найден непосредственный ответ на вопрос, а не все ссылки на проиндексированные страницы, содержащие слова "приобрела", "IBM" и "1996".
«Следует признать, что исследования в области обработки естественного языка велись на протяжении 30 лет, и создание успешной технологии оказалось непростой задачей», - сообщил Пелл. Правда, сегодня крупные поисковые машины вроде Google могут искать ответы на запросы, сформулированные в виде фразы-вопроса, но при этом они все равно используют в основном ключевые слова. "Извлечение смысла текста и его взаимосвязей - невероятно сложная задача для решения на компьютере", - добавил он.
Однако, как утверждает Пелл, в последнее время PARC удалось совершить прорыв в исследованиях в этой области, и программы, лицензии на которые получила Powerset, содержат одну из наилучших технологий работы с естественным языком.
Естественно, что усовершенствовать методы поиска в Web на основе обработки естественного языка пытается не только Powerset. Например, компания Hakia тоже работает над созданием поисковой машины, поддерживающей обработку естественного языка. Ознакомиться с бета-версией машины можно на сайте http://www.hakia.com. Поисковая машина Brainboost, которая в настоящее время используется сайтом Answers.com, тоже основана на обработке естественного языка.