Четыре направления развития интеллектуальной обработки текстов
«Развитие интеллектуальной обработки текстов идет в четырех крупных направлениях, — считает В.Л. Арлазаров, генеральный директор компании Cognitive Technologies. — Первое из них — машинный перевод текстов с одного языка на другой». Действительно, эта задача, являющаяся ключевой при создании программы-переводчика, основывается на интеллектуальной обработке текстов, ведь синтаксический анализ без семантического сделать практически невозможно. И хотя уже решены проблемы с составлением словарей и грамматической обработкой текстов, работы предстоит еще много.
«Второе направление, — продолжает Владимир Львович, — аналитические системы». Его компания разработала систему «Астарта», помогающую классифицировать потоки информации. Она автоматически выделяет для группы слов понятия, и тексты классифицируются именно по понятиям. Система «Астарта» применяется там, где, скажем, нужно выполнить первичный анализ содержания потока новостных лент в Интернете, автоматически выбрать именно тексты, имеющие отношение к определенной теме, и направить их на дальнейшую обработку.
Третье направление — документооборот. «В самом начале, с подачи компании Lotus, — вспоминает В.Л. Арлазаров, — в системе циркулировали не сами документы, а их карточки, где указывалось, кто кому какое дело поручил, и т. д. Мы же, — объясняет он, — поставили задачу построить такую систему, где будут перемещаться сами документы». Причем Cognitive Technologies решила ее так, что документ не просто присоединяется в виде файла к карточкам, а из него извлекается содержание. Данное направление специалисты компании и считают наиболее перспективным.
Например, возьмем такую весьма актуальную задачу: проанализировать и обработать текст договора, чтобы извлечь из него информацию и поместить ее в соответствующие поля базы данных. Причем типом ее может быть дата заключения договора, наименование контрагента, номер его счета в банке, почтовый адрес, сумма договора, сроки поставки, перечень материалов и прочее.
В компании с большим числом контрагентов и строгой договорной дисциплиной, где договоры идут непрерывным потоком, для занесения таких данных вручную требуется масса сил и времени, да к тому же возрастает вероятность ошибок.
И наконец, четвертое направление развития интеллектуальной обработки текстов, вплотную примыкающее к третьему, — их распознавание. Оно в значительной степени, как и машинный перевод, основывается на анализе текста документа. «У нас есть документы, для которых полностью описана геометрия и известно, какие данные там располагаются, — поясняет В.Л. Арлазаров. — Мы эти данные извлекаем и помещаем в соответ-ствующие поля базы данных. Это традиционное распознавание документа». Однако Владимир Львович считает это лишь первым шагом и полагает, что следует идти дальше, от распознавания документов, где вся информация строго структурирована, вроде платежных поручений, к работе с такими документами, в которых нет столь четко выраженной структуры, скажем к договорам. Ведь чтобы понять, где какая информация находится в договоре, нужно проанализировать его.
Таково разделение процесса интеллектуальной обработки текста на четыре направления. На первый взгляд кажутся несколько примитивными системы распознавания структурированных документов. «Однако именно они (подобные системы. — М.Г.) сейчас так необходимы, — утверждает В.Л. Арлазаров, — и только они, в отличие от высокоинтеллектуальных систем, всегда имеют четко определенный критерий результативности». Действительно, ведь именно там, где научные эксперименты находят практическое воплощение, где есть реальный результат, и можно говорить об успехе, дающем импульс к дальнейшему развитию направления. И здесь результаты налицо. Так, система анализа и обработки накладных, которую специалисты Cognitive Technologies внедрили на Магнитогорском металлургическом комбинате, сейчас обрабатывает тысячи документов в день, автоматически занося данные с накладных в БД предприятия.
Владимир Львович более подробно осветил четвертое направление развития интеллектуальной обработки текстов, объяснив это тем, что именно оно наиболее востребовано и именно здесь на практике получено наибольшее число результатов.
Как начиналось распознавание — этапы большого пути
Итак, первый этап процесса распо-знавания текстов начался в 1967 г. Именно тогда на Западе была издана книга под названием «Библиография распознавания», содержащая около 350 работ в этой области. До конца 1980-х годов теория распознавания оставалось чисто экспериментальной. «В ученом мире тогда велось очень много работ в этом направлении, — объясняет Владимир Львович, — и кое-что из найденного даже было забыто». Однако в то время из-за отсутствия хороших сканирующих устройств ввод осуществлялся вручную. Поэтому объем обрабатываемого материала в экспериментах не превышал, как правило, нескольких строк, лишь иногда достигая одной-двух страниц.
Второй этап развития наступил в конце 1980-х годов. Переход к нему был обусловлен появлением мощных промышленных сканирующих устройств. Эксперименты по распознаванию текстов стали проводиться на тысячах и даже на десятках тысяч страниц. Появились и настольные сканеры, доступные по цене. Системы распознавания вышли на пользовательский рынок — практически каждый теперь мог положить книжку или документ в сканер и ввести текст в компьютер. И если на первом этапе речь шла о распознавании отдельных символов, то на втором можно с полным правом говорить о распознавании газет, книг, журналов, деловых документов. Распознавание символов — это лишь часть задачи распознавания текстов, пусть и самая интеллектуальная, но далеко не единственная. «К 1994—1995 гг., — cчитает Владимир Львович, — распознавание печатных текстов перестало быть магистральным направлением развития систем распознавания». Впрочем, осталась еще масса работы в науке по этому направлению: никакие машинные системы пока не в состоянии удовлетворительно распознать тексты плохого качества или набранные старинным шрифтом. Но если дело касается обычного современного печатного материала, то можно положить его в сканер и распознать практически без ошибок.
Третий этап развития, начавшийся с середины 1990-х годов, ознаменовался переходом от распо-знавания просто печатных текстов к одновременному распознаванию наряду с текстом структуры документа, чтобы этот текст извлечь и поместить на соответствующие позиции в БД информационной системы. Это, если говорить о направлении распознавания, и есть первая часть интеллектуальной обработки — сколь бы она ни была проста.
Визитные карточки — от сложного к простому
Одним из первых типов документов, которые стали распознавать Cognitive Technologies еще в 1994 г., была визитная карточка. Но это не самый простой документ для распо-знавания. В то время специалисты компании создали первую систему, которая распознавала визитку и пыталась путем интеллектуальной обработки выявить структуру документа из ее текста. «До определенного момента работа шла успешно, но потом мы столкнулись с отсутствием на тот момент технологий по распознаванию шрифтов путем выделения их характеристик, — вспоминает Владимир Львович. — Однако стало очевидно, что если при изготовлении на визитной карточке не выделять шрифты, то она полностью утратит наглядность». И тогда cпециалисты Cognitive вернулись к распознаванию более простых документов.
«В настоящей науке всегда так: кто-то начинает с самой сложной, обычно неразрешимой задачи, — отмечает В.Л. Арлазаров. — И распознавание карточек «умерло», потому что тогда мы так и не смогли научиться идеально их распознавать. Но всегда, чтобы задать новое направление в развитии науки, поставленная задача должна быть достаточно сложной». Спустя 13 лет специалисты компании снова вернулись к этой задаче, однако на совершенно другом уровне развития как науки распознавания, так и технических средств. Не стоит забывать и о том, что своим ходом идет совершенствование уже созданных систем — коммерческие задачи также никто не отменял, а на развитие науки нужны средства.
Владимир Львович представил общий путь развития науки так: «Мысль идет вперед, и задачи, которые ставятся сейчас, по большому счету, неразрешимы. Но когда мы все-таки пробуем подойти к их решению, то сразу высвечиваются основные проблемы, происходит раздробление сверхзадачи на подзадачи. Мы выстраиваем последовательность их решения и постоянно движемся вперед».
Платежные документы — первый успех
Практические результаты такого подхода в настоящее время налицо: все платежные документы почти во всех банках обрабатываются с помощью систем распознавания, будь то программы компании Cognitive Technologies или ее конкурентов. А ведь в платежном документе уже не очень жестко задано расположение элементов текста на листе, хотя и есть структура. В компании научились создавать системы, способные не только распознавать тексты, но и понимать их структуру. Была проведена большая работа по развитию распознавания и обработки изображений.
«Мы научили наши системы распознавания понимать, что такое пробел, — поясняет В.Л. Арлазаров, — и как с помощью пробелов или линий структурируется документ. А это довольно серьезная наука, в детали которой мы не будем вдаваться. Самое главное, — подчеркнул он, — в этих системах уже присутствуют, пусть минимальные, элементы интеллектуальной обработки». Наряду с этим потребовалось найти практическое решение целого ряда весьма непростых задач. Важно было научить систему определять, какое слово распознано плохо (ведь зачастую качество платежек оставляет желать лучшего), как его идентифицировать, сопоставив с несколькими словарными вариантами, которые обычно располагаются в этом месте платежки.
Таким образом, на третьем этапе своего развития системы распознавания могли определить структуру документа и включали элементы, связанные с анализом морфологии слова. Здесь опять прослеживается закономерность общего развития этого направления интеллектуальной обработки текстов — первые платежки, которые пытались распознавать, не были стандартизированы, и тогда данная задача относилась к разряду чисто научной. А сейчас, когда структура бланка платежного поручения стандартизована и всем известна, уже легко сделать так, чтобы этот бланк распознавался системой. Такие системы обработки платежных поручений быстро стали промышленными, они обрабатывают этот тип документов с высокой скоростью. Следовательно, построение ПО для обработки платежек как магистральное развитие интеллектуальных систем распознавания уже закончилось.
Четвертый этап — распознаем, не зная содержимого
В настоящее время мы находимся на четвертом этапе развития систем интеллектуальной обработки текстов. Он начался примерно лет шесть назад, совпав со стартом нового тысячелетия, и продолжается до сих пор. «На этом этапе требуется создавать промышленные системы распознавания документов, в которых отсутствует или не полностью обеспечена геометрическая привязка элементов к содержанию самого документа» — так охарактеризовал настоящую ступень развития интеллектуальных систем распознавания В.Л. Арлазаров.
Действительно, как правило, известно, какого рода информация должна быть в накладной, но в каком месте на листе будут располагаться элементы ее содержания, мы обычно не знаем. И потому четвертый этап развития интеллектуальных систем характеризуется тем, что геометрия играет вспомогательную роль, а центр тяжести исследований приходится на семантическую обработку документа.
Таким образом, если проследить магистральную линию развития систем распознавания, то можно увидеть следующую последовательность. От распознавания отдельных символов — к текстам, затем к документам с фиксированной структурой, от них — к документам с заданной структурой и наконец к документам, у которых структура либо отсутствует вообще, либо задана очень приблизительно. При этом следует помнить, что системы, созданные на предыдущих этапах, продолжают совершенствоваться и уже работают в промышленных масштабах. Именно они приносят основные доходы компаниям, часть от которых идет на дальнейшее развитие науки в этом направлении. Так, специалисты Cognitive Technologies cоздали систему распознавания пенсионных анкет в Пенсионном фонде РФ, т. е. документов с фиксированной структурой. Она успешно функционирует и обрабатывает сотни тысяч анкет в месяц — таковы плоды предыдущего этапа развития систем распознавания.
Вернемся к четвертому этапу, где уже намечается определенный прогресс. Так, сейчас в системах распознавания, созданных на этой стадии развития, в качестве идентификатора, выделяющего в документе отдельные блоки, выступают уже не отдельные слова, а лингвистические наборы. Другая «точка роста» — работа с полноцветными документами, благо современные сканеры научились быстро сканировать и передавать цветные графические образы. Это позволяет обрабатывать документы, напечатанные на гербовой бумаге, скажем, автоматически вводить данные из гражданского паспорта, водительского удостоверения и т. п.
Идет работа с распознаванием, например, текстов резюме, активно развивается направление распо-знавания договоров. У компаний, работающих с документами, сформировалось понимание того, что договоры надо хранить в компьютере не только в виде их формальных реквизитов или карточек, поскольку из них при распознавании можно извлечь гораздо больше реквизитов, чем удавалось раньше. Сейчас значительно возросли вычислительные мощности компьютеров и, следовательно, сократилось время на обработку документов, в частности, на перебор вариантов. Последнее понятие следует пояснить.
«Понятие перебора — основное для задачи распознавания, — подчеркивает В.Л. Арлазаров, — ведь при любой интеллектуальной обработке возникает масса вариантов распознавания. Перебор вариантов заключается в том, что каждый из них мы должны посмотреть, какие-то сразу отбросить, какие-то отсеять после некоторого поверхностного рассмотрения, а какие-то проанализировать более глубоко». Так, специалисты компании недавно презентовали систему распознавания договоров для юридической компании «Городисский и партнеры». Элементы интеллектуальной обработки текстов в ней уже созданы, и теперь она находится на стадии перехода от экспериментальной эксплуатации к промышленной. Ведутся работы и в направлении распознавания накладных для такого гиганта нашей индустрии, как Магнитогорский металлургический комбинат.
Смена подхода
«Основной тормоз развития систем распознавания — наше понимание задачи, — считает В.Л. Арлазаров. — Это глобальная, универсальная причина. Важно уметь так грамотно поставить задачу, чтобы было понятно, как ее решать. А это всегда очень сложно». Чтобы проиллюстрировать сказанное, Владимир Львович привел простейший пример. Предположим, что есть документ определенной формы, занимающий одну страницу, и система распознавания обучена его обрабатывать. И вдруг появляется новая форма документа, занимающая уже две страницы. Распознавать их по отдельности, а затем корректно «склеивать» — задача нетривиальная. Профессор вспоминает, как несколько лет назад его компания с гордостью презентовала созданную систему, способную распознавать многостраничные формы. Это было серьезным достижением.
«Сейчас наш подход полностью изменился, — подчеркивает В.Л. Арлазаров. — Мы стараемся снять все присущее страницам оформление. На предыдущем этапе развития систем мы, опираясь именно на оформление, пытались на его основе идентифицировать страницы. Теперь же постановка задачи совершенно противоположная — никаких страниц, проводится интеллектуальный анализ текста документа в целом».
Так, современные системы распознавания находят в документе адрес и практически всегда адекватно разбирают его. Они уже опираются на нормальный, вполне доброкачественный анализ текстов, пусть пока и не всеобъемлющий. Подобная система автоматически находит в документе адрес, понимает, где указано название улицы, а где — номер дома или квартиры, разбирает все эти элементы адреса и помещает их в соответствующие поля БД. Или, например, выполняется обработка дат. Скажем, если в тексте написано «в конце 19-го века», программа анализирует эту фразу и выдает временной диапазон. Причем современная система распознавания на четвертом этапе своего развития умеет выделять временной диапазон, а также, поскольку постоянно работает с поисковыми системами, сопоставлять события и определять, относятся ли они к упоминаемому периоду времени. А после работы системы распознавания и ввода теста с ним нередко начинают взаимодействовать уже поисковые системы.
О будущем — далеком и близком
Где же путеводная звезда? Какой должна быть система распознавания в будущем? Цель, к которой надо стремиться, была сформулирована еще в 1966 г. «Мы будем говорить, что система ведет интеллектуальную обработку, когда предоставим ей текст поэмы А.С. Пушкина «Евгений Онегин» и она даст нам корректный ответ на вопрос: «Какое было отчество у Татьяны Лариной?» Действительно, может быть, уважаемый читатель вспомнит, что в тексте поэмы говорится о надписи на надгробном камне: «Смиренный грешник Дмитрий Ларин…» «Прошло уже почти полвека, и, надо признать, мы не очень-то сильно приблизились к решению этой задачи, — заключает В.Л. Арлазаров. — Это действительно высокая цель — такое интеллектуальное понимание текста системой».
Ближайшие же задачи, которые потребуется решать при дальнейшем развитии систем распознавания, вполне конкретны. Следующий, пятый этап развития должен научить системы распознавать и извлекать из документа смысл его содержания при условии, что оно заранее неизвестно. Только представьте, мы ищем статью по интересующей нас тематике, дав системе запрос в произвольной форме, а она эту статью идентифицирует из массы других и делает аннотацию на десять строк. Мечта? Пока, к сожалению, да.
«Такие системы мы еще делать не умеем, даже отраслевые, — признает В.Л. Арлазаров, — но экспериментально уже начинаем постепенно, по этапам, движение в этом направлении. Так, извлечение из документа данных, когда мы примерно знаем, что в нем может находиться, — задача уже вполне разрешимая, и мы над ней работаем».
Владимир Львович полагает, что все эти наработки в области систем пятого поколения получат практическое воплощение в системе юридической компании «Городисский и партнеры» и при обработке массы форм-заявок на материалы для Магнитогорского металлургического комбината. Дальнейшая эволюция подобных систем будет заключаться в постепенном переходе от распознавания документов, о которых мы точно знаем, что в них должно быть, к работе с документами, где есть лишь отдельные классификаторы того, что должно быть: списки, перечни, сочетания определенных слов и т. п. И в завершение этого этапа произойдет окончательный переход к интеллектуальной обработке текстов, содержание и структуру которых мы предварительно уже совершенно
не знаем. Общее направление — от частного к общему, движение по пути расширения задачи.
* * *
В заключение буквально несколько слов о человеческом и машинном интеллекте. Владимир Львович в беседе со мной напомнил о такой замечательной черте человеческого интеллекта, как его чрезвычайные гибкость и подвижность. Действительно, как только человек что-нибудь узнает, поле его знаний сразу расширяется. И один из основных моментов в обучении человека как раз и состоит не столько в том, чтобы он научился решать новую задачу, сколько в том, чтобы это свое решение он был способен сопоставлять, присоединять и комбинировать со всеми предыдущими задачами. Системы же искусственного интеллекта в распознавании текстов в этом отношении пока еще несовершенны, они только-только учатся делать такое сопоставление. Но наука движется вперед, вычислительные мощности компьютеров продолжают расти, и мы верим, что настанет время, когда на наш запрос система ответит: «Ларину величали Татьяной Дмитриевной».
ОБ АВТОРЕ: Михаил Глинников – научный редактор журнала «Мир ПК», е-mail: mikeg@pcworld.ru