«Интеллект» вместо «оптики» | Computerworld Россия | Издательство «Открытые системы»

Cognitive Technologies анонсирует новый подход к распознаванию текстов

Владимир Арлазаров: «Cognitive Forms 2007 умеет работать с 16 видами документов, это счета-фактуры, акты, накладные, договоры и т. д.»

«Мы хотим создать такую интеллектуальную систему, в которую можно ввести ‘Евгения Онегина’ и, задав ей вопрос, ‘Назови мне отчество Татьяны Лариной’ получить правильный ответ», — заявил Арлазаров. По его мнению, технология распознавания многокомпонентных, частично структурированных документов CogniDocs дает основания предполагать, что решение этой задачи будет получено уже «во вполне обозримое время».

Пока же на основе CogniDocs создано новое ядро распознавания Cognitive Forms 2007. Принципиальным новшеством технологии является возможность обработки документов, состоящих из частей (или секций), которые могут «стыковаться» между собой по определенным правилам, заданным в описании документа.

«Формальное описание такого класса документов включает описание секций и возможных вариантов их стыковки, — сообщил Арлазаров. — Тем самым создается компактное описание, покрывающее многообразие вариантов компоновки и форматирования реальных документов».

Для реализации этой технологии в Cognitive разработаны формальная модель документа, язык описания документа и алгоритмы анализа, которые обеспечивают идентификацию секций, выполняя тем самым декомпозицию документа, и контролируют выполнение связей между ними. Вложенные алгоритмы обеспечивают анализ секций и выделение реквизитов документа.

На практике это означает такие возможности, как работа с документами, содержимое которых перетекает со страницы на страницу, и с документами, содержащими переменное количество реквизитов (например, строк таблицы). Cognitive Forms 2007 умеет работать с 16 видами документов — счетами-фактурами, актами, накладными, регистрационными документами контрагентов, договорами и т. д. При этом учтены практически все особенности каждого вида документов — например, вертикальное и горизонтальное расположение таблиц в счете-фактуре, таблицы, занимающие несколько листов, различное расположение полей друг относительно друга и т. д.

Ограниченный по функциональности вариант технологии включен в состав новой конфигурации встраиваемого ядра распознавания Scanify API: Bank and Office, которая обеспечивает ввод счетов-фактур, платежных поручений и других деловых документов.

По словам Арлазарова, обозначать такого рода системы «старым» термином «оптическое распознавание документов» (Optical Document Recognition, ODR) не совсем корректно, поскольку классические ODR-решения обеспечивали ввод данных только из так называемых «форм» — документов с упорядоченной структурой. Сам же текст — рукописный или печатный — при этом распознавался на основе геометрических шаблонов. Современные системы используют более широкий набор методов и умеют определять границы искомого фрагмента графического образа не только на основе геометрического расположения на странице, но и с учетом распознанного текста, его соответствия предопределенному синтаксису реквизита, формату, стилю заполнения, в зависимости от правил бизнес-логики и контекста — наличия поблизости ключевых слов и т. п. Поэтому, по мнению Арлазарова, более адекватным определением для решений такого типа является «интеллектуальное распознавание документов» (Intelligent Document Recognition, IDR).

Такие системы могут работать с самыми различными типами документов — газетными и журнальными статьями, аналитическими обзорами и даже художественными произведениями. Но, по словам Арлазарова, с точки зрения бизнеса наибольший интерес представляют востребованные рынком деловые документы. Это договоры и соглашения, формальная деловая переписка, технические статьи, резюме, разного рода балансы, бухгалтерская отчетность и т. п.