Несмотря на развитие средств и технологий электронного документооборота, рынок системы распознавания документов не только не уменьшается, но и стабильно растет из года в год. По словам Григория Липича, генерального директора компании ABBYY Россия, средние общемировые темпы роста рынка программного обеспечения категории OCR (Optical Character Recognition — «оптическое распознавание символов») на протяжении нескольких последних лет составили 16%. В прошлом году объем этого рынка достиг 1,3 млрд. долл, а до конца 2010 года вырастет до 2,5 млрд. долл.
Можно выделить несколько «сценариев» использования OCR. К первому можно отнести Ad-hoc & Desktop Capture — ввод документов на нерегулярной основе на базе настольных компьютеров индивидуальными пользователями или в небольших офисах. Второй распространенный сценарий — это применение Batch & Distributed Capture, системы потокового ввода больших объемов информации, например, в архиве или библиотеке. Третий, Transaction Capture, подразумевает работу со специализированными документами вроде счетов-фактур, бланков, бюллетеней или накладных. И четвертый способ использования программ распознавания носит название Full Text Capture, когда выделенный оператор работает с OCR и конвертирует бумажные документы и PDF-файлы в формат офисных приложений для последующего редактирования или сохранения.
По собственным оценкам ABBYY, программа FineReader одинаково успешно решает задачи первого и четвертого типов, на которые в общей сложности приходится около 40% рынка, причем эта доля неуклонно растет.
Для закрепления своих позиций на перспективных рынках компании было необходимо выпустить новую версию FineReader, которая бы максимально отвечала требованиям потенциальных клиентов. Введение новых возможностей и функций в FineReader 9.0 было сделано на основе большого количества опросов, проведенных среди пользователей предыдущей версии, всего работа над девятой версией FineReader заняла почти два года. В этом программном продукте используется новая технология ADRT (Adaptive Document Recognition Technology), позволяющая FineReader 9.0 «понимать» структуру документа. Действие технологии ADRT основано на большом количестве шаблонов моделей документов. После анализа полученного изображения ADRT старается определить, с каким типом документа она столкнулась, и выбрать нужный алгоритм обработки.
В итоге после распознавания получается документ, максимально близкий к исходному тексту, с сохранением таблиц, стилей, шрифтов, нумерованных списков, колонтитулов, сносок, с правильно расставленными переносами. Осуществляется объединение параграфов и таблиц, разбитых границами печатных страниц, даже если страницы имели колонтитулы или сноски. Если обратиться к строгим цифрам, то по сравнению с предыдущей версией FineReader, технология ADRT позволяет повысить точность оформления договоров и юридических документов на 19%, книг — на 22%, газет и журналов — на 32%.
Кроме того, был переработан интерфейс. Многие пользователи отмечали, что предыдущая версия имела «слишком технологичный интерфейс», что создавало сложности при его освоении и в повседневной работе для решения той или иной конкретной задачи. Теперь большинство типовых операций объединено в макросы, позволяющие по одному нажатию кнопки запустить полный цикл обработки документа. Также было уделено внимание обработке изображений, получаемых не со сканеров, а с таких устройств, как цифровые фотокамеры и даже камеры мобильных телефонов. Специальный модуль в FineReader 9.0 осуществит предварительную подготовку этих изображений, выровняв наклонное изображение, оптимизировав контраст и разрешение.
В продажу поступят две версии: ABBYY FineReader 9.0 Professional Edition для индивидуального использования и ABBYY FineReader 9.0 Corporate Edition, ориентированный на предприятия. Версии отличаются наличием у Corporate Edition сетевого режима работы, а также возможности интеграции в систему электронного документооборота компании-заказчика.