ABBYY Software House выпустила серверный вариант OCR
Александр Рылов: «Страницы отдельно — процессоры отдельно!» |
До недавнего времени в ассортименте средств для оптического распознавания документов, предлагаемых компанией ABBYY Software House, имелись клиентский коробочный продукт FineReader и его SDK-версия, предназначенная для создания проектных решений. И не было как такового специализированного продукта для заказчиков, которым необходимо вводить большой объем документов на многих рабочих местах одновременно. При этом требующего минимальных настроек и внимания со стороны системных администраторов.
Эту нишу призван закрыть ABBYY Recognition Server, удовлетворяющий вышеперечисленным требованиям. По словам главного менеджера по технологическим продуктам компании ABBYY Александра Рылова, Recognition Server представляет собой первое высокопроизводительное серверное решение для автоматизации процессов оптического распознавания и конвертирования документов в и из формата PDF в промышленных масштабах. Толчком к его созданию послужил опыт компании, полученный в результате работы на зарубежных рынках. Там довольно значительную долю заказчиков составляют сервисные бюро, оказывающие услуги по переводу бумажных документов в электронный вид. В России подобных компаний пока мало, но уже есть первые успешные опыты создания таких сервисных бюро и отмечается рост спроса на их услуги. Другую группу потенциальных клиентов образуют компании с централизованной системой управления информационными ресурсами, использующие большие архивы и нуждающиеся в возможности поиска документов по полнотекстовому индексу.
Специфика указанных задач такова, что клиентские решения на основе FineReader оказываются неэффективными с точки зрения производительности — процесс распознавания полностью занимает ресурсы центрального процессора и при больших объемах вводимых документов будет простаивать остальная работа. Разработка же специализированных решений невыгодна экономически.
Система ABBYY Recognition Server позволяет весь процесс распознавания и конвертации вести на выделенном сервере, что значительно повышает общую производительность процесса. Отпадает и необходимость в конфигурировании программного обеспечения на каждом рабочем месте. Сотрудникам, которым по роду их работы необходимо распознавать документы, в системе выделяется две паки: входящая, куда помещаются изображения страниц или PDF-документы, и исходящая, откуда берется готовый для редактирования или индексирования документ. Встроенные настройки позволяют оптимизировать процесс распознавания по приоритетам задач, расписанию (обрабатывать большие документы в период наименьшей загрузки сервера) и по сценариям обработки, зависящим от вида документа.
По своим возможностям ABBYY Recognition Server аналогичен FineReader 8.0. Он обеспечивает распознавание 187 языков на основе латинского, греческого, армянского и кириллического алфавитов; распознавание и создание PDF-документов, в том числе с тэгами и метаданными; распознавание наиболее распространенных вариантов одно- и двумерных штрих-кодов. Модуль FineReader XIX ориентирован на работу со специфическими готическими шрифтами, которые встречаются в старинных европейских документах.
ABBYY Recognition Server способен создавать несколько потоков распознавания одновременно и выравнивать нагрузку между процессорами сервера. Продукт имеет открытый интерфейс, что позволяет при помощи API легко интегрировать его в информационную инфраструктуру клиента.
Предлагается три модели лицензирования ABBYY Recognition Server. В первом случае заказчик приобретает право обработать в течение месяца определенное количество страниц. Встроенный счетчик сбрасывается на ноль в начале каждого месяца, и лицензия автоматически продлевается неограниченное количество раз без дополнительной платы. Предлагаются следующие пакеты: 25, 50, 100, 200 и 500 тыс. и 1 млн. страниц в месяц. Если компании необходимо единовременно обработать большой объем документов, то предпочтительнее использовать модель лицензирования по общему количеству страниц. Имеются лицензии на 50, 100, 200 и 500 тыс., 1, 2, 5 и 10 млн. страниц. Этот объем может обрабатываться в течение любого времени, но действие лицензии прекратится при достижении счетчиком заданного показания. Также предлагается модель лицензирования по количеству процессоров. В этом случае ни время действия лицензии, ни количество страниц не ограничены. Но данная схема лицензирования рассматривает двухъядерные процессоры как два отдельных процессора.
Говоря о коммерческих перспективах ABBYY Recognition Server, Рылов отметил, что западные заказчики уже сейчас проявляют большой интерес к подобным решениям. Предполагается, что до конца этого года доля Recognition Server может достигнуть 10% общего оборота компании.