- 3.1. Задачи статических архивов
- 3.2. Дополнительная функциональность динамических архивов
- 3.3. Пограничные задачи
- 3.4. Задачи решаемые системой маршрутизации и контроля исполнения
- Заключение
Документ является основным способом представления информации, на основе которой функционирует любое предприятие. Информация бывает структурированная, предполагающая, что за ее хранение и управление отвечают базы данных и прикладные информационные системы, и неструктурированная - просто документы. Причем может существовать однозначная зависимость между структурированными и неструктурированными документами, например накладная на отпуск товара и транзакция в прикладной информационной системе о списании товара со склада, причем только накладная имеет юридическую силу в отличие от транзакции в базе данных. Сегодня пришло понимание необходимости автоматизации хранения и обработки неструктурированной информации, так как ее объемы такие, что обрабатывать ее вручную уже не представляется возможным. Однако подходы и концепции построения систем, предназначенных для автоматизации документооборота имеют некоторые различия. В данной статье представлено описание концепции, которую взяла на вооружение компания АО "Весть", имеющая достаточный опыт автоматизации документооборота российских организаций различных форм собственности.
Где лежат сегодня резервы повышения общей эффективности предприятия:
Существуют оценки, что до 90% времени сотрудников тратится на так называемую обеспечивающую функции, а именно на поиск необходимых для работы документов. Это проблема усугубляется при коллективном использовании документов, когда надо найти документы, созданные другим сотрудником, и наконец, она становится практически невыполнимой в том случае, если организация является территориально-распределенной. Соответственно существует возможность практически на порядок повысить эффективность сотрудников; сократить расходы на копирование, канцелярские принадлежности и т. п; сократить время на передачу документов между исполнителями.
Кроме того, немаловажно отметить еще и фактор повышения безопасности при работе с документами - организация глубокой системы защиты документов, в зависимости от операций и пользователей, позволяет защитить документы от несанкционированного доступа. Кроме того, запись всех операций с документов позволяет восстановить всю историю действий с ними.
1.Что такое документооборот?
Определимся сначала с тем, что такое документ - это некая обособленная часть информации представленная на определенном носителе. Как правило, документы различаются по типам носителей информации, (рисунок 1). И основные резервы повышения эффективности работы с документами лежат именно в типах носителей. Если не говорить о клинописи на камне, надписях на заборах и тому подобном, то можно выделить три главных типа носителей информации.
Рисунок 1.
Типы документов и их взаимодействие.
Очевидно, что один и тот же документ может существовать в различных ипостасях на различных носителях информации и переходить с одного носителя на другой. Применение того или иного носителя информации определяется следующими факторами.
Стоимость хранения информации - прямо пропорциональна количеству документов и стоимости хранения одного документа. Очень часто приводится не для одной страницы документа, что было бы очевидно для бумажных документов, а к одному мегабайту хранимой информации.
Стоимость (время) поиска необходимой информации - определяется системой индексации документов. В том случае если система индексации отсутствует, то скорость поиска также прямо пропорциональна количеству хранимых документов. Применение простой системы индексации (шкафы, папки и т. д.) позволяет увеличить скорость поиска. Применение системы полнотекстового поиска, когда документ можно найти по любому слову, содержащемуся в данном документе, позволяет резко увеличить скорость поиска, но надо помнить, что полнотекстовый поиск доступен только для электронных документов.
Стоимость коллективного использования информации - определяет количество копий документа, необходимых для коллективного использования при одновременном доступе.
Стоимость (время) передачи документа от одного рабочего места к другому Электронные документы, по сравнению с бумажными, представляют такой же прорыв, как, в свое время, печатные документы по сравнению с рукописными. Поэтому в последнее десятилетие наблюдается однозначная и устойчивая тенденция перехода от бумажных и микрографических документов к электронным. По данным исследовательских компаний, общая доля электронных документов постоянно возрастает и достигнет к 2000 году 60%. Поэтому в дальнейшем мы будем говорить о решении задач электронного документооборота - прежде всего для электронных документов, не забывая о том, что система должна пытаться решать смешанные задачи и управлять бумажными и микрографическими документами.
2. Общие требования к системе документооборота
Первоначально рассмотрим общие требования к системе электронного документооборота.
2.1. Масштабируемость
Желательно, чтобы система документооборота могла поддерживать как пять, так и пять тысяч пользователей, и способность системы наращивать свою мощность определялось только мощностью соответствующего аппаратного обеспечения. Выполнение такого требования может быть обеспечено с помощью поддержки индустриальных серверов баз данных производства таких компаний, как Sybase, Oracle, Informix и др., которые существуют практически на всех возможных программно-аппаратных платформах, тем самым обеспечивая самый широкий спектр производительности.
2.2 Распределенность
Основные проблемы при работе с документами возникают в территориально-распределенных организациях, поэтому архитектура систем документооборота должна поддерживать взаимодействие распределенных площадок. Причем распределенные площадки могут объединяться самыми разнообразными по скорости и качеству каналами связи. Также архитектура системы должна поддерживать взаимодействие с удаленными пользователями.
2.3. Модульность
Вполне возможно, что заказчику может не потребоваться сразу внедрение всех компонентов системы документооборота, а иногда спектр решаемых заказчиком задач меньше, чем весь спектр задач документооборота. Тогда очевидно, что система документооборота должна состоять из отдельных модулей, интегрированных между собой.
2.4. Открытость
Система документооборота не может и не должна существовать в отрыве от других систем, например иногда необходимо интегрировать систему с прикладной бухгалтерской программой. Тогда система документооборота должна иметь открытые интерфейсы для возможной доработки и интеграции с другими системами.
3. Задачи, решаемые системами документооборота
Спектр задач и соответственно необходимая система автоматизации определяются стадией жизненного цикла документа, которую необходимо поддерживать. Жизненный цикл документа (рисунок 2) состоит из двух основных стадий.
Рисунок 2.
Жизненный цикл документа.
1. Стадия разработки документа, которая может включать:
- собственно разработка содержания документа;
- оформление документа;
- утверждение документа.
В том случае если документ находится на стадии разработки, то он считается неопубликованным, и права на документ определяются правами доступа конкретного пользователя.
2. Стадия опубликованного документа, которая может включать:
- активный доступ;
- архивный документ:
- краткосрочного хранения;
- долгосрочного хранения;
- уничтожение документа.
Когда документ переходит на вторую стадию, он считается опубликованным, тогда права на документ остаются только одни - доступ на чтение. В качестве примера опубликованного документа можно привести шаблон стандартного бланка предприятия. Кроме права доступа на чтение могут существовать права на перевод опубликованного документа в стадию разработки.
В зависимости от конкретной стадии жизненного цикла документа, с которым имеет дело архивная система, архивы подразделяются на следующие типы.
Статические архивы документов (либо просто архивы) - системы, которые имеют дело только с опубликованными документами.
Динамические архивы документов (либо системы управления документами) - системы, имеющие дело как с опубликованными документами, так и с теми, которые находятся в разработке.
3.1. Задачи статических архивов
Архив предприятия - это комплекс программного и аппаратного обеспечения, предназначенный для решения следующих задач.
Организация хранения электронных документов. Необходимо обеспечивать хранение произвольного количества электронных документов на разнообразных носителях. Носители электронных документов характеризуются двумя основными параметрами, стоимостью хранения одного мегабайта информации и скоростью доступа к информации. Причем эти два параметра обратно пропорциональны друг другу - в зависимости от решаемых задач, необходимо находить оптимальное соответствие и выбирать определенный носитель информации. Также на выбор носителя влияет срок хранения информации. Иногда для ряда задач необходимо создавать систему хранения, которая состоит из разнотипных носителей. Например, для оперативного доступа требуется применение высокоскоростных жестких дисков, а для архивного хранения достаточно роботизированных библиотек оптических дисков. Соответственно для таких гетерогенных систем хранения необходимо решать задачи не только совместной работы данных носителей информации, но и обеспечивать миграцию документов между носителями. Эта миграция может осуществляться либо путем настройки системы администратором (например после истечения 90 дней со дня создания документа он должен автоматически переместиться на более медленный и дешевый носитель информации), либо автоматически в зависимости от частоты обращения пользователей к тому или иному документу. Программное обеспечение, которое ответственно за автоматическую миграцию документов носит название Hierarchical Storage Management (HSM).
Организация учета бумажных и микрографических документов. Архивная система кроме работы с электронными документами должна учитывать бумажные и микрографические документы - система должна хранить только электронную карточку на документ данного типа и поддерживать контроль стандартных архивных операций: выдача документа, возврат документа и т. п.
Организация поиска документов. Наряду с организацией хранения документов необходимо их быстро и эффективно искать. Если со скоростью поиска все понятно, то для пояснения понятия эффективности поиска рассмотрим модели поиска. Существует два подхода к поиску документов. Первый подход состоит в том, что в процессе поиска ищется документ, который точно существует в системе, и задача состоит в том, чтобы процесс поиска свелся к нахождению требуемого документа или документов. Этот подход применятся в 90% всех случаев поиска. Второй подход состоит в том, что ищутся все документы по интересующему вопросу. Для этого подхода присущи такие понятия, как полнота - соответствие между найденными документами по данному запросу и действительному списку документов и шум - соответствие документов, отвечающих запросу и документов, нерелевантных ему.
Существует два основных типа поиска. Атрибутивный - каждому документу присваивается набор определенных атрибутов, присваиваемых документу во время его размещения в архиве. В дальнейшем документ ищется на совпадение значений этих атрибутов полям запроса. К атрибутам документа можно отнести имя документа, время создания, автор, машинистка, имя подразделения, тип документа (факс, письмо, контракт, спецификация и т. д.). Очевидно, что список таких атрибутов должен быть расширяем. Совокупность атрибутов документа называется карточкой документа. Эти поля могут заполняться произвольно или из предопределенных справочников.
Второй тип поиска, носит название полнотекстовый - автоматически обрабатывается все содержание документа, и затем по любому слову, входящему в данный документ, можно найти сам документ. Соответственно существует зависимость между типами поиска и подходами к поиску. Для поиска известного документа, очевидно, более применим атрибутивный поиск, для исследовательского поиска - полнотекстовый. Существует комбинация полнотекстового и атрибутивного поиска, когда атрибуты документа обрабатываются так же, как все содержание документа. Полнотекстовый поиск зависит от формата документа и языка, на котором он создан. Электронный документ любого формата необходимо предварительно преобразовывать в плоский текст для обработки системой полнотекстового поиска, следовательно, любая такая система должна содержать в своем составе конвертеры форматов. Зависимость от языка выражается в следующих факторах: поиск документа будет более полным, если в результате запроса будут найдены не только документы, которые точно соответствуют слову в запросе, но и те документы, в которых присутствуют различные словоформы слова в запросе. Данная технология носит название нормализации. Причем эффективность метода зависит от применяемого алгоритма нормализации. Для русского языка наиболее эффективен словарный метод - слово нормализуется на основе словарей, в которых содержатся словоформы. Кроме словарного метода может применяться эвристический метод нормализации, когда слово может быть приведено к нормальному виду путем выполнения определенных правил, описывающих алгоритмику нормализации. Если для английского языка свод правил нормализации составляет 300 страниц машинописного текста, то для русского языка этот свод на несколько порядков больше. Аналогично нормализации было бы логично выполнять поиск не только по конкретному слову, но и по его синонимам.
Поддержка защиты документов от несанкционированного доступа и аудита работы. Архивная система должна иметь защиту на уровне документа - каждый документ должен иметь ассоциированный с ним список пользователей, имеющих право совершать с ним определенные операции. Для статических архивов этот список операций может представлять следующий набор: просмотр и печать документа, право изменять карточку документа.
Поддержка просмотра документов без загрузки приложений, которые порождают документ. Архивная система должна поддерживать специальные программы просмотра, позволяющие получить доступ к документам разнообразных форматов без загрузки ресурсоемких приложений.
Поддержка аннотирования документа. Иногда для обеспечения коллективной работы с документом необходимо позволять наносить комментарии на документ, не изменяя его основного содержания. Комментарии (знаки, текст, цветные пометки) хранятся в слоях, которые могут быть привязаны к имени автора, создавшего эти комментарии.
В качестве характерного примера реализации статического архива можно привести системы типа WaterMark, PaperWise или ImageWise.
3.2. Дополнительная функциональность динамических архивов
Динамические архивы требуют следующей обязательной функциональности.
Поддержка коллективной работы с документом. Выражается в поддержке целостности документов, для этого должны быть реализованы библиотечные функции выписки и возврата документов на/c редактирования, что предотвращает одновременное редактирование одного документа несколькими пользователями, устраняя тем самым возможные конфликты. Для того чтобы позволить в рамках одного документа работать одновременно нескольким пользователям, вводится понятие версии и подверсии документа - один документ может содержать несколько версий, а каждая версия - несколько подверсий. Кроме того, в рамках одного документа и одной версии (подверсии) документа может существовать несколько представлений документов (в разных форматах).
Поддержка составных документов. Каждый документ может представлять собой совокупность других документов. Такой документ носит название составного или контейнера, а в делопроизводстве такой документ носит название "дело", по своим характеристикам он аналогичен простому документу. Документы могут быть объединены в составной документ с помощью нескольких типов связей. Эти связи определяют, какие версии объединяются в контейнер, например, последняя по дате, последняя отредактированная, старшая версия и т. п. Эти связи определяют, как будет осуществляться сборка документа в составной документ. Для составных документов должно существовать приложение, которое будет осуществлять окончательную сборку такого документа.
Поддержка распространения опубликованных документов. Как только документ публикуется его иногда необходимо распространять. Это происходит двумя основными путями, либо через систему электронной почты, путем рассылки, либо через Internet, путем публикации на Web-сервере.
Поддержка расширенного спектра прав доступа к документу. А именно: право на редактирование документа, право на публикацию, право на снятие публикации, право создавать новую версию документа.
3.3. Пограничные задачи
Кроме базовых архивных задач существует ряд пограничных проблем, связанных с документами разных типов (электронных, бумажных, микрографических) из одного типа в другой (рисунок 1).
Перевод бумажных документов в электронную форму. Данная проблема подразделяется на два основных класса.
Персональный ввод бумажных документов. Ввод небольшого количества разнотипных бумажных документов осуществляется с помощью планшетных или персональных сканеров. После операции сканирования документ вручную индексируется путем заполнения карточки документа.
Массовый (поточный) ввод бумажных документов. Основное отличие от предыдущего состоит в том, что обрабатывается большое количество однотипных документов. В качестве примеров приложений данной технологии в конкретных предметных областях можно привести: систему ввода и хранения платежных поручений в банке, систему обработки анкет опроса населения, систему обработки результатов голосования.
При реализации технологии массового ввода документов можно рассматривать два основных класса задач.
1) Задача извлечения данных из бумажных документов. Например, имеется форма с результатами опроса населения. Необходимо ввести большое количество анкет, извлечь из них данные и загрузить в некоторую базу. В этом случае нас интересуют только извлеченные структурированные данные, а не сами изображения документов.
2) Задача извлечения данных из бумажных документов с сохранением изображения документа. Если вы обрабатываете не форму с опросами населения, а платежное поручение клиента, то имеет смысл после извлечения данных сохранить изображение документа для того случая, когда потребуется анализ исходного документа. Извлеченные данные можно опять-таки использовать двояко. Во-первых, эти данные имеет смысл напрямую загружать в банковскую систему, а, во-вторых, их можно использовать для организации хранения и быстрого поиска изображений платежных поручений. В случае применения извлеченных данных для индексирования изображения документа необходимо разделять типы извлеченных данных. В основном на выходе используются структурированные данные, и тогда для поиска применяется атрибутивная индексация, но бывают случаи, когда из документа извлекаются только неструктурированные данные (например при распознавании всего содержимого документа). Тогда требуется полнотекстовая индексация. Возможна также и промежуточная задача, когда сохраняется не все изображение, а только его часть, допустим подпись клиента на чеке или платежном поручении.
Работа системы массового ввода разбивается на две основные части - подготовка обработки документа и собственно обработка.
Подготовка обработки документа. Чтобы начать работать с каким-либо документом, необходимо описать его для использования в системе, а именно создать и зарегистрировать новый класс документа. При этом первым шагом должно быть получение отсканированного изображения незаполненного документа и создание формы по отсканированному шаблону в том случае, если мы регистрируем уже кем-то разработанный документ, либо создание формы для нового документа.
После этого с помощью специального программного модуля (Редактор Форм) требуется определить те поля, которые будут распознаваться системой или заполняться оператором с клавиатуры, а также указать типы данных обрабатываемых полей документа. Для распознаваемых полей следует определить специальные атрибуты модуля с целью повышения точности распознавания, например наличие рукописных цифр, которые находятся в специальных рамках, или символов, напечатанных на машинке. Также можно задать специальные правила проверки корректности обрабатываемых полей документа.
Для конкретного класса документа можно создать несколько форм ввода, используемых либо при редактировании неправильно распознанных данных, либо при ручном вводе полей документа. Возможность создания нескольких форм ввода позволяет назначать для конкретного пользователя конкретные поля для редактирования, что значительно повышает его производительность. Например, в документе имеется рукописное поле, которое не подлежит распознаванию. Создается форма ввода, где есть только одно это поле. Оператор осуществляет ввод только данного конкретного поля, что значительно увеличивает производительность за счет появления в его работе элементов автоматизма.
Для конкретного класса документа, с помощью Редактора Модели Ввода, можно разработать специфичную модель обработки документа, которая определяет операции обработки конкретной копии документа.
Также процесс подготовки документа к вводу в систему необходимо дополнить настройками экспорта документа (Редактор Экспорта) в архивную систему. Данная настройка заключается в установке соответствия между полями формы документа (распознанными или введенными вручную) и полями карточки документа архивной системы. Немаловажной особенностью является способность модуля настройки привязывать содержимое поля документа к проверке на вхождение в справочники архивной системы. Например, если в Редакторе Форм было описано поле "Номер клиента" и к нему прикреплен конкретный справочник системы управления документами, а в процессе ввода был распознан номер, которого нет в этом справочнике, следовательно, возникла исключительная ситуация, которую можно решать двумя методами -или повторно обработать документ, или ввести новый номер в справочник.
После регистрации нового класса документа система готова к работе с реальными документами, предназначенными для сканирования.
Обработка документа. Одной из возможностей повышения эффективности системы ввода документов является предварительная подготовка документов для сканирования. Перед сканированием необходимо отсортировать документы различных классов и сформировать пакеты документов. Каждый пакет может сопровождаться специальным титульным листом с кодом идентификации данного пакета. Это позволяет одновременно сканировать пакеты с документами разных классов без дополнительных задержек.
После сканирования документы автоматически направляются на операцию распознавания, непосредственно перед которым система осуществляет ряд операций, улучшающих изображение, а значит, и точность распознавания. Выполняются такие операции, как выравнивание, удаление шума и линий, восстановление символов и др. Система может распознавать печатный текст, рукописные цифры и специальные отметки. Также возможно одновременное использование нескольких распознающих модулей. При этом, безусловно, теряется скорость, но точность распознавания значительно повышается. Очень важно сказать, что при этом значительно понижается возможность пропуска некорректных данных. В зависимости от результатов распознавания, поле помечается как корректное или некорректное. Для повышения надежности данных после распознавания применяются определенные пользователем правила проверки данных. Например, можно проверить, имеется ли распознанная информация в вашей базе данных. Если данные после распознавания помечены как некорректные, то они автоматически направляются на ручное редактирование. Во время редактирования оператор видит реальное изображение нераспознанного поля и имеет возможность откорректировать его. После ввода оператором новых данных опять-таки применяются правила проверки данных - на всех этапах ввода, как автоматического, так и ручного, осуществляется проверка данных в соответствии с правилами, определенными пользователем. После извлечения данных из документа необходимо провести операцию экспорта документов и извлеченной информации в систему управления документами.
В результате выполнения всех этих операций документы заносятся в архив и становятся доступными для всех сотрудников предприятия. Необходимо отметить, что на каждом этапе обработки документов может использоваться произвольное количество станций (серверов) обработки.
3.4. Задачи решаемые системой маршрутизации и контроля исполнения.
При организации систем документооборота одной из основных составляющих являются системы маршрутизации и контроля исполнения, которые оперируют документами, хранящимися в архиве. При построении систем маршрутизации могут применяться два основных подхода.
Первый носит название документо-ориентированный. Документ является основным объектом системы, и маршрутизируется именно он, а все остальные параметры маршрутизации ассоциированы именно с документом. Второй подход носит название работо-ориентированный и его основным объектом является работа. К работе может быть прикреплен самый разнообразный список объектов, в том числе, и документы. Естественно, работа может существовать и без документов. Второй подход является более общим.
Рассмотрим теперь типы систем маршрутизации (рисунок 3).
Рисунок 3.
Объекты системы маршрутизации.
Свободная маршрутизация. Выделяется два основных типов маршрутов документов. Последовательная маршрутизация - документ последовательно проходит одного исполнителя за другим. Передача документа от одного пользователя к другому может происходить по истечении контрольного времени, либо после завершения работы одним из них. Параллельная маршрутизация - документ одновременно поступает всем исполнителям, а завершение маршрута происходит, когда один либо все пользователи завершат работу с документом.
Системы электронной почты. Минимальной достаточной системой, обеспечивающей маршрутизацию документов является система электронной почты, которая осуществляет параллельное распространение документов (маршрутизация отличается от распространения или рассылки тем, что маршрутизируемый документ возвращается в начало маршрута, например к инициатору, а рассылаемый документ уходит к исполнителю без контроля факта возврата). С помощью дополнительных приложений система электронной почты может обеспечивать последовательную маршрутизацию документов.
Свободная маршрутизация документов с контролем исполнения. Под контролем исполнения понимается следующая функциональность.
Контроль прочтения задания - инициатору выдается информация о том, что с его заданием ознакомились сотрудники для которых это задание было предназначено.
Информация может выдаваться в виде изменения статуса задания в окнах входящих и исходящих заданий или в виде нового задания сформированного системой инициатору либо с помощью сообщения по электронной почте.
Маршрутизация документов по заранее определенным маршрутам с контролем исполнения (жесткая маршрутизация). Маршруты могут быть более сложными, чем простые последовательные или параллельные:
Такие маршруты становятся сложными для их задания "на лету", поэтому в этом случае используется специализированный графический редактор, позволяющий создать маршрут. Инициатор вызывает созданный и именованный маршрут и прикрепляет к нему документы - инициирует его. Система маршрутизации должна быть интегрирована с архивной системой, и реальные приложения для работы с документами не могут быть основаны только на файловой системе. И вот почему. Любой процесс маршрутизации документов - это движение одного документа, а не множества его копий, как это происходит в системах электронной почты. Посылать один документ необходимо не только по соображениям экономии пространства, но и в основном для поддержания его целостности - в процессе маршрутизации многие пользователи пытаются вносить изменения в документ. Кроме этого, было бы желательно, чтобы система маршрутизации была интегрирована с архивной системой по следующим параметрам.
Заключение
Рассмотренные возможности обеспечивают построение любой частной системы документооборота на любом предприятии в любой предметной области. Естественно, для построения частного решения можно ограничивать функционал системы в зависимости от предъявляемых заказчиком требований.
Основные термины
Imaging system - системы, предназначенные для ввода, обработки, хранения и поиска образов бумажных документов.
Production imaging system - системы, предназначенные для сканирования, обработки и индексирования большого количества однотипных бумажных документов.
Document management system - системы, предназначенные для хранения, поиска и управления электронными документами разнообразных форматов (в том числе и образов электронных документов).
COLD (Computer OutPut to Laser Disk) - вывод отчетов от прикладных информационных систем и запись их на лазерные диски с соответствующей индексацией.
COM (Computer Output to Microfishe) - аналогично COLD, только вывод осуществляется на микрографические носители.
Full-Text System - системы, позволяющие осуществлять поиск документа по любому слову, фразе или предложению, которые содержатся в данном документе.
OCR (Optical Character Recognition System) - системы, предназначенные для преобразования образа машинописного бумажного документа в символьное представление.
ICR (Intelligent Character Recognition) - в отличие от OCR-систем, ICR-системы обрабатывают образы рукописных (произвольный рукописный текст, рукописный текст по шаблону, рукописный текст печатными большими буквами, цифры) бумажных документов.
Workflow system - системы автоматизации деловых процессов (другое название - системы маршрутизации работ и документов с контролем исполнения).
Ad hoc workflow system - системы свободной маршрутизации работ и документов с контролем исполнения.
История развития систем документооборота
Системы документооборота берут свое начало в конце прошлого века с появлением фотоаппарата, когда стало возможно создавать уменьшенные копии документов. Шпионские технологии были конверсированы и стали применяться для создание микрографических архивов документов. Микрофиша дала реальный, качественный прорыв в стоимости хранения и копирования документов, но с точки зрения скорости поиска и коллективного использования документов все осталось на уровне бумажных документов. Появление компьютерных систем с коллективным доступом позволило достигнуть прорыва и в этих областях. Произошла трансформация от микрографических документов к электронным образам бумажных документов, от микрографических систем к так называемым imaging-системам. Расширенная система поиска, возможность получать доступ к одному документу нескольким пользователям одновременно, возможность удаленной и распределенно работы при сохранении незначительной стоимости хранения и копирования информации предопределило тенденцию замены микрографических документов на электронные. С течением времени усложнялось оборудование и программное обеспечение, появлялись все более скоростные и неприхотливые к качеству бумажного документа сканеры, специальные платы, позволяющие ускорить процесс печати, просмотра и сканирования образов документов, появились оптические и магнитооптические роботизированные библиотеки. Imaging-системы дали толчок для развития систем распознавания машинописных и рукописных символов, тогда же появились первые workflow- системы, предназначенные для организации процесса ввода бумажных документов в систему хранения. В дальнейшем workflow-системы были распространены на офисную деятельность предприятий.
В начале 90-х годов появился новый класс систем, предназначенных для управления электронными документами, отличными от их образов. В основном это были файлы текстовых процессоров и запросы на такого рода решения в основном приходили от федеральных агенств и юридических компаний. Так появился новый класс систем, названный системами управления документами. Развитие функциональности, добавление функций работы с образами документов привело к тому, что современные системы управления документами перекрывают по функциональности imaging-системы при приблизительно в два раза меньшей стоимости. Кроме функций хранения и поиска, присущих imaging-системам, в системах управления документами появились функции контроля жизненного цикла документа - в отличии от своих предшественников, системы управления документами предназначены для работы с динамическими документами.
Два подхода к организации хранения электронных документов
На сегодняшний день применяется два подхода к организации хранения электронных документов. Первый состоит в том, что собственно тело документов хранится в файловой системе, второй предусматривает хранение документов в реляционной или специализированной базе данных. Второй подход хотя и обладает большей степенью защиты собственно документов, но несет в себе следующих ключевых недостатков:
О стандартах
Как и любая область человеческой деятельности, сфера документооборота не могла избежать всеобщего веяния стандартизации и имеет свои проблемы.
Проблема 1. Архивная система должна быть интегрирована с приложениями, в которых порождаются различные электронные документы. Желательно, чтобы эта интеграция была прозрачной для пользователя, который работал бы с архивной системой напрямую, минуя обращения к файловой системе. Следовательно, диалоги операций с файловой системой должны быть заменены на диалоги работы с архивной системой. Единственным решением удовлетворить как производителей приложений, так и производителей архивный систем является выработка единого стандарта взаимодействия между системами такого класса. Этой цели достигла первая версия стандарта ODMA (Open Document Management API). На сегодняшний день данный интерфейс поддерживается следующими производителями архивных систем: PC DOCS, Saros, Novell (Soft Solutions), Watermark, Documentum и со стороны производителей приложений компаниями Corel (Corel WordPerfect Suite) и Microsoft (Office 97).
Проблема 2. Иногда предприятие использует одновременно несколько систем управления документами. В качестве примера можно привести транснациональную и многопрофильную корпорацию DuPont. В подразделениях, которые ведут разработку новых химических продуктов, исторически используют Documentum; новые подразделения остановили свой выбор на DOCS Open, как на более дешевом решении в расчете на одного пользователя. Соответственно возникает проблема, как пользователю с одного рабочего места иметь доступ к нескольким архивным серверам для поиска документов. Для обеспечения совместной работы нескольких архивных серверов предназначен стандарт ODMA версия 2. Впервые такая совместная работа серверов DOCS Open и Documentum была продемонстрирована в середине 1996 года.
Проблема 3. Аналогичная проблеме 2, но для систем класса workflow. Выработкой стандарта для совместной работы workflow-систем от различных производителей занимается некоммерческая организация WorkFlow Coalition, а выработанная ею спецификация носит название Workflow Coalition API. В середине 1996 года была показана совместная работа систем от семи производителей.
Проблема 4. При работе с образами документов важна унификация используемых форматов. В качестве единого формата для черно-белых образов документов был принят формат TIFF GROUP IV. Для электронных документов другого типа стандартизация не достигла значительного прогресса вследствие разнообразия типов приложений, порождающих электронные документы. Для распространения электронных документов постепенно принимается формат, разработанный компанией Adobe, - PDF.