Управление электронными документами: технологии и решения

Концепция электронного документа и системы EDMS

Классификация и основные характеристики систем EDMS

Технология адаптивного распознавания образов APRP

Нечеткий поиск

Автоматическая индексация

Точность поиска

Скорость поиска и ресурсы

Система управления документами Excalibur EFS

Успешные примеры применения

FORD MOTOR ПРИСЛУШИВАЕТСЯ К МНЕНИЯМ КЛИЕНТОВ

ROCKY MOUNTAIN ARSENAL: ГИБКИЙ ДОСУТП К ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ

Согласно информации Delphi Consulting в США ежедневно генерируется более 1 млрд. страниц документов, в архивах осело более 1.3 трлн. документов. Поток деловой информации не только огромен в количественном отношении, но и удивительно разнообразен по видам ее представления и источникам. Однако среди всего этого разнообразия можно выделить три составляющие части. Приблзительно 15% информации структурировано, имеет электронный вид, хранится и управляется с помощью СУБД. 15% информации, с которой приходится работать не менее активно, представляет собой неструктурированные данные в электронном виде. Для поиска необходимых данных в такой среде используются механизмы четкого поиска по ключевым словам и полному содержанию. И, наконец, более 70% информации хранится на бумаге. Бумаги забивают ящики столов, шкафы, целые комнаты, и приходится тратить многие часы на то, чтобы вручную найти необходимый документ при помощи обычной картотеки. Проблема быстрого, а главное, своевременного поиска нужного документа становится все более трудноразрешимой.

"Документы составляют основу нашей деятельности"
Грег Рисплер, инвестиционная компания CS First Boston.

Многолетние усилия, направленные на решение этой проблемы, привели к появлению концепции электронного документа, первые элементы которой возникли в начале 80-х годов и были связаны, прежде всего, с выходом на рынок производительных и недорогих микрокомпьютеров.

Концепция электронного документа и системы EDMS

Появление первого графического интерфейса пользователя и технологии обработки изображений в конце 80-х ускорило распространение концепции электронного документа и ее дальнейшее развитие. В особенности это касалось разработки различных подходов для перевода обширной информации на бумажных носителях в электронную форму. За несколько последующих лет концепция электронного документа получила свое развитие от обычного графического образа документа до идеи управлений документами. Идея манипуляции информацией в электронной, а не в бумажной форме стала общепринятой. По данным Delphi Consulting Group объем электронной текстовой информации в офисах удваивается каждые 3 года.

В очень скором будущем электронные документы смогут включать гипертекстовые связи, текстовые объекты, объекты более сложной природы и реляционные данные. Это позволит комбинировать структурированную и неструктурированную информацию в одном документе.

Обработка электронных документов станет наиболее важной услугой в рамках локальных сетей после обычных коммуникационных услуг. Как бит является простейшим элементом двоичной информации, а поле базы данных - простейшим элементом структурированной алфавитно-цифровой информации, так документ станет простейшим элементом неструктурированной информации мультимедиа. Он будет динамически ограничен только его содержимым, структурой данных, форматами и стандартами режима передачи и, самое важное, характером его использования. При изменении любого из этих параметров будет меняться и документ.

Современный электронный документ - это форма, вид которой похож на привычный бумажный документ и обработка которой происходит с помощью последовательного применения тесно взаимосвязанных технологий в рамках так называемых систем управления электронными документами (Electronic Document Management Systems - EDMS). Системы EDMS, работающие чаще всего на распределенных архитектурах, реализуют различные комбинации технологий сбора, индексирования, хранения, поиска и просмотра электронных документов.

Классификация и основные характеристики систем EDMS

Сейчас на рынке систем EDMS предлагается около 500 программных продуктов. Согласно прогнозам SIGNAL Magazine, объем американского рынка. США систем EDMS достигнет 6 миллиардов долларов и будет расти со скоростью примерно 1 миллиард в год.

Предлагаемые системы EDMS различаются как по функциональным возможностям, так и по технологическим решениям. Однако, чтобы определить ценность любой такой системы, достаточно ответить всего на три вопроса:

- Как информация поступает в систему?

- Как эта информация индексируется и хранится?

- И, самое главное, каким образом осуществляется поиск и извлечение необходимой информации?

В зависимости от ответов на эти вопросы все существующие системы управления документами можно разбить на три категории, отражающие и эволюцию таких систем.

Системы, относящиеся к первой категории (первому поколению), появились в середине 80-х годов. Технология работы с ними опирается на использование ключевых слов для индексации и поиска документов. Другими словами, после того как документ отсканирован и получен его графический образ, необходимо приписать образу каждого документа набор ключевых слов, которые затем индексируются, и используются для поиска информации.

Индексирование по ключевым словам (или атрибутное индексирование) является наиболее простой и экономичной в отношении дискового пространства технологией. Суть ее заключается в том, что для каждого вводимого или сохраняемого документа заполняются соответствующие поля в индексном файле. Заполнение осуществляется как вручную, так и с помощью программы, выделяющей в документе по какому-либо признаку значения ключей/атрибутов. Эта технология позволяет индексировать как текстовые документы (в ручном и автоматическом режимах), так и изображения (в ручном режиме). В простейшем случае ключевыми словами служат название и/или имя автора документа. В более сложных ситуациях необходимо использовать независимого эксперта для чтения документа и выделения ключевых слов.

Серьезные ограничения при использовании этих систем связаны со следующими обстоятельствами:

- Определение ключевых слов - достаточно субъективный процесс; даже при участии самого независимого эксперта трудно избежать односторонности при выборе ключевых слов.

- Определение ключевых слов - достаточно дорогостоящая процедура (по оценкам AIIM, наиболее авторитетной организации на рынке систем, связанных с управлением документами, это от 5 до 20 долларов на документ) из-за невозможности автоматической индексации и низкой производительности при определении ключевых слов вручную.

- Предполагается, что пользователи будут осуществлять поиск информации предсказуемым способом, используя предопределенные ключевые слова.

- Поиск по ключевым словам - это четкий поиск, - пользователь точно должен знать, что он ищет. Если сделана ошибка при написании ключевого слова в запросе для поиска, система никогда не найдет нужную информацию.

- Ключевые слова могут со временем меняться (понятия, которые были "ключевыми" вчера, вовсе не обязательно будут столь же важны через год).

Технология работы с системами EDMS второго поколения представлена на рис. 4. Если документ вводится в систему с помощью сканера, его графический образ преобразуется в текстовый файл.

Поиск информации в таких системах происходит с использованием механизмов полнотекстового поиска (Full Text Retrieval), который реализуется с помощью технологии индексирования на основе инвертированной матрицы. Суть подхода заключается в том, что при создании индексного файла (индексированной матрицы) в него вносятся все значимые слова (без союзов, предлогов и т. п.) из всех документов в алфавитном порядке. Эти слова затем объединяются в пары с указателями на документы, содержащие эти слова.

Принципиальным технологическим новшеством в системах EDMS второго поколения явилось использование оптического распознавания символов (Optical Character Recognition - OCR).

OCR - один из основных компонентов большинства современных систем управления документами, особенно тех из них, в которых большую роль играет ввод текстов. Хотя современные технологии OCR позволяют достаточно надежно распознавать высококачественные бумажные документы, они не могут гарантировать абсолютной надежности. Поэтому в процесс распознавания текста включена процедура ручной правки, в ходе которой исходный текст сверяется с полученным файлом. Вокруг проблемы доводки,исправления и повторного ввода текстов, прошедших распознавание, выросла целая индустрия.

Несомненно, очень медленный и дорогостоящий процесс исправления текста является серьезным "узким местом" в автоматизации управления электронными документами и приводит к значительным скрытым расходам при использовании систем с четким поиском, особенно если вы вводите старые, не слишком хорошего качества документы.

Среди других "узких мест" можно назвать:

1) Индекс, создаваемый такими системами, обычно составляет от 200 до 400% от объема исходного текста, что означает увеличение времени поиска и ресурсов компьютера.

2) Из-за необходимости "очистки" текста стоимость обработки документов достаточно велика - от 2 до 10 долларов на страницу.

3) Механизм четкого поиска через инвертированную матрицу не позволит вам найти информацию, если были допущены ошибки при распознавании текста или при написании запроса. Это легко объяснить на примере алгоритма поиска, использующего технологию В-деревьев для представления инвертированных списков.

Поиск по В-дереву начинается с его вершины и далее идет вниз по узлам. В каждом узле искомое слово сравнивается лексикографическим способом со словами, относящимися к данному узлу. В случае, если слово, меньшее или равное искомому, не находится, происходит переход по соответствующей ссылке вниз на следующий узел. Процедура повторяется рекурсивно и заканчивается, когда вы оказываетесь в листовом узле и либо нужное слово найдено, либо нет.

Предположим, мы находимся в вершине "осина" В-дерева некоторого инвертированного списка. Мы ищем документы со словом "ПЕНЬ", однако в запросе мы сделали опечатку и ввели слово "ПЕТЬ". Переход по узлам дерева в соответствии со ссылками приведет нас в узел со словом "ПЕТЬ", если оно есть в инвертированном списке, и соотетственно, к документам с этим словом, либо не будет найдено ничего. Таким образом, мы никогда не достигнем вершины "ПЕНЬ" и не найдем документы с этим словом.

Технология адаптивного распознавания образов APRP

В начале 90-х годов появились технологические разработки, связанные с индексацией и поиском документов и использующие результаты, полученные в области нейронных сетей и искусственного интеллекта. Они позволили сформулировать принципиально новые концепции построения систем управления неструктурированной информацией в электронном виде.

Компания Excalibur Technologies разработала и представила на рынке технологию адаптивного распознавания образов APRP (Adaptive Pattern Recognition Processing), которая была положена в основу программного продукта - систему управления документами Excalibur EFS. Технология APRP основана на нейронных сетях. Она позволяет не только обойти проблемы ошибок распознавания текстов, но и предоставляет возможности автоматического индексирования и поиска различных типов неструктурированной информации в электронной форме.

Ядро технологии APRP "выросло" из работ основателя компании Excalibur Technologies Джеймса Дау III (James Dow III), посвященных изучению и разработке моделей нейронных сетей, способных идентифицировать, или более точно, распознавать присутствие тех или иных образов в составе данных специального вида. В своей научной работе, связанной с изучением физиологии лягушек, Дау пытался понять, каким образом живые организмы получают и обрабатывают информацию, а конкретно, как могут лягушки с ограниченными зрительными возможностями распознавать то, что они едят. Ответ был таков: они используют отождествление образов.

Дау применил аналогичную технологию к компьютерным системам. Таким образом, исследования в области распознавания образов,моделей и теории самоорганизующихся систем привели к появлению метода распознавания двоичных образов, позволяющего построить систему индексации общего назначения, которую можно универсально применять к основным видам данных, включая устную речь (голос), сигналы, тексты и изображения. Был также создан комплекс алгоритмов, самостоятельно адаптирующихся к особенностям обрабатываемой информации и позволяющих осуществлять поиск образов, составленных из двоичных символов.

Источники и основные принципы технологии APRP можно представить следующей таблицей:

Затраты времени на индексацию и поиск данных
Документ	Время индексации	Время поиска
Полное собрание сочинений Шекспира	2 минуты 20 секунд	01 секунда
26 томов энциклопедии	29 минут 38 секунд	13 секунд
Библия	1 минута 47 секунд	01 секунда

Таблица 1.
Возможные затраты времени на индексацию и поиск данных при реализации системы APRP на компьютере DEC Station 5000 для различных документов.

Отметим два наиболее важных с точки зрения автора достоинства технологии APRP:

- В системах EDMS первого и второго поколений, которые обсуждались выше, индексация и организация неструктурированных электронных документов ориентированы на анализ их содержания и усечение этой информации до набора ключевых слов или других предопределенных категорий. Процесс поиска просто выполняет эту процедуру в обратном порядке,запуская процесс в обратную сторону - от ключевых слов к документам. Основная проблема этого подхода заключается в том, что пользователь может задавать только те вопросы, на которые заранее предусмотрены ответы. Этот прямолинейный и крайне субъективный процесс не позволяет ввести что-либо новое. Он слишком упрощен, негибок и статичен для управления сложными нелинейными динамическими потоками неструктурированных данных, протекающими через сегодняшние информационные системы.

- Кроме того, когда индекс создается под управлением данных, достигается его оптимизация с точки зрения доступных ресурсов. Компьютерная система, организующаяся в соответствии с методологией APRP, подобна биологической системе, организующей себя так, чтобы добиться максимального объема доступных ресурсов.

Нейронные сети - лишь один из компонентов общей методологии APRP, включающей также набор правил и описание принципов, в соответствии с которыми происходит развитие архитектуры логической нейронной сети. Основной стандартный блок при ее построении - всем хорошо знакомая конструкция "ЕСЛИ_ТО". Входные данные определяют, какие из перечисленных ниже структурных элементов и в какой комбинации будут использованы для создания конструкций "ЕСЛИ_ТО":

- Логические элементы (ЛЭ), оценивающие логические выражения;

- Процессорные элементы (ПЭ), вычисляющие математические выражения;

- Управляющие элементы (УЭ), выполняющие действия.

APRP определяет число и типы таких элементов, а также когда и как необходимо создавать новые элементы и вводить их в структуру нейронной сети. Быстродействие APRP зависит от соотношения между числом ЛЭ и числами ПЭ и УЭ. В большинстве приложений на каждый ПЭ или УЭ приходится свыше 100 ЛЭ.

Главным преимуществом использования логической нейронной сети является высокая скорость индексации и поиска информации. Высокие характеристики обусловлены тем,что при работе системы основную часть общего объема выполняемых операций составляют логические операции "И" и "ИЛИ". Кроме того, алгоритмы системы APRP могут выполняться параллельно. Например, время работы можно уменьшить вдвое при использовании двух процессоров или в восемь раз при использовании восьми процессоров. Верхний предел числа используемых процессоров равен единице плюс общее число ЛЭ и ПЭ. Дополнительный процессор предназначен для реализации УЭ. Однако даже без дополнительных процессоров метод APRP остается относительно быстрым.

Основные преимущества технологии APRP для контекстного поиска текста таковы:

- нечеткий поиск,

- автоматическая индексация,

- достоверность при сложной индексации)

- использование меньшего объема ресурсов,

- высокая скорость поиска информации.

Нечеткий поиск

Нечеткая логика и нечеткий поиск стали одними из самых модных терминов. В технологии APRP под нечетким поиском понимается возможность найти достаточно близкое приближение к запрошенному термину или фразе.

Нечеткий поиск устраняет для пользователя необходимость знать правильное написание каждого термина, с которым он работает. Уже нет необходимости пролистывать сотни страниц таблиц, заполненных корнями и основами ключевых слов, чтобы найти объект поиска. Поскольку APRP работает не с ключевыми словами, а с образами, две-три ошибочные буквы в слове или фразе не могут существенно изменить базовую картину текста. Таким образом, автоматически становится допустимой ошибка как во входных данных, так и в терминах запроса. APRP всегда в состоянии найти ближайшее приближение к терминам и фразам, заданным в качестве объектов поиска. Поясним это на примере.

Даже, если мы напишем в запросе:

ЦЦЦТЕРМАРГМАСАРИТАЭЭЭЭЭЭ,

имея в виду название романа Михаила Булгакова, мы получим правильный ответ: "Мастер и Маргарита". Поиск происходит следующим образом:

- Запрос конвертируется в бинарную форму

- Игнорируется шум, т.е. отбрасываются ЦЦЦ и ЭЭЭЭЭЭ

- Проводится нечеткий поиск

Рассмотрим запрос более внимательно. Элементы названия романа присутствуют в запросе:

ЦЦЦТЕРМАРГМАСАРИТАЭЭЭЭЭЭ

Как реально происходит нечеткий поиск? Ранее упоминалось, что технология APRP оперирует информацией на уровне двоичных кодов, т. е. каждое слово для нее - это образ, состоящий из нулей и единиц. Например, слово "пень" для нее представляется двоичным образом 10101111 10100101 10!01101 11101100; а слово "печь" имеет двоичный образ 10101111 10100101 11100111 11101100 (каждая буква в слове представляется одним байтом). Сравним двоичные образы обоих слов:

ПЕНЬ - 10101111 10100101 10101101 11101100

ПЕЧЬ - 10101111 10100101 11100111 11101100

Из 32 позиций каждого двоичного образа не совпадают только комбинации из 6-ти элементов, что составляет лишь около 20% от длины двоичного образа. С точки зрения технологии APRP образы этих слов очень близки к друг другу, и в качестве результата поиска вам могут быть предложены документы, содержащие оба слова, а вы укажете, которые из них вы имели ввиду при поиске. Приведенный пример, однако, не означает, что вам будет предложен бесконечный список вариантов, в той или иной степени похожих на ваш запрос. Далее в статье при описании программного продукта Excalibur EFS будут даны рекомендации по составлению эффективных запросов, поиск по которым не приведет, если в этом нет специальной необходимости, к появлению слишком длинных списков "близких" совпадений.

Нечеткий поиск особенно полезен в ситуациях, когда ввод данных осуществляется с помощью оптического распознавания символов, так как процесс OCR, как уже говорилось, не является на 100% точным даже при очень высоком качестве печати. Например, если на данной странице с помощью OCR не удалось абсолютно правильно считать ни одного слова, практически. никакая система четкого поиска не имеет шансов добиться успеха при поиске этой страницы.

Автоматическая индексация

При использовании APRP вы можете проиндексировать все свои данные, не указывая ключевых слов или полей базы данных, не привлекая администратора базы данных и не прибегая к экспертам для определения значимости того или иного слова или фразы по сравнению с другими словами или фразами.

Так как индексируемые образы не задаются заранее пользователем или программно, а выбираются самой нейронной сетью, каждая нейронная сеть становится ассоциативным запоминающим устройством, оптимизированным для актуального текста в базе данных. Введя документ, вы переключаете систему в режим "изучения". В этом режиме она просматривает двоичные образы и определяет, где они находятся, как в виртуальной, так и в физической памяти, с использованием алгоритмов на нейронных сетях. "Изучив" документы в процессе индексации, система осуществляет поиск информации очень быстро, используя для этого процедуры нечеткой логики.

Нейронную сеть можно оптимизировать как для языковых образов (английский, французский, японский и т. п.), так и для профессиональной лексики (юридической, социологической,химической и т. п.). Система APRP динамически определяет и выделяет образы, которые могут представлять собой все, что угодно, - от простой текстовой строки, например, сочетания "акция" (найденное как отдельное слово или фрагмент слова), до сложных фраз типа "принимая во внимание согласие между фрагментом первой части и фрагментом второй части..."

Точность поиска

Гибкость методологии поиска APRP позволяет улучшить параметры процесса поиска данных, позволяя пользователю самому определять степень совпадения найденной информации с запросом. Вы можете сформулировать эффективный запрос без знания правильного написания слов или фраз. Получив запрос найти какой-либо документ, система просматривает образы и составляет список "ближайших приближений" к тому, что было описано в запросе. Затем система упорядочивает содержимое этой области по степени вероятности того, что тот или иной найденный на этом этапе документ является истинной целью поиска. Вы можете установить "ближайшую десятку", "ближайшую сотню" и т. д. Это потенциально создает среду поиска, в которой пользователь может проводить поиск в интерактивном режиме, чтобы найти ответ, предварительно не определив точно, что же является ответом.

Скорость поиска и ресурсы

Программные системы, базирующиеся на методологии APRP, имеют возможность динамически использовать ресурсы и архитектуру компьютера для получения более быстрого и точного доступа к информации. Поскольку индекс занимает минимальный объем, его можно мнгновенно загрузить в память любого компьютера в сети и работать с ним со скоростью двоичных логических операций.

Такое свойство самооптимизации предполагает использование всех доступных ресурсов системы - память, диски и т. д. На большинстве рабочих станций APRP позволяет осуществлять поиск в объеме 200 000 страниц информации не более чем за десять секунд. Важнейшим преимуществом такого подхода является динамическая природа технологии оптимизации как конкретных данных, так и используемых аппаратных средств. По мере внедрения таких технологий, как параллельная обработка, повышающих мощность и совершенствующих архитектуру компьютеров, система APRP получит возможность функционировать на таких новых аппаратных платформах и автоматически использовать их ресурсы, значительно сокращая время реакции.

Информация любой природы представляется в компьютере одинаково - с помощью нулей и единиц. Это означает, что технология APRP может быть применена таким же образом для индексации и нечеткого поиска изображений, видео - и звукозаписей, сигналов, речи и всего разнообразия мультимедийной информации.

Компания Excalibur Technologies разработала библиотеки, реализующие нечеткий поиск информации различной природы:

- Библиотека TRS - Text Recognition Software - предназначена для индексации и нечеткого поиска текстовой информации

- Библиотека SRC - Signal/Sound Recognition Software - предназначена для распознавания (индексации и нечеткого поиска) голосовой, звуковой и сигнальной информации

- Библиотека VRS - Visual Recognition Software - предназначена для индексации и нечеткого поиска изображений (например, поиск по фотографиям, отпечаткам пальцев и т. д.)

Система управления документами Excalibur EFS

Технология адаптивного распознавания образов легла в основу коммерческого программного продукта Excalibur EFS - системы управления электронными документами третьего поколения. Она была реализована с помощью библиотеки TRS. Технология работы с системой Excalibur EFS включает те же этапы, что и работа с системами EDMS второго поколения. Однако, отсутствует самый дорогостоящий и трудоемкий этап - исправление ошибок в тексте документа после распознавания.

Несмотря на колоссальную сложность как самой технологии APRP, так и алгоритмов, ее реализующих, работа с системой Excalibur EFS не вызывает трудностей, которые часто возникают при переходе персонала от обычных бумажных картотек к передовым электронным архивным системам. Графический интерфейс пользователя EFS обеспечивает метафору знакомой среды архива с пиктограммами, обозначающими комнаты архива, ящики и папки с документами, а также мусорной корзины для уже ненужных документов. Каждый, кто работал в среде традиционного архива, сразу поймет метод хранения информации, реализованный в пакете EFS, имея даже небольшой опыт работы с компьютером.

Рассмотрим подробнее, как в Excalibur EFS реализованы основные функции систем EDMS - ввод, индексирование, хранение, поиск и просмотр документов.

Ввод. Для ввода документов используются стандартные устройства и форматы (ввод данных из множественных источников по сети, с дисков, лент, модемов и сканеров).

Индексирование. Индексирование выполняется с использованием технологии APRP на бинарном уровне, т. е. на уровне кода, и не требует понимания смысла слов.

Обеспечивается автоматическая индексация всего содержимого документа, причем создание индексов происходит под управлением данных,что позволяет исключить любую субъективность и тенденциозность в представлении данных.

Индексы технологии APRP требуют значительно меньшего объема памяти, чем обычные: размер индекса, как правило, не превосходит 30% объема исходного текста, тогда как в традиционных системах он составляет от 200 до 400% или более.

Хранение. Для хранения документов используются стандартные форматы и устройства (магнитные и оптические диски, ленты и т. д.)

Поиск. Механизм поиска информации базируется на технологии APRP. Нечеткий поиск технологии APRP оперирует двоичными образами, а не точными словами и фразами, поэтому пользователи могут находить необходимую информацию, даже если написание фразы в запросе неточно или ошибочно. Технология APRP обеспечивает очень высокую скорость поиска.

Пакет предоставляет также мощный набор традиционных методов поиска, таких как логический поиск, поиск с использованием синонимов и ключевых слов, поиск по запросам в стиле баз данных.

Ввод запросов и найденная информация представляются с помощью окна поиска. Результаты поиска, или совпадения, собранные в список, появляются в этом окне по завершению поиска. Выяснив расположение искомой информации, вы можете просмотреть текст и изображения страниц, в тексте которых содержатся совпадения с запросом.

Как организовать успешный поиск? Ответ прост - составить удачный запрос.

Удачный запрос специфичен для каждого предмета поиска, однако можно дать несколько общих рекомендаций по составлению эффективных запросов. Желательно избегать стоп-слов и фраз, таких как: быть, вот, в,на, к,или,по, так как эти слова или части слов могут встретиться почти на каждой странице каждого документа архива. Например, если вы ищете слово акция, то вы найдете само слово акция, слово акт, а также все остальные слова, оканчивающиеся на - ция: редакция, фракция и тому подобное.

Просмотр. Для просмотра документов используются стандартные оконные среды, такие как MSWindows, Macintosh, Motif, Open Look Если найденный документ хранится в специфическом формате файлов некоторого приложения (например, Word for Windows или Paintbrush), это приложение запускается автоматически. Внешние приложения также могут обращаться к документам Excalibur EFS. Поддерживается локальный и удаленный вывод на печать.

Успешные примеры применения

Excalibur EFS используется в широком спектре отраслей, включая правительство,судопроизводство, юриспруденцию, фармацевтику, страхование, финансовые услуги, здравоохранение, производство и высшее образование.

Пакет Excalibur EFS имеет архитектуру клиент/сервер, причем серверная часть работает на всех главных платформах в среде UNIX, включая Sun Microsystems, IBM, Digital (Ultrix) и Hewlett-Packard. Пакет Excalibur EFS также поддерживает операционные системы VMS и Alpha AXP/OpenVMS компании Digital. На всех платформах доступны клиенты на ПК под Windows и Macintosh. Пакет может быть интегрирован с внешними базами данных - Oracle, Informix, Digital Rdb, Sybase и Ingres Ultrix/SQL.

фирма "Метатехнология" (095) 253-3822

FORD MOTOR ПРИСЛУШИВАЕТСЯ К МНЕНИЯМ КЛИЕНТОВ

На протяжении долгого времени управление компанией Ford Motor, как и практически всех других производителей автомобилей в США, было основано на учете факторов производительности и стоимости продукции. Но в восьмидесятых годах возникла угроза японской экономической экспансии.

С этого момента компания Ford стала гораздо серьезнее прислушиваться к своим покупателям. Компания хотела знать, что людям нравится в ее машинах, а что не нравится. Объединяя данные от исследовательской группы и отзывы клиентов, отдел маркетинговых исследований компании добросовестно собрал тысячи отчетов о том, как покупатели относятся к легковым автомобилям, грузовикам, их качеству, работе дилеров, рекламным и маркетинговым программам, а также сведения о самих покупателях.

В процессе исследования, проведенного внутри компании отделом маркетинговых исследований было обнаружено, что люди, принимающие ключевые решения и более всего нуждающиеся в исследовательской информации, не имеют хорошего доступа к ней.

Информация маркетинговых исследований компании Ford состоит одновременно из статистических отчетов и отчетов, являющихся конспектом обсуждений исследовательской группы, в которых рассматриваются аспекты данного автомобиля. Каждый отчет может содержать замечания, относящиеся к разным характеристикам автомобиля, от внешнего вида до конкретных деталей внутреннего интерьера, таких, как панель управления или форма ручки переключателя скоростей, или возможные положения кнопок управления.

Был только один путь доступа к этой информации - получить копию отчета. При получении запроса на информацию по конкретному предмету, все, с чем приходилось работать, были собственные воспоминания сотрудников. Доступ к новейшим исследованиям был очень затруднителен, а зачастую вовсе невозможен.

Необходимость иметь возможность сортировать широкий спектр отчетов и находить в них, может быть, два или три пара графа, которые касаются определенной темы, привела к решению об использовании системы управления электронными документами Excalibur EFS. С появлением этой системы появилась возможность досконально просматривать все документы, так как информация, которая необходима, может быть настолько мала, что в других системах даже не индексируется. С EFS эти вопросы могут быть решены за секунды. Доступен каждый фрагмент информации, поэтому потери исключены. Всю информацию о клиентах можно анализировать, не прибегая к широким обобщениям.

Закончив полный пилотный проект, в котором участвовали примерно 50 пользователей в центральном офисе компании в Dearborn, Ml, руководство Ford готовится установить Excalibur EFS по всей компании. Цель этого проекта - обеспечить доступ к маркетинговой информации каждому сотруднику любого подразделения компании, которому она необходима.

ROCKY MOUNTAIN ARSENAL: ГИБКИЙ ДОСУТП К ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ

Компания Rocky Mountain Arsenal была последним предприятием по производству химического оружия, сооруженным в Соединенных Штатах во время второй мировой войны. Сегодня важнейшей задачей арсенала является очистка окружающей среды от загрязнения, вызванного захороненными на его территории отходами.

Федеральное законодательство, включая принятый в 1980 году закон о компенсации и ответственности за загрязнение окружающей требует сбора всей информации для обеспечения документированности решений о всех действиях, связанных с Rocky Mountain Arsenal. Объем этой информации составляет более 3 миллионов страниц протоколов на бумажных носителях, включая диаграммы, технические данные, строительные планы, отчеты и другие документы, накопившиеся в архиве с 1942 года.

Необходимость обеспечить простой и своевременный доступ к закрытым данным поставила армейское руководство перед проблемой организации хранения информации в электронном виде для просмотра протоколов и выдачи справок, а также других документов, связанных с деятельностью арсенала по восстановлению окружающей среды.

Для реализации наилучшего решения данной задачи армейское руководство обратилось в компанию ОР Associates со следующими условиями контракта: создать систему поиска информации, способную хранить оригинальные документы плохого качества, которая вместит всю необходимую информацию за 50 лет и будет доступна даже тем, у кого нет опыта работы с компьютером.

Компания DP Associates провела исследование имеющихся систем обработки образов документов, включая технологии фирм Filenet, Minolta и многих других поставщиков. Ее выбор пал на пакет EFS компании Excalibur Technologies главным образом благодаря его возможностям по контекстному поиску и невосприимчивости к низкому качеству документов и ошибкам OCR.

Система на базе EFS охватила 3,5 миллиона страниц, включая административные документы, всю техническую библиотеку, центральный репозиторий соответствия, финансовые документы и другие типы информации, обеспечивая в реальном масштабе времени поиск на рабочих станциях общего отдела административной документации. Новая информация становится доступной сразу после сканирования и введения в систему.

Rocky Mountain Arsenal применяет Excalibur EFS на сервере DEC System 5000 model 500 с операционной системой Ultrix и пяти клиентах на рабочих станциях DEC Station 5000 model 240 с оконным интерфейсом.