После трагедии 11 сентября американское правительство начало реализацию широкого комплекса мер по предотвращению террористических атак. Одна из таких мер заключается в поддержке разработки и внедрении ИТ с целью выявления и задержания подозрительных лиц, а также в снижении риска угроз безопасности и предотвращении ситуаций, допускающих проведения такого рода атак. Один из технологических элементов, необходимых, в частности, для предотвращения проявлений терроризма, — технология баз данных.
Технологию баз данных можно расширительно определить как методологию и программный инструментарий моделирования и хранения больших массивов данных произвольного типа и структуры, а также обработки запросов и операций обновления данных. Технология баз данных выходит далеко за рамки реляционных СУБД, охватывая методики, служащие для поддержки хранения и поиска мультимедийных данных, геопространственной информации, временных рядов, текстовых файлов произвольной формы, документы HTML и XML, и т.д.
Добыча данных, поиск мультимедийной информации, распознавание речи, извлечение параметров документов, вызывают острый интерес как элементы решений, позволяющих усилить национальную безопасность. Например, средства добычи данных могут использоваться для автоматического выявления необычных маршрутов перемещения подозреваемых лиц («посещение пяти стран, укрывающих террористов, за две недели») или движение денежных средств через международную сеть банков. Технологии, подобные распознаванию лиц или сопоставлению изображений, могут служить для идентификации людей и автомобилей, сфотографированных в аэропортах, у памятников, электростанций и т.д. Технологии добычи текста могут применяться для автоматического аннотирования текстовых документов, написанных в свободном стиле, с целью индексации, классификации и последующего поиска с тем, чтобы помочь проследить переписку террористов и их пособников. Технология извлечения параметров документов может использоваться для обнаружения сообщений электронной почты и других документов, содержащих определенные ключевые слова или их комбинацию, что даст возможность предупредить власти о потенциальной террористической и другой криминальной деятельности. Уже используются такие крупномасштабные системы управления электронной почтой и другие системы мониторинга, как Echelon (Агентство национальной безопасности США) и Carnivore (Федеральное бюро расследований). Все эти высокотехнологические решения, безусловно, служат укреплению национальной безопасности. Однако многие из этих решений требуют проведения серьезных исследований, особенно в области понимания естественных языков, поиска информационного наполнения и определения совпадения нетекстовых мультимедийных данных (изображения, видео, аудио и радиосигналы).
Более того, прежде чем можно будет всерьез говорить о действительно «высокотехнологичном» аспекте технологии баз данных, предстоит проделать немалую работу, касающуюся того, что ученые называют «низкотехнологичным» (low-tech) аспектом. Между тем, существует целый круг практических задач, для которых «высокотехнологичный» аспект базы данных не очень эффективен или попросту бесполезен.
Хотелось бы подчеркнуть: мне не известно, решены ли и до какой степени затронутые в статье вопросы, касающиеся «низкотехнологичных» аспектов баз данных. Власти, возможно, создают и используют соответствующие средства. Основа этой статьи — мои собственные знания возможностей и ограничений современных коммерческих баз данных и состояние исследований в области технологий баз данных. Более того, я хотел бы отметить, что стремление использовать для укрепления национальной безопасности базы данных и коммуникационные технологии неизбежно поднимает вопрос о праве граждан на частную жизнь.
Унаследованные базы данных
Учреждения власти различных уровней поддерживают множество различных баз данных, необходимых для предоставления услуг, а также для мониторинга городского и сельского населения. Так, федеральному правительству США подотчетно множество различных ведомств с перекрывающимися функциями. Правительство штата состоит из множества департаментов, а каждый департамент — из бюро, которые, в свою очередь разделяются на программы и так далее. Власти на уровне страны, штата, округа и города имеют свою полицию и суды. Одно из первых требований, определяемых стремлением обеспечить национальную безопасность, — возможность гарантировать, что каждая база данных на любом уровне власти, используемая в интересах государственной безопасности, содержит актуальную информацию и является легко доступной. Это касается государственной регистрации транспортных средств, регистрации водительских прав, протоколов полиции, постановлений суда, регистрации службы иммиграции и натурализации и т.д.
Одна из самых серьезных проблем сейчас заключается в том, что государственные базы данных основываются на унаследованных системах баз данных для настольных компьютеров, таких как Dbase, FoxPro и т.д. Эти базы данных не объединены в сеть с другими источниками данных, и, в результате, трудно проследить связанную информацию, накопленную различными ведомствами. Чтобы упростить и ускорить доступ к информации, дать возможность прослеживать связи между разными источниками данных и обеспечить надежность использования унаследованных настольных баз данных в обеспечении национальной безопасности на всех уровнях государственного управления, необходимо перенести и интегрировать эту информацию в киоски данных или хранилища данных, управляемые реляционными СУБД корпоративного уровня.
Федеративные базы данных
Чтобы определить угрозы безопасности, выявить потенциальных террористов, движение денежных средств и так далее, требуется организация перекрестных ссылок между конкретными сведениями в различных базах данных, имеющихся в организациях, причем, может быть, даже в масштабе всей страны.
Однако не стоит рассчитывать, что все эти разнородные базы данных, поддерживаемые тысячами организаций, удастся интегрировать в единое гомогенное хранилище данных. Еще менее вероятно, что такого рода базы данных можно будет интегрировать между различными странами. Эти системы всегда будут обслуживаться независимо. Однако совершенно необходимо, чтобы, по крайней мере, часть из независимых систем были объединены в так называемую «федерацию» взаимодействующих баз данных. В научной литературе предлагается виртуально интегрированная глобальная схема, построенная над схемами всех независимых данных в федерации. Такая модель, как правило, на практике нереализуема, учитывая то, что различные организации используют разные технологии, и принимая во внимание трудности, связанные с получением прав доступа и уровнем защиты, присваиваемым для разрешения доступа к различным базам данных. Возможности федеративной базы данных для обеспечения национальной безопасности могут быть довольно ограниченными. Каждая из организаций, вовлеченных в формирование «федерации», имеет схемы других баз данных, которые позволяют ей инициировать формирование перекрестных ссылок и коррелирующие запросы к некоторым из баз других организаций, а также получить ответы на эти запросы, желательно оперативно. «Федеративный» уровень должен охватывать СУБД, которые управляют независимыми базами данных всех организаций, обладающих сведениями, связанными с национальной безопасностью.
Качество данных
Базы данных практически всегда содержат некорректные данные. К ним относятся пропущенные данные (например, данные о поле в анкетах), ошибочные данные, нестандартные данные (например, вес и денежная сумма в единицах, не используемых на территории страны) и т.п. Проверка ошибок и своевременное обновление часто не выполняются, поскольку подобные операции требуют значительных накладных расходов. Автоматическая проверка ошибок перед вводом данных в базу замедляет пополнение базы.
В контексте национальной безопасности один из особо неприятных видов некорректных данных — имена людей, приехавших из стран Азии, Ближнего Востока, Африки, Европы. Мохаммед, Мухаммед, Мухамед или Мохамед; (бывший премьер-министр Китая) Чоу Энлай, Чу Юн-Лай и Чоу Эн Лай; Цичристиз, Цикричис и Цичристис — каждое из этих имен может принадлежать как одному человеку, так и нескольким разным людям. Кроме того, зачастую в базе данных хранятся только определенный вид имен (например, только фамилии). Современные системы баз данных, в основном, предназначены для поиска только точных соответствий, т. е. могут найти строку или число, точно соответствующих условиям запроса. В результате, если в запросе указано «Чоу Энлай», а информация об этом человеке хранится в базе данных под именем «Чоу Эн-Лай», данные найдены не будут. Еще один вид некорректных данных, порождающих серьезные проблемы, — неактуальные адреса и информация о месте работы. Люди меняют место жительства, а информация в базе данных остается старой и не соответствующей действительности. Попытки найти подозрительного человека могут затянуться, если, скажем, есть сведения о его адресе и месте работы лишь двухлетней давности.
Модуль проверки грамматики может применяться для тестирования текстовых данных (скажем, имена и адреса). Для проверки корректности перекрестных ссылок могут формироваться избыточные данные. Можно создать триггеры, которые будут храниться в базе данных и автоматически обновлять изменяемые данные максимально быстро после возникновения определенных событий.
Нечеткие запросы
Нечеткий запрос — это запрос, обращенный к неполным, неточным или даже некорректным данным в базе данных, либо запрос, для которого точно не определены условия поиска. Современные системы баз данных, главным образом, ориентированы на «точные» запросы к «точным и полным» данным. Хотя некоторая «неопределенность» в запросах разрешается, для чего предназначены запросы, указывающие диапазон значений (например, ?Age BETWEEN 20 AND 30?) или дизъюнктные запросы (например, ?Name = «Mohammad» OR Name = «Muhammad»), однако они не позволяют в полной мере использовать весь потенциал нечетких запросов. Необходимость в подобных запросах возрастает по двум причинам. Как уже говорилось ранее, хранимые данные часто некорректны или неточны, а, кроме того, неточными могут быть и условия запросов. Например, «найти человека, чья фамилия произносится как «Напалу», возможно «средних лет», управляющего автомобилем со «старыми» «белыми» номерами, и в коде водительских прав которого есть буквы «TR».
Для поддержки нечетких запросов в контексте государственной безопасности, следует иметь в виду, что в различных регионах мира имеют хождение разные варианты произношения имен людей, и описательные названия автомобилей, людей, инцидентов и т.д., которые необходимо поддерживать в определенных «словарях имен» вместе с правилами, определяющими соответствия имен и описаний. Более того, определенные типы данных в базе данных необходимо либо реорганизовывать в соответствии с уровнем абстракции или категориями людей, либо предоставить поддержку при поиске точного уровня абстракции или категории. Предположим, что слова «пистолет» и «обрез» хранятся в таблице в поле «Владение оружием». Поддерживающая нечеткие запросы система должна распознавать, что «пистолет» и «обрез» обобщаются в категорию «огнестрельное оружие». Поэтому в ответ на запрос «найти людей, которые умеют обращаться с огнестрельным оружием», она должна вернуть список лиц, владеющих «пистолетом» и «обрезом», даже если в поле «Владение оружием» нигде не указано «огнестрельное оружие».
Нечеткие запросы также касаются геопространственных и временных условий поиска, таких как «поблизости», «внутри» и т.д. К счастью, ведется много исследований, посвященных управлению пространственными и временными данными, в том числе касающиеся пространственных и временных условий поиска и механизмов пространственной индексации.
Поддержка нечетких запросов также потребует серьезных исследований в области производительности. Современные системы управления реляционными данными, в основном, рассчитаны на поддержку точных запросов к точным данным и используют такие «точные» механизмы поддержки доступа, как индексация, хеширование и сортировка.
Классификация информации
Индексация — важнейший механизм сокращения пространства поиска при нахождении требуемых данных в крупной базе данных, будь то корпоративная база данных, база данных федерального ведомства или World Wide Web в целом. Системы баз данных создают и поддерживают индексы для указанных пользователем полей в таблице для ускорения поиска, который включает в себя индексированные поля. Аналогично системы извлечения информации создают и поддерживают индексы в виде списка слов, встречающихся в составленных в свободном стиле текстовых документах, чтобы ускорить поиск документов, содержащих определенные слова или их комбинации. Механизмы поиска в Internet создают ключевые слова, представляющие HTML-документы, и используют затем их как индексы в таких документах. Сейчас большой интерес вызывают исследования Semantic Web. Цель таких исследований — дать возможность выполнять поиск на основе семантики пользовательских запросов и хранимых в Web документов.
На промежуточном этапе необходима хорошая методика классификации информации, которая служила бы в качестве мощного механизма индексации «верхнего уровня» для поддержки быстрого и точного поиска текстовых документов, написанных в свободном стиле. Например, документ, который описывает встречу мусульманских активистов и членов «Аль-Каиды», состоявшуюся в Малайзии в 2000 году, может быть отнесен к нескольким, а не к одной теме: категории, касающейся мусульманских активистов, категории, касающейся «Аль-Каиды», категории, описывающие действия исламистов в Малайзии, и так далее. Зачастую, классификация документов только по одной теме приводит к их невозвратной утере. Например, как правило, трудно извлечь даже старые сообщения электронной почты, если они хранятся в определенных папках с именами, которые не дают представления о содержании этих сообщений. Позже вы даже не сможете вспомнить названия этих папок, и можно пытаться лишь вспомнить названия некоторых основных сообщений в этой почте. Современная технология добычи текстов позволяет извлекать параметры (характерные имена и т.д.), поддерживать счетчик ключевых слов, и даже комментировать тексты, написанные в свободном стиле. Комментарии документов формируют приемлемую основу для классификации документов.
Сейчас технология для определения соответствия образцов изображений, звука или видеоклипов с экземплярами, хранящимися в базе данных изображений, звука и видео, только начинает создаваться. Остаются нерешенными многие технические проблемы, связанные с формой, текстурой, цветом, размером, изоляцией фона, смещениями в сцене и т.д. И опять-таки, пока эта технология не станет достаточно совершенной, для работы с мультимедийными данными необходимо использовать хоть и громоздкие, но, безусловно, эффективные средства. К ним относится маркировка вручную всех фотографий, изображений, звукозаписей, видеоклипов и так далее, которые имеют отношение к национальной безопасности, и эти маркеры следует хранить в базе данных так, чтобы в ней можно было легко и быстро выполнять поиск. Подобные маркеры можно также корректно классифицировать по соответствующим категориям, чтобы использовать их в качестве индексов. Можно создать для таких данных ярлыки и хранить их так, чтобы можно было быстро их просматривать и не загружать все данные, если в этом нет необходимости.
Добыча данных
Добыча данных — это автоматическое извлечение информации из необработанных данных, хранящихся в компьютерных системах. Она может использоваться для обнаружения нелегитимного использования кредитных и телефонных карт, поддельных страховых требований, прогнозирования покупательского спроса, определения категорий клиентов и т.д. Учитывая, насколько некорректны данные, имеющиеся в базах данных, и необходимость решения задачи обеспечения государственной безопасности, методы добычи данных следует модернизировать и определить для них новые цели. В частности, устойчивость к ошибкам в данных должна стать важным критерием при выборе алгоритмов добычи данных. Более того, поскольку алгоритмы добычи данных, как правило, используются для выявления скрытых тенденций и шаблонов, поиск источников угрозы безопасности, лиц, подозреваемых в террористической деятельности и движения денежных средств, скорее всего потребуют выявления нестандартных или необычных шаблонов (исключений). В силу этого, возможно, наиболее приемлемыми будут алгоритмы добычи данных, ориентированные на выявление и анализ исключительных ситуаций. Более того, необходимо сделать допущения для некорректных данных при определении объема данных для обучения моделей добычи данных. Без этих допущений результаты добычи данных могут оказаться ненадежными.
Заключение
Проблема защиты страны от терроризма воистину монументальна. США — государство с огромной территорией, страна, границы которой ежедневно пересекает огромное количество людей и грузов, страна, основанная на примате гражданских свобод для ее граждан. Все это делает невозможным гарантию безопасности.
Базы данных — лишь одна из целого ряда технологий, которые могут помочь в борьбе с терроризмом. К другим технологиям относятся связь (мониторинг пользователей мобильных телефонов, владельцев кредитных карт, прослушивание телефонов и перехват факсовых сообщений и другие), защищенные компьютерные сети и сети связи (слежение за хакерами и инициаторами кибератак, выявление личности отправителей электронных писем, шифрованная связь, декодирование зашифрованных сообщений и т.д.), робототехника, биометрия, мультимедийные технологии (распознавание голоса и лиц, сопоставление изображений и т.д.), поиск оружия и обнаружение опасных материалов и другие.
Определенные законы, которые мешают сотрудничеству федеральных ведомств (например, между ЦРУ и ФБР) и запрещают прослушивание телефонных разговоров, должны быть пересмотрены. Основные документы, подтверждающие личность, такие как паспорта, «грин-карты», водительские права и карточки социального страхования, необходимо более серьезно защитить от подделки. Национальную экономическую и социальную инфраструктуру, такую как энергосистема, водопровод, транспортные системы и другие, следует сделать более защищенными.
Вон Ким — президент и генеральный директор компаний Cyber Database Solutions и MaxScan. Декан Института науки и технологий Эва (Сеул, Корея). Главный редактор журнала ACM Transactions on Internet Technology. Председатель рабочей группы ACM Special Interest Group on Knowledge Discovery and Data Mining.
Translated from «On Database Technology for US Homeland Security» by Won Kim in Journal of Object Technology (JOT), vol.1, No. 5, pages 43-49. Translated into Russian for Open Systems Journal under special permission of the original publisher. Copyright JOT November-December 2002. Original article at http://www.jot.fm/issues/issue_2002_11/column4.