Автор рассказывает о некоторых технологических особенностях проекта создания автоматизированного интегрированного банка данных "Население" Москвы и наиболее важные характеристиках его окружения.
Разработка банков данных о населении, или, как их называют, регистров, является непростой задачей. Конкретное ее решение существенно зависит от местных условий и достижимого уровня технологий. В связи с этим рассмотрение этого вопроса имеет смысл проводить на примерах отдельных реализаций. Одной из разработок Инженерно-внедренческого центра «Инсофт» является автоматизированный интегрированный банк данных (АИБД) «Население» Москвы, создаваемый по заказу правительства Москвы (Московского комитета по науке и технологиям).
Что дает автоматизированный учет населения
Вопрос о пользе учета населения относится скорее к области социологии и политики. Отметим только, что цели проектов, связанных с этой задачей, естественно, могут быть совершенно разные. Обсуждая московский проект, можно отметить, что правительство города уделяет большое внимание вопросам работы с населением, мониторингу демографических показателей и миграционных процессов. Банк данных «Население» интегрирует информационные ресурсы о населении в унифицированной открытой межотраслевой системе в интересах органов власти, а также самих граждан. Информация, хранящаяся в уже созданном банке данных, используется для решения следующих функциональных задач органов исполнительной власти и местного самоуправления Москвы:
- защита прав граждан;
- борьба с коррупцией и экономическими преступлениями;
- реализация демографической политики правительства Москвы;
- планирование и реализация мероприятий по социальной защите и охране здоровья населения;
- совершенствование системы сбора налогов и справедливого распределения доходов бюджета Москвы;
- мониторинг и планирование социально-экономического развития Москвы, административных округов и районов;
- проведение переписей и социально-демографических обследований населения.
Москвичи как объект регистрации
Масштабы проекта
Москва является крупнейшим мегаполисом России и мира. Население Москвы составляет 8,538 млн. человек, а включая гостей столицы — более 10 млн. человек (согласно предварительным итогам последней переписи населения, численность постоянного населения Москвы оценивается в 10,4 млн. человек, еще около 3 млн. человек составляют приезжающие в столицу. — Прим. ред.). В ней сосредоточено около 10% всего населения страны и более 8% занятого населения.
Москва состоит из десяти административных округов, которые в свою очередь разделены на 125 муниципальных районов. Численность населения муниципального района составляет от 7 тыс. до 140 тыс. человек. В разрезе каждого муниципального района необходимо вести свой банк данных о населении. Эти данные объединяются в банке данных административного округа (префектуры).
Источники информации
Источником актуализации банка данных являются автоматизированные системы паспортных столов отделов милиции, жилищно-эксплуатационных организаций и органов записи актов гражданского состояния. Паспортные столы отделов милиции ведут регистрацию населения по месту жительства, а также гостей столицы по месту пребывания. Обслуживание населения осуществляет 163 паспортных стола отделов милиции, из которых к настоящему времени автоматизировано 80.
Первичная регистрация населения по месту жительства ведется в жилищно-эксплуатационных организациях. Из 800 пунктов первичной регистрации автоматизировано около 70%. Органы записи актов гражданского состояния ведут регистрацию рождений, смертей, браков, разводов, усыновлений, перемены имени, установления отцовства, внесения изменений и исправлений в записи актов гражданского состояния. Обслуживание населения осуществляют 27 отделов ЗАГС и три Дворца бракосочетаний. С 1994 года все отделы ЗАГС работают в единой автоматизированной системе.
Указанные учреждения могут предоставить достаточно ограниченный объем информации, который тем не менее вполне достаточен для решения поставленных целей разработки. Можно выделить шесть групп данных, которые лежат в основе созданного регистра:
1. Личные данные. Фамилия, имя, отчество, дата рождения, место рождения, пол, в том числе данные о перемене фамилии, имени и отчества, места рождения, даты рождения, пола.
2. Данные о месте жительства и перемещениях. Адрес регистрации по месту жительства и месту пребывания, в том числе дата прибытия, убытия, данные об истории регистраций — переездов по Москве, данные о первом прибытии в Москву.
3. Данные о документе, удостоверяющем личность
, в том числе данные об истории смены документа, удостоверяющего личность, причинах смены.4. Данные об отношении к воинской обязанности.
5. Данные о родственных отношениях родителей и детей.
6. Данные о рождении и смерти граждан.
Технология «снизу — вверх»
Наиболее важным принципом, сформулированным Московским комитетом по науке и технологиям (МКНТ), влияющим на создание АИБД «Население» Москвы, является разработка и внедрение системы снизу вверх, то есть опережающие разработка и внедрение модулей нижнего уровня и обеспечение основ для сквозной актуализации данных в модулях верхнего уровня уже на этапе опытной эксплуатации. Такая методология была использована при разработке и внедрении крупнейших автоматизированных систем Москвы, содержащих данные о населении: многоуровневой автоматизированной системы «ЗАГС» Москвы и Государственной автоматизированной системы «Выборы» в части учета избирателей Москвы. Эти системы были внедрены в промышленную эксплуатацию через три года после начала разработки, а в опытную эксплуатацию в промышленном режиме — через шесть месяцев.
С одной стороны, апробированная МКНТ методология внедрения автоматизированного интегрированного банка данных «Население» Москвы снизу вверх является очень трудоемким, сложным и, я бы сказала, ювелирным процессом. Большой опыт разработки и внедрения сложных автоматизированных систем позволяет сделать вывод о том, что очень важно найти поддержку и понимание среди пользователей нижнего уровня. Необходимо предложить им для эксплуатации такие программные средства, которые бы значительно облегчили их повседневную работу, обеспечили полную автоматизацию всего спектра функций пользователя. Таким модулем явилась сеть автоматизированных интегрированных рабочих мест сотрудников паспортного стола отдела милиции, разработанная в составе АИБД «Население».
В результате создания, внедрения и сопровождения сложных систем нижнего уровня, выработки приемов параметризации данных, справочников, классификаторов и настройки пользовательского интерфейса появилась возможность обеспечить автоматическое поддержание актуальности данных на нижнем уровне и создание «бесплатного» источника актуализации глобальной базы данных.
Проблемы вертикальной интеграции
Опыт использования существующих автоматизированных систем объектов нижнего уровня (паспортных столов участков ДЕЗ) показал, с одной стороны, их работоспособность и полноту функциональности. С другой стороны, оказалось, что эти модули не могут быть интегрированы в глобальную систему по причинам их закрытости.
Разработчики оказались в сложной ситуации. Переоснащение участков ДЕЗ и внедрение на них единого интегрируемого программного обеспечения привело бы к значительным затратам временных и финансовых ресурсов и отодвинуло бы завершение проекта еще как минимум на пять лет. Для решения подобных проблем в мировой практике используются многоуровневые интерфейсы информационного взаимодействия. Стоимость таких интерфейсов составляет 5-10% от стоимости разработки интегрируемой системы.
Интерфейс информационного взаимодействия представляет собой плоский текстовый файл с разделителями, в который автоматизированная система регистрации граждан в ДЕЗ должна поместить необходимые данные для паспортного стола милиции. Для автоматического ввода данных в БД «Население» паспортного стола милиции были разработаны правила целостности и непротиворечивости входных данных, правила соответствия общегородским и отраслевым классификаторам. При разработке таких технологий очень важно было принять единый порядок и правила работы паспортисток участка ДЕЗ и отдела милиции по обеспечению информационного взаимодействия объектов.
Таким образом внедрение автоматизированной технологии информационного взаимодействия паспортных столов милиции и паспортных столов ДЕЗ создало основу для автоматизированной актуализации базы данных «Население» паспортного стола района Москвы.
При передаче данных о гражданах на верхний уровень системы — АИБД «Население» отдела паспортно-визовой работы информационного центра УВД административного округа — решена задача контроля однократности учета граждан в окружной базе данных.
Проблемы горизонтальной интеграции
Для поддержания БД «Население» паспортного стола отдела милиции в актуальном состоянии необходимо наладить взаимодействие с общегородской базой данных «ЗАГС» (ОБД «ЗАГС»). Последняя регистрирует изменения гражданского состояния населения Москвы, в частности смерть граждан. Интеграция с ОБД «ЗАГС» позволяет автоматизировать процессы своевременного снятия с регистрации и уничтожения паспортов умерших.
Несоответствие структур управления паспортными столами милиции и отделами ЗАГС Москвы, а также законодательные основы регистрации акта гражданского состояния о рождении и смерти определили технологию интеграции систем. Так как рождение и смерть регистрируются в 70% случаев по месту жительства, а в 30% случаев — по месту рождения или смерти, полные данные об этих событиях содержатся только в общегородской базе данных «ЗАГС».
Результатом взаимодействия с ОБД «ЗАГС» является внесение изменений по рождению и смерти в АИБД «Население» по информации ЗАГС. При этом учитываются как фактические даты рождения и смерти, так и даты регистрации этих событий в паспортных столах милиции. Анализ информационного взаимодействия показал, что между регистрацией этих событий органами ЗАГС и паспортными столами милиции может пройти до пяти лет.
Информационное взаимодействие с общегородской системой «Выборы» в нашем проекте осуществляется на уровне района Москвы. Данные для внесения изменений в БД «Учет потенциальных избирателей района» формируются в автоматическом режиме с заданной системным администратором ГАС «Выборы» периодичностью.
Автоматическая обработка месячных изменений занимает не более 10 минут. Далее в соответствии с технологиями ГАС «Выборы» проводятся профилактические процедуры анализа данных и строится дефектная ведомость информационного взаимодействия.
Дефекты информационного взаимодействия вызваны незначительными ошибками в базах данных «Учет избирателей», связанными с неправильным написанием фамилии, имени и отчества избирателя, неточным указанием его даты рождения.
Интеграция с районной базой данных «Учет потенциальных избирателей» позволяет обеспечить автоматическое поддержание последней в актуальном состоянии. Внедрение такой технологии позволяет автоматически получать актуальные списки избирателей на любую дату.
Открытая реляционная модель данных и технология альтернативной классификации объектов, использованные в разработке, обеспечивают возможность интеграции с любой автоматизированной системой, содержащей данные о населении. Рассмотрим два основных случая интеграции: с субъектом-источником и субъектом-пользователем данных.
Паспортные столы милиции и отделы ЗАГС обеспечивают до 95% информации, необходимой пользователю. Незначительные по объемам потоки данных поступают из автоматизированных систем городского военкомата, содержащих данные о призыве и возвращении с военной службы, и из автоматизированных систем судов, содержащих данные о признании граждан недееспособными.
Информационное взаимодействие с субъектом-пользователем данных технологически должно осуществляться через журналы информационного взаимодействия по согласованным сторонами протоколам и регламенту.
Где эта улица, где этот дом
При разработке регистра населения может оказаться затруднительным ответить на вопрос, где проживает гражданин. Альтернативные понятия в классификаторах возникают при ретроспективном рассмотрении административно-территориального деления Москвы, структур органов управления и регистрации граждан. Классическим и самым простым примером альтернативного описания объекта является переименование улицы. К более сложным примерам должны быть отнесены частичные переименования улиц, перемещения строений, изменение домов с четных на нечетные, угловые дома, принадлежащие двум улицам.
Сложность в однозначном описании и идентификации этих объектов состоит в том, что подчас в паспортах граждан, проживающих в одной и той же квартире, дается различное описание улицы или адреса. Особенно это характерно для жителей центральных и окраинных районов Москвы.
По действующему законодательству при регистрации акта гражданского состояния адрес места жительства гражданина должен быть записан точно в соответствии с паспортом, при регистрации гражданина по месту жительства предыдущий адрес должен быть записан также по паспорту.
Эти и другие причины вызывают необходимость разработки и поддержания технологий ведения альтернативных описаний практически для всех классификаторов административно-территориального деления. Такие технологии предоставляют дополнительный сервис при информационном взаимодействии с автоматизированной системой, использующей другие типы классификаторов (в данном случае это системы ДЕЗ и ГАС «Выборы»).
В настоящее время выявлены и внесены в классификатор более 500 альтернативных описаний для Москвы. При формировании альтернативного описания для него ведется базовое описание, источник формирования альтернативного описания, дата и номер документа, на основании которых сформировано альтернативное описание.
Технология альтернативного описания объектов классификации может быть использована и при описании российских объектов административно-территориального деления, стран мира и т. д.
Проблема виртуальных двойников
При актуализации окружной базы данных о населении или загрузке данных автоматизируемых районов иногда возникает необходимость обеспечения однократного описания гражданина. Рассмотрим пример. Пусть некий гражданин был зарегистрирован в районе Гольяново, где уже функционирует база данных о населении, а затем выехал в район, где внедрение БД только предполагается. В этом случае гражданин может оказаться вторично зарегистрированным с другим идентификационным кодом, то есть он будет учтен дважды. Для того, чтобы исключить появление виртуальных двойников, должны быть предусмотрены специальные технологии обратной связи с базой данных на уровне паспортного стола милиции. При актуализации или дозагрузке баз данных уровней округа (впоследствии города) необходимо задействовать специальную процедуру поиска возможных двойников и синхронизации идентификационных номеров граждан. Идентификация граждан на первом этапе должна осуществляться по полному соответствию фамилии, имени, отчества, даты рождения, адреса места жительства, периода регистрации, на втором этапе — по зарегистрированным ранее значениям фамилии, имени и отчества.
Предложенный механизм не является универсальным и может давать сбои в следующих случаях. При изменении адреса места жительства (например, на другой субъект Российской Федерации) и фамилии, имени или отчества, а затем повторной регистрации в АИБД «Население» гражданин, в принципе, может быть учтен дважды. Полное совпадение фамилии, имени и отчества, даты рождения и места рождения — явление редкое, но вполне возможное. Так, например, при загрузке АИБД «Население» Восточного административного округа и ее интеграции с ОБД «ЗАГС» были выявлены дети-двойники, имеющие одну и ту же фамилию, имя, отчество, дату рождения и место рождения (в данном случае Москва). Следует отметить, что дети были зарегистрированы в разных отделах ЗАГС, в разные даты и разными актовыми записями.
Однако ввиду отсутствия законодательства и практики применения единого гражданского кода в России предлагаемая технология идентификации является единственной и дает верный результат в 98-99% случаев.
Для выявления возможных двойников и должна быть разработана технология поиска похожих записей.
Точка отсчета
Реальная эксплуатация регистра населения начинается с первичной загрузки данных. Основной проблемой, возникающей при этом, является правильное распознавание и целостное описание данных ДЕЗ по всем событиям, зарегистрированным в нем.
При информационном взаимодействии с базами данных ДЕЗ, созданными различными разработчиками, иногда выясняется, что нет какого-либо системотехнического подхода к формированию данных. В большинстве баз данных отсутствуют данные о рождении детей, смешиваются события прибытия, первичного получения паспорта, смены документа. Отсутствие каких-либо собственных классификаторов причин прибытия — убытия, родственных отношений — приводит к тому, что при миграции данных приходится разбираться с целыми «сочинениями» в символьных полях.
Типичной ошибкой разработчиков автоматизированных систем ДЕЗ является невнимание к логическому контролю данных. Так, например, в базах существует до 20 вариантов написания данных о смерти по факту «выбытия по смерти», в поля места рождения заносятся причины прибытия — убытия и т. д.
Для обеспечения целостности первично загруженных данных обычно используются следующие методы выравнивания данных.
- Построение альтернативных описаний адресов места жительства.
- Построения специальных библиотек - декодировочных таблиц адресов места рождения, прибытия и убытия.
- Получение статистик по повторяемости причин прибытия - убытия, смены паспорта, родственных отношений, их соотнесение с базовым описанием справочников.
- Итерационные процедуры переноса и преобразования данных, переданных в соответствии с неправильными реквизитами.
- Интеграция с ОБД "ЗАГС", содержащей 12 млн. выверенных записей, для дополнения данных АИБД "Население".
- Формирование поля "Место рождения - Москва" по информации ЗАГС.
Процедура первичной загрузки не является стандартизованной. Как правило, для одного района Москвы она занимает от одной до трех недель.
Промежуточные результаты
Работа по реализации проекта еще далека от завершения. Тем не менее некоторые итоги подвести все же можно.
АИБД «Население» внедряется в Москве с 1999 года и объединяет данные о населении столицы. Система внедрена в следующих органах территориального управления Москвы:
- паспортных столах дирекций единого Заказчика;
- паспортных столах отделов милиции;
- районных управах (в части интеграции с комплексом задач "Учет избирателей";
- отделах паспортно-визовой работы, информационных центрах УВД административного округа;
- префектурах.
Вот некоторые данные по округам. Во всех районах Восточного, Юго-Восточного АО, во всех паспортных столах имеется банк данных «Население» на все население. АИБД «Население» актуализируется ежедневно. Прочие округа имеют частичную автоматизацию, и число подключенных к проекту районов расширяется. Всего в АИБД «Население» в настоящее время содержатся актуальные данные о более чем 6 млн. москвичей и гостей столицы. Структурно-функциональная схема АИБД «Население» на примере Восточного административного округа изображена на рисунке.
Елена Бойченко — технический директор ИВЦ «Инсофт», с ней можно связаться по адресу ev@insoft.ru