Компания «Крок» демонстрирует технологию переписи населения
Cканер для нынешней переписи населения разработан инженерами компании «Крок». С его помощью 111 двусторонних бланков могут быть введены за 48 секунд |
Неотвратимо приближается время подведения итогов всероссийской переписи населения. 29 августа компания «Крок» провела презентацию своего комплекса первичной обработки материалов переписи, в том числе сканер, разработанный ею специально для ввода материалов переписи, и программы распознавания и логического контроля введенных данных.
Проект был представлен на тендер, проводившийся Госкомстатом РФ, и был признан в нем победителем, что было несложно, так как «Крок» оказалась единственной компанией, удовлетворившей условиям тендера. Между тем, Арбитражный суд признал тендер незаконным, указав, что подобное мероприятие не может проходить при одном участнике. Представители компании и Госкомстата всячески обращали внимание публики на технические достоинства системы, минимально комментируя юридические перипетии.
История доказывает: шанс стать «крайним» у ИТ-специалиста велик. Как рассказывает журнал «Директор информационной службы» (см. № 7-8 за 2002 год), в 1890 году Бюро переписи населения США насчитало 62 млн. человек, что возмутило нацию: граждане считали, что их 75 млн. В «ошибке» были обвинены новые автоматические счетные машины. Правительство тогда заступилось за машины, они, мол, не виноваты, да и сэкономили 5 млн. долл. налогоплательщиков. Заступится ли кто за Госкомстат, как это было в древнейшей истории информационных технологий, если народу статистика не понравится? Сие неизвестно, но обратимся лучше к технологиям.
Начнем со сканера. Он действительно разработан подразделением «Крока», в котором работает около десятка инженеров. Всю механику сканера российского производства, элементную базу — светодиоды и ПЗС-матрицы все же решили закупать за границей. 111 двусторонних бланков были введены за 48 секунд, распознаны и проанализированы более 12 тыс. специальных меток. Конечно, сканеры такого класса существуют, но они, по словам заместителя директора департамента информационных технологий «Крока» Андрея Шаина, не смогут конкурировать по цене со сканерами отечественного производства.
Выбор метода, основанного на метках, которые надо зачеркивать, вместо распознавания рукописного текста вызвал наибольшее число вопросов. По мнению специалистов «Крока» и Главного межрегионального центра Госкомстата, распознавание слитного рукописного текста, в котором силен несостоявшийся конкурент — компания ABBYY, в данной ситуации неприменимо, и речь в лучшем случае шла о распознавании вписанного в ячейки текста. При таком подходе объем бланков существенно вырос бы, увеличилась бы доля ошибок. Плата за метки вместо букв — наличие дополнительного звена персонала переписи, кодировщиков, которые, вооружившись специальными справочниками, будут формализовать ответы представителей широких слоев населения. Программное обеспечение распознавания у «Крока» свое — это плоды деятельности группы, являющейся наследницей одного из доброго десятка коллективов, занимавшихся этой проблемой еще в советские времена.
Главный козырь «Крока» — развитый интерфейс формального и логического контроля введенной информации, в котором оператору предоставляется и набор подсказок, и, в крайнем случае, возможность присвоения отдельным данным статуса недостоверных. Система отслеживает не только количество, но и порядок поступивших бланков, подсказывает возможные места сбоев и ошибок, высвечивая их в дереве документа (который в духе времени преобразуется в формат XML).
Информация будет вводиться в 66 центрах. Для формально-логического контроля выделено 16 центров (система допускает распределенную обработку), потом все данные поступят в Главный межрегиональный центр, который и несет ответственность за конечный результат.