Иван Бегтин, директор и соучредитель некоммерческого партнерства «Информационная культура» инициировал движение открытых данных в России и активно занимается продвижением в стране идей открытых данных и открытого правительства. Создатель сайта «ГосЗакупки» и ряда общественно значимых проектов, специалист по добыче данных и обработке информации в сфере финансов, Бегтин рассказывает о том, почему нужно открывать государственные данные, какие препятствия существуют на этом пути и зачем бизнесу открытые данные.
Что такое открытые данные?
Такие данные развивают идею свободы доступа к информации, произведенной государством, общественными организациями, гражданами и даже бизнесом. Такая информация может быть использована в разных целях на основе лицензий, снимающих возможные юридические ограничения. Концепция открытых данных декларирует доступ к информации не просто в визуальных, но и в машиночитаемых форматах, что обеспечивает возможность ее многократного использования и формирует своего рода рынок данных.
Появлению идеи открытых данных способствовали разработки с открытым исходным кодом, приверженцы которой уже давно продвигали инициативы технологической открытости государства, включая доступность данных. Кроме этого, научные организации по всему миру уже в течение многих лет открывают свои базы данных, будучи уверенными в том, что свободный обмен информацией позволяет подтвердить результаты исследований и инициировать новые. Открытость государства также оказала влияние на развитие идеи открытых данных — в определенный момент на Западе запросы от граждан и бизнеса к государству достигли объемов, требующих доступности данных в машиночитаемом виде. Возможность доступа к государственной информации позволяет бизнесу создавать новые продукты и улучшать существующие, а гражданам — контролировать деятельность чиновников. В эпоху Интернета значительная часть данных стала доступна посредством различных частных и общественных проектов, таких как «Википедия».
Что удалось сделать в нашей стране?
В силу ряда объективных причин государственные органы в России начали открывать данные, и сегодня открытые данные стали частью государственной политики. В первые годы продвижения темы открытых данных мы говорили: если вы не будете открывать данные, мы сделаем это сами, потому что на эту информацию есть коммерческий и общественный спрос. Например, нужен реестр школ и открытие данных о среднем балле ЕГЭ, чтобы делать программы для составления рейтингов школ, помогая гражданам в выборе учебного заведения. Мы самостоятельно собирали подобную информацию: писали программы переработки данных, размещали информацию на хабе открытых данных и проводили регулярные форумы для привлечения разработчиков к использованию этих данных. Организация «Информационная культура» была создана вокруг первого конкурса для разработчиков Apps4Russia, призванного пропагандировать создание приложений на базе открытых данных.
Кроме того, в контингенте чиновников происходит смена поколений — приходят молодые технократы, склонные вкладывать средства в ИТ. Данные по госзакупкам начали публиковаться в России в машиночитаемом формате с 2006 года, еще до того, как в стране стали употреблять термин «открытые данные», и на эту информацию всегда был большой спрос со стороны бизнеса. На базе этих данных я сделал проект «ГосЗатраты» (clearspending.ru), который сегодня развивает Комитет гражданских инициатив, созданный при поддержке Алексея Кудрина и собравший независимых экспертов с целью формирования экосистемы для всех, кто заинтересован в проведении общественного расследования в области государственных расходов. Несколько проектов реализовано силами некоммерческого партнерства «Информационная культура», в том числе хаб открытых данных (hubofdata.ru) — большой реестр массивов данных из различных государственных источников.
Как государство относится к теме открытых данных?
В странах с сильным гражданским обществом открытые данные являются частью государственной доктрины. Например, Великобритания реализует концепцию цифрового правительства (digital government), неотъемлемой частью которой являются открытые данные. Существует ряд крупных международных организаций, которые занимаются открытыми данными, в частности Партнерство по открытому правительству (open government partnership). Россия выпала из международной повестки дня по открытым данным, поскольку теперь не состоит в «Большой восьмерке», принявшей хартию по открытым данным, и в последний момент отказалась вступить в Партнерство по открытому правительству. В целом в России реализуется немало региональных инициатив по открытым данным, однако на федеральном уровне успехи скромные. Отчасти причина заключается в том, что централизованное управление этой деятельностью перешло от Минкомсвязи в ведение Минэкономразвития. Ряд министерств активно раскрывают информацию, а есть государственные органы, которые этого не делают — например, Росстат, МВД, Рособрнадзор и Минобрнауки. Однако главная сложность — отсутствие централизованной политики в области открытых данных, например, эта тема не включена ни в одну федеральную программу.
Какие выгоды получает бизнес от работы с открытыми данными?
В России бизнес многих компаний либо целиком основан на государственных данных, либо использует их косвенным образом, однако представители такого бизнеса обычно это не афишируют, опасаясь обнародования своей бизнес-модели и создания для себя конкурентов. Кроме этого, они опасаются, что если начнут рассказывать, какие данные используют и какую выгоду из этого получают, то у чиновников возникнет соблазн эти данные не публиковать или публиковать с ошибками, а очищенные предоставлять за плату. В качестве примера успешного бизнеса с использованием открытых данных можно привести операторов систем проверки контрагентов — «Спарк.Интерфакс», «Коммерсант.Картотека» или «Контур.Фокус». Эти компании наряду с закрытыми данными, которые получают по официальным каналам из ФНС, обращаются к открытым реестрам лицензий, данным по закупкам, по контрактам и т. д. Есть компании, например «Закупки360», бизнес которых целиком построен на данных по закупкам — они на платной основе предоставляют уведомления о тендерах, информацию о дополнительных услугах с применением этих государственных данных и др. Бывает и так, что компания не создает напрямую продукт на базе открытых данных, а формирует возможность предоставления услуг на их основе, реализуя сервисы очистки, обогащения данных и т. д. Такие компании используют государственные классификаторы: ФИАС (Федеральная информационная адресная система), КЛАДР (Классификатор адресов России) и др. Судя по мировой практике, имеется множество данных, для которых возможна быстрая монетизация, — например, данные криминальной статистики, статистика сдачи единых госэкзаменов, климатические данные. Но наши чиновники не торопятся открывать такие данные.
Что представляет собой технологическая экосистема открытых данных?
Для открытия данных требуется определенное качество внутренних ИТ-систем государственных учреждений, которые реально во многих министерствах находятся в катастрофическом состоянии — либо данные публикует пресс-служба, которая ничего в них не понимает, либо делаются попытки привести к машиночитаемой форме данные устаревших форматов. С другой стороны, часто в ходе публикации данных оказывается, что та или иная система числится только на бумаге или реестр создан, но заполнен только на 10%.
Существует множество инструментов публикации данных, например CKAN (Comprehensive Knowledge Archive Network) от некоммерческой организации Open Knowledge Foundation. Имеются и российские разработки, но если есть желание раскрыть данные, то неважно с помощью какого движка это делать, — например, Федеральное казначейство ежедневно просто публикует все данные о закупках на ftp-сервере. Главное, что у них реализовано описание схем данных, а в техническом задании на эту систему предусмотрена регулярность обновления. Однако, например, чиновники Росстата создали раздел на CKAN, опубликовали часть массивов данных и этим ограничились, требуя дополнительных средств на автоматизацию.
Существует два подхода к публикации открытых данных. Минэкономразвития считает, что все государственные органы публикуют данные на своих сайтах, после чего они собираются на едином портале data.gov.ru. Однако эффективнее подход правительства Москвы, департамент ИТ которого отвечает за публикацию данных, экспортируя их непосредственно из ИТ-систем различных организаций города. Именно так предполагалось работать с открытыми данными федерального уровня в Минкомсвязи — приоритетны должны быть не органы как таковые и их действия по публикации информации на своих сайтах, а государственные ИТ-системы, в которых эта информация уже есть и должна открываться с помощью унифицированных интерфейсов. Но эту идею реализовать не удалось.
Есть ли среди открытых Большие Данные?
Открытые данные по госзакупкам — это сотни гигабайт, ежедневные обновления и изменения схем данных, а также активная работа с ними на регулярной основе. Есть данные меньшего объема: например, на сайте bas.gov.ru собрана информация о госучреждениях в XML-файлах, а в системе ФИАС (Федеральная информационная адресная система) хранятся сведения о каждом доме в России, публикуемые ФНС. Для работы с этими данными требуются масштабные, технологически сложные инструменты, но в России далеко не все из того, что есть у государства, сейчас публикуется, поэтому более показательны зарубежные примеры, например отчеты государственных научных учреждений США или данные Wikipedia.
Открытые данные и интеллектуальная собственность...
В Евросоюзе есть институт информационных офицеров, на уровне которого принимается решение о том, какие данные можно публиковать, даже если они содержат персональную информацию, а для каких публикацию необходимо ограничивать. В ЕС, например, несколько лет назад раскрывали всю информацию о субсидиях фермерам, вплоть до фамилий и размеров субсидий, однако позже было решено не показывать часть персональных данных, раскрытие которых противоречит директивам ЕС. В России ситуация неоднозначная. Так, раскрытие данных по госзакупкам «вытащило» на свет немало коммерческих тайн и теневых схем «освоения» бюджетов. Требование раскрывать все данные по контрактам было связано с реализацией антикоррупционной политики, однако в странах, где роль государства меньше, чем в России, такое невозможно. С другой стороны, не раскрываются данные, менее чувствительные к проблемам интеллектуальной собственности, —например, средний балл ЕГЭ по школам или данные криминальной статистики по районам.
Сегодня Россия в первой десятке стран по открытости госбюджета, но очень отстает в раскрытии других категорий данных — стране предстоит еще долгий и непростой путь.