В условиях роста объема научных публикаций и увеличения числа их авторов повышается актуальность автоматизированных систем, позволяющих точно идентифицировать и связывать публикации с их авторами. Это не только упрощает процесс поиска и анализа научных работ, но и повышает прозрачность научных коммуникаций, эффективность работы с научной информацией и ее доступность, что имеет большое значение для академического сообщества и научной интеграции.

Для обеспечения корректного импорта и привязки публикаций к их авторам, а также для передачи данных в цифровой репозиторий требуются специальные сервисы, позволяющие качественно устанавливать соответствие с авторами, выполнять проверку на дубли, связывать профили авторов с уже импортированными публикациями и синхронизировать взаимодействие всех сервисов с информационными системами научной организации. Соответствующие решения могут использоваться институтами и вузами, издательствами и цифровыми библиотеками для улучшения качества данных и упрощения процессов управления научной информацией. В России такие решения актуальны для системы ИСТИНА [1] и библиотеки eLIBRARY.RU, а также для международных: ORCID, Scopus, Web of Science, DOI и Google Scholar.

Привязка публикаций к авторам и проверка на дублирование — достаточно сложная задача, решение которой требует использования различных методов точной идентификации авторов и их работ, а также выявления повторяющихся публикаций. В ОИЯИ создан программный комплекс автоматизированного сбора, обработки и систематизации публикаций [2]. В качестве цифрового репозитория используется платформа с открытым исходным кодом DSpace [3], позволяющая хранить научные данные, предлагая средства работы с метаданными и управления правами доступа. Адаптивная архитектура платформы обеспечивает поддержку различных форматов контента и инструменты интеграции сообщества разработчиков для развития системы. Однако DSpace требует значительных технических знаний для установки и администрирования, а также имеет ограниченную функциональность по сравнению с коммерческими альтернативами.

Для расширения функционала цифрового репозитория — эффективного управления авторскими данными — разработан набор сервисов, выполняющих следующие функции.

  • Привязка публикаций к авторам для точного определения авторства конкретной работы. Это создает достоверную базу данных для изучения и анализа результативности работы ученых и исследователей.
  • Проверка на дублирование публикаций с минимизацией риска появления однотипных записей в репозитории. Это не только оптимизирует процесс хранения данных, но и облегчает пользователям поиск необходимых материалов, а также обеспечивает привязку авторов к уже импортированным публикациям, что позволяет тестировать и отслеживать научные связи в развивающихся областях знаний.

Все сервисы синхронизированы, что позволяет обновлять данные в режиме реального времени, а интеграция с информационными сервисами организации снижает вероятность возникновения несоответствий и ошибок. На рисунке представлена общая схема работы сервисов.

Cервисы управления данными об авторах
Общая схема работы сервисов

Сервис импорта в репозиторий импортирует публикации, осуществляет первоначальную привязку к ним авторов и проверяет на дублирование. Сервис получает список публикаций из базы данных программного комплекса, предназначенного для автоматизированного сбора и систематизации публикаций. Каждая публикация содержит более 60 типов метаданных (название, ключевые слова, аннотация и др.), что позволяет создать полное и точное описание. После получения данных сервис приступает к проверке на дублирование с публикациями, уже загруженными в репозиторий DSpace. Процесс проверки реализован как многопоточный, что позволяет сократить время на обработку — массив публикаций разделяется на 16 потоков, в каждом из которых выполняется поиск дублей по шести полям метаданных: Inspire ID, Elibrary ID, Scopus ID, DOI, EDN и название публикации. Из всех потоков создается единый массив с дублями, и при обнаружении совпадений выполняется сверка метаданных — если какие-либо метаданные отсутствуют или отличаются, то они заменяются на актуальные из базы данных. Для новых публикаций, еще не загруженных в репозиторий, проводится первоначальная привязка авторов, аффилированных с ОИЯИ к профилям авторов в DSpace. Эта привязка осуществляется с использованием различных идентификаторов авторов, таких как ORCID, elibrary author id и других, а также по вариантам написания имени автора, что обеспечивает максимальную точность и полноту. Затем список публикаций преобразуется в формат Simple Archive Format [4] и импортируется в репозиторий DSpace. Кроме того, метаданные публикаций записываются в базу данных информационной системы института (ИСИ), что позволяет поддерживать актуальность и доступность информации.

Сервис смены коллекции публикаций переносит публикации из коллекции (коллекции служат для систематизации и хранения научных работ) для ручного ввода в основную коллекцию публикаций, осуществляет поиск дубликатов и импортирует публикации в ИСИ. Публикации, загруженные автоматически из программного комплекса, сразу попадают в основную коллекцию, что обеспечивает оперативность и актуальность данных. В то же время публикации, введенные вручную, проходят этап ручной модерации, что гарантирует высокое качество и соответствие стандартам, прежде чем они будут опубликованы в коллекции для ручного ввода. Сервис получает список таких публикаций и проводит детальную проверку на дубликаты с уже загруженными в цифровой репозиторий публикациями. В случае обнаружения дубликата публикация помещается в специальный архив, предназначенный для дальнейшей проверки модератором, что позволяет избежать избыточности и поддерживать порядок в репозитории. Новые публикации, не имеющие аналогов, перемещаются в основную коллекцию публикаций цифрового репозитория. Кроме того, сервис импортирует метаданные публикаций в базу ИСИ, обеспечивая интеграцию и синхронизацию данных, что важно для поддержания актуальности и полноты информации в системе.

Сервис синхронизации с ИСИ обеспечивает создание и обновление профилей авторов ОИЯИ для поддержания актуальности данных о научных сотрудниках. Сервис извлекает метаданные сотрудников из базы данных ИСИ (ФИО, должность, адрес электронной почты, структурное подразделение и пр.). После этого осуществляется сверка метаданных сотрудников, полученных из базы данных, с аналогичными данными из репозитория, что позволяет выявить и устранить возможные несоответствия. В случае обнаружения новых сотрудников сервис генерирует первоначальный набор вариантов написания имени автора, что способствует более точной идентификации и учету. Затем формируется список новых сотрудников, а также сотрудников, в профилях которых произошли изменения. Этот процесс гарантирует актуальность информация о научных сотрудниках.

Сервис создания профиля сотрудника — создание и обновление профилей сотрудников. В DSpace понятия профиля автора и профиля сотрудника различаются. Профиль автора включает ключевые сведения об авторе (ФИО, должность, список привязанных к нему публикаций и пр.), а профиль сотрудника включает логин, пароль с поддержкой SSO (Single Sign-On, технология единовременной авторизации, при которой пользователь получает доступ ко всем поддерживаемым сервисам без повторной авторизации) и адрес e-mail, который связывает профиль сотрудника с профилем автора. Сервис получает данные из базы и создает новые профили сотрудников в репозитории. В процессе создания профиля также осуществляется проверка на уникальность логина и e-mail.

Сервис поиска авторов осуществляет поиск и привязку авторов к уже импортированным в репозиторий публикациям. Сервис использует множество критериев для привязки авторов к уже загруженным публикациям, включая различные идентификаторы, такие как ORCID и elibrary author id. Все изменения, произведенные в процессе привязки, синхронизируются как с репозиторием, так и с базой данных ИСИ, обеспечивая актуальность и целостность данных.

Сервис удаления данных из коллекции осуществляет исключение данных из определенной коллекции. Поскольку при больших объемах коллекций в репозитории удаление данных через веб-интерфейс затруднительно, сервис обеспечивает массовое удаление публикаций, что упрощает управление репозиторием.

Работа всех сервисов синхронизирована с помощью планировщика задач CRON, используемого в Unix-подобных операционных системах и позволяющего автоматически выполнять команды или скрипты по расписанию, автоматизируя, таким образом, выполнение задач управления публикациями и метаданными. Каждый сервис ежедневно запускается в определенное время, что обеспечивает актуальность репозитория.

Разработанное решение обеспечивает автоматизацию и точность процесса привязки публикаций к авторам, предотвращение дублирования и синхронизацию с информационными системами института, что делает его более эффективным для внутреннего использования, чем ИСТИНА или eLIBRARY.RU, решающих более общие задачи учета научной деятельности. Однако оно уступает eLIBRARY.RU по масштабу охвата и индексации данных, так как эта библиотека содержит обширную базу российских и зарубежных публикаций. Объемы хранилищ международных платформ, таких как ORCID, Scopus, Web of Science, DOI и Google Scholar, также существенно превосходят решение ОИЯИ по масштабу, но не по функциональным возможностям.

***

Набор предлагаемых сервисов обеспечивает взаимодействие с программным комплексом, отвечающим за автоматизированный сбор, обработку и систематизацию публикаций [2]. Данные сервисы позволили упростить и ускорить процессы привязки авторов к публикациям, удаление данных из коллекций и синхронизации с базами данных. Интеграция подобных сервисов в существующую инфраструктуру управления информационными ресурсами — важный шаг к созданию эффективной системы поддержки научных исследований и разработок. Сегодня сервисы работают в составе цифровой экосистемы ОИЯИ на открытой платформе цифрового репозитория Dspace и могут быть использованы научными учреждениями, издательствами, цифровыми библиотеками, грантодателями и информационными системами для совершенствования процессов управления научной информацией. Интеграция сервисов с информационными системами научной организации позволит повысить эффективность работы с публикациями и авторскими профилями.

Литература

1. Валерий Васенин, Сергей Афонин, Александр Козицын. ИСТИНА в науке и образовании // Открытые системы.СУБД. —2016. —№ 3. — С. 44–45. URL: https://www.osp.ru/os/2016/03/13050261 (дата обращения: 21.03.2025).

2. Андрей Кондратьев, Алексей Бондяков. Автоматизированный сбор и систематизация публикаций. // Открытые системы.СУБД. —2024. —№ 1. — С. 49–51. URL: https://www.osp.ru/os/2024/01/13058272 (дата обращения: 21.03.2025).

3. Filozova I. A. et al. Установка и оценка производительности системы DSpace. Современные информационные технологии и ИТ-образование, [S.l.]. 2023, oct. v. 19, n. 3. ISSN 2411–1473. URL: http://sitito.cs.msu.ru/index.php/SITITO/article/view/1000 (дата обращения: 21.03.2025).

4. Reznichenko Oleg. PREPARATION ARTICLES METADATA FOR BATCH IMPORT INTO DSPACE REPOSITORY. Экономика Информатика. 2021, 48. 564–577. URL: http://dx.doi.org/10.52575/2687-0932-2021-48–3-564-577 (дата обращения: 21.03.2025).

Андрей Кондратьев (kondratyev@jinr.ru) — младший научный сотрудник, Алексей Бондяков (aleksey@jinr.ru) — старший научный сотрудник, Объединенный институт ядерных исследований (Дубна).

DOI: 10.51793/OS.2025.52.14.002