Данные играют ключевую роль в создании и применении систем искусственного интеллекта (СИИ), основанных на методах машинного обучения, что делает весьма актуальной задачу обоснования требований к данным и оценки их влияния на работу таких систем.

Обобщенное описание процесса создания и применения типовой СИИ можно представить в нотации IDEF0 (рис. 1). На вход подаются исходные данные, представляющие собой множество X значений векторов; на выходе — результаты обработки Y. Механизмами процесса служат обучающие наборы данных и типовые модели машинного обучения, используемые для решения конкретной задачи, а также аппаратные средства для обучения модели и инференса. Управление процессом идет в соответствии с тактико-техническими требованиями, предъявляемыми к СИИ, правилами обучения модели, а также интерпретируемыми требованиями к модели (спецификациями), имеющимися при гибридном подходе к построению алгоритмов обработки данных с применением как машинного обучения, так и алгоритмизации внешних интерпретируемых знаний.

Рис. 1. Обобщенное описание процесса создания и применения СИИ в нотации IDEF0

Качество всех перечисленных компонентов влияет на качество СИИ в целом. При этом к данным относятся модели, правила и собственно наборы данных. В соответствии со стандартами ГОСТ 34.003-90 и ГОСТ 34.602-2020 автоматизированные системы включают: математическое, информационное, лингвистическое, программное, техническое, метрологическое, организационное, методическое, правовое и эргономическое обеспечение. Контролируемые информационные компоненты (КИК) охватывают математическое, информационное и программное обеспечение автоматизированной системы.

Уточнение перечня информационных компонентов можно выполнить с использованием модели жизненного цикла, учитывающей особенности СИИ на основе алгоритмов машинного обучения [1].

Алгоритмы ИИ принципиально не обладают полной интерпретируемостью. Для существенной части операций над данными, предусмотренных алгоритмом ИИ, человеком любой квалификации не может быть принято решение о правильности или неправильности этих операций на основании критериев, истинность которых подтверждена внешними соображениями (аксиоматические постулаты, доказанные теоремы, подтвержденные экспериментально модели, логически объяснимые зависимости и т. п.).

При создании алгоритмов ИИ используются специальным образом подготовленные наборы данных, содержащие примеры решения конкретной прикладной интеллектуальной задачи. Алгоритмы ИИ обладают обобщающей способностью — вариативность условий прикладной задачи ИИ для обучающего набора данных может быть существенно меньше, чем при дальнейшем практическом применении алгоритма.

Во многих случаях в процессе практического применения алгоритмов ИИ возникает возможность расширения исходных обучающих наборов данных за счет дополнительных примеров решения прикладных задач в новых, конкретных условиях. Такие дополненные наборы могут быть использованы для модификации алгоритмов с целью повышения их качества.

Универсальность алгоритмов ИИ позволяет использовать их для автоматизации сложных задач обработки данных, не поддающихся решению с помощью только полностью интерпретируемых алгоритмов. Это приводит к делегированию СИИ задач обработки данных, ранее выполнявшихся человеком, с переносом ответственности за некорректные действия по обработке данных от человека на другие субъекты права. Данное обстоятельство позволяет относить ИИ к технологиям, для которых остро встает вопрос социальной приемлемости их применения.

Если СИИ предназначены для автоматизации процессов интеллектуальной обработки данных, ранее выполнявшихся человеком, то должна быть обеспечена возможность сравнения функциональных характеристик алгоритмов ИИ с возможностями человека.

По мере накопления и агрегирования данных на стадии эксплуатации СИИ может расти уровень их конфиденциальности, что приводит к росту рисков угроз информационной безопасности, связанных, например, с компрометацией персональных данных.

При разработке модели жизненного цикла (ЖЦ) СИИ целесообразно принимать во внимание следующие национальные стандарты: ГОСТ 34.601-90 «Автоматизированные системы. Стадии создания», ГОСТ Р 56135-2014 «Управление жизненным циклом продукции военного назначения. Общие положения», ГОСТ Р 537912010 «Ресурсосбережение. Стадии жизненного цикла изделий производственно-технического назначения. Общие положения», ПНСТ 838-2023 «Искусственный интеллект. Структура описания систем искусственного интеллекта, использующих машинное обучение (ISO/IEC 23053:2022, IDT)», ГОСТ Р 70889-2023 «Информационные технологии. Искусственный интеллект. Структура жизненного цикла данных (ISO/IEC 8183:2023, MOD)». При этом модель жизненного цикла СИИ необходимо структурировать таким образом, чтобы контролируемые информационные компоненты однозначно определялись стадиями жизненного цикла. Вариант модели, удовлетворяющий такому требованию, представлен на рис. 2 [2] — перечень информационных компонентов из рис. 1 дополнен здесь новыми, обусловленными особенностями СИИ, например неполной интерпретируемостью алгоритмов машинного обучения и возможностью дообучения на стадии эксплуатации.

Функциональность и безопасность систем искусственного интеллекта: качество данных
Рис. 2. Модель жизненного цикла системы ИИ (цифры — номера контролируемых информационных компонентов, буквы — варианты применения информационных компонент на разных стадиях ЖЦ)

Модель предусматривает выделение следующих этапов жизненного цикла СИИ: внешнее проектирование и выбор типовых решений (R), обучение (L1), тестирование при вводе в эксплуатацию (T1), эксплуатация (U), пробное дообучение на вновь поступающих данных (L2), повторное тестирование после пробного дообучения (T2), модификация СИИ при успешном дообучении (M) и вывод из эксплуатации (EU).

Такая модель не противоречит общим подходам к структурированию ЖЦ автоматизированных систем. В таблице 1 приведено соответствие стадий жизненного цикла СИИ и стадий, установленных действующими нормативными документами для технических и автоматизированных систем. Адекватность предложенной модели ЖЦ подтверждается возможностью ее применения для решения задач оценки безопасности создания и применения СИИ [3] и обоснования рационального комплекса стандартов в области СИИ [2].

Функциональность и безопасность систем искусственного интеллекта: качество данных

Такой набор специфичен для СИИ, поэтому особенности систем обработки данных на основе алгоритмов машинного обучения полностью обуславливаются этим набором как минимально достаточным. При этом в составе СИИ могут присутствовать и другие компоненты: сенсоры, средства передачи, обработки, хранения и отображения информации, исполнительные устройства и т. п., также определяющие качество и безопасность работы системы, но не являющиеся специфическими для систем обработки данных на основе алгоритмов машинного обучения.

Анализ состава требований к информационным компонентам с выявлением факторов, определяющих качество СИИ, может быть выполнен с учетом особенностей реализации процессов жизненного цикла СИИ. При этом за основу могут быть взяты универсальные модели жизненного цикла программных систем и средств.

Функциональность и безопасность систем искусственного интеллекта: качество данных
Рис. 3. Взаимосвязь стандартов системной инженерии, устанавливающих требования к процессам ЖЦ систем, включая системы ИИ

Детальный анализ особенностей реализации процессов жизненного цикла СИИ может быть выполнен с использованием стандартов системной инженерии, взаимосвязь которых показана на рис. 3. Первоначально описание процессов жизненного цикла было приведено для программных средств (ПС) в международном документе ISO/IEC 12207-95 «Information technology. Software life cycle processes» и идентичном ему российском национальном стандарте ГОСТ Р ИСО/МЭК 12207-99 (ISO/IEC 12207-95, IDT) «Информационная технология. Процессы жизненного цикла программных средств». Совокупность из 17 процессов жизненного цикла объединялась в три группы: основные, вспомогательные и организационные процессы, причем значительное внимание было уделено участию основных участников жизненного цикла ПС (заказчиков, поставщиков, разработчиков, операторов и персонала сопровождения) в реализации процессов каждой группы. Дальнейшее развитие методология описания процессов жизненного цикла получила в международном стандарте ISO/IEC 15288:2002 «System engineering — System life cycle processes», область действия которого была расширена до технических систем в целом. В этом документе, а также в идентичном ему российском стандарте ГОСТ Р ИСО/МЭК 15288-2005 (ISO/IEC 15288:2002, IDT) «Информационная технология. Системная инженерия». Процессы жизненного цикла систем были определены как: процессы соглашения, процессы предприятия, процессы проекта и технические процессы. Дополнительно устанавливались требования к адаптации (выбора релевантной совокупности процессов) стандарта с учетом особенностей ЖЦ конкретной системы, а также определялись основные стадии жизненного цикла. Важно, что в документе ISO/IEC 15288:2002 в явном виде показана взаимосвязь процессов жизненного цикла систем с процессами ПС, определенными в ISO/IEC 12207-95.

В 2008 году был подготовлен актуализированный международный документ ISO/IEC 12207-2008 «System and software engineering — Software lifecycle processes», на основании которого был разработан идентичный российский стандарт ГОСТ Р ИСО/МЭК 12207-2010 (ISO/IEC 12207:2008, IDT). «Информационная технология. Системная и программная инженерия. Процессы жизненного цикла программных средств». В этих документах приводится описание шести групп процессов: процессы соглашения; организационного обеспечения; технического управления; технические; реализации ПС и их поддержки. Далее, в 2015 году документ ISO/IEC 12207-2008 был использован для актуализации международного стандарта по процессам ЖЦ систем ISO/IEC/IEEE 15288-2015 «Systems and software engineering — System life cycle processes», который был также гармонизирован путем разработки неэквивалентного российского стандарта ГОСТ Р 57193-2016 (ISO/IEC/IEEE 15288:2015, NEQ) «Системная и программная инженерия. Процессы жизненного цикла систем». При этом в новом стандарте ISO/IEC/IEEE 15288:2015 были сохранены четыре из шести групп процессов: процессы соглашения; организационного обеспечения; технического управления и технические.

В последующем международные документы ISO/IEC 12207:2008 и ISO/IEC/IEEE 15288:2015 были дополнительно актуализированы документами ISO/IEC/IEEE 12207:2017 (E) «Systems and software engineering — Software life cycle processes» и ISO/IEC/IEEE 15288:2023 «Systems and software engineering. System life cycle processes» соответственно. При актуализации стандарта по процессам жизненного цикла ПС ISO/IEC/IEEE 12207:2017 учитывались требования стандарта по системам в целом ISO/IEC/IEEE 15288:2015, в результате чего в этом документе были оставлены четыре группы процессов ЖЦ, а не шесть, как в предшествовавшем ему стандарте ISO/IEC 12207:2008.

В конечном счете на основании этих двух актуализированных документов был разработан международный стандарт по процессам жизненного цикла СИИ ISO/IEC 5338-2023 ISO/IEC 5338-2023 «Information technology — Artificial intelligence — AI system life cycle processes», который сейчас находится в стадии гармонизации на национальном уровне. В этом документе, как и во взятых за основу при его разработке ISO/IEC/IEEE 12207:2017 и ISO/IEC/IEEE 15288:2023, определены четыре группы процессов, причем в первых трех группах некоторые процессы были уточнены с учетом специфики ИИ, а в четвертой — добавлены три дополнительных процесса.

Таким образом, для уточнения требований к контролируемым информационным компонентам СИИ следует применять стандарты ISO/IEC/IEEE 5338-2023 — в части четырех групп процессов, актуализированных для СИИ и ГОСТ Р 12207-2010 — в части охвата двух дополнительных групп процессов: реализации и поддержки ПС.

Полученные с учетом особенностей СИИ требования к информационным компонентам СИИ во многом дублируют друг друга, и их можно свести к следующим видам:

A) полнота наборов параметров, характеризующих предусмотренные условия эксплуатации, функциональные характеристики и функциональные требования к СИИ;

B) статистическая репрезентативность наборов данных (обучающих, дообучающих, тестовых), используемых при создании и в процессе эксплуатации СИИ. Считается, что репрезентативность наборов определяется их объемом (количеством элементов) и вариативностью (изменчивостью условий получения в соответствии с ПУЭ). При этом во внимание принимаются интерпретируемые правила (спецификации), которые могут быть сформулированы для конкретных моделей машинного обучения, повышая тем самым репрезентативность наборов данных фиксированного объема и вариативности (см. вид D);

C) точность КИК, отсутствие в них преднамеренных и непреднамеренных искажений;

D) полнота спецификаций, устанавливающих интерпретируемые требования к моделям машинного обучения;

E) уровень конфиденциальности данных, ассоциированных с контролируемыми информационными компонентами: ПУЭ, функциональные характеристики, спецификации, сведения об используемых архитектурах алгоритмов МО, обучающие и тестовые наборы данных.

Видно, что требования типа A, B, C и D относятся к характеристикам целостности информационных компонентов, а E — к их конфиденциальности. Без ущерба для общности можно считать, что требования целостности в данной постановке включают также требования доступности информационного компонента, при невыполнении которых требования целостности считаются критически нарушенными.

При выявлении требований, связанных с реализацией тех или иных процессов в СИИ, учитывались особенности интеллектуальных систем на основе алгоритмов машинного обучения [1]. Эти особенности не противоречат приведенным в ISO/IEC/IEEE 5338-2023, но расширяют их (в части особенности, связанной с возможным неконтролируемым ростом уровня конфиденциальности данных в процессе эксплуатации СИИ) и агрегируют их, устраняя дублирование (таблица 2).

Функциональность и безопасность систем искусственного интеллекта: качество данных

Таким образом, полный набор требований к СИИ на основе алгоритмов машинного обучения может быть сведен к 18 группам (9 информационных компонентов, по две группы — целостности и конфиденциальности — на каждый компонент). Под факторами качества с индексами n понимаются обстоятельства, связанные с обеспечением целостности и конфиденциальности n-й информационного компонента СИИ соответственно. Количественная оценка факторов качества может быть выполнена с использованием коэффициентов, характеризующих полноту учета соответствующих факторов. Значения этих коэффициентов в общем случае оцениваются экспертным путем, исходя из эффективности устранения возможных причин снижения качества СИИ. Эти причины могут носить как естественный характер, так и обуславливаться преднамеренными действиями злоумышленника (таблица 3).

Функциональность и безопасность систем искусственного интеллекта: качество данных

В [3] показано, что к возможным негативным последствиям, обусловленным действием различных факторов качества, относятся:

1) существенное возрастание ошибки оценивания функциональных характеристик при тестировании (испытаниях) СИИ за счет смещения (как правило — в сторону завышения характеристик) и возрастания случайной составляющей погрешности оценок при снижении вариативности тестовых наборов данных. Неточное понимание функциональности систем существенно усложняет или даже делает невозможным принятие эксплуатирующей стороной решений об использовании СИИ на практике;

2) деградация характеристик, ограничивающая возможность применения систем в реальных условиях эксплуатации. Причины такой деградации заключаются либо во внесении преднамеренных искажений в обучающие НД и архитектуру СИИ, в результате чего характеристики ухудшаются, либо в создании злоумышленниками в ходе реального применения СИИ условий, существенно отличающихся от предусмотренных разработчиками системы. Во втором случае характеристики систем сохраняют гарантированные разработчиком значения в предусмотренных условиях эксплуатации, однако деградируют в реальных условиях, выходящих за рамки предусмотренных условий эксплуатации;

3) нежелательное нарушение конфиденциальности сведений о тактико-технических характеристиках и особенностях применения СИИ, приводящее, например, к повышению эффективности деструктивных информационных воздействий на СИИ злоумышленниками, в том числе за счет оптимизации способов искажения входных данных и т. п.;

4) компрометация сведений о физических и юридических лицах, интересы которых так или иначе затрагиваются при реализации процессов жизненного цикла СИИ (заинтересованные лица СИИ).

В свою очередь, нарушение функциональности СИИ (негативные последствия первого и второго типа) может приводить к реализации угроз физической безопасности в отношении лиц, непосредственно участвующих в создании и применении СИИ, третьих сторон, а также реализации угроз информационной (включая риски в области социальной приемлемости применения СИИ) и экономической (неэффективное решение целевых интеллектуальных задач) безопасности [3].

Таким образом, анализ основных факторов качества данных, используемых при создании и использовании систем ИИ, позволяет оценивать характеристики функциональности и безопасности этих систем, что принципиально важно для принятия ответственных решений о возможности применения систем искусственного интеллекта для решения конкретных прикладных задач.

***

Факторы качества данных при создании и применении систем искусственного интеллекта обуславливаются полнотой выполнения требований целостности и конфиденциальности информационных компонентов систем искусственного интеллекта. Модель жизненного цикла типовой системы искусственного интеллекта позволяет выявить девять основных информационных компонентов. Нарушение требований к целостности и конфиденциальности таких компонентов может приводить к рискам реализации угроз физической, информационной и экономической безопасности в отношении поставщиков и эксплуатантов систем искусственного интеллекта, а также третьих лиц.

Литература

1. Гарбук С. В., Губинский А. М. Искусственный интеллект в ведущих странах мира: стратегии развития и военное применение. — М.: «Знание», 2020. 590 с.

2. Гарбук С. В. Метод оценки влияния параметров стандартизации на эффективность создания и применения систем искусственного интеллекта. Информационно-экономические аспекты стандартизации и технического регулирования. 2022, № 3 (67). С. 4–14.

3. Гарбук С. В. Специальная модель безопасности создания и применения систем искусственного интеллекта. Вопросы кибербезопасности. 2024, № 1 (59). С. 18–26.

Сергей Гарбук (garbuk@list.ru) — директор по научным проектам НИУ ВШЭ, председатель технического комитета ТК 164 «Искусственный интеллект» (Москва). Статья подготовлена на основе материалов выступления на конференции «Качество данных 2024».

DOI: 10.51793/OS.2024.95.90.004