Создание телекоммуникационных систем начинается с построения моделей, описывающих структуру сети, определения реализуемых в сети оператора основных процессов, а также функциональных возможностей систем [1]. Модели необходимы архитекторам и разработчикам при создании и сопровождении информационных телекоммуникационных систем, службе поддержки клиентов для оперативного выявления и устранения неисправностей, руководителям телекоммуникационных компаний для разработки новых продуктов, сервисов, совершенствования процессов предоставления услуг потребителям, определении тактических и стратегических планов развития. Однако на практике создаваемых моделей оказывается недостаточно — каждая из них описывает лишь один из аспектов сети. Отсутствует единая модель, связывающая элементы различных моделей между собой, что не позволяет комплексно оценивать состояние и поведение сети.
Другим значимым ограничением является отсутствие возможности оперативной перестройки моделей при изменении конфигурации сети, смены сценариев поведения пользователей, состава предоставляемых сервисов и пр. Как следствие, модели быстро устаревают. Кроме того, в составе проектируемых систем, как правило, отсутствует бизнес-модель, в динамике отражающая процессы, протекающие в сетях, и позволяющая рассматривать их как в целом, так и на уровне отдельных сетевых элементов. Бизнес-модели необходимы для проведения глубокого анализа потребностей конечных пользователей, прогнозирования спроса на различные виды телекоммуникационных услуг и т. д.
Для успешного развития сферы телекоммуникационных услуг в условиях динамичного мира нужны новые бизнес-модели, построенные на основе интеграции существующих информационных, функциональных и поведенческих моделей, а также требуется обеспечить постоянное обновление моделей на основе анализа оперативных данных, поступающих, например, в виде лог-файлов либо получаемых путем опроса сетевых устройств.
Новые модели могут строиться на основе стандартизованных моделей телекоммуникационных систем и базовых фреймворков, разрабатываемых организацией TMForum [2]: фреймворк бизнес-процессов (eTOM, Enhanced Telecom Operations Map — многоуровневая модель бизнес-процессов управления производством), информационный фреймворк (SID, Shared Information and Data Model — референтная модель данных, стандартизирующая используемые в отрасли понятия, информационные потоки, соглашения о взаимосвязи сущностей), функциональный фреймворк. Связывание элементов моделей и их обогащение оперативными данными возможно за счет построения модели телекоммуникационной сети в форме графа знаний.
Известно множество средств автоматизированного построения графов знаний и их поддержки в актуальном состоянии: The Knowledge Graph Toolkit (KGTK), Graph.Build Studio, EasyGraph и др., а языки запросов, такие как SPARQL, позволяют получать разнообразную информацию из построенных моделей.
Применение новых моделей позволит операторам адаптироваться к изменениям на рынке, в режиме опережения разрабатывать новые продукты исходя из ожидаемого поведения пользователей, которым новые модели позволят получать услуги более высокого качества, отвечающие их текущим потребностям. Архитекторам новые модели позволят получать полное описание фактически реализуемых в системе процессов и используемых при этом функциональных и информационных элементов в разрезе сетей операторов, потребителей, сервисов и т. д., что обеспечит возможность принимать обоснованные архитектурные решения. Кроме того, можно ожидать снижения стоимости проектирования, разработки и сопровождения телекоммуникационных систем за счет гибкого перестроения графовых моделей без изменения программного кода, а благодаря применению готовых технологий и программ средств для работы с графами знаний, например, библиотек для преобразования данных графа знаний в векторный формат и последующего применения к ним алгоритмов машинного обучения: Pykg2vec, PyKEEN, AmpliGraph, LibKGE.
Модели на основе графа знаний
Понятие «граф знаний» используется уже более полувека, однако до сих пор не устоялось — имеется множество иногда противоречащих друг другу определений, включающих как обобщенные, так и узкоспециализированные технические уточнения. Наиболее распространено определение, в котором граф знаний рассматривается как граф данных, предназначенный для накопления и передачи знаний о реальном мире, чьи узлы соответствуют сущностям, а ребра отражают отношения между ними. Графы данных относятся к графовым моделям и могут представлять собой направленные графы, графы свойств и т. д.
Знания в таких графах могут передаваться из внешних источников или извлекаться из самого графа. Они могут представлять собой простые утверждения, такие как «доступ в Интернет — это телекоммуникационный сервис», или факты, выраженные в количественном отношении: «все абонентские роутеры — это телекоммуникационные устройства». Важными преимуществами графов являются их гибкость при добавлении новых знаний, возможность создания семантических связей между фактами, применение методов индуктивного и дедуктивного синтеза для получения новых знаний, наличие инструментария для семантической обработки и анализа данных. Графы позволяют строить емкие и интуитивно понятные абстракции для представления разнообразных доменных данных, в которых ребра отражают связи (потенциально циклические) между моделируемыми сущностями. Кроме этого, графы позволяют специалистам по сопровождению сети не строить жестких схем данных. Специализированные языки запросов к графам поддерживают не только стандартные реляционные операторы (соединения, объединения, проекции и т. д.), но и навигационные операторы для рекурсивного поиска сущностей, связанных путями произвольной длины. Стандартные формализмы представления знаний, такие как онтологии и правила, могут применяться для определения семантических понятий, используемых как метки, которые характеризуют узлы и ребра графа, и для выполнения логического вывода. Масштабируемые фреймворки для аналитики над графами, такие как Semantic Knowledge Graph (SKG), Knowledge Graph OLAP (KG-OLAP) и пр., могут быть использованы для вычисления статистических характеристик данных, для кластеризации и обобщения данных при исследовании моделируемой области. Кроме этого, предложены различные представления графов в векторном формате (Knowledge Graph Embedding), позволяющие в явном и неявном виде использовать машинное обучение, например DistMult, SimplE, MEIM, TransE, STransE и пр.
Фрагмент графа знаний телекоммуникационной сети |
Сегодня в сфере телекоммуникаций наблюдается повышенный интерес к графам знаний, что обусловлено как сложностью телекоммуникационных систем, так и необходимостью управления ими в режиме реального времени — графы знаний могут облегчать разработку новых решений, направленных на совершенствование процессов привлечения новых пользователей; мониторинг сетей; обнаружение проблемы и их решение.
Структуры фиксированных сетей могут быть естественным образом описаны с использованием графов, позволяющих, например, понять, какие службы перестали работать после сбоя. В сетях мобильной связи конечные устройства свободно связаны с разными базовыми станциями, подключенными к центральному ядру сети. Здесь графы знаний применяются для моделирования сетей с различными параметрами, поддержки методов обработки естественного языка для сбора информации из технической документации и преобразования ее к формату графов. При обнаружении проблем в мобильной сети, система управления использует граф для создания автоматического рабочего процесса для устранения выявленных неисправностей. Программно-конфигурируемые сети (Software-Defined Networking, SDN) предусматривают централизованное управление сетью, в рамках которого настраиваются маршруты пакетов сетевых коммутаторов. В таких сетях граф знаний используется для хранения модели сети, обнаружения неправильно настроенных соединений, а также для создания модели сети путем опроса ее устройств. Для таких сетей была разработана система Reasonet, автоматически генерирующая политики, используя базовую онтологию сети, описанную на языке сетевой разметки NML (Network Markup Language). Схема NML позволяет учитывать узлы, порты и каналы связи между устройствами, а службы используются при моделировании маршрутов между узлами.
Важный вклад в решение задач управления сетью с использованием графов внесли авторы работы [3], предложившие хранить в графе как статические данные о структуре сети, так и динамические данные мониторинга: сведения о сервисах; данные биллинга; каталог приложений; данные о правах доступа, пользователях и их действиях, сетевых событиях; данные о производительности сервисов и инцидентах. Кроме того, в графе хранятся статистика и сведения о трафике, полученные в результате периодического наблюдения за каналами связи. Данные мониторинга представляют собой динамические объекты: сетевые события, запросы, действия пользователя и данные об инцидентах.
Модель сети имеет иерархическую структуру, отражающую топологию сети и основанную на онтологиях Telecom Network Monitoring Ontology (TNMO) и TOUCAN (ToCo), включающих описания устройств, интерфейсов и каналов связи. Наряду с графом знаний используется также реляционная база данных для хранения сведений из традиционных систем мониторинга. Однако состав задач, решаемых с применением графов знаний, пока ограничен задачами мониторинга.
Виды графов
Наиболее подходящие модели представления данных в графе знаний: направленный граф с именованными ребрами (мультиреляционный граф), гетерогенный граф и граф свойств.
Мультиреляционный граф определяется как наборы узлов и направленных именованных ребер между ними. Узлы используются для представления сущностей, а ребра — бинарных отношений между сущностями. Добавление информации в граф означает добавление новых узлов и ребер. Моделирование данных в виде графа обеспечивает большую гибкость по сравнению со стандартной реляционной моделью — графы знаний позволяют интегрировать новые источники данных, в то время как схемы реляционной базы должны быть определены заранее и необходимо им следовать на каждом этапе построения моделей. Конечно, имеются и другие структурированные модели данных, например деревья, XML и JSON, обеспечивающие определенную гибкость, однако графы не требуют иерархической организации данных и позволяют описывать циклы. Важным достоинством графа является возможность построения и выполнения запросов. Стандартизированная модель описания данных, используемая для представления направленных графов с именованными ребрами, — это RDF (Resource Description Framework).
Гетерогенный граф (гетерогенная информационная сеть) — граф, в котором каждому узлу и ребру присваивается один тип. Тип узла является частью графовой модели, а не выражается в виде специального отношения. Ребро называется однородным, если оно находится между двумя узлами одного типа (например, канал связи между сетевыми устройствами); в противном случае оно называется гетерогенным (например, описание действия пользователя на его устройстве). Преимущество гетерогенных графов состоит в том, что они позволяют разделять узлы в соответствии с их типом, что необходимо, например, в задачах машинного обучения. Кроме того, гетерогенные графы, в отличие от графов с именованными ребрами, обычно поддерживают только взаимно однозначное отношение между узлами и типами.
Графы свойств были введены для обеспечения дополнительной гибкости при моделировании сложных отношений и позволяют связывать наборы пар свойство–значение как с узлами, так и с ребрами. Такие графы широко используются в популярных графовых базах данных, таких как Neo4j, и без потери информации могут быть преобразованы в/из ориентированных графов с именованными ребрами. Таким образом, направленный граф с именованными ребрами более компактен, в то время как граф свойств более гибок.
Существуют и другие графовые модели данных, например, со сложными узлами (гиперузлами), которые могут содержать отдельные ребра или вложенные графы. Также возможно построение гиперграфа, который содержит сложные ребра, соединяющие множества, а не пары узлов.
При построении графа знаний может использоваться практически любая графовая модель, выбор модели определяется решаемыми прикладными задачами. В значительном числе случаев данные могут быть преобразованы из одной модели в другую.
Методы представления, получения и применения знаний
Существующие методы анализа данных (лог-файлы, генерируемые серверами и абонентскими устройствами) о телекоммуникационных сетях позволяют строить процессные, информационные и функциональные модели сетей, в том числе модели, отвечающие стандартам TMForum, а также оценивать, насколько фактические реализации бизнес-процессов оператора связи соответствуют моделям процессов TMForum. Полученные из лог-файлов сведения также могут быть использованы для извлечения отношений, обнаружения новых сущностей и верификации связей в графах знаний. Данные, содержащиеся в таких графах, могут быть проанализированы на предмет выявления недостающих узлов и связей, а также для обнаружения ошибочных связей.
Отдельным подклассом графов знаний, востребованным в области телекоммуникаций, являются темпоральне графы, содержащие информацию о времени, связанном с элементами моделей, и определяющие периоды актуальности данных (например, в узлах), а также периоды актуальности связей. Соответствующие модели позволяют выявлять тенденции в поведении пользователей и партнеров, а также в изменении структуры и функционировании сети.
Приложения на основе графов знаний
Для работы с графами знаний разработано множество приложений, среди которых наиболее востребованы приложения, поддерживающие контекстные ответы на вопросы и рекомендательные системы.
Приложения, поддерживающие контекстные ответы на вопросы, позволяют пользователям формулировать вопросы на естественном языке. Далее вопросы преобразуются и соотносятся с фактами из графа знаний. При формировании ответа может учитываться контекст, определяемый ролью пользователя в компании оператора связи. Обычно подобные приложения реализуются на основе нейронных сетей, которые анализируют вопросы и ответы, представленные в виде семантически связанной сети. Выделяются два типа приложений: вопросы и ответы по одному факту и многопереходные рассуждения. Первые предполагают использование графа знаний в качестве внешнего источника данных — приложения позволяют формулировать ответы на простые вопросы, связанные с одним фактом из графа [4]. Многопереходные рассуждения предусматривают использование специализированной архитектуры, позволяющей поддерживать несколько переходов в процессе рассуждения. Предложен многопереходный двунаправленный декодер с механизмом внимания и генератором указателей для эффективного многошагового рассуждения и генерации ответов [5].
Рекомендательные системы позволяют выполнять рассуждения даже при недостатке исходных данных за счет использования графов знаний в качестве источника информации. При наличии в графе данных о предметной области, оперативных данных о действиях пользователей и поведении сети или ее элементов можно предсказать наличие связей между элементами графа, а затем сформировать рекомендации или построить прогноз [6].
Граф знаний телекоммуникационной системы
При построении графа знаний телекоммуникационной сети в качестве процессной, информационной и функциональной моделей используются модели eTOM, SID и функциональная модель [1]. Бизнес-процессы, элементы информационной и функциональной моделей соотнесены с горизонтальными доменами и вертикальными контекстами. Под доменом понимается классификационная область, объединяющая набор объектов, которые имеют некоторые общие архитектурные характеристики и подчиняются общей политике управления. Вертикальные контексты («группы процессов») используются для классификации процессов, необходимых для поддержки клиентов и управления бизнесом.
При моделировании телекоммуникационных систем используются онтологии верхнего уровня (базовые), онтологии среднего уровня (онтологии предметной области) и онтологии нижнего уровня (онтологии приложений). Онтологии верхнего уровня достаточно компактны, а онтологии предметной области наследуют их классы и свойства. Онтологии верхнего уровня ликвидируют разрывы между разными предметными областями. Онтологии среднего уровня можно рассматривать как предметно-ориентированную часть словаря. Дополнительные сведения о предметной области размещаются в онтологиях уровня приложения. Здесь для описания структуры сети будем использовать доменную онтологию ToCo [1] и онтологию уровня приложения. В таблицах 1 и 2 представлены основные элементы построенных графов знания сети.
Обобщенная структура фрагмента графа знаний телекоммуникационной сети представлена на рисунке. Фрагмент включает следующие элементы:
- Предоставляемый оператором сервис (service #1), для реализации которого используется приложение (Application #1), в состав которого входит ряд компонентов, в частности, Component #1.
- Компонент Component #1 приложения реализует ряд функций из множества функций, определенных в функциональной модели, в частности, Function #1.
- Функция Function #1 соотнесена с определенным доменом (Customer Domain) и вертикальным контекстом второго уровня.
- Функция использует информационный объект ABE #1 и реализована для выполнения бизнес-процесса Business Process #1, который отнесен к определенному домену (Customer Domain) и вертикальному контексту второго уровня.
Граф знаний на практике
Как с применением модели сети в форме графа знаний, построенной на основе eTOM, SID и функциональной модели TM Forum, получить актуальные данные о сети: реально выполняемые процессы, используемые сущности, реализуемые функции и пр. для оценки нагрузки на телекоммуникационную инфраструктуру?
Рис. А. Схема телекоммуникационной сети оператора связи |
Предполагается, что обработка бизнес-процессов производится централизованно на одном ЦОДе, а логи серверов доступны для компонента, реализующего граф знаний (рис. А). Оператор использует модель бизнес-процессов eTOM, описания бизнес-объектов SID и функциональную модель TMForum. При этом логи всех серверов приложений, используемые для реализации бизнес-процессов, описанных в eTOM, содержат метки, позволяющие идентифицировать бизнес-процессы, агрегированные объекты данных (ABE) и реализуемые функции.
Модель реализуемых бизнес-процессов, информационных объектов и функций представлена в форме онтологии и может использоваться графом знаний. Сервер приложений графа знаний анализирует лог-файлы и размещает данные о выполнении бизнес-процессов (логируются данные о выполнении функций, реализующих бизнес-процессы). Каждому событию (завершение выполнения функций, реализующих процессы) присваивается уникальный идентификатор и метка времени. Граф знаний описан по стандарту RDF, данные графа размещаются в хранилище, поддерживающем язык SPARQL 1.1.
Для иллюстрации рассмотрим пример обработки заказа клиента:
- Функция: «Регистрация заявки клиента на подключение услуги».
- Бизнес-процесс: «Обработка заказов».
- ABE из информационной модели SID: «Заявка клиента на подключение услуги».
- Функция, ABE и бизнес-процесс относятся к домену Покупателя/Заказчика, к вертикальному контексту Выполнение, реализуемому в рамках Операционных процессов.
На рис. Б представлен фрагмент графа знаний, отражающий регистрацию заявки на подключение услуги в графе знаний телекоммуникационной сети.
Рис. Б. Фрагмент графа знаний телекоммуникационной сети |
Граф знаний получает информацию о выполнении функции регистрации заявки на подключение услуги из лог-файлов серверов, на которых выполняются приложения, реализующие бизнес-процесс «Обработка заказов». При каждой регистрации заявки на подключение услуги в графе знаний создаются следующие узлы и связи: субъект события завершения выполнения функции «:Событие бизнес-процесса #N» с уникальным идентификатором; метка времени события бизнес-процесса в виде литерала связывается с субъектом предикатом «:timestamp»; связь между событием и приложением, которое записало данное событие в лог-файл, отражается с помощью предиката «:logs_source»; агрегированный бизнес-объект «Заявка на подключение #М» с уникальным идентификатором; событие связывается с АВЕ-предикатом «:involved_ABE».
В результате такой регистрации событий доступна следующая информация:
- дата и время выполнения функции «Регистрация заявки на подключение услуги»;
- бизнес-процесс, который реализует функцию с указанием домена и вертикального контекста;
- содержание и формат заявки на подключение услуги;
- приложение, которое выполнило функцию в рамках бизнес-процесса, и сервер приложений, на котором оно установлено;
- дополнительная телеметрическая информация о сервере, на котором выполнена функция (загрузка процессора, используемая память, свободное место на дисках и пр.).
В случае если фиксируются все функции, реализующие бизнес-процессы, то аналогичным образом формируется бизнес-модель телекоммуникационной сети оператора, содержащая информацию о бизнес-процессах и операционных процессах, реализуемых в ходе обслуживания клиентов.
***
Построение графов знаний телекоммуникационных сетей на основе моделей eTOM, SID и функциональных моделей TMForum, а также оперативных данных, поступающих от сетевых устройств, позволяет операторам связи оперативно получать информацию о бизнес-процессах и функциях, реализуемых в сети и в отдельных ее компонентах, а также об используемых информационных объектах. Наличие такой информации позволяет провайдерам в режиме опережения разрабатывать новые продукты исходя из ожидаемого поведения пользователей; потребителям получать услуги, отвечающие их потребностям, а архитекторам — принимать обоснованные решения. Кроме этого, обеспечивается снижение стоимости проектирования, разработки и обслуживания информационных систем.
Литература
1. Наталия Жукова, Александр Водяхо, Игорь Куликов. Проектирование и моделирование телекоммуникационных систем // Открытые системы.СУБД. — 2023. — № 3. — С. 37–43. URL: https://www.osp.ru/os/2023/03/13057582 (дата обращения: 21.12.2023).
2. Edward W. Schneider. 1973. Course Modularization Applied: The Interface System and Its Implications For Sequence Control and Data Analysis. In Association for the Development of Instructional Systems (ADIS), Chicago, Illinois, April 1972.
3. Kirill Krinkin, Igor Kulikov, Alexander Vodyaho, Nataly Zhukova. [Электронный ресурс]. — Режим доступа: https:/etu.ru/en/research/ (дата обращения 12.05.2023).
4. Z. Dai, L. Li, W. Xu, CFO: Conditional focused neural question answering with large-scale knowledge bases, in ACL, vol. 1, 2016, pp. 800–810.
5. L. Bauer, Y. Wang, M. Bansal, Commonsense for generative multi-hop question answering tasks, in EMNLP, 2018, pp. 4220–4230.
6. F. Zhang, N. J. Yuan, D. Lian, X. Xie, W. — Y. Ma, Collaborative knowledge base embedding for recommender systems, in SIGKDD, 2016, pp. 353–362.
Наталия Жукова (nazhukova@mail.ru) – доцент, Александр Водяхо (aivodyaho@mail.ru) – профессор, Игорь Куликов (i.a.kulikov@gmail.com) – соискатель, Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» (Санкт-Петербург).
DOI: 10.51793/OS.2023.81.81.004