Группа ученых из МФТИ и Казанского национального исследовательского технологического университета им. А. Н. Туполева разрабатывает математический аппарат, способный привести к прорыву в области сетевой безопасности. Сложные системы, такие как сетевой трафик или живые организмы, не обладают детерминированными физическими законами для их точного описания и предсказания дальнейшего поведения. В этом случае важную роль играет корреляционный анализ, который описывает поведение системы в терминах наборов статистических параметров. Описывают такие сложные системы бестрендовые последовательности, часто определяемые как долгосрочные временные ряды или «шум». Они представляют собой колебания, создаваемые совокупностью различных источников, и являются одними из наиболее сложных данных для анализа и извлечения надежной, стабильной информации.
Одной из метрик, используемых в экономике и естественных науках при анализе временных рядов, является показатель Хёрста. Он позволяет предположить, сохранится ли тренд, присутствующий в данных: например, продолжат ли значения возрастать или рост сменится убыванием. Это предположение выполняется для многих природных процессов и объясняется инертностью природных систем. Скажем, изменение уровня воды в озере, которое согласуется с прогнозами, выведенным из анализа значения показателя Хёрста, определяется не только текущим количеством воды, но и интенсивностью испарения, выпадением осадков, таянием снега и т. д. Все перечисленное — растянутый во времени процесс.
Анализ трафика требует вычислительных ресурсов, места для хранения и времени — задержки в передаче. Все это в дефиците, особенно если дело касается маломощных промежуточных устройств. Сейчас используются либо относительно простые методы машинного обучения, которые страдают от недостатка точности, либо нейронные сети, требующие мощных вычислительных станций.
Идея, лежащая в основе работы группы ученых, достаточно проста: обобщить показатель Хёрста, добавив в него большее количество коэффициентов, чтобы получить более полное описание изменяющихся данных. Это позволяет находить закономерности в данных, которые принято считать шумами и которые ранее было невозможно анализировать. Таким образом удается производить «на лету» выделение значимых признаков и применять элементарные методы машинного обучения для поиска сетевых атак.