«Росгосстрах» обновил модели машинного обучения, позволяющие учитывать влияние пространственных данных на степень аварийности. ИИ помогает компании повышать качество оценки рисков и лучше персонализировать тарифы, делая автострахование более справедливым для клиентов. О реализации проекта рассказывает Фрэнк Шихалиев, куратор ИИ-проектов RGS Lab, и номинант на премию Data Award.

- В чем заключалась проблема, какую задачу пытались решить?

В страховании значительный эффект можно получить, более детально анализируя географические риски. Традиционно риски учитываются с помощью ввода поправочных коэффициентов за регион и город страхования, однако адреса, указываемые страхователем и собственником, а также другие геоданные позволяют оценить риски намного более точно. Проблемой оценки таких рисков мы и занимались.

- Какой подход был выбран?

Мы испробовали множество вариантов, но остановились на том, что поделили Россию на множество квадратов 100 на 100 м, в каждом из которых разместили прошлые убытки по страхователям, собственникам. Также к каждому из этих квадратов были добавлены признаки взаимодействия с соседними квадратами в части геоинформации, признаки связи с геоданными, такими как общественные места, школы, детские сады и прочее. Особенной «фишкой» являлось извлечение ценных фичей из визуального представления полигона с помощью контрастного обучения (contrastive learning) – подхода, при котором обучение происходит не только по принципу близости, но и по принципу различия.

- Что «под капотом» у моделей машинного обучения? Какой математический аппарат используется при расчете рисков?

В проекте реализовано сочетание классических подходов машинного обучения, так и активно развиваемых сейчас методов на базе нейросетей, дающих векторные представления для классических моделей.

Традиционные модели в страховании, используемые для моделирования риска, – обобщенные линейные модели. Сильным качеством данных моделей является интерпретируемость и учет линейных зависимостей. Однако учет специфических с точки зрения линейного кодирования рисков, таких как географические риски, можно точнее сделать с помощью моделей градиентного бустинга на деревьях решений. Деревья решений хорошо ложатся на географические территории, уже поделенные на полигоны 100 на 100 м по широте и долготе.

- Геоданные действительно имеют серьезное влияние на оценку рисков?

ИИ и машинное обучение позволяют, используя различные модальности данных, более точно вычислять вероятность наступления страховых событий, опираясь на обработку историй страхования миллионов клиентов. И да, одним из важных факторов в таком анализе является роль географической локации, учет особенностей населенных пунктов и районов проживания клиентов. В первую очередь используются все адреса, которые фиксируются в процессе жизни клиента, внутренние данные по убыткам и заключениям.

За счет реализации расчетной инфраструктуры по применению геокоординат кратно упростился процесс анализа и внедрения решений в эксплуатацию с учетом анализа и инференса на основе геоданных. Геофакторы, полученные таким образом, дают возможность усилить разделяющую способность фактора на 30%. То есть при введении данного фактора самый низкий риск по нему отличается от самого высокого на 30%, при этом до внедрения этого фактора данного разделения не было.

- Как в общих чертах выстроена работа с геоданными?

Геокодирование выстроено на системном уровне, и все адреса автоматически геокодируются через внешние сервисы. Также активно используются открытые решения на базе OpenStreetMap.

Для наиболее точной обработки геоданных в «Росгосстрахе» используется высокогранулированное деление карты России на зоны 100 на 100 метров – так называемая геосетка. Каждому участку геосетки – геоклетке – сопоставляются как классические показатели, интуитивно понятные человеку, так и векторные представления геоклеток, полученные с использованием моделей машинного обучения. Дальнейшее использование этих данных в моделях расчета риска позволяет сделать непредвзятые выводы относительно аварийности и опасности географических локаций с большой детальностью, в том числе экстраполировать знания на малые города и населенные пункты, в которых экспертное понимание может быть затруднено.

- На каких платформах реализовано решение?

Решение основано на базе библиотек open source и систем картографии – Pytorch, OpenStreetMap, LightGBM.

- Что в ходе проекта было самым сложным?

Самое сложное было пройти с идеей, что в геоданных и кодировании новым способом действительно содержится полезный сигнал, от самой задумки до окончательного внедрения. Было опробовано множество гипотез о влиянии географии на рисковую часть тарифа, и до конца не было уверенности, что сигнал будет. Но в конечном итоге, когда все увидели влияние, причем значительное, были рады, что путь был проделан не зря.

- Насколько серьезно повлиял проект на тарифную политику компании?

Автоматизированный анализ данных положительно сказывается на стоимости продукта для клиента и качестве сервиса, позволяет снизить стоимость полиса каско в зависимости от риска до 30%.

- Какой эффект от этого ожидается для бизнеса? Ведь делается ради этого.

Компания увидела прирост клиентов в сегментах, в которых был значительно снижен тариф за счет новой модели. Мы оцениваем показатель эластичности спроса в районе 2.

- Как этот проект может повлиять на рынок?

Это повышает прозрачность и эффективность страхового бизнеса, увеличивает доступность продукта автострахования и рост проникновения финансовой защиты.

Автострахование должно становиться доступнее для людей в России: все больше водителей благодаря справедливым тарифам могут страховать автомобили по каско, повышая свою финансовую защиту, особенно в случае ДТП, где они не являются виновниками аварии. Повышение проникновения автострахования в стране в целом положительно влияет на безопасность дорожного движения и исправление последствий, если они возникают.

- Каковы направления развития проекта?

Планов по развитию множество. Это использование различных подходов к нарезке географии, использование разных типов функций ошибок для извлечения данных из геослоев, добавление новых геослоев из различных источников. Помимо анализа рисков, планируется создание востребованных продуктов на базе анализа географической информации.