Используемые сегодня метрики оценки алгоритмов машинного обучения, такие как TPR (True Positive Rate), ROC-AUC (площадь под кривой ошибок, Receiver Operating Characteristic — Area Under Curve) или PR-AUC, обычно носят общий характер и не учитывают различий в значимости ошибок в случае конкретных применений алгоритмов. Например, в финансовой области при решении задачи скоринга — поиска банком ответа на вопрос о выдаче кредита или отказе в выдаче. Оценка модели скоринга проводится по результатам оценки с помощью конкретных моделей потенциальных заемщиков, обратившихся за кредитом в банк. Результатом для банка по каждому выданному кредиту является либо возврат кредита с процентами (банк получил прибыль), либо дефолт заемщика (банк получил убытки). Если по результатам работы модели было принято решение об отказе в предоставлении кредита, то банк ничего не заработал.

В сфере определения кредитных рисков применяются метрики: TPR — доля верно определенных дефолтных заемщиков; FPR (False Positive Rate) — доля неверно определенных надежных заемщиков. Для описания взаимосвязи этих метрик часто используется ROC-кривая (для хорошей модели кривая лежит в левому верхнем углу координатного пространства TPR-FPR, а график случайной модели — это прямая под углом 45 градусов). Площадь под кривой (ROC-AUC [1]) позволяет количественно оценить качество классификатора (ROC-AUC случайной модели равно 0,5): чем выше значение ROC-AUC, тем лучше оцениваемая модель (максимально возможное значение метрики равно 1).

Кроме того, часто используются: коэффициент корреляции Мэтьюса (MCC), оценивающий качество предсказания, который применяется, когда один из двух классов заемщиков (дефолтных и надежных) намного больше другого; и критерий Колмогорова — Смирнова (KS). Чем выше значение метрики KS, тем лучше модель разделяет дефолтных и надежных заемщиков. Площадь под графиком зависимости KS от параметра разбиения обозначается как KS-AUC.

Однако все перечисленные метрики выбора модели кредитного скоринга в явном виде не позволяют оценить финансовый результат банка, который получится при использовании той или иной модели. Эти метрики помогают выбрать наилучший классификатор, в то время как значение прибыли для выбранного классификатора не обязано быть максимальным среди рассматриваемых классификаторов.

Предлагаемая метрика качества (Метрика Прибыли) позволяет оценить финансовый результат банка и определяется как отношение фактически получаемого банком результата при использовании модели к максимально возможному результату:

Оценка моделей кредитного скоринга

где FP (False Positive) — количество надежных компаний, которым модель не выдала кредит, FN (False Negative) — количество дефолтных компаний, которым модель выдала кредит, и TN (True Negative) — количество надежных компаний, которым модель выдала кредит. Результат банка при использовании модели вычисляется как процент D от всех надежных заемщиков, которым модель выдала кредит, минус доля потерь при дефолте LGD [2] от всех дефолтных заемщиков, которым модель также выдала кредит. Максимально возможный финансовый результат определим так, что во всех случаях, когда заемщик не попал в дефолт, модель выдала кредит (банк получил прибыль) и при этом во всех случаях, когда заемщик попал в дефолт, модель кредит не выдала (банк ничего не потерял). Чем больше значение Метрики Прибыли, тем выше качество модели. Если Profit = 1, то модель имеет максимально возможную прибыль.

Данная метрика зависит от параметра разбиения. Площадь под графиком зависимости метрики от параметра разбиения обозначим Profit-AUC. При выполнении некоторых условий этот показатель полностью совпадает с KS-AUC, а сама Метрика Прибыли пропорциональна коэффициенту MCC. Принципиальное отличие от других метрик — это наличие необходимых условий (например, математическое ожидание дохода должно быть нулевым).

Для демонстрации эффективности Метрики Прибыли рассмотрим выборку из 1 млн заемщиков, данные по которым взяты из бухгалтерской отчетности Росстата за 2012–2019 годы [3], и сравним различные метрики качества. В Росстате имеется информация по финансовой отчетности предприятия за каждый год, и можно составить финансовую историю по каждой компании-заемщику (наличие метки дефолт).

Для предсказания дефолтов были использованы две наиболее распространенные модели классификации в задаче кредитного скоринга: SGDClassifier [4] и CatBoostClassifier [5]. Можно использовать любой другой алгоритм машинного обучения, позволяющий оценить вероятность дефолта для каждой компании, однако указанные модели максимально универсальны и чаще других показывают высокое качество классификации, в свзи с чем многие крупные банки сегодня их используют. SGDClassifier — это модель логистической регрессии со стохастическим градиентным спуском (для подсчета градиента ошибки на каждом шаге берется некоторое подмножество от общего количества объектов). За счет этого скорость обучения модели машинного обучения сильно сокращается, а итоговое качество мало отличается от полноценного классификатора. Модель CatBoostClassifier использует принцип бустинга: строится несколько моделей, каждая из которых пытается исправить ошибки предыдущих моделей. В данном случае в качестве базовой модели используется дерево решений.

Для всех метрик рассмотрим доходность по кредитам D = {15%, 20%, 25%}, долю потерь при дефолте заемщика LGD = 80%.

По ROC-кривой невозможно сказать, какой из алгоритмов — SGD или Catboost — лучше: площади под графиками практически совпадают, а сами графики пересекают друг друга.

Рис. 1. ROC-кривые для моделей SGD и Catboost. Штриховая линия — ROC-кривая для случайного классификатора

На рис. 2 приведены результаты по Метрикам Прибыли и коэффициенту MCC. Видно, что модель SGD предсказывает прибыль выше, чем модель Catboost, а значит, выбрав модель SGD, банк заработает больше, но прибыль не будет максимальной. При кредитовании под 15% разница практически незаметна (0,2% от значения максимальной прибыли), однако при условии 20% разница будет уже 1,7% от максимально возможного заработка. Также можно заметить, что максимум коэффициента MCC достигается примерно в том же диапазоне, что и максимум для прибыли при 15% кредитования.

Рис. 2. MCC и Метрики Прибыли для модели SGD (а) и модели Catboost (б) (точками указаны максимальные значения метрик)

Рис. 2. MCC и Метрики Прибыли для модели SGD (а) и модели Catboost (б) (точками указаны максимальные значения метрик)

Таким образом, согласно Метрике Прибыли, лучшей является модель кредитного скоринга SGDClassifier, предсказавшая более высокую доходность при одинаковых процентных ставках и потерях при дефолте, несмотря на небольшой проигрыш, получаемый при оценке на широко применяемой сегодня метрике ROC-AUC. Другими словами, при использовании модели SGDClassifier финансовая организация получит на 6% больше прибыли при кредитовании под 20% и на 1,2% больше при кредитовании под 15%, чем при использовании модели Catboost.

***

Успех применения машинного обучения определяется не только выбором алгоритма, адекватного прикладной задаче, но и правильными шагами на этапах оценки, планирования и внедрения модели [6]. Предложенная метрика позволяет оценивать качество моделей скоринга в виде итогового процента доходности, который получит банк при использовании той или иной модели машинного обучения в отношении оценки вероятности дефолта потенциального заемщика.

Литература

1. Е. Соколов. Семинары по выбору моделей. URL: http://www.machinelearning.ru/wiki/images/1/1c/Sem06_metrics.pdf (дата обращения: 21.09.2020).

2. Пеникас Г., Алескеров Ф., Андриевская И. и др. Анализ математических моделей Базель II. — Litres, 2018.

3. Федеральная служба государственной статистики. Открытые данные. URL: http://www.gks.ru/opendata/dataset (дата обращения: 01.08.2020).

4. Tsuruoka Y., Tsujii J., Ananiadou S. Stochastic gradient descent training for l1-regularized log-linear models with cumulative penalty // Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. — 2009. — С. 477–485.

5. Prokhorenkova L. et al. CatBoost: unbiased boosting with categorical features // Advances in neural information processing systems. — 2018. — С. 6638–6648.

6. Виктор Китов. Практические аспекты машинного обучения // Открытые системы.СУБД. — 2016. — № 1. — С. 14–17. URL: www.osp.ru/os/2016/01/13048648 (дата обращения: 21.08.2020).
 

Мария Самоделкина ( mvsamodelkina@edu.hse.ru ), Алексей Подчезерцев ( aepodchezertsev@edu.hse.ru ), Анна Ремизова ( apremizova@edu.hse.ru ), Андрей Солодянкин ( aasolodyankin@edu.hse.ru ) — студенты, Вячеслав Давыдов ( v.davydov@hse.ru ) — доцент, НИУ ВШЭ (Москва).