УДК 519.226
Задача кредитного скоринга — одна из ключевых в банковской сфере. Для ее решения с помощью алгоритмов машинного обучения строятся специальные скоринг-карты и модели-классификаторы. Важной характеристикой кредитного скоринга является его прозрачность: насколько легко интерпретировать результат. Для достижения прозрачности часто применяется процедура дискретизации (биннинга) признаков, когда числовой признак разбивается на интервалы, каждый из которых получает собственную оценку по степени риска (например, в виде коэффициента логистической регрессии). В работе проведено практическое исследование эффективности данной процедуры, а именно, недавно разработанного оптимального биннинга. Эффективность при этом оценивалась как на стандартной для кредитного скоринга логистической регрессии, так и на непрозрачных методах.
< ... >
The task of credit scoring is one of the key tasks in the banking sector. To solve it, special scoring cards and classifier models are built using machine learning algorithms. An important characteristic of credit scoring is its transparency — how easy it is to interpret the result. To achieve transparency, the feature discretization (binning) procedure is often used, when a numerical feature is divided into intervals, each of which receives its own risk assessment (for example, in the form of a logistic regression coefficient). In this work, a practical study of the effectiveness of this procedure, namely, the recently developed optimal binning, was carried out, while the effectiveness was evaluated both on a standard logistic regression for credit scoring and on opaque methods.
Keywords:
optimal binning, sampling, credit scoring, scoring card, logistic regression, one-hot encoding, machine learning