Reporte técnico sobre modelo de riesgo de crédito


         



Pamela Escobar Palacio1, Juan Jose Monsalve Patino2, José Julián Aguirre Ramírez3


1 Estudiante de Ingeniería Administrativa, Universidad Nacional de Colombia, sede Medellín.

paescobarp@unal.edu.co

2 Estudiante de Ingeniería Industrial, Universidad Nacional de Colombia, sede Medellín.

jumonsalvep@unal.edu.co

3 Estudiante de Ingeniería Industrial, Universidad Nacional de Colombia, sede Medellín.

joaguirrer@unal.edu.co


Contenido 


Problema y metodología para resolverlo

Análisis descriptivo e hipótesis

Modelos y desempeño

Aprendizajes

Caso de uso del modelo 

Bibliografía

Problema y metodología para resolverlo.


Cuando una persona desea adquirir una obligación financiera, se puede enfrentar a incumplimientos y moras para realizar el pago, por tal motivo, es de vital importancia para la entidad financiera antes de aprobar un crédito saber que el porcentaje de pago periódico de sus obligaciones personales, de estudio o financieras no sobrepasen sus ingresos, la capacidad de endeudamiento que tiene y por ende estimar la probabilidad de incumplimiento con los pagos durante determinado periodo, esta última se expresa en porcentaje, cuanto mayor sea la probabilidad, mayor será la posibilidad de incumplimiento [1].

Existen dos métodos para estimar la probabilidad de incumplimiento, el método de juicio y el estadístico. En este caso se tiene la base de datos ‘Credit Risk Dataset’ y se usará el método estadístico, debido a que se tienen datos históricos, se pueden tomar decisiones más rápidas y automatizadas.


La metodología que se usará para determinar la probabilidad de incumplimiento de pago de un crédito de una persona es hacer un pronóstico del mismo, utilizando el modelo de regresión logística, en el cual se utilizará como herramienta python para determinar su precisión y realizar el análisis del riesgo crediticio del usuario.


Análisis descriptivo e hipótesis


La siguiente tabla presenta las variables que tiene la base de datos ‘Credit Risk Dataset’ y como se reemplazaron aquellas que eran categóricas a numéricas.


Tabla 1.  Variables de la base de datos ‘Credit Risk Dataset’

Variable 

Descripción

Categórica a numérica

Edad del solicitante

Edad de la persona en años, la cual está aplicando por el crédito.

N/A

Ingreso anual

Ingreso anual en dólares.

N/A

Número de años en el trabajo

Duración en el trabajo expresado en años

N/A

Incumpliemiento histórico

Incumplimiento histórico del individuo según registros del buró de crédito.

Y: El individuo tiene un historial de incumplimientos en su expediente crediticio.

N: El individuo no tiene ningún historial de incumplimientos.

Y:1 

N:0

Monto del préstamo

El monto en dólares del préstamo

N/A

Tipo de propiedad de la vivienda

  • Alquiler: la persona se encuentra actualmente alquilando una propiedad.

  • Hipoteca: tiene una hipoteca sobre el inmueble que posee.

  • Propio: El individuo es propietario absoluto de su vivienda.

  • Otro: otras categorías de propiedad de vivienda.

  • ALQUILER:3

  • PROPIO:2

  • HIPOTECA:0 

  • OTROS:1

Intención del préstamo

  • Médico

  • Personal

  • Educación

  • Mejora para el hogar

  • Consolidación de deuda

  • Empresa

  • Empresa: 5

  • Personal: 4

  • Educación: 1

  • Médico: 3

  • Mejora para el hogar: 2

  • Consolidación de deuda: 0


Tasa de interés

Tasa de interés asociada al préstamo

N/A

Grado del préstamo

Calificación asignada al préstamo en función de la solvencia del prestatario.

A: El prestatario tiene una alta solvencia, lo que indica un riesgo bajo.

B: El prestatario tiene un riesgo relativamente bajo, pero no tan solvente como el de Grado A.

C: La solvencia del prestatario es moderada.

D: Se considera que el prestatario tiene mayor riesgo en comparación con las calificaciones anteriores.

E: La solvencia del prestatario es menor, lo que indica un mayor riesgo.

F: El prestatario plantea un riesgo crediticio significativo.

G: La solvencia crediticia del prestatario es la más baja, lo que significa el mayor riesgo.

  • A:0 

  • B:1

  • C:2

  • D:3

  • E:4

  • F:5

  • G:6

Estado del préstamo

0: Sin incumplimiento: el prestatario pagó exitosamente el préstamo según lo acordado y no hubo incumplimiento.


1: Incumplimiento: el prestatario no pagó el préstamo de acuerdo con los términos acordados y no cumplió con el préstamo.

N/A

Porcentaje de ingresos del préstamo

Porcentaje de ingresos que genera el préstamo

N/A

Longitud historial crediticio de la persona

Longitud historial crediticio

N/A


Después de realizar la limpieza de los datos, eliminar duplicados, eliminar datos faltantes o nulos, se comienzan a analizar las variables que componen la base de datos. 

En otro paso de la limpieza se analiza por medio de box-plot la variable ‘edad’ de la cual se concluye que hay varios datos atípicos, como por ejemplo edades mayores a 118 años. Lo anterior no tiene mucha lógica, porque en los bancos de Colombia y de la mayoría del mundo mundo, las personas de avanzada edad, por naturaleza o por simple lógica, son consideradas de alto riesgo [2], además no se conoce una persona de más de 118 años en el mundo [3].

Pero igual no se eliminarán dichos datos, sino que se reemplazan los datos que corresponden a edades mayores de 100 años, por la media de las edades. Y finalmente queda una base de datos de personas con edades desde los 20 años hasta los 84 años.

Figura 1. Box-plot variable edad.



Histograma de las variables


Se realiza un histograma de la base de datos con el fin de visualizar mejor la distribución de datos y obtener información importante sobre la forma, la centralización y la mayoría en cada una de las variables.

Figura 2. Histograma de cada variable


Algunas conclusiones a resaltar de la figura 2 :

  • La mayoría de usuarios que solicitan préstamo son personas entre los 20 y 30 años.

  • La mayoría de usuarios tienen una intención de préstamo por educación, médicos, empresa, personal, educación, médico, consolidación de deuda y no tanto por mejoras para el hogar.

  • Hay una gran mayoría en usuarios que históricamente no han incumplido en pagos de créditos y muy pocas personas que sí han incumplido. De igual forma se ve el estado del préstamo en el que no hay incumplimiento por parte de los usuarios en su gran mayoría.

  • Los usuarios presentan alta solvencia económica y por tal motivo el grado del préstamo es de riesgo bajo. Además el monto del préstamo que solicitan  no supera los $15.000.000 lo cual no es muy alto y puede ser una de las razones por las cuales se puede considerar de bajo riesgo. 

  • En su mayoría no tienen una duración en el trabajo muy extensa, porque tienen entre 0 y 9 años de duración. Esto se puede deber a que son personas muy jóvenes las que solicitan el préstamo

  • En conclusión se puede decir que el modelo de scoring  está dirigido a usuarios que el destino del crédito es para estudiar o que tienen intención de crear empresa o que ya tienen una, requieren un préstamo médico, personal o consolidar una deuda. Además son personas jóvenes y que por algún motivo tienen una longitud de historial crediticio de pocos años, pero que tienen la solvencia económica necesaria para considerar de bajo riesgo el crédito. 


Correlación entre variables


Se calculan las correlaciones entre las variables, para identificar relaciones lineales entre ellas. Las variables altamente correlacionadas pueden ser candidatas para la eliminación si aportan información redundante.


Figura 3. Correlación entre las variables


Se logra ver una alta correlación entre la longitud de la historia crediticia de la persona y su edad, con un valor de 0.859621; una correlación alta entre la tasa de interés del préstamo y el grado del préstamo, con un valor de 0.933528. Como no basta solo con mirar la correlación, se realiza un gráfico de dispersión para entender mejor estas  correlaciones y dar una explicación a su comportamiento.


Figura 4. Dispersión entre las variables: longitud del historial crediticio de la persona y la edad. 


La figura 4 tiene mucho sentido ya que, las personas cuando alcanzan determinada edad, tienden a iniciar su historial crediticio para poder financiar y alcanzar sus propósitos y metas. Entonces a medida que crecen, este historial tiende a crecer también (por eso su correlación positiva). Además, se puede ver un dato que parece ser atípico, porque es imposible que con 27 años una persona tenga un historial crediticio de 25 años. Este dato se puede explicar a que en un paso anterior en la limpieza de los datos, para manejar mejor los datos con edades muy altas, se le asignaron la media, y ese parece ser uno de ellos.

Figura 5. Dispersión entre las variables: grado de la deuda y la tasa de interés de la deuda.


Esta relación, sirve para entender que mientras más alta sea la tasa de interés, menor solvencia tiene el deudor, lo cual implica mayor riesgo (por eso la correlación positiva), en este caso aumenta el grado o la calificación de la deuda.


Una conclusión adicional que se observa es que la variable respuesta, estado de la deuda, no está balanceada, porque tiene que 22313 datos son de cumplimiento: el prestatario pagó exitosamente el préstamo según lo acordado y no hubo incumplimiento. Por otro lado, que 6188 datos han incumplido: el prestatario no pagó el préstamo de acuerdo con los términos acordados y no cumplió con el préstamo. Lo cual es una diferencia muy grande. Existen métodos para balancear los datos, pero en este ejercicio no se aplicará, sino que se trabajará así tal cual están. 


Como los datos no están en la misma escala como lo muestra la figura 6, se procede a escalarlos, y finalmente todos escalados, quedan como se muestra en la figura 7.

                        Figura 6. Datos sin escalar                        Figura 7. Datos escalados             


El procedimiento anterior se realiza con el fin de saber que variables requieren ser normalizadas porque no tienen una distribución normal, por eso, a continuación se analizan cada una de las variables ya escaladas. Este procedimiento se realiza como referencia de un taller de modelamiento de scoring [4]. 

Figura 8. Variables escaladas


De las gráficas anteriores se ve que algunas muestran una distribución normal, como por ejemplo la variable edad, ingresos, longitud del empleo, porcentaje de ingresos del préstamo y historial crediticio de la persona. Las demás variables requieren ser normalizadas y para ello existen varios métodos, sin embargo no se aplicarán en este modelo. 


Aunque anteriormente se había observado el boxplot de la variable edad, faltó realizarlo a todas las demás variables escaladas para visualizar sus características y los datos atípicos que presenta, los cuales se presentan en la siguiente figura.



Figura 9. Box-plot de todas las variables.


En la figura 9 se observan muchos datos típicos en la variable ‘edad’ a los cuales se decidió en pasos anteriores reemplazar las edades mayores a 100 por la media de las edades, sin embargo, sigue presentando datos atípicos que igual  no se eliminan o se tratan diferente  porque no se conoce una razón que los explique; lo mismo ocurre con las variables ingresos, longitud del empleo, monto del préstamo, tasa de interés, porcentaje de ingresos del préstamo, longitud historial crediticio de la persona, grado del prestamo, Incumpliemiento histórico y el estado del préstamo, aunque estos últimos con muy pocos datos atípicos.


Debido a que ninguna variable tiene una correlación mayor al 50%, es decir no explican claramente la variable respuesta ‘Estado del préstamo’, se procede a seleccionar todas las variables para analizar los modelos que mejor predicen la probabilidad de incumpliemiento de un usuario al pagar un crédito. 



Modelos y desempeño.


Se establecen 3 modelos para determinar cuál es el mejor predicen la probabilidad de incumplimiento de un usuario pagar un crédito,los cuales son:

  • KNN o k-NN: Es un clasificador de aprendizaje supervisado no paramétrico, que utiliza la proximidad para hacer clasificaciones o predicciones sobre la agrupación de un punto de datos individual. Si bien se puede usar para problemas de regresión o clasificación, generalmente se usa como un algoritmo de clasificación, partiendo de la suposición de que se pueden encontrar puntos similares cerca uno del otro[5].

  • Distribución Binomial: es una distribución de probabilidad discreta que mide el número de éxitos en una secuencia de N ensayos de Bernoulli independientes entre sí, con una probabilidad de ocurrencia de éxitos en los ensayos [6].

  • La regresión logística resulta útil para los casos en los que se desea predecir la presencia o ausencia de una característica o resultado según los valores de un conjunto de predictores. Es similar a un modelo de regresión lineal pero está adaptado para modelos en los que la variable dependiente es dicotómica. Los coeficientes de regresión logística pueden utilizarse para estimar la razón de probabilidad de cada variable independiente del modelo. La regresión logística se puede aplicar a un rango más amplio de situaciones de investigación que el análisis discriminante[7].


De estos tres modelos anteriores se estudió su precisión, teniendo en cuenta todas las variables y como variable respuesta ‘estado del préstamo’. Los respectivos resultados fueron: 

LoR:81.45%

K-NN:81.51%

NB:81.40%


Se concluye que el modelo que mejor da respuesta es K-NN, sin embargo los demás no están muy lejos del mismo puntaje. Por tal motivo, por mejor entendimiento y comodidad se decidió trabajar con el modelo de regresión logística, el cual tiene una precisión de 81.45%.



Aprendizajes.


  • Se observa que la precisión del modelo es sensible a cambios, como por ejemplo la selección de las variables, es decir es muy importante realizar un buen análisis para determinar aquellas variables que son necesarias para determinar la probabilidad de incumplimiento de un crédito. Debido a que una de las hipótesis planteadas al determinar la correlación entre las variables es que, habían pares de variables que podrían llegar a ser redundantes en el modelo, sin embargo descartarlas afecta la precisión del modelo. La calidad de los datos puede afectar significativamente el rendimiento del modelo.

  • Entender el origen de la base de datos es fundamental para explicar la existencia de algunos valores atípicos, por ejemplo se considera necesario saber de donde son las personas, la cultura, qué segmento de la población fue seleccionado, para así poder saber cómo tratar los datos fuera de  lo normal que se encuentran por ejemplo en las categorías longitud del historial crediticio, el porcentaje de ingresos del préstamo, el monto del préstamo y los ingresos del usuario.

  • Es necesario saber en qué casos es más recomendable usar un determinado modelo según el objetivo que se desea alcanzar, ya que algunos modelos son más adecuados para problemas de clasificación, mientras que otros son mejores para problemas de regresión, detección de anomalías, agrupación, etc.

  • Al explicar muy bien el origen de los datos se podría hallar una solución para la variable edad, debido a que como se mencionó inicialmente, en colombia se pueden considerar personas mayores a los 80 años como de alto riesgo, por tal motivo no se concede el préstamo. Sin embargo en otros países pueden presentar condiciones y reglas diferentes. Por eso el origen es muy importante para poder determinar una solución correcta y no sesgada para definir la probabilidad de incumplimiento o no. 

  • En estos casos se considera muy importante la normalización de los datos debido a que se presenta información en escalas muy diferentes, lo que puede hacer que el proceso de optimización sea inestable y lento. La normalización coloca las variables en una escala común, lo que facilita la convergencia del algoritmo de optimización. Se aprendió que la normalización permite que las variables sean comparables directamente, lo que facilita la interpretación de los coeficientes del modelo.


Caso de uso del modelo.


En este caso de uso, se realiza una evaluación para determinar si un cliente es elegible para recibir un crédito o

si, por el contrario, su solicitud debe ser rechazada. Para llevar a cabo esta evaluación de manera efectiva,

es esencial comprender el origen de la base de datos. Esta comprensión nos permite manejar de manera adecuada

datos atípicos presentes en ciertas categorías, como la longitud del historial crediticio, el porcentaje de ingresos

relacionados con el préstamo, el monto del préstamo y los ingresos del solicitante.

Es fundamental seleccionar el modelo adecuado según el objetivo que se busca alcanzar. Algunos modelos

son más apropiados para problemas de clasificación, mientras que otros se destacan en problemas de regresión,

detección de anomalías, agrupación, entre otros. Esta elección estratégica es particularmente relevante dada la

naturaleza de nuestro análisis.

Además, es importante señalar que la variable respuesta, es decir, el estado de la deuda, presenta

un desequilibrio, ya que la mayoría de los datos corresponden a casos de cumplimiento, donde el prestatario

ha pagado el préstamo de acuerdo a los términos acordados, sin incumplimientos. Para una entidad bancaria,

la capacidad de seleccionar con precisión a los clientes solventes y minimizar los riesgos asociados a los

préstamos es de vital importancia


Modelo de Riesgo: ScoreCard

https://huggingface.co/spaces/JEMPAK/score_card2


Repositorio de codigos

https://github.com/PamelaEscobarPalacio/CalculaTuPuntajeCrediticio  



Tutorial





Bibliografía

[1] Bhalla, D. (2019). A complete guide to credit risk modelling. ListenData. Recuperado de https://www.listendata.com/2019/08/credit-risk-modelling.html

[2]https://www.rankia.co/blog/mejores-creditos-hipotecarios-vivienda/4245450-cual-edad-maxima-para-solicitar-credito-hipotecario

[3]Wikipedia contributors. (s/f). Anexo:Personas vivas más ancianas. Wikipedia, The Free Encyclopedia. https://es.wikipedia.org/w/index.php?title=Anexo:Personas_vivas_m%C3%A1s_ancianas&oldid=153881451

[4] Data & Analytics [@dataanalytics3906]. (2022, diciembre 31). Taller: Modelo de Credit Scoring con Python - Hector Letona. Youtube. https://www.youtube.com/watch?v=7RFltWwQtcQ

[5]¿Qué es KNN? (s/f). Ibm.com. Recuperado el 21 de septiembre de 2023, de https://www.ibm.com/mx-es/topics/knn

[6] Wikipedia contributors. (s/f-b). Distribución binomial negativa. Wikipedia, The Free Encyclopedia. https://es.wikipedia.org/w/index.php?title=Distribuci%C3%B3n_binomial_negativa&oldid=147645333

[7] IBM Documentation. (2023, agosto 4). Ibm.com. https://www.ibm.com/docs/es/spss-statistics/saas?topic=regression-logistic


Comentarios

Entradas populares de este blog

Reporte Tecnico sobre Predicción de la accidentalidad en Medellín

Reporte técnico clasificación de imágenes