Los algoritmos de regresión logística pueden ser utilizados para clasificación (fundamentalmente binaria ver esquema general de IA). Son utilizados para estimar la probabilidad de que una instancia pertenezca a una clase particular o no. De modo que si la probabilidad de pertenecer a una clase A es superior a 50% el modelo predice que esa instancia pertenece a la clase A y la etiqueta como 1. En caso contrario, predice que no pertenece y la etiqueta como 0. Esto forma un clasificador binario.
Estimado las probabilidades
Un modelo de regresión logística computa una suma ponderada de características de entrada (más un término de desplazamiento) y da como resultado un porcentaje entre 0 (0) y 100% (1). Su función es una sigmoide.
En el modelo concreto de arriba el 50% está justo para t=0 de modo que podemos decir que la predicción de este modelo es de 0 para t<0 y 1 para t >0.
Este tipo de función es especialmente adecuado para características separadas que se unen en un estrecho rango. Por ejemplo a la hora de distinguir entre dos especies de flor Iris Virgínica o Iris Versiocolor en función de la longitud de sus pétalos. O bien las posibilidades de default de un pagador frente a su acreedor en función del tiempo que tarda en devolver el préstamo.
Así por ejemplo en el caso de las flores, la anchura del pétalo de Iris Virgínica oscila entre 1,4 cm y 2,5 cm mientras que la de Iris Versicolor va desde los 0,1 cm hasta los 1,8. En este caso hay un pequeño solapamiento en el cual el modelo tendrá difícil saber de qué especie se trata, pero en el resto del dataset será realivamente fácil clasificar una u otra variedad.
La curva de regresión logística
Para encontrar la mejor solución, intentaremos cuantificar cada uno de estos enfoques. Con la tarjeta de crédito, tenemos un 100% de probabilidad de tener dinero para pagar otros gastos importantes. Pero la probabilidad de que paguemos el préstamo completamente se reduce significativamente. Los beneficios de este enfoque son que tendremos dinero disponible para otros gastos importantes. Por otra parte con la tarjeta de débito, tenemos una probabilidad cercana a cero de tener dinero para otros gastos importantes. Sin embargo, en este caso, la probabilidad de tener que reembolsar el préstamo no procede ya que no hemos pedido un préstamo. Los dos enfoques que acabamos de discutir son bastante extremos y, por lo general, hay un término medio
Pero si pagamos la mitad a crédito y el resto con el saldo de la tarjeta de débito tenemos un enfoque mixto en el cual podemos tener un 90% de éxito en ambas variables. Esto sería una representación más precisa de escenarios del mundo real para la mayoría de las personas. Donde, no hay certeza sobre un pago de un préstamo. Pero siempre hay una probabilidad asociada.
Si vemos este problema particular desde el punto de vista de un acreedor. El acreedor está haciendo los préstamos. Necesita planificar sus finanzas de acuerdo con la probabilidad de incumplimiento de cada uno de sus clientes.
El problema que enfrenta el acreedor que emite un préstamo es de regresión logística. Para representarlo gráficamente a lo largo del eje X, traza el retraso en el pago de cada cliente en número de días y en el eje Y se utiliza para estimar la probabilidad de que el cliente no pague su préstamo. Cada uno de estos ejes responde a diferentes preguntas. A lo largo del eje X, la pregunta que debe hacerse es ¿cuántos días más tiene el cliente para liquidar el préstamo antes de que se considere que está en mora? Y a lo largo del eje Y, obtenemos la respuesta a la pregunta, ¿cuál es la probabilidad de que el cliente incumpla el pago?
Esta relación se puede mapear trazando una curva en S. Esto se debe a que el plazo de amortización es binario. Una vez que hayamos cruzado la fecha límite, habremos perdido la oportunidad de pagar y definitivamente se nos considera morosos. Esta es la razón por la que la curva en S se aplana al final después de que se alcanza la fecha límite de reembolso. El valor mínimo de esta curva en S es 0, mientras que el techo es 1, lo que representa un rango de probabilidades. Esto contrasta con la regresión lineal, donde el rango de valores de y normalmente va desde menos infinito hasta más infinito.
La curva en S ayuda al acreedor a responder a la pregunta de cuál es la probabilidad de que el cliente liquide su préstamo a tiempo. La solución al problema de la regresión logística es encontrar la curva de mejor ajuste para representar nuestros datos. Por tanto, las curvas en S se utilizan mucho y están representadas por esta ecuación:
y = 1 / (1 + e ^ - (A
+ Bx))
Para nuestro ejemplo de reembolso de préstamo, la probabilidad de incumplimiento se puede representar mediante esta curva en forma de S.
Donde en el rango de valores de x va desde de menos infinito a 0, la probabilidad es 0. Mientras que, la probabilidad es 1 para cualquier valor positivo de x. Por otro lado, cuando
tanto A como B son negativos, la regresión logística nos ayuda a comprender cómo las probabilidades de ciertos resultados se ven afectadas por las acciones.
Cuando echamos un vistazo a nuestra curva S, vemos que hay un valor mínimo para la probabilidad, que es 0. Esto está representado por todos los valores hacia la izquierda de este gráfico. Si un cliente tiene solo unos días para pagar, significa que es más probable que solo esté esperando el momento adecuado para pagar. Y la probabilidad de incumplimiento se puede considerar 0 en este rango en particular. Sin embargo, en el otro extremo de la escala, tenemos clientes que están muy cerca de su fecha límite o la han excedido. Y su probabilidad de incumplimiento puede considerarse 1. Sin embargo, entre estos dos extremos se encuentra la sección más interesante.
Y aquí es donde incluso un pequeño cambio en el valor de x puede resultar en un cambio significativo en el valor de y. De hecho, esta es una representación muy precisa de cómo se desarrollan las cosas en el mundo real. En la región verde del gráfico, la probabilidad de incumplimiento es muy sensible a cualquier retraso en el pago. Para ilustrar esto, consideremos dos clientes diferentes que realizan sus pagos los días X1 y X2. En comparación con otras secciones de este gráfico, la probabilidad de que estos clientes incumplan varía bastante en esta región.
Como acreedores, podemos trazar la curva S, que mapea la probabilidad de incumplimiento, de acuerdo con el retraso en el pago. Y después establecemos un valor de umbral a lo largo del eje X para el retraso del reembolso.
No hay comentarios:
Publicar un comentario