src analisis discriminante

38
Análisis discriminante (A.D.) ¿Qué es análisis discriminante? Propósito del análisis Ejemplos de la utilización de A.D. Análisis para dos grupos Generalización: análisis para k grupos.

Upload: riskpyme1

Post on 15-Apr-2016

17 views

Category:

Documents


3 download

DESCRIPTION

como evaluar el riesgo de crédito con análisis discriminante

TRANSCRIPT

Page 1: SRC Analisis Discriminante

Análisis discriminante (A.D.)

¿Qué es análisis discriminante? Propósito del análisis Ejemplos de la utilización de A.D. Análisis para dos grupos Generalización: análisis para k

grupos.

Page 2: SRC Analisis Discriminante

¿Qué es análisis discriminante?

Es una técnica estadística que utiliza la información de un conjunto de variables independientes para predecir el valor de una variable dependiente discreta o categórica.

La variable dependiente generalmente es tabulada como una serie de valores enteros representando a los diferentes grupos que están representados en la muestra.

Page 3: SRC Analisis Discriminante

Objetivo del análisis discriminante

El objetivo del análisis discriminante es desarrollar una regla para predecir a que grupo una nueva observación (cliente, firma, empresa) es probable que pertenezca.

Page 4: SRC Analisis Discriminante

Ejemplos de análisis discriminante

Credit scoring: el gerente de crédito de una banco clasifica los créditos que ha hecho en dos grupos, aquellos que han entrado en mora y aquellos que se encuentran al día. A través del análisis es posible desarrollar una regla para predecir si un nuevo aplicante entrará en mora si se le otorga un crédito.

Page 5: SRC Analisis Discriminante

Ejemplos de análisis discriminante

Calificación de deuda: un analista financiero puede estar interesado en tratar de predecir si una compañía con cierta calificación de crédito (p.e. AAA) migre a una calificación más baja o más alta en un cierto periodo de tiempo.

Page 6: SRC Analisis Discriminante

Ejemplos de análisis discriminante

Calificación para una empresa de seguros:Usando información histórica, una compañía de seguros puede clasificar a sus asegurados en tres categorías: alto riesgo, riesgo moderado y bajo riesgo. Una compañía quiere saber cómo puede ser clasificado un nuevo cliente.

Page 7: SRC Analisis Discriminante

Análisis discriminante para dos grupos

El siguiente problema relacionado con la efectividad de una campaña de publicidad de una tarjeta de crédito ilustra el análisis discriminante para dos grupos.

Luego de un contacto telefónico, se pudo recopilar la información de una muestra de 20 personas donde el grupo clasificado como 1 no aceptó el ofrecimiento de la tarjeta mientras que el grupo 2 aceptó el ofrecimiento de la tarjeta de crédito.

Page 8: SRC Analisis Discriminante

Análisis discriminante para dos grupos

Page 9: SRC Analisis Discriminante

Muestra a clasificar

Page 10: SRC Analisis Discriminante

El concepto de centroide Un centroide es el promedio que

toman las variables independientes para un grupo específico.

En este caso por cuanto tratamos con dos grupos se estaría en la presencia de dos centroides.

Page 11: SRC Analisis Discriminante

Cálculo de los centroides

Centroides

Page 12: SRC Analisis Discriminante

Centroides El centroide es un conjunto de promedios

donde el grupo está centrado, algo así como el punto que representa el individuo o la observación promedio dentro de un grupo.

Entre más distintos los centroides, más fácil será distinguir entre grupos.

A pesar que los grupos pueden estar bien separados, en ocasiones ciertas observaciones se traslapan.

Page 13: SRC Analisis Discriminante

Calculando los puntajes de discriminación

Desde una perspectiva de regresión queremos modelar el comportamiento de un grupo usando las variables independientes referentes al tamaño de la familia, ingreso familiar, número de tarjetas de crédito y número de tarjetas de crédito poseídas:

0 1 1 2 2 3 3 4 4Y b b X b X b X b X= + + + +

Page 14: SRC Analisis Discriminante

Calculando los puntajes de discriminación

El propósito de la regresión es combinar la información disponible de las variables con un valor único estimado para cada grupo.

El valor estimado de la variable de

grupo es denominado como puntaje discriminante y se denota por

Y

Page 15: SRC Analisis Discriminante

Resultados de la regresión

Page 16: SRC Analisis Discriminante

Cálculo del puntaje discriminante

La ecuación de regresión es aplicada a los 20 datos para generar un puntaje para cada observación.

Page 17: SRC Analisis Discriminante

Cálculo del puntaje discriminante por grupos

Luego se puede sacar un promedio de los puntajes por grupo, los cuales se refieren como

Porque los puntajes promedios por grupo son diferentes (1.2 y 1.7 respectivamente), necesitamos una regla para discriminar entre grupos.

^ ^

1 2Y y Y

Page 18: SRC Analisis Discriminante

Regla de clasificación – valor de corte

Una regla puede ser: si el puntaje es menor a un valor de corte, asígnelo al grupo 1 o de lo contrario asígnelo al grupo 2.

El problema que queda es determinar un punto apropiado de corte.

Una buena opción es el valor medio de los puntajes de los grupos (1.45)

Page 19: SRC Analisis Discriminante

Refinando el valor de corte Por cuanto los grupos se entrelazan, es

muy probable que algunas observaciones sean clasificadas de manera errónea.

A veces es conveniente incorporar creencias o probabilidades previas a la regla de clasificación.

Este método alternativo considera los costos de una mala clasificación así como de probabilidades previas.

Page 20: SRC Analisis Discriminante

Refinando el valor de corte Supongamos que definimos que: C (1/2) es el costo de clasificar una

observación como 1 dado que pertenece a 2.

C (2/1) es el costo de clasificar una observación como 2 dado que pertenece a 1.

p1= probabilidad previa (a priori) que una observación pertenezca al grupo 1

p2= probabilidad previa que una observación pertenezca al grupo 2

Page 21: SRC Analisis Discriminante

Refinando el valor de corteUn método más general para estimar el punto de corte es:

Donde:

^ ^2

1 2 2^ ^

11 2

Y Y (1/ 2)Valor de corte= *ln2 (2 /1)Y Y

YpS p Cp C

æ ö+ ÷ç ÷+ ç ÷ç ÷çè ø-

1 2

2 21 22

1 2

( 1) ( 1)2

Y YYp

n S n SS

n n- + -= + -

Page 22: SRC Analisis Discriminante

Refinando el valor de corte - ejemplo

Con esta información el valor de corte es de 1.29

Page 23: SRC Analisis Discriminante

Precisión de la clasificación

Page 24: SRC Analisis Discriminante

Matriz de confusión3 clasificaciones

erróneas

Page 25: SRC Analisis Discriminante

Clasificando nuevas observaciones

Page 26: SRC Analisis Discriminante

El problema para k grupos Supongamos que disponemos de la siguiente

información de 20 empresas (clientes) clasificadas en tres grupos.

Grupo 1= empresas satisfactorias, es decir compradores que siempre han pagado a tiempo sus obligaciones con la empresa.

Grupo 2 = empresas promedio las cuales a pesar de haber tenido una buena historia de crédito en ocasiones han presentado mora.

Grupo 3 = empresas que han presentado una pésima historia crediticia.

Page 27: SRC Analisis Discriminante

Problema de clasificación Naturalmente a través de análisis

discriminante podemos desarrollar una regla de decisión donde brindemos crédito a las empresas clasificadas en el grupo 1, evaluaremos con mayor detalle las empresa clasificadas en el grupo 2 mientras que negaremos el crédito comercial a empresas clasificadas en el grupo 3.

Page 28: SRC Analisis Discriminante

Información de clientes con crédito comercial

Page 29: SRC Analisis Discriminante

Medidas de distancia Una regla de clasificación lógica para

una nueva observación es clasificarla en el grupo que esté más cerca del centroide.

Inicialmente se podría graficar y visualmente tratar de aproximarse para ver la cercanía de una observación con un centroide particular.

Page 30: SRC Analisis Discriminante

Medidas de distanciaSe recordará que la distancia euclidiana entre dos puntos (A1,B1) y (A2, B2) en dos dimensiones puede ser medido por:

Podemos usar esta fórmula en el análisis discriminante para medir la distancia de una observación con un centroide de un grupo específico, y luego asignar la observación al grupo que esté más cerca.

2 21 2 1 2Distancia = (A -A ) (B -B )+

Page 31: SRC Analisis Discriminante

Medidas de distancia Desde un punto de vista estadístico,

la medida de distancia euclidiana es algo débil porque ignora las varianzas de las variables independientes.

Es conveniente entonces refinar la medida de distancia para tener en cuenta diferencias en las varianzas de las variables independientes.

Page 32: SRC Analisis Discriminante

Medidas de distancia Si hacemos que Dij represente la

distancia desde la observación i al centroide del grupo j, podemos definir la distancia como:

2

2

( )ik jki j

k jk

x xD

s-= å

Varianza del grupo j enla variable k

xik representa el valor de la observación i

en la k-ésima variable

Page 33: SRC Analisis Discriminante

Distancia de Mahalanobis Hay numerosas variaciones en la

medida de distancia.

Una de las variaciones más usadas es la medida de distancia de Mahalanobis, la cual tiene en cuenta las covarianzas de las variables independientes.

Page 34: SRC Analisis Discriminante

Distancia de Mahalanobis Un complemento en Excel calcula la

distancia de Mahalanobis de cada observación al centroide para cada grupo posible.

Luego, asigna una observación al grupo que minimice la distancia de Mahalanobis.

Page 35: SRC Analisis Discriminante

Resultado – muestra de clasificación

Page 36: SRC Analisis Discriminante

Resultado – matriz de confusión

Page 37: SRC Analisis Discriminante

Comentarios finales Utilizando un análisis de regresión,

efectuamos el análisis discriminante para dos grupos.

Discutimos el concepto de centroide (en n-dimensiones)

Usando una medida para calcular distancias entre observaciones y centroides, efectuamos el análisis para k grupos.

Page 38: SRC Analisis Discriminante

Comentarios finales Las aplicaciones del análisis

discriminante son muy diversas (en finanzas como en áreas no financieras)

Es recomendable complementar el análisis cuantitativo con un análisis de corte cualitativo para clasificar mejor las observaciones.