Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

51
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas de Crédito

Transcript of Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Page 1: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Métodos Predictivos: Aplicación a la

Detección de Fraudes en Tarjetas de Crédito

Page 2: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Modelo general de los métodos de Clasificación |Id Reembolso Estado

Civil Ingresos Anuales Fraude

1 Sí Soltero 125K No

2 No Casado 100K No

3 No Soltero 70K No

4 Sí Casado 120K No

5 No Divorciado 95K Sí

6 No Casado 60K No 10

Tabla de Aprendizaje Id Reembolso Estado

Civil Ingresos Anuales Fraude

7 No Soltero 80K No

8 Si Casado 100K No

9 No Soltero 70K No 10

Tabla de Testing

Generar el

Modelo

Aplicar el

Modelo

Modelo

Algoritmo de

Aprendizaje

Nuevos Individuos

Evaluar

Page 3: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Definición de Clasificación

• Dada una base de datos 𝐷 = {𝑡1, 𝑡2, … , 𝑡𝑛} de tuplas o registros (individuos) y un conjunto de clases 𝐶 = {𝐶1, 𝐶2, … , 𝐶𝑚}, el problema de la clasificación es encontrar una función  𝑓: 𝐷 → 𝐶 tal que cada 𝑡𝑖 es asignada una clase 𝐶𝑗 .

• 𝑓:𝐷 → 𝐶 podría ser una Red Neuronal, un Árbol de Decisión, un modelo basado en Análisis Discriminante, o una Red Beyesiana.

Page 4: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Aprendizaje Supervisado K - Vecinos más cercanos

KNN-Method

Page 5: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Como de los K=6 “individuos” de entrenamiento 4 son patos entonces el “individuo” de testing se clasifica como pato. Criterio “Majority Vote”

Page 6: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Para K=1 (círculo más pequeño), la clase de la nueva instancia sería la Clase 1, ya que es la clase de su vecino más cercano, mientras que para K=3 la clase de la nueva instancia sería la Clase 2 pues habrían dos vecinos de la Clase 2 y solo 1 de la Clase 1

Page 7: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Aprendizaje Supervisado Método de Bayes

Page 8: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Teorema de Naïve Bayes

Page 9: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Ejemplo: Créditos en un Banco

Dada esta de Aprendizaje predecir para los siguientes individuos si van a ser buenos o malos pagadores.

Page 10: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Ejemplo: Créditos en un Banco Nuevos Individuos

•  Se  $ene  una  nueva  fila  de  la  base  de  datos  t  =  (100,2,4,2,2,3,?).    •  El   problema   es:   a   par$r   de   la   tabla   de   aprendizaje   y   usando  

Clasificación   Bayesiana   predecir   si   el   individuo   #100  corresponde  a  un  buen  pagador  o  a  un  mal  pagador.  

•  Lo  que  se  hace  en  estos  caso  es  calcular  P(Bueno|t)  y  P(Malo|t)  para  determinar  cuál  es  mayor,  donde  por  bueno  se  en$ende  que   la   variable   BuenPagador=1   y   por   malo   que  BuenPagador=2.  

Page 11: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Ejemplo de Clasificación Bayesiana

𝑃(𝐵𝑢𝑒𝑛𝑜|𝑡) =𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜)

𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜) + 𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜)  

 

𝑃(𝐵𝑢𝑒𝑛𝑜) =610    𝑦    𝑃

(𝑀𝑎𝑙𝑜) =410  

Como   t   =   (100,2,4,2,2,3,?),   este   es   un   evento   que   corresponde   realmente   a   5   eventos  independientes,   ser   MontoCredito=2,   IngresoNeto=4,   CoeficienteCreditoAvaluo=2,  MontoCuota=2  y    GradoAcademico=3.  Así:  

𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜)= 𝑃((MontoCredito = 2)|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃A(IngresoNeto = 4)F𝐵𝑢𝑒𝑛𝑜G∙ 𝑃A(CoeficienteCreditoAvaluo= 2)F𝐵𝑢𝑒𝑛𝑜G ∙ 𝑃((MontoCuota = 2  )|𝐵𝑢𝑒𝑛𝑜)

∙ 𝑃((GradoAcademico = 3)|𝐵𝑢𝑒𝑛𝑜) =26 ∙46 ∙26 ∙16 ∙16 =

167776 = 0,002.  

Page 12: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Ejemplo de Clasificación Bayesiana 𝑃(𝑡|𝑀𝑎𝑙𝑜)

= 𝑃((MontoCredito = 2)|𝑀𝑎𝑙𝑜) ∙ 𝑃6(IngresoNeto = 4)<𝑀𝑎𝑙𝑜=∙ 𝑃6(CoeficienteCreditoAvaluo = 2)<𝑀𝑎𝑙𝑜= ∙ 𝑃((MontoCuota = 2  )|𝑀𝑎𝑙𝑜)

∙ 𝑃((GradoAcademico = 3)|𝑀𝑎𝑙𝑜) =04 ∙04 ∙04 ∙04 ∙04 = 0.  

 

𝑃(𝐵𝑢𝑒𝑛𝑜|𝑡) =𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜)

𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜) + 𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜) =167776 ∙

610

167776 ∙

610 + 0 ∙

410

= 1  

Por  lo  que  𝑃(𝑀𝑎𝑙𝑜|𝑡) = 0.  Pero  lo  vamos  a  verificar:  

𝑃(𝑀𝑎𝑙𝑜|𝑡) =𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜)

𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜) + 𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜) =0 ∙ 410

167776 ∙

610 + 0 ∙

410

= 0.  

Por  lo  que  claramente  el  individuo  #100  tiene  una  probabilidad  máxima  de  ser  un  buen  pagador.        

Page 13: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Aprendizaje Supervisado Redes Neuronales

Page 14: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Redes Neuronales - Perceptrón •  El cerebro humano está

compuesto principalmente de células nerviosas llamada Neuronas.

•  Estas neuronas están ligadas mediante unas fibras llamadas “Axons”.

•  Una Neurona está conectada al Axón de otra Neorona mediante las Dentritas.

•  En punto de contacto entre una Dentrita y el Axón se llama Synapse.

•  Las Redes Neuronales Artificiales tratan de emular este esquema mediante Nodos y Links.

Page 15: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Estructura General de una Red Neuronal

Activationfunction

g(Si )Si Oi

I1

I2

I3

wi1

wi2

wi3

Oi

Neuron iInput Output

threshold, t

InputLayer

HiddenLayer

OutputLayer

x1 x2 x3 x4 x5

y

Entrenar una Red Neuronal significa descubrir los pesos de las neuronas

Page 16: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Perceptrón - xor

Page 17: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Aprendizaje Supervisado Máquinas de Soporte

Vectorial

Page 18: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

x1

x2 Margen

x+

x+

x- n

Vectores de Soporte

Vector Director

¿Por qué se denominan Máquinas de Soporte Vectorial (Support Vector Machines)?

Page 19: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

n  g(x) es una función lineal:

x1

x2

w∙x + b < 0

w∙x+ b > 0

n  Se busca un hiperplano en el espacio de las variables

n  n es el vector normal del hiperplano

=wnw

n

Función discriminante lineal

Page 20: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

n  ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error?

x1

x2

n  Podrían existir una cantidad infinita de posibles hiperplanos!

Función discriminante lineal

Page 21: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

x1

x2 n  ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error?

n  Podrían existir una cantidad infinita de posibles hiperplanos!

Función discriminante lineal

Page 22: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

x1

x2 n  ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error?

n  Podrían existir una cantidad infinita de posibles hiperplanos!

Función discriminante lineal

Page 23: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

x1

x2

n  ¿Cuál es el mejor?

n  ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error?

n  Podrían existir una cantidad infinita de posibles hiperplanos!

Función discriminante lineal

Page 24: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Clasificador lineal con el margen más amplio

“zona segura” n  La función discriminante

lineal con el máximo margen es la mejor

n  El margen se define como la ancho que limita los datos (podría no existir)

n  ¿Por qué es la mejor? q  Generalización robusta y

resistente a los valores atípicos x1

x2 Margen

Page 25: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Resolver un Problema Optimización

Page 26: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

MVS no linealmente separables n  Idea general: Los datos de entrada se puede trasladar a

algún espacio de mayor dimensión en el que la Tabla de Entrenamiento sí sea separable:

Φ: x → φ(x)

Page 27: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Aprendizaje Supervisado Árboles de Decisión

Page 28: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Un ejemplo de un árbol de decisión

Casado

Reembolso

Es-Civil

Ingresos

SÍ NO

NO

NO

Sí No

Soltero, Divorciado

< 80K > 80K

Variables de División Id Reembolso Estado

Civil Ingresos Anuales Fraude

1 Sí Soltero 125K No

2 No Casado 100K No

3 No Soltero 70K No

4 Sí Casado 120K No

5 No Divorciado 95K Sí

6 No Casado 60K No

7 Sí Divorciado 220K No

8 No Soltero 85K Sí

9 No Casado 75K No

10 No Soltero 90K Sí 10

Tabla de Aprendizaje Modelo: Árbol de Decisión

Page 29: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Información Ganada à IGSplit ü  Cada vez que se va a hacer una nueva división en el árbol (split

the tree) se debe comparar el grado de impureza del nodo padre respecto al grado de impureza de los nodos hijos.

ü  Esto se calcula con el índice de Información Ganada (IG), que es la resta de la impureza del nodo padre menos el promedio ponderado de las impurezas de los nodos hijos.

ü  La idea en IGSplit sea máximo y esto se logra si el promedio ponderado de las impurezas de los nodos hijos es mínimo.

•  Donde I es el índice de GINI, la Entropía o el Error de Clasificación.

⎟⎠

⎞⎜⎝

⎛−==Δ ∑

=

k

i

isplit iI

nnpadreIIG

1)()(

Page 30: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Aprendizaje Supervisado Métodos de Consenso

(Bagging)

Page 31: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Page 32: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Bosques Aleatorios (Random Forest) n  El caso en el que todos los clasificadores del

Método de Consenso son Árboles dicho método se denomina Bosques Aleatorios (Random Forest)

Page 33: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Bosques Aleatorios (Random Forest)

Cada árbol usa m diferentes variables, aleatoriamente escogidas del conjunto de p variables m<p (m=mtry en R)

Page 34: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Aprendizaje Supervisado Métodos Potenciación

Page 35: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Métodos de Potenciación "Best off-the-shelf classifier in the world”

[Breiman, NIPS Workshop, 1996]

Breiman Friedman

Page 36: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Métodos de Potenciación n  La idea es tomar una muestra aleatoria de los

datos originales y aplicar sobre esta un método clasificatorio luego aumentar el peso (potenciar) a los individuos mal clasificados para que en la siguiente aplicación del método clasificatorio se enfoque más en estos individuos mal clasificados, mejorando su clasificación, y así sucesivamente …

n  Observación: Solo funciona para problemas de clasificación binarios (de 2 clases).

Page 37: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Métodos de Potenciación

G(x)= Clasificador Final

Tabla de Entrenamiento

1° Muestra con nuevos pesos

2° Muestra con nuevos pesos

M° Muestra con nuevos

pesos

Page 38: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Métodos de Potenciación Algoritmo:AdaBoost.M1

Page 39: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Ejemplo: Algoritmo:AdaBoost.M1

Page 40: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Aprendizaje Supervisado Regresión Logística LASSO

Page 41: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

“LASSO” Regression Método LASSO

(Propuesto por Robert Tibshirani en 1996)

Page 42: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

“Lasso” Regression (Método Lasso-Tibshirani)

Page 43: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Matricialmente

Solución à NO hay solución explícita

Lasso Ridge

Page 44: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Solución

Page 45: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Aplicación a la Detección de Fraudes en Tarjetas de Crédito

Page 46: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Proceso de Monitoreo

Transacciones

Vector Personal

Modelos Predictivos

Proceso de Análisis (en línea)

Problema del Fraude en tarjetas de crédito y débito

Reglas de Experto

Page 47: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Validación cruzada usando K grupos (K-fold cross-validation)

K grupos → K iteraciones

Page 48: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Page 49: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Page 50: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Page 51: Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Muchas Gracias….