Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude...

53
1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance, M. Zanin - Jornadas BBVA, 4 de julio de 2014 Las leyes de la matemática no son meramente invenciones o creaciones humanas, simplemente "son". Existen independientemente del intelecto humano. Lo más que puede hacer un hombre de inteligencia aguda es descubrir que esas leyes están allí y llegar a conocerlas”. Maurits Cornelis Escher

Transcript of Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude...

Page 1: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

1 de 54

Redes parenclíticasy

variables de fraudePresentación de los avances realizados en investigac ión (IT RF&S)

R. Criado, M. Romance, M. Zanin - Jornadas BBVA, 4 de julio de 2014

“ Las leyes de la matemática no son meramente invenci ones o creaciones humanas, simplemente "son". Existen independientemente del i ntelecto humano. Lo más que puede hacer un hombre de inteligencia aguda es desc ubrir que esas leyes están allí y llegar a conocerlas”.

Maurits Cornelis Escher

Page 2: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

2 de 54

Índice

1. Introducción2. Presentación de los datos3. Análisis de los datos.4. Networks and Parenclitic Networks5. Meta-Networks6. Aplicación al fraude con tarjetas

Page 3: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

3 de 54

Introducción

Page 4: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

4 de 54

• Algoritmo de cifrado FPE (Format Preserving Encryption) (tokenización), certificación de los algoritmos, sistemas frontera…

• Gestión del riesgo digital mediante redes complejas de intencionalidad

• Teoría de la seguridad de la información (sistemas de información).

Proyectos

1. Introducción

Page 5: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

5 de 54

• Algoritmo de cifrado FPE (Format Preserving Encryption) (tokenización), certificación de los algoritmos, sistemas frontera…

• Gestión del riesgo digital mediante redes complejas de intencionalidad

• Teoría de la seguridad de la información (sistemas de información).

• Prevención del fraude con redes parenclíticas

Proyectos

1. Introducción

Page 6: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

6 de 54

1. Introducción

Page 7: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

7 de 54

Presentación de

los datos

Page 8: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

8 de 54

Datos de transacciones realizadas en España con tarjeta de crédito y débito durante 2011 y 2012, distinguiendo entre transacciones lícitas y no lícitas .

(cada mes 10 Gigabytes, aproximadamente 250 Gb en total).

2. Presentación de los datos

Page 9: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

9 de 54

Análisis

de

los datos

Page 10: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

10 de 54

3. Análisis de los datos

Page 11: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

11 de 54

3. Análisis de los datos

December 2011

Page 12: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

12 de 54

3. Análisis de los datos

Page 13: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

13 de 54

3. Análisis de los datos

Page 14: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

14 de 54

3. Análisis de los datos

Page 15: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

15 de 54

Networks and Parenclitic Networks

Page 16: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

16 de 54

4. Networks and parenclitic networks

•Teoría de redes: Internet (800 millones de nodos).•Barabasi and co-workers: Nature (1999) Redes Scale-Free.Se pretende reproducir comportamientos universales basados en modelos sencillos (homeofilia-homeostasis)

1. Physical networks (social, technological,…)2. Functional networks3. Parenclitic networks

Page 17: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

17 de 54

1. Introducción

Page 18: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

18 de 54

4. Networks and parenclitic networks

No se puede mostrar la imagen en este momento.No se puede mostrar la imagen en este momento.

No se puede mostrar la imagen en este momento.

Page 19: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

19 de 54

4. Networks and parenclitic networks

( )P k k γ−�

Page 20: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

20 de 54

•REDES PARENCLÍTICAS: Herramienta de predicción y clasificación. (parenclisis <-> desviación)

•Generaliza el paradigma de las redes neuronales (perceptrón multicapa) de base conexionista.

• A partir de un conjunto “patrón”, permite detectar y/o predecir, por ejemplo, en su aplicación a las redes biomédicas, la presencia de enfermedades o el desarrollo futuro de las mismas, y en su aplicación a la DETECCIÓN DE FRAUDE EN TARJETAS , las operaciones ilícitas en base a ciertas características de las mismas.

4. Networks and parenclitic networks

Page 21: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

21 de 54

•El punto de partida es la representación en una red compleja de los datos, en la que la importancia de las correlaciones(interacciones o relaciones) entre las diferentes características o elementos que componen la red es o bien la misma, o bien mayor que la influencia de cada una de estas características “por separado”.

4. Networks and parenclitic networks

Page 22: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

22 de 54

•La idea análisis de sangre, consiste en asociar a cada nuevo individuo (persona-análisis de sangre, transacción hecha con tarjeta, …) una red compleja que refleje sus características (cada nodo es una característica diferente)

•Para ello, es necesario trabajar previamente con los datos obtenidos a partir de un GRUPO DE CONTROL (es decir, personas saludables, o personas enfermas, transacciones lícitas, transacciones ilícitas,…) de manera que podamos representar en una RED PATRÓN las relaciones “normales” entre cada par de estas características.

Descripción de la metodología

4. Networks and parenclitic networks

Page 23: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

23 de 54

•Un conjunto de “n” individuos, todos ellos con “p” características, y una colección de “m” clases.

Descripción de la metodología

4. Networks and parenclitic networks

Page 24: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

24 de 54

4. Networks and parenclitic networks

{ }1 , ..., na a

{ }1 , ..., mG G

{ }1 2,G G

{ }1 , ..., px x

{ }1 , ..., px x 1( , ..., ) 0pf x x = 1 23 0x x− =

Page 25: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

25 de 54

•Un conjunto de “n” individuos, todos ellos con “p” características, y una colección de “m” clases.

•Esta información se recoge en una matriz D de p filas (una por cada característica) y n columnas (una por cada sujeto). De este modo la característica “i-esima” del individuo “s” es el elemento dis de la matriz D.

•Proyectamos entonces, para cada par de características , “i” y “j” en el plano “i-j” obteniendo un punto por cada individuo del grupo de control:

Descripción de la metodología

4. Networks and parenclitic networks

Page 26: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

26 de 54

•A continuación realizamos un ajuste lineal, (podríamos utilizar otro tipo de ajuste) obteniendo que el valor de la característica “j” para el individuo sano “s” puede obtenerse a partir de la característica “i”, según una fórmula del tipo siguiente:

4. Networks and parenclitic networks

i

j

Page 27: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

27 de 54

•Es posible, entonces, considerar el valor medio de estos errores y sus desviaciones típicas.

,ij

sjs ij ij is

ij ij

d a b d

a b coeficientes resultado de hacer el ajuste lineal

vector conteniendo los m errores del ajuste

ε

ε

= + +

=

=

4. Networks and parenclitic networks

Page 28: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

28 de 54

•El siguiente paso es crear una red para cada nuevo sujeto (o transacción). Para ello, proyectamos el valor obtenido de cada par de características de este nuevo sujeto en el plano i-j correspondiente, y calculamos “su distancia” a la recta que ajusta los datos anteriores en el plano i-j: v v v

ij ij ij i je a b t t= + −•Es decir, siendo los valores ti

y tj los de las correspondientes características I y j del nuevo individuo, sería razonable que si está sano (es una transacción lícita) el valor de esa distancia fuese cero o un valor muy pequeño.

4. Networks and parenclitic networks

Page 29: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

29 de 54

•Construimos ahora la red compleja asociada al nuevo individuo, en la que las características “i” y “j” estarán unidas por la arista que tendrá como peso asociado a o, si se prefiere, por un valor que represente de una manera más fidedigna dicha anormalidad, como por ejemplo:

vije

•Ahora se puede construir una red (que ya no será completa) estableciendo un umbral sobre los pesos de las aristas. Por ejemplo, si el peso es inferior a 0.5 la arista se elimina de la red que representa a la nueva transacción (o individuo), y si es superior a dicho valor, permanece.

vij ij

ijij

eZ

εσ−

=

4. Networks and parenclitic networks

Page 30: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

30 de 54

•La “anormalidad” del individuo (o transacción) respecto del grupo patrón viene representada por esa red.

4. Networks and parenclitic networks

Page 31: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

31 de 54

•El análisis de la estructura (topología) de la red obtenida nos proporciona información relevante: Por una parte, si los datos corresponden a una PERSONA SALUDABLE (TRANSACCIÓN LÍCITA), es esperable que cada par de valores correspondientes a las características estén próximas a los valores de los correspondientes ajustes lineales obtenidos para el grupo de control.

•Por consiguiente, la red correspondiente a este sujeto (transacción) tendrá pocas aristas, más debidas al “ruido” en la medida que a una diferencia propiamente dicha, y por consiguiente, nos dará una topología aleatoria (random).

4. Networks and parenclitic networks

Page 32: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

32 de 54

•Por el contrario, si la PERSONA ESTÁ ENFERMA (o se trata de una transacción ILÍCITA) obtendremos valores anormales en algunas de estas relaciones; las topologías resultantes serán fácilmente identificables por un nº anormalmente alto de aristas, y por estructuras “tipo estrella”, cuyos centros señalarán las características responsables de la enfermedad.

•La topología de la red se puede estudiar también a partir de parámetros globales de la misma: densidad de aristas, clustering coefficient, ….

4. Networks and parenclitic networks

Page 33: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

33 de 54

Extraido del artículo de M. Zanin et al “ Knowledge Discovery in Spectral Data by Means of Co mplex Networks”Metabolites 2013, 3(1), 155-167; doi:10.3390/metabo3010155

Page 34: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

34 de 54

Meta-Networks

Page 35: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

35 de 54

5. Meta-Networks

Transacciones fraudulentas•Bajo número de características: El número de parámetros disponiblespara describir cada transacción es muy bajo, menor de 10.

•Presencia de relaciones de orden superior

Desarrollo de la metodología de meta-redes

Page 36: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

36 de 54

5. Meta-Networks

Meta

META-REDES:

¿Cómo añadir nuevos links para mejorar la capacidad de predicción?

VER VIDEO

Page 37: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

37 de 54

Rationale for binning:

•Low-weighted links do not represent significant facts•Reduction of noise•Reduced computational cost

5. Meta-Networks

Page 38: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

38 de 54

• Selección del umbral para binarizar• 45% de links más fuertes (binarizamos con ellos)

5. Meta-Networks

Medimos:

Page 39: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

39 de 54

Multiple instances (subjects)

5. Meta-Networks

Page 40: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

40 de 54

5. Meta-Networks

1/40

03/4

Multiple instances (subjects)

Page 41: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

41 de 54

New subject

5. Meta-Networks

Page 42: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

42 de 54

-En este punto: Medidas estructurales sobre la red (grado,…) para clasificar.

- Selección de métricas por fuerza bruta o por “feature selection” (tendremos una por cada dimensión).

- Algoritmos de clasificación estándar para obtener una única métrica (varios procedimientos).

5. Meta-Networks

Page 43: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

43 de 54

Matriz pesada (148x148 sensores) de correlaciones en tre pares de nodos (sensores) (ejemplo de persona con formación superior).

Page 44: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

44 de 54

Matriz (binarizada) 148x148 sensores) de correlacione s entre pares de nodos (sensores) (pares de sensores con correlación signi ficativa)

Page 45: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

45 de 54

Red binarizada representada (red funcional asociadaA la tarea) (representación binarizada)Pesada-> binarizada-> matriz de adyacencia-> rep. sim ple

Page 46: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

46 de 54

Page 47: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

47 de 54

links que han participado en una clasificacion dece nte

Page 48: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

48 de 54

• Datos de magnetoencefalografia, 148 sensores,

• Miden el campo magnético generado por las neuronas al resolver ciertos problemas (tarea de memoria: 5 letras, te van presentando letras y tienes que presionar un botón cuando aparece una de las 5 Iniciales.

• Ante una única aparición de una de las 5 letras, cuales sensores se activan. Queda grabado cuando la persona esta procesando (va a dar al botón).

Page 49: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

49 de 54

•Los dos grupos de personas son sanos, pero en el primer grupo son personas mayores con estudios superiores, y el otro personas mayores sin estudios superiores.

• HIPÓTESIS: Reserva cognitiva si ha ido a la universidad.

Enfermedad neurodegenerativa-> a la enfermedad le cuesta atacarte (pero es una hípótesis).

Los datos muestran que efectivamente existeuna reserva cognitiva.

Page 50: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

50 de 54

Aplicación al fraude con tarjetas

Page 51: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

51 de 54

6. Aplicación al fraude con tarjetas

1. Tiempo entre transacciones2. Dinero3. Tipo de tarjeta (crédito, débito)4. nº de operaciones/mes del usuario de la tarjeta5. Gastos mensuales del usuario de la tarjeta6. Tipo de tienda o comercio7. Tipo de autorización (firma/pin)8. Si es “on line”.

• Ubicación geográfica.

Número limitado de variables significativas:

Page 52: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

52 de 54

6. Aplicación al fraude con tarjetas

Aplicación de meta-redes a datos de fraude

Para el análisis de cada transacción, serán realizados los siguientes pasos :

1. Creación de una red parenclítica para cada operación disponible;2. Creación de una meta-red desde cada red parenclítica;3. Extracción de métricas topológicas;4. Aplicación de algoritmos de data mining para la creación de un modelo predictivo.

Resultado: Descripción del modelo predictivo, y de su eficiencia.

Page 53: Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude Presentación de los avances realizados en investigación (IT RF&S) R. Criado, M. Romance,

53 de 54

OTRAS PUBLICACIONES PREVISTAS

• Mejora de los modelos existentes de “Money flow”.

• Meta-redes: Paper teórico y aplicación a detección precoz de enfermedades.

• Meta-redes: Aplicación a datos de fraude. Descripción del modelo predictivo y de su eficiencia.

• Data-set público: principales características (previa anonimización)