Clustering Robusto con Co19 opulas - IESTA

Clustering Robusto con Funciones de Copula

Leonardo Moreno, Rodrigo Gadea

Instituto de Estadıstica,Facultad de Ciencias Economicas y de Administracion,

Universidad de la Republica, URUGUAY

Resumen

Dentro de la literatura estadıstica se ve al Clustering como una coleccion de tecnicasmayoritariamente heurısticas para particionar datos multivariados. Esta percepcionse apoya en el hecho de que la mayorıa de estas tecnicas no son explıcitamente basadasen un modelo probabilıstico, lo cual nos podrıa llevar a pensar que dicho analisiscarece de supuestos y que los resultados obtenidos son “objetivos” (Flury, 1997). Sinembargo, dichos resultados son fuertemente condicionados por el metodo elegido, cuyorendimiento depende del modelo probabilıstico subyacente implıcitamente utilizado.Por estas razones, aquı se utilizara el enfoque de Clustering basado en modelos, quebusca desarrollar tecnicas que detecten las particiones para determinadas familiasde modelos probabilısticos.

Los metodos clasicos de Clustering basados en modelos (mixturas de distribuciones,etc.) presentan, en la mayorıa de los casos, una alta eficiencia en presencia de gruposprovenientes de distribuciones elıpticas. Sin embargo, el apartatamiento de dichahipotesis distribucional y/o la presencia de outliers comprometen seriamente laidentificacion de los grupos.

El presente trabajo utiliza funciones de copula (Sklar, 1959) como instrumento paramodelar estructuras de dependencia e identificar particiones en datos provenientesde modelos probabilısticos que se alejan del supuesto elıptico.

El procedimiento de agrupamiento mediante copulas (CoClust) propuesto porTrivedi y Zimmer (2005), Di Lascio (2008), no esta disenado para soportar fenomenosde contaminacion en los datos. Perturbaciones en el modelo impactan en los dospasos de estimacion de la densidad multivariada a traves de copulas. Aquı se proponerobustecer CoClust mediante la utilizacion de metodos robustos parametricos y noparametricos para la estimacion de las densidades marginales, y la estimacion robustade la funcion de copula en base al trabajo realizado por Mendes, Melo y Nelsen(2007), a traves de la minimizacion de estadısticos de bondad de ajuste ponderados(WMDE).

Palabras clave: Clustering, Robustez, Copulas, Estadısticos de Bondad de AjustePonderados.

Enviado a IX CLATSE Octubre de 2010

1. Introduccion

La mayorıa de los metodos desarrollados para la estadıstica multivariada, inclu-yendo clustering basado en modelos, consideran la matriz de dispersion como la“fuerza motriz” del analisis. Entonces, se asume que toda la informacion acercade la dependencia entre los componentes del vector aleatorio esta contenida enla matriz de covarianzas.

Krzysztof Jajuga (2005) [6] propone un enfoque alternativo a los metodosclasicos. En vez de analizar conjuntamente los parametros de escala y depen-dencia, dados en la matriz de varianzas y covarianzas, el analisis se realizaseparadamente para los parametros de escala (a traves del analisis univariado),y para los parametros de dependencia. Este enfoque esta basado en el llamadoanalisis de copulas. Este camino sera retomado por Francesca Di Lascio en sutesis doctoral en el 2008 [7], implementando el algoritmo CoClust.

La importancia del analisis de copulas en el trabajo es el de permitir el levantarel supuesto de distribuciones elıpticas, supuesto necesario de los metodosanteriores.

El objetivo de este trabajo consiste en construir metodos robustos de clustering,y el modelado a traves de copulas es sensible al fenomeno de contaminacion.Por tanto, se propone, a traves del trabajo de Mendes, Melo y Nelsen (2007)[1], un nuevo algoritmo de clustering basado en copulas que sea estable frentea perturbaciones en el modelo, algoritmo que llamaremos RobCoClust.

Se comienza por introducir los conceptos generales de copulas en base a lostrabajos de Nelsen(2006) [8], Trivedi [13] y Umberto Cherubini (2004) [14].Luego se introduce el algoritmo CoClust, y finalmente se desarrolla el algoritmoRobCoClust.

2. Introduccion al modelado con funciones de copulas

El concepto “copula” o “funcion de copula” es introducido por Sklar en 1959,originalmente en el contexto de espacios metricos probabilısticos. La ideadetras de este concepto es la siguiente: para distribuciones multivariadas, lasdistribuciones marginales unvariantes y su estructura de dependecia puedenser separadas, donde esta ultima estara representada por la copula. La pala-bra “copula” proviene del latin (copula) que es un sustantivo para describirun vınculo o adherencia entre dos objetos. El termino copula es usado en

Direcciones de correo: [email protected] (Leonardo Moreno),[email protected] (Rodrigo Gadea).

2

gramatica y logica para describir la parte de la proposicion que conecta elsujeto con el predicado. En estadıstica, la “copula” describe la funcion que“une” distribuciones unidimensionales para formar una multivariada y puedeservir para caracterizar varios conceptos de dependencia. La copula de unadistribucion multivariada puede ser considerada como la parte que describe suestructura de dependecia, como un complemento al comportamiento de cadauna de sus marginales.

Las funciones de copula modelizan todos los posibles casos de dependencia. Siexiste dependencia perfecta positiva entre las variables aleatorias de interes, sedice que las variables aleatorias son “comonotonicas”, mientra que cuando ladependencia es perfecta negativa, se dice que las variables son “contramonotoni-cas”. En ambos casos, estas situaciones pueden ser descritas por una copulaespecıfica. Adicionalmente, cuando las variables aleatorias son independientes,su relacion se resume en la copula de independencia.

De acuerdo al teorema de Sklar, cualquier distribucion multivariante puede sermodelada a traves de las distribuciones marginales y de la funcion de copula se-paradamente. En efecto, conceptualmente, el teorema de Sklar sostiene que paracualquier funcion de distribucion multivariada, existe una copula que vinculalas distribuciones univariadas. Esta contiene toda la informacion acerca de lanaturaleza de la dependencia entre dos variables aleatorias independientementede sus distribuciones marginales.

La informacion sobre las distribuciones marginales y la informacion sobrela dependencia se mantienen separadas, y su influencia puede ser evaluadaclaramente.

Esta separacion entre distribuciones marginales y parametros de dependenciaexplica la flexibilidad que brindan las copulas para modelar. Desde un punto devista teorico, las funciones de copulas permiten un doble “infinito” de gradosde libertad:

1. definir las apropiadas marginales,2. elegir la copula apropiada.

Desde el punto de vista practico del modelado, podemos descomponer cualquierproblema de estimacion en dos pasos: el primero es para las marginales y elsegundo para los parametros de la funcion de copula. Las ventajas de unarepresentacion a traves de las funciones de copulas son muchas.

En primer lugar, el enfoque clasico de medir la dependencia - la funcion decorrelacion lineal - es una medida valida de dependencia solo adentro de larestrictiva clase de las distribuciones elıpticas 1 , mientras que las funciones de

1 Se referira como distribuciones elıpticas a aquellas que aplicandole una transfor-

3

copulas no tienen esta limitacion.

Segundo, las copulas permiten modelar las distribuciones marginales y laestructura de dependencia separadamente. Lo primero concierne a la formade la funcion de distribucion (tal como simetrıa, apuntamiento, colas pesadas,etc.), donde la copula representa el tipo de dependencia.

Tercero, uno puede tener combinaciones de distribuciones marginales estimadaspor metodos parametricos y otras por metodos no parametricos.

Finalmente, las copulas permiten ajustar cualquier distribucion marginal adiferentes variables aleatorias y esas distribuciones pueden variar de una variablealeatoria a la siguiente.

2.1. Definicion y propiedades

Los conceptos previamente expuestos se enuncian para espacios metricos n-dimensionales.

Definicion 1 (Copula Bidimensional) Llamaremos copula a una funcionreal de dominio I2 ≡ [0, 1]2 con las siguientes propiedades:

1. ∀u, v ∈ I se cumple que:

C(u, 0) = 0 = C(0, v) , C(u, 1) = u y C(1, v) = v

2. Es 2-creciente, ∀u1, u2, v1, v2 ∈ I tal que u1 ≤ u2 y v1 ≤ v2 se cumple que:

C(u2, v2)− C(u2, v1)− C(u1, v2) + C(u1, v1) ≥ 0

Definicion 2 (Copula n-dimensional) Llamaremos n-Copula a una fun-cion real de dominio In ≡ [0, 1]n con las siguientes propiedades:

1. ∀u ∈ I se cumple que:C(u) = 0 si algunas de las coordenadas de u vale 0Si todas las coordenadas de u valen 1 excepto uk entonces C(u) = uk

2. ∀a y b ∈ In tal que a ≤ b se cumple que

VC [a, b] ≥ 0 (Diremos que C es n-creciente),

siendo [a, b] el n-bloque determinado por las coordenadas de a y b en eldominio de la Copula, c un vertice del n-bloque y nombramos VC [a, b] al

macion afın resulta una distribucion esferica (invariante frente a transformacionesortogonales).

4

C-volumen de [a, b] definido como

VC [a, b] =∑

sgn(c) · C(c)

sgn(c) =

1 si ck = ak para un numero par de coordenadas

−1 si ck = ak para un numero impar de coordenadas

2.1.1. Algunas propiedades de las Copulas

Se enumeran algunas propiedades a efectos de describir mejor estos objetos.

Propiedad 1 Sean M(u, v) ≡ min(u, v) y W (u, v) ≡ max(u + v − 1, 0).Entonces para toda copula C se cumple que

W (u, v) ≤ C(u, v) ≤M(u, v).

W y M son llamadas las cotas inferior y superior de Frechet-Hoeffding paraCopulas. (Se puede ver W y M pertenecen al conjunto de copulas).

Las cotas inferior y superior de Frechet-Hoeffding para el caso k-dimensionalson

W n(u) = max(u1 +u2 + . . .+un−n+ 1, 0) , Mn(u) = mın(u1, u2, . . . , un)

u

v

C(u,v)

u

v

C(u,v)

u

v

C(u,v)

Figura 1. Cota inferior de Frechet-Hoeffding, copula de independencia y cota superiorde Frechet-Hoeffding

Propiedad 2 Las copulas son funciones de Lipschitz, es decir, ∀u1, u2, v1, v2 ∈I se cumple que

|C(u1, v1)− C(u2, v2)| ≤ |u2 − u1|+ |v2 − v1|.

5

Por tanto se puede afirmar que son funciones uniformemente continuas en sudominio.

Propiedad 3 Si C es una funcion de copula entonces existen ambas derivadasparciales en casi todos los puntos del dominio (en el sentido de la medida deLebesgue) y estan acotadas entre 0 y 1.

2.2. Teorema de Sklar

El teorema de Sklar es la piedra angular donde reside la mayorıa de lasaplicaciones a espacios probabilısticos.

Teorema 1 (Sklar - copulas bidimensionales) Sea H la funcion de dis-tribucion conjunta de una v. a. vectorial (X, Y ) con F y G las distribuciones

marginales. Entonces existe una copula C tal que ∀ (x, y) ∈ R2se cumple que

H(x, y) = C(F (x), G(y)).

Si F y G son continuas, la copula C es unica. En otro caso, las copulas solucioncoinciden en Ran(F )×Ran(G).

Inversamente, si C es una copula con F y G dos funciones de distribucion,entonces H(x, y) = C(F (x), G(y)) es una funcion de distribucion conjunta conmarginales F y G.

Teorema 2 (Sklar - copulas k-dimensionales) Sea H la funcion de dis-tribucion conjunta de una v.a. vectorial (X1, X2, . . . , Xk) con F1, F2, . . . , Fk las

distribuciones marginales. Entoces, existe una k-copula C tal que ∀x ∈ Rkse

cumple que

H(x1, x2, . . . , xk) = C(F1(x1), F2(x2), . . . , Fk(xk)).

Si F1, F2, . . . , Fk son continuas la copula C es unica. En otro caso, las copulassolucion coinciden en Ran(F1)× . . .×Ran(Fk).

Inversamente si C es una copula con F1, F2, . . . , Fk funciones de distribucionentonces

H(x1, x2, . . . , xk) = C(F1(x1), F2(x2), . . . , Fk(xk))

es una funcion de distribucion conjunta con marginales F1, F2, . . . , Fk.

6

2.2.1. Corolarios del teorema de Sklar

Corolario 1 Sean X e Y v. a. absolutamente continuas. X e Y son indepen-dientes si y solo si CXY (u, v) = Π(u, v) ≡ u · v.

Corolario 2 Sean X1, X2, . . . , Xn v. a. absolutamente continuas. X1, X2, . . . , Xn

son independientes si y solo si C(u) = Πn(u) ≡ u1 · u2 · · ·un.

Corolario 3 Sea n ≥ 3. Dado u ∈ In, existe una copula C (que depende deu) tal que C(u) = Mn(u).

Corolario 4 Sean X e Y v.a. absolutamente continuas con copula CXY . Si α yβ son funciones estrictamente crecientes en Ran(X) y Ran(Y ) respectivamente,entonces Cα(X)β(Y ) = CXY .

Corolario 5 Sean X e Y v.a. absolutamente continuas con copula CXY . Si αy β son funciones estrictamente monotonas en Ran(X) y Ran(Y ) respectiva-mente:

Si α estrictamente creciente y β estrictamente decreciente, entonces

Cα(X)β(Y )(u, v) = u− CXY (u, 1− v).

Si α estrictamente decreciente y β estrictamente creciente, entonces

Cα(X)β(Y )(u, v) = v − CXY (1− u, v).

Si α estrictamente decreciente y β estrictamente decreciente, entonces

Cα(X)β(Y )(u, v) = u+ v − 1 + CXY (1− u, 1− v).

Un corolario importante es el metodo de inversion, el cual provee un metodopara construir copulas que es conceptualmente sencillo.

Corolario 6 (Metodo de inversion - construccion de copulas) Sea Hla distribucion conjunta, F y G las marginales (continuas), C la copula, F (−1)

y G(−1) las cuasi-inversas. Entonces ∀ (u, v) en el dom(C) se cumple que

C(u, v) = H(F (−1)(u), G(−1)(v))

Otros metodos, tanto geometricos como algebraicos, para la de construccionde copulas se encuentran detallados en Nelsen (2006) [8].

7

2.2.2. Densidad de la funcion de Copula

Definicion 3 Se llama densidad asociada a la copula C(u1, u2, . . . , uk) a si-guiente funcion:

c(u1, u2, . . . , uK) =∂KC(u1, u2, . . . , uK)

∂u1∂u2 . . . ∂uK.

En v.a. absolutamente continuas podemos apreciar que

f(x1, x2, . . . , xK) = c(F1(x1), F2(x2), . . . , FK(xK))K∏i=1

fi(xi)

siendo

c(F1(x1), F2(x2), . . . , FK(xK)) =∂KC(F1(x1), F2(x2), . . . , FK(xK))

∂F1(x1) . . . ∂FK(xK)

y la fi la densidad de la v.a. Xi

fi(xi) =∂Fi(xi)

∂xi.

2.3. Estimacion por Copulas

Existen varios metodos para la estimacion de la funcion de copula. Los de usomas frecuente son:

FML (Full Maximum Likelihood) La idea consisite en maximizar la funcion deverosimilitud en funcion de todos los parametros de las marginales y de lacopula simultaneamente.

TSML o IFM (Two-Step Maximum Likelihood) Se trata de una estimacion secuencial a2 pasos. En primera instancia se estiman los parametros de las densidadesmarginales y luego los parametros de dependencia.

GMM (Generalized Method of Moments) Otro mecanismo factible, no muy desa-rrollado aun, es el de utilizar el metodo de los momentos generalizados peroeste requiere de las derivadas de los momentos de la funcion.

Se desarrollan los dos primeros metodos, en particular el de estimacion en dospasos, el cual es base en el algoritmo RobCoClust que se implementa en estetrabajo.

8

2.3.1. FML: Estimacion maxima verosımil completa

En una primera instancia hay que que modelar el problema, es decir elegir lasfamilias parametricas donde se encuentran las maginales, y una familia adecuadade copulas. Luego, si se llama θ1 = (β′1, β

′2, . . . , β

′K)′ el vector de parametros

de las marginales, θ2 el vector de parametros de la copula y θ = (θ′1, θ′2)′, es

sencillo verificar que la funcion log-verosımil se puede escribir como

`(θ) =n∑i=1

log c{F1(Xi1; β1), . . . , FK(XiK ; βK); θ2}+n∑i=1

K∑k=1

log fi(Xik; βk). (1)

El problema consiste en hallar θ dentro de su dominio que maximice dichafuncion, lo cual es relativamente sencillo bajo algun metodo iterativo similar alde Newton en dimensiones bajas del espacio parametrico.

Otra estrategia computacional para obtener el maximo es un algoritmo su-gerido por Song (2005) llamado MBP (“maximization-by-parts”) que partede la estructura que presenta la ecuacion (1). Se estima θ1 a partir de lamaximizacion del primer miembro y luego usando estas estimaciones se hallaθ2 que maximize el segundo miembro. De esta forma, la estimacion inicial noes eficiente puesto que se ignora la dependencia entre ambos terminos. Sı serealiza un procedimiento iterativo, luego de obtener θ2, volviendo a estimar θ1

pero ahora a partir de la verosimilitud total, la estimacion se vuelve eficiente.

A partir de la teorıa asintotica para los estimadores de maxima verosimilitud(Serfling (1980) [12]), se demuestra que θFML es asintoticamente eficiente yconsisitente, con distribucion asintotica normal,

√n(θFML − θ)→ N(0, I(θ)−1).

2.3.2. TSML: Estimacion maximo verosımil a dos pasos

El metodo anteriormente expuesto tiene la desventaja que es muy costoso anivel computacional si la dimension del espacio parametrico es alta. Una formade eludir este problema es realizar el metodo TSML propuesto por Joe y Xu(1996), tambien llamado IMF.

Consiste en estimar primero los parametros en cada marginal por separado(por eso es util cuando el numero de marginales es alto) y luego los parametrosde la dependencia. El algoritmo RobCoClust realizara estimaciones robustasen ambos pasos. Tambien es posible realizar una estimacion no parametrica delas densidades marginales para luego pasar a la estimacion de los parametrosde dependencia.

9

El primer paso es hallar la estimacion maximo verosımil de

βk,IMF = arg maxβk

n∑i=1

logf(Xik; βk).

Luego, el segundo paso es estimar el parametro de dependencia θ2 por

θ2,IMF = arg maxθ2

n∑i=1

log c[F1(Xi1; β1,IMF ), . . . , FK(XiK ; βK,IMF ); θ2

].

Ademas, bajo ciertas condiciones de regularidad, hay normalidad asintotica delos estimadores, √

n(θIFM − θ)→ N(0, G(θ)−1)

siendo G(θ)−1 la matriz de informacion de Godambe (1960) [10].

2.4. Familias Parametricas de Copulas

Si bien en muy extensa y variada las maneras de modelar la dependencia, enesta seccion se presentaran ciertas familias o clases parametricas de copulasimportantes para posteriores aplicaciones. Para cada clase se detalla la funcionde copula, el espacio parametrico de los parametros de dependencia, asi comolas principales caracterısticas y cualidades de cada familia. En todos los casosse explıcita las funciones de copulas bivariadas de la familia, pero en generalse extienden de forma sencilla al caso multivariado.

2.4.1. Copulas de Marshall-Olkin

Si se considera un sistema de dos partıculas que en cierto momento puedencolapsan de 3 formas: con consecuencia fatal para la primera y no para lasegunda, viceversa o colpaso fatal para los 2 componentes. Sean X1 y X2 lav.a. tiempo de sobrevida de cada componente respectivamente. Se asume quelos colapsos esta conformado por tres v.a. independientes con distribucionde Poisson de parametros λ1, λ2 y λ12 ≥ 0. Por tanto los tiempo hasta laocurrencia del colpaso Z1, Z2 y Z12 son v.a. exponenciales con parametros λ1, λ2

y λ12. Entonces la distribucion del tiempo de sobrevida de ambas componenteses

H(x1, x2) = P (X1 > x1, X2 > x2) = P (Z1 > x1)P (Z2 > x2)P (Z12 > max(x1, x2)),

y los tiempos de sobrevida de cada componente tiene distribucion

F 1(x1) = exp(−(λ1 + λ12)x1) y F 2(x2) = exp(−(λ2 + λ12)x2).

10

Si expresamos max (x1, x2) = x1 + x2 −mın(x1, x2) podemos rescribirH(x1, x2)como

H(x1, x2) = F 1(x1)F 2(x2) ·mın(λ12x1, λ12x1).

Si llamamos α1 = λ1λ1+λ1

y α2 = λ2λ1+λ1

podemos escribir usando el metodo deinversion la copula de la v.a. de sobrevida de (X1, X2) como

C(α1, α2)(u1, u2) = u1u2 ·mın(u−α11 , u−α2

2 ) = mın(u1−α11 u2, u

1−α22 u1).

Esta familia de copulas es llamada de Marshal-Olkin.

2.4.2. Copulas de Farlie - Gumbel - Morgenstern

Las copulas de Farlie - Gumbel - Morgenstern (FGM ) son de la forma

C(u1, u2; θ) = u1u2(1 + θ(1− u1)(1− u2)).

Son una perturbacion de la copula producto, si el parametro de dependenciaθ es igual a cero la copula FGM colapsa en la copula producto. Es atractivapor su simplicidad. Sin embargo, es restrictiva en el sentido que solo puede serusada cuando la dependencia entre las marginales es moderada en magnitud.

u

v

C(u,v)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

rcop

ula(

gum

bel.c

op, 1

50)[,

2]

Figura 2. Copula de Gumbel de dimension 2 y parametro 5. La funcion de copula,sus curvas de nivel y 150 realizaciones con marginales uniformes.

2.4.3. Copulas Gaussianas

Las copulas gaussianas son de la forma

11

C(u1, u2; θ) =∫ Φ−1(u1)

−∞

∫ Φ−1(u2)

−∞

1

2π(1− θ2)1/2

−(s2 − 2θst+ t2)

2(1− θ2)dsdt

= ΦG(Φ−1(u1),Φ−1(u2); θ),

donde Φ es la distribucion normal estandar y ΦG es la distribucion normalbivariada estandar con coeficiente de correlacion θ restringido al intervalo(−1, 1).

Esta copula fue introducida por Lee (1983) que permite modelar con granflexibilidad grado dependencias tanto positivas como negativas.

u

v

C(u,v)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

rcop

ula(

norm

.cop

, 150

)[,2]

Figura 3. Copula gaussiana de dimension 2 y parametro 0.6. La funcion de copula,sus curvas de nivel y 150 realizaciones con marginales uniformes.

2.4.4. Copula t de Student

Es una copula con dos parametros de dependencia, con ν grados de libertad ycorrelacion ρ

C(u1, u2; θ1, θ2) =∫ t−1θ1

(u1)

−∞

∫ t−1θ2

(u2)

−∞

1

2π(1− θ22)1/2

{1 +

(s2 − 2θ2st+ t2)

ν(1− θ22)

}−(θ1+2)/2

dsdt,

siendo t−1θ1

(u1) la inversa de la distrubucion univariada de Student con θ1 gradosde libertad. El parametro de dependencia θ1 controla lo pesado de las colas.Si θ1 < 3 no existe la varianza y si θ1 < 5 el cuarto momento no existe. Siθ1 →∞, C(u1, u2; θ1, θ2)→ ΦG(u1, u2; θ2).

Una ventaja que poseen la copula Gaussiana y t de Student con respecto a lasfunciones de distribucion de las cuales se derivan, es que a partir de las copulases posible utilizar variables aleatorias que sigan distribuciones marginales queno sean Gaussianas o t de Student.

12

u

v

C(u,v)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

rcop

ula(

t.cop

, 150

)[,2]

Figura 4. Copula t de Student de dimension 2, 1 grado de libertad y correlacion0.5. La funcion de copula, sus curvas de nivel y 150 realizaciones con marginalesuniformes.

2.4.5. Copula de Clayton

La copula de Gumbel (1960) es de la forma

C(u1, u2; θ) = exp{−(uθ1 + uθ2)1/θ

},

donde uθj = − log uj . El parametro de dependencia esta restringido al intervalo[1,∞). Los valores de 1 e ∞ se corresponden a independencia y a la cotasuperior de Frechet respectivamente, pero la familia no alcanza para ningunvalor de θ la cota inferior de Frechet. Al igual que la copula de Clayton no cuentala dependencias negativas pero en contraste con esta exhibe una dependenciafuerte en la cola derecha y relativamente debil en la cola izquierda.

La copula de Clayton forma parte de una familia mas amplia, las copulasArquimedeanas, donde tambien se encuentran las copulas de Frank, Gumbel,Clayton generalizada, etc. Como se puede observar, si bien todas estas copulasson de Arquımedes, describen tipos de dependencia completamente diferentes.Por ejemplo, la copula de Gumbel muestra dependencia en los extremos soloen la cola superior (ver Figura 2), mientras que la copula Clayton la exhibe enla cola contraria (ver Figura 5). Por su parte, la copula de Frank no muestradependencia en ninguna de las dos colas y la copula de Clayton generalizadamuestra dependencia en los extremos para ambas colas, aunque pueden ser deintensidades diferentes. Por otra parte, en todos los ejemplos, el τ de Kendallse expresa como funcion de los parametros, propiedad que resultara util parala estimacion de los parametros de este tipo de copulas a traves del metodo delos momentos.

13

u

v

C(u,v)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

rcop

ula(

clay

ton.

cop,

150

)[,2]

Figura 5. Copula de Clayton de dimension 2, parametro 2. La funcion de copula,curvas de nivel y 150 realizaciones de marginales uniformes.

2.5. Seleccion de copulas

Si bien se presento diferentes procedimientos para la estimacion de una copulade forma parametrica o semi-parametrica, estos procedimientos suponen que seconoce a prior la familia de copulas que describe en forma correcta la estructurade dependencia. Por tanto es necesario obtener algun criterio que permitaescoger una familia especıfica. Segun Becerra y Melo [9], los criterios masusuales son

Log verosimilitud y criterios de informacion. Joe (1997) expone varioscriterios para la seleccion de la copula mas apropiada. Uno de ellos es el de lafuncion de log verosimilitud evaluada en el estimador de maxima verosimilitud.El segundo estadıstico sugerido es elAIC (Criterio de Informacion de Akaike)definido como AIC = L−np donde np corresponde al numero de parametrosestimados en el modelo.

Otros criterios de informacion son propuestos por Zivot y Wang (2006)quienes proponen el Criterio de Informacion Bayesiano BIC = −2L+ np ·log(n) y por Hannan y Quinn HQ− 2L+ 2 · np · log(log(n)).Comparacion entre copulas parametricas y la copula empırica. Otroposible criterio de seleccion es el uso de Estadısticos de Bondad de Ajus-te (GOF), en el cual se selecciona aquella copula que se ajuste mejor alcomportamiento de los datos observados.

Cabe tambien hacer notar que mediante procedimientos desarrollados por Ge-nest y Rivest (2001) se han disenado otras metodologıas graficas y parametricaspara seleccionar copulas en el caso bivariado.

14

3. Algoritmos de clustering basados en copulas

Se comenzara por introducir el algoritmo, CoClust, desarrollado por Jajuga(2005) [6] e implementado por Di Lascio (2008) [7] el cual permitira lidiar conciertas limitaciones de los metodos clasicos. En la seccion siguiente, medianteestimaciones robustas en los dos pasos del IFM, se desarrollara el algoritmoRobCoClust.

3.1. El algoritmo CoClust

A diferencia de los metodos jerarquicos, CoClust trabaja sobre la matriz dedatos, no en la de proximidad (al igual que k-means y el basado en modelos). Asu vez, no necesita a priori especificar el numero de clusters, como si lo precisapor ejemplo k-means al igual que la mayorıa de los metodos clasicos.

Los metodos que se presentaron anteriormente, en general, modelan de formaadecuada datos provenientes de distribuciones esfericas o elıpticas. La modela-cion de la distribucion conjunta a traves de copulas permitira levantar estesupuesto restrictivo.

En este caso se entiende por “bondad de un metodo de clustering” a la capacidaddel metodo de tomar en consideracion el tipo de estructura de dependenciaexistente entre los grupos de datos, esto es, la capacidad de encontrar clusterde acuerdo con la estructura de dependencia existente entre ellos.

Si se consideran K cluster, entonces puede ser visto cada uno de ellos como unavariable aleatoria, cosecuentemente se puede estudiar la relacion de dependenciaentre los cluster, o sea de la variables aleatorias, a traves del modelado porcopulas.

Cada cluster de datos identifica una distribucion de probabilidad marginal y elparametro de dependencia de la funcion de copula elegida permite definir larelaciones de dependencia entre ellas.

En general se modela dependencia dentro del cluster, pero si ignora la denpen-dencia entre datos de clustering distintos, este problema sera solucionado atraves de la modelacion vıa copula. El numero de variables sera S (columnas)yel de individuos G (filas) y n el numero de observaciones.

3.1.1. El Algoritmo

El algoritmo consiste en los siguientes pasos:

15

1. Para k = 1, 2, . . . K estimar una funcion de copula k-dimensional paracada posible k-upla de observaciones (filas de la matriz de datos), esto es,

estimar CG,k =(Gk

)funciones de copula y computar el maximo la funcion

de log-verosimilitud para cada una.2. Seleccionar el valor de k y la k-upla que maximiza la funcion de log-

verosimilitud de la copula calculada en el paso 1, en tanto se elija unadimension k de copula, se identificaran k clusters que contendran cadauno a una observacion (un vector de valores S-dimensional).

3. Una vez elejido k, estimar DG−k,k = (G−k)!(G−2k)!

=∏k−1j=0(G− k − j) copulas

k-dimensionales usando la k-upla que se selecciona en el paso 2 y unanueva k-upla de matriz de filas de los datos. Esto signfica que el algorit-mo estima cada funcion de copula usando 2S observaciones para cadauna de las funciones marginales de distribucion, la primera observacionproveniendo de la primera observacion S−dimensional seleccionada en elpaso 2, mientras que la segunda observacion varıa entre las remanentes(G− k) filas de la matriz de datos. Notar que de aquı en mas, el orden delas k−upla de observaciones candidatas para la seleccion es importante.

4. Seleccionar la nueva k-upla que una vez se puso junto con la existenteque maximiza la log-versimilitud computada en el paso 3.

5. Iterar los pasos 3 y 4 estimando tantas copulas como son las disposicionesde las filas restantes para cada margen (G− k,G− 2k) y en adelante, laiteracion continua hasta que cada fila de la matriz de datos es asignada aun cluster.

3.2. Copulas Robustas: El Algoritmo RobCoClust

El objetivo de este trabajo es el de investigar la robustez en metodos decluster basados en copulas. El procedimiento de agrupamiento anteriormenteexpuesto no esta disenado para soportar fenomenos de contaminacion en losdatos. Perturbaciones en el modelo impactan en los dos pasos de estimacion dela densidad multivariada a traves de copulas. Es sencillo establecer metodosrobustos parametricos o no parametricos para la estimacion de las densidadesmarginales ya que se tratan de distribuciones univariadas. La estimacionrobusta de la funcion de copula sera obtenida en base al trabajo realizado porMendes, Melo y Nelsen (2007) [1] a traves de la minimizacion de estadısticosde bondad y ajuste ponderados (WMDE ). Mediante diferentes funciones depeso se enfatizan diferentes regiones del cuadrado unidad y son capaces demanejar diferentes locaciones de violaciones del modelo. Para cada familiade copulas parametrica ε-contaminada, se muestra que existe un estimadorrobusto, mejorando la performance de el de maxima verosimilitud (MLE),siendo capaz de capturar la correcta fuerza de dependencia de los datos, apesar del porcentaje de contaminacion y la locacion de los datos.

16

Cuando los datos provienen de una misma distribucion F , sabemos que lasestimaciones MLE tıpicamente producen buenos resultados. Sin embargo puntosatıpicos provenientes de una distribucion contaminante F ∗ pueden cambiarla fuerza y el tipo de asociacion llevando a una estimacion inadecuada delas medidas de dependencia y de los parametros de la copula. Por otro lado,en ciertas areas el relevamiento de los datos puede inducir errores sobre laestructura de dependencia pero no sobre sus marginales. Notemos ademas queel soporte [0, 1]d de las copulas hace mas dificultoso la simple inspeccion de losdatos atıpicos (sobre todo cuando d > 2), entoces se necesitan procedimientosrobustos y automaticos que funcionen adecuadamente cuando existen o nofenomenos de contaminacion en los datos.

La literatura de estimacion robusta de copulas es escasa. Actualmente hayinvetigaciones sobre el calculo de la funcion de influencia de los estimadoresde los coeficientes de dependendencia (ver Croux (2010) [3]), y estimacionesmaximo verosimiles de copulas en presencia de outliers (ver Bellini (2009)[2]). Otro trabajo reciente es el de Mendes, Melo y Nelsen [1], basado enel concepto de estimadores de mınima distancia introducidos por Wolfowitz(1953, 1957). Ellos obtienen estimadores robustos para copulas minimizandoestadısticos de bondad de ajuste en la copula empırica seleccionada (porejemplo los estadısticos de Kolmogorov, Cramer Von-Mises, Anderson Darling,Anderson Darling Integrado) modificados a traves de diferentes funciones depeso. Se puede realizar una comparacion entre estos estimadores obtenidos ylos estimadores de Maxima Verosimilitud Ponderados (WMLE). Estos ultimosrealizan una previa identificacion de los outliers, mediante estimadores decovarianza de un alto punto de quiebre, los cuales son nulamente ponderadosen un procedimiento de maxima verosimilitud. En esta comparacion (mediantesimulaciones) se observa que los estimadores WMDE poseen en general elmenor error cuadratico medio que los estimadores anterioremente mencionados.

3.2.1. Los estimadores WMDE

Cuando se analizaron los datos se asume tıpicamente que la copula verdaderapertenece a una familia parametrica {Cθ, θ ∈ Θ} y se aplico el metodo IFM. Enlo siguiente se asume que las densidades marginales ya han sido adecuadamenteestimadas y los datos marginales llevados a una uniforme unitaria mediante latransformacion canonica y se concentrara la seccion en la estimacion robustade la funcion de copula. Por otro lado para simplificar la notacion se trabajoen el caso bivariado, aunque todos los resultados son extendidos al caso ded > 2 en el cual se centra nuestro problema.

Sea FT la distribucion empırica bivariada y Fi,T , i = 1, 2 a las distribuciones

17

empıricas marginales dadas por

FT (x, y) =1

T

T∑t=1

I{X1,t≤x,X2,t≤y},

F1,T (x) = FT (x,+∞) y F2,T (x) = FT (+∞, y).

La funcion de copula empırica C, definida segun Frahm (2004), es

C(u, v) = FT (F−1,T (u), F−2,T (v)) 0 ≤ u, v ≤ 1.

Siendo F−1,T y F−2,T las respectivas inversas generalizadas.

Es sabido que C converge uniformemente a C al crecer T (ver Deheuvels(1979)).

Para computar una proximidad entre la copula empırica C y la familia Cθ sediscretiza el espacio a traves de una malla L =

{( t1T, t2T

)}

con t1 y t2 enterostales que 1 ≤ t1, t2 ≤ T . Esto es:

C(t1T,t2T

) = FT (F−1,T (t1T

), F−2,T (t2T

)) ∀ (t1T,t2T

) ∈ L.

Medidas de bondad de ajuste pueden ser obtenidas para calcular algun tipode distancia (en la malla) entre la copula empırica C y la copula parametricaC = Cθ ajustada a los datos.

El estimador WMDE para θ es la solucion θ∗ la cual minimiza sobre todo θ ∈ Θla distancia entre ambas copulas (la empırica y la de la familia seleccionada).

Las posibles metricas discretas seleccionadas pueden ser:

El estadistico de Kolmogorov K

K = max(t1T,t2T

)∈L

∣∣∣∣C(t1T,t2T

)− C(t1T,t2T

)∣∣∣∣ .

El estadistico de Cramer Von-Mises

W 2 =T∑

t1=1

T∑t2=1

[C(t1T,t2T

)− C(t1T,t2T

)]2

.

El estadıstico Ane Kharoubi (2003) basado en el estadıstico de

18

Anderson Darling

ADAK = max(t1T,t2T

)∈L

∣∣∣C( t1T, t2T

)− C( t1T, t2T

)∣∣∣√

[C( t1T, t2T

)][1− C( t1T, t2T

)].

El estadıstico Ane Kharoubi Integrado

IADAK =T∑

t1=1

T∑t2=1

[C( t1

T, t2T

)− C( t1T, t2T

)]2

[C( t1T, t2T

)][1− C( t1T, t2T

)].

Por tanto segun que cuadrante o lugar del cuadrado unidad queremos enfatizarconsideramos diferentes funciones de peso. Algunas posibles funciones de pesoson

wAK =1√

[C( t1T, t2T

)][1− C( t1T, t2T

)],

w1 =1√

[ t1T

+ t2T− C( t1

T, t2T

)][1− C( t1T, t2T

)],

w2,LL =

√1− t1

T− t2T− C(

t1T,t2T

),

w2,UR =

√C(t1T,t2T

),

w2 =

√1− t1

T− t2T− 2.C(

t1T,t2T

).

Combinando los distintos estadısticos con las distintas funciones de peso segunlos intereses practicos se obtienen por ejemplo las siguientes variantes:

AD1 = max(t1T,t2T

)∈L

∣∣∣∣C(t1T,t2T

)− C(t1T,t2T

)∣∣∣∣w1(

t1T,t2T

),

AD2 = max(t1T,t2T

)∈L

∣∣∣∣C(t1T,t2T

)− C(t1T,t2T

)∣∣∣∣w2(

t1T,t2T

),

IAD1 =T∑

t1=1

T∑t2=1

[C(t1T,t2T

)− C(t1T,t2T

)]2 [

w1(t1T,t2T

)]2

,

IAD2 =T∑

t1=1

T∑t2=1

[C(t1T,t2T

)− C(t1T,t2T

)]2 [

w2(t1T,t2T

)]2

,

LLAD1 = max(t1T,t2T

)∈L

∣∣∣C( t1T, t2T

)− C( t1T, t2T

)∣∣∣√

[ t1T

+ t2T− C( t1

T, t2T

)],

19

LLIAD2 =T∑

t1=1

T∑t2=1

[C(t1T,t2T

)− C(t1T,t2T

)]2 [

1− t1T− t2T

+ C(t1T,t2T

)],

LLAD2 = max(t1T,t2T

)∈L

∣∣∣∣C(t1T,t2T

)− C(t1T,t2T

)∣∣∣∣√[

1− t1T− t2T

+ C(t1T,t2T

)],

URAD1 = max(t1T,t2T

)∈L

∣∣∣C( t1T, t2T

)− C( t1T, t2T

)∣∣∣√

[1− C( t1T, t2T

)],

URAD2 = max(t1T,t2T

)∈L

∣∣∣∣C(t1T,t2T

)− C(t1T,t2T

)∣∣∣∣√[

C(t1T,t2T

)].

Se implementaron estimaciones robustas para las densidades marginales, ası co-mo tambien estimaciones del tipo WMDE para la funcion de copula para luegosi realizar el algoritmo CoClust.

3.2.2. El algoritmo

Sea G el numero de observaciones. El algoritmo consiste en los siguientes pasos:

1. Seleccionar una metrica, D, una funcion de pesos, W , una familia pa-rametrica de copulas, C, y el numero de grupos k.

2. Estimar una funcion de copula k-dimensional para cada posible k-upla deobservaciones, esto es, estimar CG,k =

(Gk

)funciones de copula empırica,

y estimar los parametros de la misma mediante la minimizacion de D,ponderada por W , entre la empırica y la familia parametrica C y guardarla distancia asociada a cada k-upla.

3. Seleccionar la k-upla que minimza la funcion de distancia de la copulacalculada en el paso 1. Cada cluster contendra S = G/k observaciones(asumiendo division entera).

4. Una vez elejida la k-upla, estimar DG−k,k = (G−k)!(G−2k)!

=∏k−1j=0(G − k − j)

copulas k-dimensionales usando la k-upla que se selecciona en el paso 2 yuna nueva k-upla de matriz de filas de los datos. Esto signfica que el algo-ritmo estima cada funcion de copula usando 2S observaciones para cadauna de las funciones marginales de distribucion, la primera observacionproveniendo de la primera observacion S−dimensional seleccionada en elpaso 2, mientras que la segunda observacion varıa entre las remanentes(G− k) filas de la matriz de datos. Notar que de aquı en mas, el orden delas k-upla de observaciones candidatas para la seleccion es importante.

20

5. Seleccionar la nueva k-upla que una vez se puso junto con la existenteque minimiza la funcion de distancia ponderada computada en el paso 3.

6. Iterar los pasos 3 y 4 estimando tantas copulas como son las disposicionesde las filas restantes para cada margen (G− k,G− 2k) y en adelante, laiteracion continua hasta que cada fila de la matriz de datos es asignada aun cluster.

4. Comentarios Finales

El algoritmo RobCoClust incorpora rubustez al algoritmo CoClust pero difierenen algunos aspectos de su diseno:

La estimacion semi-parametrica tiene velocidad de convergencia un pocomenor que la estimacion maximo verosımil a dos pasos (necesita mas ob-servaciones para acercarse razonablemente a los valores verdaderos). Sepuede mejorar un poco la velocidad con estimaciones parametricas de lasmarginales, pero a costa de incorporar supuestos sobre el modelo - cuestionque no es deseable.Se descarto la seleccion del numero de clusters del CoClust debido a que setrata de un problema muy difıcil. Existen varias aproximaciones al tema, e.g.Fraiman (2000), y no se considera deseable optar por un enfoque a priori yfijar dentro del algoritmo.

En cuanto a los trabajos a futuro, existen dos direcciones “inmediatas” a nuestroenteder: el modelado de la contaminacion y su complejidad computacional

La especificacion de la locacion de la contaminacion debe hacerse a partir deconocimiento experto sobre el tema. Investigar e implementar metodos para sudeteccion “automatica” deberıa ser el proximo paso.

Ambos algoritmos tienen un muy elevado costo computacional por el caracterexhaustivo de la busqueda sobre el conjunto de las combinaciones y arreglos delas observaciones, por lo que reducir su complejidad computacional es necesariopara hacerlo viable en algunos tipos de aplicaciones que actualmente no lo es.

Referencias

[1] Roger B. Nelsen Beatriz V. M. Mendes, Eduardo F. L. DE Melo. Models, copulasand applications. Communications in Statistics Simulation and Computation,36:997–1017, 2007.

[2] Tiziano Bellini. Robust copula calibration. Universidad de Parma.

21

[3] Catherine Dehon Christophe Croux. Influence functions of the spearman andkendall correlation measures. Center Discussion Paper Series, 40, 2010.

[4] N. I. Fisher. Copulas. In Encyclopedia of Statistical Science, pages 448–485,New York, 1997. John Wiley & Sons.

[5] Roger B. Nelsen Gregory A. Fredricks. On the relationship between spearman’srho and kendall’s tau for pairs of continuous random variables. StatisticalPlanning and Inference, 137:2143–2150, 2007.

[6] K. Jajuga. Model-based clustering : Discussion on some approaches. In DataAnalysis and Decision Support, pages 73–81. Springer, 2005.

[7] Francesca Marta Lilja Di Lascio. Analyzing the dependence structure ofmicroarray data: a copula based approach. In Tesis de Doctorado, universidadde Bologna, 2008.

[8] Roger B. Nelsen. An Introduction to Copulas. Springer Series in Statistics, 2006.

[9] Luis F. Melo Oscar Becerra. Medidas de riesgo financiero usando copulas:teorıay aplicaciones. In Borradores de Economıa, Bogota, Colombia,, 2008.

[10] Godambe V. P. An optimum property of regular maximum likelihood estimation.Annals of Math., 31(4):1208–1212, 1960.

[11] Filip Lindskog Paul Embrechts and Alexander McNeil. Modelling dependencewith copulas and applications to risk management, 2001.

[12] R. J. Serfling. Approximation theorems of mathematical statistics. Wiley, 1980.

[13] P. K. Trivedi and D. M. Zimmer. An introduction for practitioners. Foundationsand Trends in Econometrics, 1(1):1–111, 2005.

[14] Walter Vecchiato Umberto Cherubini, Elisa Luciano. Copula Methods in Finance.Wiley Finance Series, 2004.

22

Clustering Robusto con Co19 opulas - IESTA

Documents

Transcript of Clustering Robusto con Co19 opulas - IESTA