Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad...

55
Clasificaci´ on M. A. Guti´ errez Naranjo J. L. Ruiz Reina Dpto. Ciencias de la Computaci´on e Inteligencia Artificial Universidad de Sevilla

Transcript of Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad...

Page 1: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clasificacion

M. A. Gutierrez NaranjoJ. L. Ruiz Reina

Dpto. Ciencias de la Computacion e Inteligencia Artificial

Universidad de Sevilla

Page 2: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Contenido

• La regla de Bayes: Aplicaciones

• Clasificadores Naive Bayes

• Clasificador mediante el vecino mas cercano.

• Introduccion a Clustering

• Un ejemplo: Microarrays

Page 3: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Formulacion de la regla de Bayes

• De P(a ∧ b) = P(a|b)P(b) = P(b|a)P(a) podemos deducir lasiguiente formula, conocida como regla de Bayes

P(b|a) =P(a|b)P(b)

P(a)

• Regla de Bayes para variables aleatorias:

P(Y |X ) =P(X |Y )P(Y )

P(X )

• recuerdese que esta notacion representa un conjunto deecuaciones, una para cada valor especıfico de las variables

• Version con normalizacion:

P(Y |X ) = α · P(X |Y )P(Y )

• Generalizacion, en presencia de un conjunto e deobservaciones:

P(Y |X , e) = α · P(X |Y , e)P(Y |e)

Page 4: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Ejemplo de uso de la regla de Bayes

• Sabemos que la probabilidad de que un paciente de meningitistenga el cuello hinchado es 0.5 (relacion causal)

• Tambien sabemos la probabilidad (incondicional) de tenermeningitis ( 1

50000) y de tener el cuello hinchado (0.05)

• Estas probabilidades provienen del conocimiento y laexperiencia

• La regla de Bayes nos permite diagnosticar la probabilidad detener meningitis una vez que se ha observado que el pacientetiene el cuello hinchado

P(m|h) =P(h|m)P(m)

P(h)=

0,5× 150000

0,05= 0,0002

• Alternativamente, podrıamos haberlo hecho normalizando• P(M|h) = α〈P(h|m)P(m);P(h|¬m)P(¬m)〉• Respecto de lo anterior, esto evita P(h) pero obliga a saber

P(h|¬m)

Page 5: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Relaciones causa-efecto y la regla de Bayes

• Modelando probabilısticamente una relacion entre una Causay un Efecto:

• La regla de Bayes nos da una manera de obtener laprobabilidad de Causa, dado que se ha observado Efecto:

P(Causa|Efecto) = α · P(Efecto|Causa)P(Efecto)

• Nos permite diagnosticar en funcion de nuestro conocimientode relaciones causales y de probabilidades a priori

• ¿Por que calcular el diagnostico en funcion del conocimientocausal y no al reves?

• Porque es mas facil y robusto disponer de probabilidadescausales que de probabilidades de diagnostico (lo que se sueleconocer es P(Efecto|Causa) y el valor que ha tomado Efecto).

Page 6: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Ejemplo

• Consideremos la siguiente informacion sobre el cancer demama

• Un 1% de las mujeres de mas de 40 anos que se hacen unchequeo tienen cancer de mama

• Un 80% de las que tienen cancer de mama se detectan conuna mamografıa

• El 9.6% de las que no tienen cancer de mama, al realizarseuna mamografıa se le diagnostica cancer erroneamente

Page 7: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Ejemplo

• Pregunta 1: ¿cual es la probabilidad de tener cancer si lamamografıa ası lo diagnostica?

• Variables aleatorias: C (tener cancer de mama) y M(mamografıa positiva)

• P(C |m) = αP(C ,m) = αP(m|C )P(C ) =α〈P(m|c)P(c);P(m|¬c)P(¬c)〉 = α〈0,8 · 0,01; 0,096 · 0,99〉 =α〈0,008; 0,09504〉 = 〈0,0776; 0,9223〉

• Luego el 7.8% de las mujeres diagnosticadas positivamentecon mamografıa tendran realmente cancer de mama

Page 8: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Ejemplo

• Pregunta 2: ¿cual es la probabilidad de tener cancer si tras dosmamografıas consecutivas en ambas se diagnostica cancer?

• Variables aleatorias: M1 (primera mamografıa positiva) y M2

(segunda mamografıa positiva)• Obviamente, no podemos asumir independencia incondicional

entre M1 y M2

• Pero es plausible asumir independencia condicional de M1 yM2 dada C

• Por tanto, P(C |m1,m2) = αP(C ,m1,m2) =αP(m1,m2|C )P(C ) = αP(m1|C )P(m2|C )P(C ) =α〈P(m1|c)P(m2|c)P(c);P(m2|¬c)P(m2|¬c)P(¬c)〉 =α〈0,8 · 0,8 · 0,01; 0,096 · 0,096 · 0,99〉 = 〈0,412; 0,588〉

• Luego aproximadamente el 41% de las mujeres doblementediagnosticadas positivamente con mamografıa tendranrealmente cancer de mama

Page 9: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clasificadores bayesianos

• Volvamos un momento a problemas de clasificacion deinstancias definidas mediantes valores de atributos

• Como en el tema de aprendizaje de arboles de decision y dereglas

• Supongamos un conjunto de atributos A1, . . . ,An cuyosvalores determinan un valor en un conjunto finito V deposibles “clasificaciones”

• Tenemos un conjunto de entrenamiento D con una serie detuplas de valores concretos para los atributos, junto con suclasificacion

• Queremos aprender un clasificador tal que clasifique nuevasinstancias 〈a1, . . . , an〉

Page 10: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clasificadores bayesianos

• Podemos disenar un modelo probabilıstico para un problemade clasificacion de este tipo, tomando los atributos y laclasificacion como variables aleatorias

• El valor de clasificacion asignado a una nueva instancia〈a1, . . . , an〉, notado vMAP vendra dado por

argmaxvj∈V

P(vj |a1, . . . , an)

• Aplicando el teorema de Bayes podemos escribir

vMAP = argmaxvj∈V

P(a1, . . . , an|vj)P(vj)

• Y ahora, simplemente estimar las probabilidades de la formulaanterior a partir del conjunto de entrenamiento

• Problema: necesitarıamos una gran cantidad de datos paraestimar adecuadamente las probabilidades P(a1, . . . , an|vj)

Page 11: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clasificadores Naive Bayes

• Podemos simplificar el aprendizaje suponiendo que losatributos son (mutuamente) condicionalmente independientesdado el valor de clasificacion (de ahı lo de “naive”)

• La situacion se representa entonces por la red:

V

A A A1 n2

• En ese caso, tomamos como valor de clasificacion:

vNB = argmaxvj∈V

P(vj)∏

i

P(ai |vj)

Page 12: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clasificadores Naive Bayes

• Para el proceso de aprendizaje, solo tenemos que estimar lasprobabilidades P(vj) y P(ai |vj) (que son muchas menos queen el caso general)

• Y ademas ya hemos visto como se obtienen estimaciones MLde estas probabilidades, simplemente mediante calculo de susfrecuencias en el conjunto de entrenamiento

• Notese que a diferencia de otros metodos (como ID3) no hayuna busqueda en el espacio de hipotesis: simplementecontamos frecuencias

Page 13: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clasificador Naive Bayes: en ejemplo

• Vamos a aplicar el clasificador a un ejemplo ya conocido,usado en el tema de arboles de decision:Ej. Cielo Temperatura Humedad Viento JugarTenis

D1 Soleado Alta Alta Debil -

D2 Soleado Alta Alta Fuerte -

D3 Nublado Alta Alta Debil +

D4 Lluvia Suave Alta Debil +

D5 Lluvia Baja Normal Debil +

D6 Lluvia Baja Normal Fuerte -

D7 Nublado Baja Normal Fuerte +

D8 Soleado Suave Alta Debil -

D9 Soleado Baja Normal Debil +

D10 Lluvia Suave Normal Debil +

D11 Soleado Suave Normal Fuerte +

D12 Nublado Suave Alta Fuerte +

D13 Nublado Alta Normal Debil +

D14 Lluvia Suave Alta Fuerte -

Page 14: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clasificador Naive Bayes: en ejemplo

• Supongamos que queremos predecir si un dıa soleado, detemperatura suave, humedad alta y viento fuerte es buenopara jugar al tenis

• Segun el clasificador Naive Bayes:

vNB = argmaxvj∈{+,−}

P(vj)P(soleado|vj )P(suave|vj )P(alta|vj )P(fuerte|vj )

• Ası que necesitamos estimar todas estas probabilidades, lo quehacemos simplemente calculando frecuencias en la tablaanterior:

• p(+) = 9/14, p(−) = 5/14, p(soleado|+) = 2/9,p(soleado|−) = 3/5, p(suave|+) = 4/9, p(suave|−) = 2/5,p(alta|+) = 2/9, p(alta|−) = 4/5, p(fuerte|+) = 3/9 yp(fuerte|−) = 3/5

Page 15: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clasificador Naive Bayes: en ejemplo

• Por tanto, las dos probabilidades a posteriori son:• P(+)P(soleado|+)P(suave|+)P(alta|+)P(fuerte|+) = 0,0053• P(−)P(soleado|−)P(suave|−)P(alta|−)P(fuerte|−) = 0,0206

• Ası que el clasificador devuelve la clasificacion con mayorprobabilidad a posteriori, en este caso la respuesta es − (no esun dıa bueno para jugar al tenis)

Page 16: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Detalles tecnicos sobre las estimaciones

• Tal y como estamos calculando las estimaciones, existe elriesgo de que algunas de ellas sean excesivamente bajas

• Si realmente alguna de las probabilidades es baja y tenemospocos ejemplos en el conjunto de entrenamiento, lo masseguro es que la estimacion de esa probabilidad sea 0

• Esto plantea dos problemas:• La inexactitud de la propia estimacion• Afecta enormemente a la clasificacion que se calcule, ya que se

multiplican las probabilidades estimadas y por tanto si una deellas es 0, anula a las demas

Page 17: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Detalles tecnicos sobre las estimaciones

• Para evitarlo, y en lugar de la estimacion directa, se suele usarlo que se denomina m-estimacion:

n′ +m · p

n +m

• n es el numero total de observaciones correspondiente a unaclasificacion

• n′ es el numero de observaciones, de esas, que tienen comovalor de atributo el correspondiente al que se esta estimando

• p es una estimacion a priori de la probabilidad que se quierecalcular. En ausencia de otra informacion, podrıa ser p = 1/k ,donde k es el numero de valores del atributo

• m es una constante (llamada tamano de muestreo equivalente)que determina el peso de p en la formula anterior

Page 18: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Naive Bayes: aplicaciones y comparativa

• A pesar de su aparente sencillez, los clasificadores Naive Bayestienen un rendimiento comparable al de los arboles dedecision, las reglas o las redes neuronales

• Algunas aplicaciones interesantes:• Clasificacion de textos• Filtros anti-spam• Perfiles de usuarios web

Page 19: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clasificacion mediante vecino mas cercano

• Una tecnica alternativa a construir el modelo probabilıstico escalcular la clasificacion directamente a partir de los ejemplos(aprendizaje basado en instancias)

• Idea: obtener la clasificacion de un nuevo ejemplo a apartir delas categorıas de los ejemplos mas “cercanos”.

• Debemos manejar, por tanto, una nocion de “distancia” entreejemplos.

• En la mayorıa de los casos, los ejemplos seran elementos de Rn

y la distancia, la euclıdea.• Pero se podrıa usar otra nocion de distancia

Page 20: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

El algoritmo k-NN

• El algoritmo k-NN (de “k nearest neighbors”):• Dado un conjunto de entrenamiento (vectores numericos con

una categorıa asignada) y un ejemplo nuevo• Devolver la categorıa mayoritaria en los k ejemplos del

conjunto de entrenamiento mas cercanos al ejemplo que sequiere clasificar

Page 21: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clustering

• Se trata de dividir un conjunto de datos de entrada ensubconjuntos (clusters), de tal manera que los elementos decada subconjunto compartan cierto patron o caracterısticas apriori desconocidas

• Aprendizaje no supervisado: no tenemos informacion sobreque cluster corresponde a cada dato.

Page 22: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clustering

. . . in cluster analysis a group of objects is split up into a numberof more or less homogeneous subgroups on the basis of an oftensubjectively chosen meausure of similarity (i.e., chosen subjectivelybased on its ability to create “interesting” clusters), such taht thesimilarity between objects within a subgroup is larger than thesimilarity between objects belonging to different subgroups.(Backer & Jain, 1981)

Page 23: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

ClusteringClustering de particion estricta

Dado un conjunto de ejemplos D = {~x1, . . . , ~xj , . . . , ~xN} con~xj = (xj1, . . . , xjd} ∈ R

n, el clustering de particion estricta Hardpartitional clustering busca una particion de D en K clusters,P = {C1, . . . ,CK} con K ≤ N tal que

• Ci 6= ∅ para i ∈ {1, . . . ,K}

•⋃i=K

i=1 Ci = D

• Ci ∩ Cj = ∅ para todo i , j ∈ {1, . . . ,K} con i 6= j .

Page 24: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

ClusteringClustering jerarquico

Dado un conjunto de ejemplos D = {~x1, . . . , ~xj , . . . , ~xN} con~xj = (xj1, . . . , xjd} ∈ R

n, el clustering jerarquico Hierarchicalclustering busca construir una particion anidada de D conestructura de arbol, H = {P1, . . . ,PQ} con Q ≤ N tal que siCi ∈ Pm y Cj ∈ Pl con m > l entonces Ci ⊂ Cj o Ci ∩ Cj = ∅, paratodo i , j ,m, l ∈ {1, . . . ,Q}, i 6= j . Cada Pi es una particion de D.

Page 25: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Aplicaciones

• Ingenierıa. Reconocimiento biometrico, analisis de la senal deradares, eliminacion de ruido...

• Computacion. Web mining, segmentacion de imagenes, ...

• Biotecnologıa. Identificacion de la funcion de genes yproteınas, taxonomıas,...

• Ciencias sociales. Patrones en los modelos decomportamiento, patologıas criminales,...

• Economıa. Tipos de clientes, reconocimiento de patrones,...

Page 26: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

El concepto de distancia

• La idea basica del clustering consiste en agrupar las instanciassegun su proximidad, esto es, dos instancias perteneceran almismo cluster si estan proximas y perteneceran a clustersidistintos si estan lejanas. Por tanto, necesitamos formalizar laidea proximidad: ¿Cuando diremos que dos pacientes separecen? ¿Podemos definir una funcion tal que dados dospacientes x e y digamos que estan a distancia d(x , y)?

• El concepto de distancia sera especıfico en cada problema:• Expresara la medida de similitud• La distancia mas usada es la euclıdea sobre valores numericos,

pero no siempre es la mejor.

Page 27: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Medidas de proximidadCaracterısticas

• (SIM) Simetrıa: d(x , y) = d(y , x) ∀x , y

• (DNN) Definida no negativa: d(x , y) ≥ 0 ∀x , y

• (DTR) Desigualdad triangular:d(x , z) ≤ d(x , y) + d(y , z) ∀x , y , z

• (REF) Reflexividad: d(x , x) = 0 ∀x

• (IND) Indistinguibilidad: d(x , y) = 0 ⇒ x = y ∀x , y

• (DTF) Desigualdad triangular fuerte :d(x , z) ≤ max{d(x , y), d(y , z)} ∀x , y , z

Page 28: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Medidas de proximidadTipos

• Premetrica: DNN + REF

• Semimetrica: DNN + REF + IND + SIM

• Pseudometrica: DNN + REF + SIM + DTR

• Quasimetrica: DNN + REF + IND + DTR

• Pseudoquasimetrica: DNN + REF + DTR

• Metrica: DNN + REF + IND + SIM + DTR

• Ultrametrica: DNN + REF + IND + SIM + DTF

• Intuicion para metricas debiles: Energıa consumida para ir deun punto a otro

• Ejemplo de ultrametrica (metrica discreta): d(x , y) = 1 six 6= y ; d(x , x) = 0 ∀X .

Page 29: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Distancias mas usadas

• Distancias mas usadas en la practica:

• Euclıdea: de(x, y) =√

∑ni=1(xi − yi )2

• Manhattan: dm(x, y) =∑n

i=1 |xi − yi |• Hamming: numero de componentes en las que se difiere.

• La euclıdea se usa cuando cada dimension mide propiedadessimilares y la Mahattan en caso contrario; la distanciaHamming se puede usar aun cuando los vectores no seannumericos.

• Normalizacion: cuando no todas las dimensiones son delmismo orden de magnitud, se normalizan las componentes(restando la media y dividiendo por la desviacion tıpica)

• Estas distancias tambien son utiles para el algoritmo kNN.

Page 30: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clustering de particion estrictaUn algoritmo clasico: k-medias

• Entrada: un numero k de clusters, un conjunto de datos{xi}

Ni=1 y una funcion de distancia

• Salida: un conjunto de k centros m1, . . . ,mk

K-MEDIAS(k,DATOS,distancia)

1. Inicializar m i (i=1,...,k) (aleatoriamente o con alguncriterio heurıstico)

2. REPETIR (hasta que los m i no cambien):2.1 PARA j=1,...,N, HACER:

Calcular el cluster correspondiente a x j, escogiendo,de entre todos los m i, el m h tal quedistancia(x j,m h) sea mınima

2.2 PARA i=1,...,k HACER:Asignar a m i la media aritmetica de los datosasignados al cluster i-esimo

3. Devolver m 1,...,m n

Page 31: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Idea grafica intuitiva en el algoritmo de k-medias

■■■

■ ■

Iteracion 1

Iteracion 3

Iteracion 0

Iteracion 2

Page 32: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Diversas cuestiones sobre el algoritmo k-medias

• Inicializacion: aleatoria o con alguna tecnica heurıstica (porejemplo, partir los datos aleatoriamente en k clusters yempezar con los centros de esos clusters)

• En la practica, los centros con los que se inicie el algoritmotienen un gran impacto en la calidad de los resultados que seobtengan

Page 33: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Otro ejemplo en el algoritmo k-medias

• El archivo iris.arff del sistema WEKA contiene 150 datossobre longitudes y anchura de sepalo y petalo de plantas delgenero iris, clasificadas en tres tipos (setosa, versicolor yvirgınica)

• Ejemplo de instancia de iris.arff:5.1,3.5,1.4,0.2,Iris-setosa

• Podemos aplicar k-medias, con k = 3 y distancia euclıdea,ignorando el ultimo atributo (como si no se conociera):

• En 6 iteraciones se estabiliza• De los tres clusters obtenidos, el primero incluye justamente a

las 50 instancias que originalmente estaban clasificadas comoiris setosa

• El segundo cluster incluye a 47 versicolor y a 3 virgınicas• El tercero incluye 14 versicolor y 36 virgınicas• No ha sido capaz de discriminar correctamente entre versicolor

y virgınica

Page 34: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clustering jerarquico

• Como hemos visto, el clustering de particion estricta divide alconjunto de datos en clusters que no tienen ninguna estucturainterna.

• En cambio, el clusteing jerarquico da estructura interna a losclusters. De hecho, de manera recursiva, cada clusteresta dividido en clusters internos, en una estructur anidadaque va desde un cluster general conteniendo a todos losindividuos, hasta clusters que contienen un unico elemento.

Page 35: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clustering jerarquico

Dependiendo del orden en que se cree la jerarquıa de clusters, losalgoritmos de clustering jerarquico se dividen en dos tipos:

• Clustering jerarquico aglomerativo: Partimos de clustersconteniendo un unico ejemplo y vamos agrupando los clusters,obteniendo agrupamientos cada vez de mayor tamano hastaobtener un cluster final con todos los individuos.

• Clustering jerarquico divisor: Empezamos con un cluster contodos los individuos y vamos realizando particiones de losclusters obtenidos hasta obtener clusters conteniendo un unicoejemplo.

Page 36: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clustering jerarquico

Con independencia de que se use clustering aglomerativo o divisor,los resultados suelen representarse con una estuructura de arbolllamada dendrodrama

La raız representa el conjunto completo y cada una de las hojasrepresenta una instancia.

Page 37: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clustering jerarquicoEjemplo de dendrograma

Page 38: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clustering jerarquicoComplejidad

Consideremos un problema de clustering jerarquico con N puntos

• Los metodos de Clustering jerarquico divisor tienen queconsiderar 2N−1 − 1 posibles maneras de dividir el conjuntoinicial en dos subconjuntos.

• Los metodos de Clustering jerarquico aglomerativo debenconsiderar la distancia entre pares de puntos de orden O(N2).

• Por tanto Clustering jerarquico aglomerativo se usan muchomas que los de tipo divisor.

Page 39: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Clustering jerarquico aglomerativo

El esquema general de Clustering jerarquico aglomerativo es elsiguiente:

1. Inicializamos el algoritmo con N clusters individuales.Calculamos la matriz de proximidad (basada en algunadefinicion de distancia) para los N clusters.

2. En la matriz de proximidad, buscamos la menor distanciaentre clusters. Segun definamos la distancia entre clusters,tendremos diferentes algoritmos. Combinamos en un unicocluster aquellos que esten a distancia mınima.

3. Actualizamos la matriz de proximidad considerando los nuevosclusters.

4. Repetimos los pasos 2 y 3 hasta que quede un unico cluster.

Page 40: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Distancias entre conjuntos I

• Single linkage: La distancia entre dos clusters es la distanciaentre los objetos mas cercanos de los diferentes clusters. Dosclusters pueden estar conectados debido al ruido. No obstante,funciona bien si los clusters estan suficientemente separados.

• Complete linkage: La distancia entre dos clusters es ladistancia entre los objetos mas lejanos de los diferentesclusters. Es efectiva cuando los clusters son pequenos ycompactos.

• Group average linkage algorithm: La distancia entre dosclusters es la distancia media de todos los pares de puntosprocedentes de diferentes clusters. Tambien se conoce comoUnweighted pair group method average (UPGMA)

Page 41: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Distancias entre conjuntos II

• Weighted average linkage algorithm: La distancia entre dosclusters tambien se basadistancia media de todos los pares depuntos procedentes de diferentes clusters, pero aquı tambiendepende del numero de puntos de cada cluster. Tambien seconoce como Weighted pair group method average (WPGMA)

• Centroid linkage algorithm: La distancia entre dos clusters esla distancia entre sus baricentros. Tambien se conoce comoWeighted pair group method centroid (WPGMC)

• . . . y muchos mas.

Page 42: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Un ejemplo: Estudio de MicroarraysADN

Acido desoxirribonucleico

La molecula de DNA consiste de

dos hebras de polinucleotidos en-

roscadas una alrededor de la otra

en forma de doble helice, como una

escalera helicoidal con el esqueleto

de azucar-fosfato del lado de afue-

ra y las bases hacia dentro.

Page 43: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Genoma Humano

Genoma Humano

• El genoma de una celula es su contenido total de DNA. En lascelulas eucariotas el DNA se encuentra en las mitocondrias yen el nucleo (DNA nuclear).

• El nucleo de toda celula humana contiene 46 cromosomas (23pares). En cada cromosoma se encuentra una larga cadena deDNA formada por aprox. 300 millones de pares de bases, estalarga cadena desenroscada puede medir hasta 12 cm.

• Todas nuestras celulas contienen la misma informaciongenetica.

• ¿Que es lo que hace que por ejemplo las celulas de la piel seandiferentes de las del hıgado?

Page 44: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

El dogma central

Page 45: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Nivel de expresion

• El nivel de expresion de una un gen es la cantidad de copiasde mRNA transcriptos presentes en la celula en undeterminado momento

Page 46: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Microarrays

Un microarray es un soporte solido, generalmente vidrio o silicio, alque se le han adherido, mediante un robot, en forma ordenadasondas (probes) con diferentes cadenas conocidas de materialgenetico (DNA, cDNA, oligos) (cubriendo parte o toda la secuenciade un genoma-transcriptoma de un organismo), en forma matriz demiles de puntos (10000 - 40000) equiespaciados. Cada secuencia seasocia con un unico gen (tiene alta especificidad para ese gen).Cada punto contiene millones de secuencias clonadas identicas.

• Cada punto contiene millones de clones de una secuenciaespecıfica, asociada a un gen.

• Se puede o no tener el conocimiento sobre la secuencia.

Page 47: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Microarrays

Page 48: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Microarrays

Page 49: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Microarrays

Los colores son representaciones artificiales de las intensidades

• Rojo indica que el gen esta mas expresado en el tejidopatogeno que en el sano

• Amarillo indica que el gen esta expresado con igual intensidaden ambos tejidos

• Verde indica que el gen esta mas expresado en el tejido sano.

Page 50: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Microarrays

Page 51: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

MicroarraysMatriz de datos

Los datos de expresion genica obtenidos por un microarray puedenconsiderarse como una matriz de G genes estudiados sobre nindividuos como

XC×n =

x11 x12 . . . x1nx21 x22 . . . x2n. . . . . . . . . . . .xG1 xG2 . . . xGn

xgi = nivel de expresion del gen g en el inidviduo i .

Page 52: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Microarrays

Preguntas que interesa responder en genomica funcional

• ¿Que secuencias genomicas estan expresadas diferencialmenteen cada tejido?

• ¿Cual es el efecto de una mala regulacion en la expresion deun gen?

• ¿Que patrones de la expresion del gene causan unaenfermedad o conducen a la progresion de la enfermedad?

• ¿Que patrones de expresion de influencian la respuesta a untratamiento?

• . . .

Page 53: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Microarrays

• Para responder cada una de las preguntas anteriores debemosdetectar grupos de genes diferencialmente expresados entredos o mas grupos.

• Las tecnicas de Clustering pueden ayudar a encontrar gruposde genes que pertenezcan a la misma ruta metabolica o aagrupar pacientes que tengan una proximidad genica.

Page 54: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Mas sobre clustering

• Otras tecnicas. Aproximacion probabilıstica.

• Software para practicas: Rapid Miner, . . .

• Aplicaciones biomedicas

Mas informacion y practicas en la asignatura Analisis Avanzado deDatos Clınicos (AADC).

Page 55: Clasificacio´n - cs.us.es · Ejemplo de uso de la regla de Bayes • Sabemos que la probabilidad de que un paciente de meningitis tenga el cuello hinchado es 0.5 (relacion causal)

Bibliografıa

• Xu, R y Wunsch II, D.C. Clustering (IEEE Press, 2009)

• Russell, S. y Norvig, P. Artificial Intelligence (A modernapproach) (Second edition) (Prentice Hall, 2003)

• Cap. 20: “Statistical Learning” (disponible on-line en la webdel libro)

• Mitchell, T.M. Machine Learning (McGraw-Hill, 1997)• Cap. 6: “Bayesian Learning”