Mineria de Datos Tecnicas Descriptivas y Predictivas de...

27
MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 1 MINERÍA DE DATOS – TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN EL ANÁLISIS CLUSTER COMO TÉCNICA DESCRIPTIVA DE CLASIFICACIÓN. LOS ÁRBOLES DE DECISIÓN COMO TÉCNICA PREDICTIVA DE CLASIFICACIÓN. ANÁLISIS DE CONGLOMERADOS Y ÁRBOLES DE DECISIÓN COMO MÉTODOS DE SEGMENTACIÓN. OTROS MÉTODOS DESCRIPTIVOS. MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 2 EL ANÁLISIS CLUSTER COMO TÉCNICA DESCRIPTIVA DE CLASIFICACIÓN MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 3 EL ANÁLISIS CLUSTER EL ANÁLISIS CLUSTER ES UNA TÉCNICA DE CLASIFICACIÓN AUTOMÁTICA DE DATOS. SU FINALIDAD ESENCIAL ES REVELAR CONCENTRACIONES EN LOS DATOS (CASOS O VARIABLES) PARA SU AGRUPAMIENTO EFICIENTE EN CLUSTERS (O CONGLOMERADOS) SEGÚN SU HOMOGENEIDAD. EL AGRUPAMIENTO PUEDE REALIZARSE TANTO PARA CASOS COMO PARA VARIABLES, PUDIENDO UTILIZARSE VARIABLES CUALITATIVAS O CUANTITATIVAS. LOS GRUPOS DE CASOS O VARIABLES SE REALIZAN BASÁNDOSE EN LA PROXIMIDAD O LEJANÍA DE UNOS CON OTRAS: ES ESENCIAL EL USO ADECUADO DEL CONCEPTO DE DISTANCIA. ES FUNDAMENTAL QUE LOS ELEMENTOS DENTRO DE UN CLUSTER SEAN HOMOGÉNEOS Y LO MÁS DIFERENTES POSIBLES DE LOS CONTENIDOS EN OTROS CLUSTERS. MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 4 EL ANÁLISIS CLUSTER EL ANÁLISIS CLUSTER ES UNA TÉCNICA DE CLASIFICACIÓN, CONOCIÉNDOSE TAMBIÉN COMO TAXONOMÍA NUMÉRICA, ANÁLISIS DE CONGLOMERADOS, ANÁLISIS TIPOLÓGICO, CLASIFICACIÓN AUTOMÁTICA Y OTRAS. EL NÚMERO DE CLUSTERS NO ES CONOCIDO DE ANTEMANO Y LOS GRUPOS SE CREAN EN FUNCIÓN DE LA NATURALEZA DE LOS DATOS: SE TRATA POR TANTO DE UNA TÉCNICA DE CLASIFICACIÓN POST HOC. MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 5 EL ANÁLISIS CLUSTER EL ANÁLISIS CLUSTER ES UN MÉTODO ESTADÍSTICO MULTIVARIANTE DE CLASIFICACIÓN AUTOMÁTICA: A PARTIR DE UNA TABLA DE DATOS (CASOS-VARIABLES), TRATA DE SITUARLOS EN GRUPOS HOMOGÉNEOS, CONGLOMERADOS O CLUSTERS NO CONOCIDOS DE ANTEMANO. LOS INDIVIDUOS QUE PUEDEN SER CONSIDERADOS SIMILARES SON ASIGNADOS A UN MISMO CLUSTER. LOS INDIVIDUOS DIFERENTES (DISIMILARES) SE LOCALIZAN EN CLUSTERS DISTINTOS. MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 6 EL ANÁLISIS CLUSTER LA DIFERENCIA ESENCIAL CON EL ANÁLISIS DISCRIMINANTE ESTRIBA EN QUE: EN EL ANÁLISIS DISCRIMINANTE ES NECESARIO ESPECIFICAR PREVIAMENTE LOS GRUPOS POR UN CAMINO OBJETIVO (TÉCNICA DE CLASIFICACIÓN AD HOC). EL ANÁLISIS CLUSTER DEFINE GRUPOS TAN DISTINTOS COMO SEA POSIBLE EN FUNCIÓN DE LOS PROPIOS DATOS SIN ESPECIFICACIÓN PREVIA DE LOS CITADOS GRUPOS (TÉCNICA DE CLASIFICACIÓN POST HOC). SI LAS VARIABLES DE AGLOMERACIÓN ESTÁN EN ESCALAS MUY DIFERENTES SERÁ NECESARIO: ESTANDARIZAR PREVIAMENTE LAS VARIABLES, O. TRABAJAR CON DESVIACIONES RESPECTO DE LA MEDIA.

Transcript of Mineria de Datos Tecnicas Descriptivas y Predictivas de...

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 1

MINERÍA DE DATOS – TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN� EL ANÁLISIS CLUSTER COMO TÉCNICA DESCRIPTIVA DE

CLASIFICACIÓN.

� LOS ÁRBOLES DE DECISIÓN COMO TÉCNICA PREDICTIVA DECLASIFICACIÓN.

� ANÁLISIS DE CONGLOMERADOS Y ÁRBOLES DE DECISIÓN COMOMÉTODOS DE SEGMENTACIÓN.

� OTROS MÉTODOS DESCRIPTIVOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 2

EL ANÁLISIS CLUSTER COMO TÉCNICA DESCRIPTIVA DE CLASIFICACIÓN

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 3

EL ANÁLISIS CLUSTER

� EL ANÁLISIS CLUSTER ES UNA TÉCNICA DE CLASIFICACIÓNAUTOMÁTICA DE DATOS.

� SU FINALIDAD ESENCIAL ES REVELAR CONCENTRACIONES ENLOS DATOS (CASOS O VARIABLES) PARA SU AGRUPAMIENTOEFICIENTE EN CLUSTERS (O CONGLOMERADOS) SEGÚN SUHOMOGENEIDAD.

� EL AGRUPAMIENTO PUEDE REALIZARSE TANTO PARA CASOSCOMO PARA VARIABLES, PUDIENDO UTILIZARSE VARIABLESCUALITATIVAS O CUANTITATIVAS.

� LOS GRUPOS DE CASOS O VARIABLES SE REALIZAN BASÁNDOSEEN LA PROXIMIDAD O LEJANÍA DE UNOS CON OTRAS:

� ES ESENCIAL EL USO ADECUADO DEL CONCEPTO DEDISTANCIA.

� ES FUNDAMENTAL QUE LOS ELEMENTOS DENTRO DE UNCLUSTER SEAN HOMOGÉNEOS Y LO MÁS DIFERENTESPOSIBLES DE LOS CONTENIDOS EN OTROS CLUSTERS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 4

EL ANÁLISIS CLUSTER

� EL ANÁLISIS CLUSTER ES UNA TÉCNICA DE CLASIFICACIÓN,CONOCIÉNDOSE TAMBIÉN COMO TAXONOMÍA NUMÉRICA,ANÁLISIS DE CONGLOMERADOS, ANÁLISIS TIPOLÓGICO,CLASIFICACIÓN AUTOMÁTICA Y OTRAS.

� EL NÚMERO DE CLUSTERS NO ES CONOCIDO DE ANTEMANO YLOS GRUPOS SE CREAN EN FUNCIÓN DE LA NATURALEZA DE LOSDATOS:

� SE TRATA POR TANTO DE UNA TÉCNICA DE CLASIFICACIÓNPOST HOC.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 5

EL ANÁLISIS CLUSTER

� EL ANÁLISIS CLUSTER ES UN MÉTODO ESTADÍSTICOMULTIVARIANTE DE CLASIFICACIÓN AUTOMÁTICA:

� A PARTIR DE UNA TABLA DE DATOS (CASOS-VARIABLES),TRATA DE SITUARLOS EN GRUPOS HOMOGÉNEOS,CONGLOMERADOS O CLUSTERS NO CONOCIDOS DEANTEMANO.

� LOS INDIVIDUOS QUE PUEDEN SER CONSIDERADOSSIMILARES SON ASIGNADOS A UN MISMO CLUSTER.

� LOS INDIVIDUOS DIFERENTES (DISIMILARES) SE LOCALIZANEN CLUSTERS DISTINTOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 6

EL ANÁLISIS CLUSTER

� LA DIFERENCIA ESENCIAL CON EL ANÁLISIS DISCRIMINANTEESTRIBA EN QUE:

� EN EL ANÁLISIS DISCRIMINANTE ES NECESARIOESPECIFICAR PREVIAMENTE LOS GRUPOS POR UN CAMINOOBJETIVO (TÉCNICA DE CLASIFICACIÓN AD HOC).

� EL ANÁLISIS CLUSTER DEFINE GRUPOS TAN DISTINTOSCOMO SEA POSIBLE EN FUNCIÓN DE LOS PROPIOS DATOSSIN ESPECIFICACIÓN PREVIA DE LOS CITADOS GRUPOS(TÉCNICA DE CLASIFICACIÓN POST HOC).

� SI LAS VARIABLES DE AGLOMERACIÓN ESTÁN EN ESCALASMUY DIFERENTES SERÁ NECESARIO:

� ESTANDARIZAR PREVIAMENTE LAS VARIABLES, O.

� TRABAJAR CON DESVIACIONES RESPECTO DE LA MEDIA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 7

EL ANÁLISIS CLUSTER

� ES NECESARIO OBSERVAR LOS VALORES ATÍPICOS YDESAPARECIDOS PORQUE:

� LOS MÉTODOS JERÁRQUICOS NO TIENEN SOLUCIÓN CONVALORES PERDIDOS.

� LOS VALORES ATÍPICOS DEFORMAN LAS DISTANCIAS YPRODUCEN CLUSTERS UNITARIOS.

� TAMBIÉN ES NOCIVA LA PRESENCIA DE VARIABLESCORRELACIONADAS:

� ES IMPORTANTE EL ANÁLISIS PREVIO DEMULTICOLINEALIDAD.

� ES NECESARIO REALIZAR UN ANÁLISIS FACTORIAL PREVIOY POSTERIORMENTE SE AGLOMERAN LAS PUNTUACIONESFACTORIALES.

� LA SOLUCIÓN DEL ANÁLISIS CLUSTER NO TIENE POR QUÉ SERÚNICA:

� NO DEBEN ENCONTRARSE SOLUCIONES CONTRADICTORIASPOR DISTINTOS MÉTODOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 8

EL ANÁLISIS CLUSTER

� EL NÚMERO DE OBSERVACIONES EN CADA CLUSTER DEBE SERRELEVANTE:

� EN CASO CONTRARIO PUEDE HABER VALORES ATÍPICOS QUEDIFUMINEN LA CONSTRUCCIÓN DE LOS CLUSTERS.

� LOS CONGLOMERADOS DEBEN TENER SENTIDO CONCEPTUAL YNO VARIAR MUCHO AL VARIAR LA MUESTRA O EL MÉTODO DEAGLOMERACIÓN.

� LOS GRUPOS FINALES SERÁN TAN DISTINTOS COMO PERMITANLOS DATOS.

� CON ESTOS GRUPOS SE PODRÁN REALIZAR OTROS ANÁLISIS:

� DESCRIPTIVOS, DISCRIMINANTE, REGRESIÓN LOGÍSTICA,DIFERENCIA...

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 9

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

� SEGÚN LA CLASIFICACIÓN DE SNEATH Y SOKAL EXISTENCUATRO GRANDES TIPOS DE MEDIDAS DE SIMILITUD:

� DISTANCIAS.

� COEFICIENTES DE ASOCIACIÓN.

� COEFICIENTES ANGULARES.

� COEFICIENTES DE SIMILITUD PROBABILÍSTICA.

� DISTANCIAS:

� SE TRATA DE LAS DISTINTAS MEDIDAS ENTRE LOS PUNTOSDEL ESPACIO DEFINIDO POR LOS INDIVIDUOS:

� SE TRATA DE LAS MEDIDAS INVERSAS DE LASSIMILITUDES, ES DECIR, DISIMILITUDES:

• EJ.: DISTANCIA EUCLÍDEA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 10

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

� COEFICIENTES DE ASOCIACIÓN:

� SE UTILIZAN CUANDO SE TRABAJA CON DATOSCUALITATIVOS.

� TAMBIÉN SE PUEDEN APLICAR A DATOS CUANTITATIVOS SISE ESTÁ DISPUESTO A SACRIFICAR ALGUNA INFORMACIÓNPROPORCIONADA POR LOS INDIVIDUOS O LAS VARIABLES.

� ESTAS MEDIDAS SON UNA FORMA DE MEDIR LACONCORDANCIA O CONFORMIDAD ENTRE LOS ESTADOS DEDOS COLUMNAS DE DATOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 11

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

� COEFICIENTES ANGULARES:

� SE UTILIZAN PARA MEDIR LA PROPORCIONALIDAD EINDEPENDENCIA ENTRE LOS VECTORES QUE DEFINEN LOSINDIVIDUOS.

� EL MÁS COMÚN ES EL COEFICIENTE DE CORRELACIÓNAPLICADO A VARIABLES CONTINUAS.

� COEFICIENTES DE SIMILITUD PROBABILÍSTICA:

� MIDEN LA HOMOGENEIDAD DEL SISTEMA POR PARTICIONESO SUBPARTICIONES DEL CONJUNTO DE LOS INDIVIDUOS EINCLUYEN INFORMACIÓN ESTADÍSTICA.

� ESTOS COEFICIENTES SE DISTRIBUYEN COMO LA CHI-CUADRADO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 12

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

� EJEMPLOS MÁS CARACTERÍSTICOS DE CADA UNO DE LOS TIPOSDE MEDIDAS DE SIMILITUD:

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 13

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

� LA DISTANCIA EUCLÍDEA AL CUADRADO ENTRE DOSINDIVIDUOS SE DEFINE COMO LA SUMA DE LOS CUADRADOS DELAS DIFERENCIAS DE TODAS LAS COORDENADAS DE LOS DOSPUNTOS:

� LA DISTANCIA EUCLÍDEA SE DEFINE COMO LA RAÍZCUADRADA POSITIVA DE LA DISTANCIA ANTERIOR.

� LA DISTANCIA DE MINKOWSKI ES UNA DISTANCIA GENÉRICAQUE DA LUGAR A OTRAS DISTANCIAS EN CASOS PARTICULARESY SE DEFINE COMO LA RAÍZ q-ÉSIMA DE LA SUMA DE LASPOTENCIAS q-ÉSIMAS DE LAS DIFERENCIAS, EN VALORABSOLUTO, DE LAS COORDENADAS DE LOS DOS PUNTOSCONSIDERADOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 14

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

� LA DISTANCIA CITY-BLOCK O DISTANCIA DE MANHATAN:

� ES UN CASO PARTICULAR DE LA DISTANCIA O MEDIDA DEMINKOWSKI CUANDO q = 1.

� ES LA SUMA DE LAS DIFERENCIAS, EN VALOR ABSOLUTO, DETODAS LAS COORDENADAS DE LOS DOS INDIVIDUOS CUYADISTANCIA SE CALCULA.

� ES CERO PARA LA SIMILITUD PERFECTA Y AUMENTA AMEDIDA QUE LOS OBJETOS SON MÁS DISIMILARES.

� LA DISTANCIA DE CHEBYCHEV:

� SE DEFINE COMO EL CASO LÍMITE DE LA MEDIDA DEMINKOWSKI PARA q → ∞.

� ES EL MÁXIMO DE LAS DIFERENCIAS ABSOLUTAS DE LOSVALORES DE TODAS LAS COORDENADAS.

� LA DISTANCIA CANBERRA ES UNA MODIFICACIÓN DE LADISTANCIA MANHATAN QUE ES SENSIBLE A PROPORCIONES Y NOSÓLO A VALORES ABSOLUTOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 15

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

� LOS COEFICIENTES DE ASOCIACIÓN SUELEN UTILIZARSE PARAEL CASO DE VARIABLES CUALITATIVAS, Y EN GENERAL PARAEL CASO DE DATOS BINARIOS (O DICOTÓMICOS):

� SON AQUELLOS QUE SÓLO PUEDEN PRESENTAR DOSOPCIONES:

� BLANCO - NEGRO, SI - NO, HOMBRE - MUJER, VERDADERO -FALSO, ETC.

� EXISTEN DIFERENTES MEDIDAS DE PROXIMIDAD OSIMILITUD, PARTIENDO DE UNA TABLA DE FRECUENCIAS2X2 EN LA QUE SE REPRESENTA EL NÚMERO DE ELEMENTOSDE LA POBLACIÓN EN LOS QUE SE CONSTATA LA PRESENCIAO AUSENCIA DEL CARÁCTER (VARIABLE CUALITATIVA) ENESTUDIO.

Variable 1Variable 2 Presencia Ausencia

Presencia a bAusencia c d

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 16

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 17

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

� EL COEFICIENTE DE JACCARD – SNEATH:

� ES UNO DE LOS MÁS SENCILLOS.

� NO TIENE EN CUENTA LOS EMPAREJAMIENTOS NEGATIVOS.

� SE DEFINE COMO EL N° DE EMPAREJAMIENTOS POSITIVOSENTRE LA SUMA DE LOS EMPAREJAMIENTOS POSITIVOS YLOS DESACUERDOS.

� A PARTIR DE SU EXPRESIÓN SE DEDUCE QUE Sj TIENDE ACERO CUANDO a/u TIENDE A CERO:

� Sj ES CERO CUANDO EL N° DE EMPAREJAMIENTOSPOSITIVOS COINCIDE CON EL DE DESACUERDOS.

� Sj TIENDE A UNO CUANDO u TIENDE A CERO, ES DECIR, Sj

VALE UNO CUANDO NO HAY DESACUERDOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 18

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

� EL COEFICIENTE DE YULE VARÍA ENTRE +1 Y -1.

� EL COEFICIENTE DE EMPAREJAMIENTO SIMPLE:

� SE DEFINE COMO EL COCIENTE ENTRE EL N° DEEMPAREJAMIENTOS Y EL N° TOTAL DE CASOSCONSIDERADOS.

� DE SU EXPRESIÓN SE DEDUCE:

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 19

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

� EN EL CASO DE LOS COEFICIENTES ANGULARES SU CAMPO DEVARIACIÓN ESTÁ ENTRE -1 Y +1:

� LOS VALORES CERCANOS A 0 INDICAN DISIMILITUD ENTRELOS INDIVIDUOS.

� LOS VALORES QUE SE ACERCAN A +1 O A -1 INDICANSIMILITUD POSITIVA O NEGATIVA RESPECTIVAMENTE.

� EL CÁLCULO DE ESTE COEFICIENTE ENTRE LOS INDIVIDUOS iY j SE REALIZA EN FUNCIÓN DE Xi Y Xj QUE SON LAS MEDIASCORRESPONDIENTES A LOS INDIVIDUOS i Y j.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 20

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

� LOS COEFICIENTES DE SIMILITUD PROBABILÍSTICA:

� CALCULAN LA PROBABILIDAD ACUMULADA DE QUE UN PARDE INDIVIDUOS i Y j, SEAN TAN SIMILARES, O MÁS, QUE LOQUE EMPÍRICAMENTE SE PUEDE AFIRMAR SOBRE LA BASE DELA DISTRIBUCIÓN OBSERVADA.

� PARA EL CASO DE VARIABLES CUALITATIVAS Y EN GENERALPARA EL CASO DE DATOS BINARIOS O DICOTÓMICOS EXISTENVARIAS MEDIDAS DE SIMILARIDAD ADICIONALES:

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 21

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

� ENTRE LAS MEDIDAS DE SIMILARIDAD PARA PROBABILIDADESCONDICIONALES DESTACAN LAS SIGUIENTES:

� ENTRE LAS MEDIDAS DE PREDICCIÓN SE ENCUENTRAN LA Dxy

DE ANDERBERG, LA Yxy DE YULE Y LA Qxy DE YULE:

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 22

EL ANÁLISIS CLUSTER

� MEDIDAS DE SIMILITUD

� TAMBIÉN SE USAN OTRAS MEDIDAS BINARIAS:

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 23

EL ANÁLISIS CLUSTER

� TÉCNICAS EN EL ANÁLISIS CLUSTER

� EL ANÁLISIS DE CONGLOMERADOS O ANÁLISIS CLUSTER ES UNCONJUNTO DE MÉTODOS Y TÉCNICAS ESTADÍSTICAS QUEPERMITEN DESCRIBIR Y RECONOCER DIFERENTESAGRUPACIONES QUE SUBYACEN EN UN CONJUNTO DE DATOS:

� PERMITEN CLASIFICAR, O DIVIDIR EN GRUPOS MÁS OMENOS HOMOGÉNEOS, UN CONJUNTO DE INDIVIDUOS QUEESTÁN DEFINIDOS POR DIFERENTES VARIABLES.

� EL OBJETIVO PRINCIPAL CONSISTE EN CONSEGUIR UNA O MÁSPARTICIONES DE UN CONJUNTO DE INDIVIDUOS EN BASE ADETERMINADAS CARACTERÍSTICAS DE LOS MISMOS:

� ESTAS CARACTERÍSTICAS ESTARÁN DEFINIDAS POR LASPUNTUACIONES QUE CADA UNO DE ELLOS TIENE CONRELACIÓN A DIFERENTES VARIABLES.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 24

EL ANÁLISIS CLUSTER

� TÉCNICAS EN EL ANÁLISIS CLUSTER

� SE PODRÁ DECIR QUE DOS INDIVIDUOS SON SIMILARES SIPERTENECEN A LA MISMA CLASE, GRUPO, CONGLOMERADO OCLUSTER.

� TODOS LOS INDIVIDUOS QUE ESTÁN CONTENIDOS EN EL MISMOCONGLOMERADO:

� SE PARECERÁN ENTRE SÍ.

� SERÁN DIFERENTES DE LOS INDIVIDUOS QUE PERTENECEN AOTRO CONGLOMERADO.

� LOS MIEMBROS DE UN CONGLOMERADO GOZARÁN DECARACTERÍSTICAS COMUNES QUE LOS DIFERENCIAN DE LOSMIEMBROS DE OTROS CONGLOMERADOS:

� ESTAS CARACTERÍSTICAS DEBERÁN SER GENÉRICAS.

� DIFÍCILMENTE UNA ÚNICA CARACTERÍSTICA PODRÁDEFINIR UN CONGLOMERADO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 25

EL ANÁLISIS CLUSTER

� TÉCNICAS EN EL ANÁLISIS CLUSTER

� EL MÉTODO PARA EJECUTAR UN ANÁLISIS DE CONGLOMERADOSCOMIENZA CON LA SELECCIÓN DE LOS INDIVIDUOS OBJETO DELESTUDIO:

� SI CORRESPONDE SE INCLUYE:

� SU CODIFICACIÓN A PARTIR DE LAS VARIABLES OCARACTERES QUE LOS DEFINEN.

� SU TRANSFORMACIÓN ADECUADA PARA SOMETERLOSAL ANÁLISIS SI ES NECESARIO (TIPIFICACIÓN DEVARIABLES, DESVIACIONES RESPECTO DE LA MEDIA,ETC.).

� SE DETERMINA LA MATRIZ DE DISIMILITUDES DEFINIENDO LASDISTANCIAS, SIMILITUDES O DISIMILITUDES DE LOS INDIVIDUOS.

� SE EJECUTA EL ALGORITMO QUE FORMARÁ LAS DIFERENTESAGRUPACIONES O CONGLOMERADOS DE INDIVIDUOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 26

EL ANÁLISIS CLUSTER

� TÉCNICAS EN EL ANÁLISIS CLUSTER

� SE OBTIENE UNA REPRESENTACIÓN GRÁFICA DE LOSCONGLOMERADOS OBTENIDOS:

� DENDOGRAMA.

� SE INTERPRETAN LOS RESULTADOS OBTENIDOS.

� LOS DIFERENTES MÉTODOS DE ANÁLISIS DE CONGLOMERADOSSURGEN DE LAS DISTINTAS FORMAS DE AGRUPACIÓN DE LOSINDIVIDUOS:

� DEPENDIENDO DEL ALGORITMO QUE SE UTILICE PARALLEVAR A CABO LA AGRUPACIÓN DE INDIVIDUOS, SEOBTIENEN DIFERENTES MÉTODOS DE ANÁLISIS DECONGLOMERADOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 27

EL ANÁLISIS CLUSTER

� TÉCNICAS EN EL ANÁLISIS CLUSTER

� UNA CLASIFICACIÓN ES LA SIGUIENTE:

� MÉTODOS AGLOMERATIVOS-DIVISIVOS.

� MÉTODOS JERÁRQUICOS-NO JERÁRQUICOS.

� MÉTODOS SOLAPADOS-EXCLUSIVOS.

� MÉTODOS SECUENCIALES-SIMULTÁNEOS.

� MÉTODOS MONOTÉTICOS-POLITÉTICOS.

� MÉTODOS DIRECTOS-ITERATIVOS.

� MÉTODOS PONDERADOS-NO PONDERADOS.

� MÉTODOS ADAPTATIVOS-NO ADAPTATIVOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 28

EL ANÁLISIS CLUSTER

� TÉCNICAS EN EL ANÁLISIS CLUSTER

� MÉTODOS AGLOMERATIVOS-DIVISIVOS:

� UN MÉTODO AGLOMERATIVO:

� CONSIDERA TANTOS GRUPOS COMO INDIVIDUOS.

� SUCESIVAMENTE VA FUSIONANDO LOS DOS GRUPOSMÁS SIMILARES, HASTA LLEGAR A UNA CLASIFICACIÓNDETERMINADA.

� UN MÉTODO DIVISIVO:

� PARTE DE UN SOLO GRUPO FORMADO POR TODOS LOSINDIVIDUOS.

� EN CADA ETAPA VA SEPARANDO INDIVIDUOS DE LOSGRUPOS ESTABLECIDOS ANTERIORMENTE, FORMÁNDOSEASÍ NUEVOS GRUPOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 29

EL ANÁLISIS CLUSTER

� TÉCNICAS EN EL ANÁLISIS CLUSTER

� MÉTODOS JERÁRQUICOS-NO JERÁRQUICOS:

� UN MÉTODO ES JERÁRQUICO SI CONSISTE EN UNASECUENCIA DE g+1 CLUSTERS: G0,…, Gg EN LA QUE:

� G0 ES LA PARTICIÓN DISJUNTA DE TODOS LOSINDIVIDUOS Y Gg ES EL CONJUNTO PARTICIÓN:

• EL N° DE PARTES DE C/U DE LAS PARTICIONESDISMINUYE PROGRESIVAMENTE.

• LAS PARTICIONES SON CADA VEZ MÁS AMPLIAS YMENOS HOMOGÉNEAS.

� UN MÉTODO SE DICE NO JERÁRQUICO CUANDO SE FORMANGRUPOS HOMOGÉNEOS SIN ESTABLECER RELACIONES DEORDEN O JERÁRQUICAS ENTRE DICHOS GRUPOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 30

EL ANÁLISIS CLUSTER

� TÉCNICAS EN EL ANÁLISIS CLUSTER

� MÉTODOS SOLAPADOS-EXCLUSIVOS:

� UN MÉTODO ES SOLAPADO SI ADMITE QUE UN INDIVIDUOPUEDA PERTENECER A DOS GRUPOS SIMULTÁNEAMENTE ENALGUNA DE LAS ETAPAS DE CLASIFICACIÓN.

� ES EXCLUSIVO SI NINGÚN INDIVIDUO PUEDE PERTENECERSIMULTÁNEAMENTE A DOS GRUPOS EN LA MISMA ETAPA.

� MÉTODOS SECUENCIALES-SIMULTÁNEOS:

� UN MÉTODO ES SECUENCIAL SI A CADA GRUPO SE LE APLICAEL MISMO ALGORITMO EN FORMA RECURSIVA.

� LOS MÉTODOS SIMULTÁNEOS SON AQUELLOS EN LOS QUELA CLASIFICACIÓN SE LOGRA POR UNA SIMPLE Y NOREITERADA OPERACIÓN SOBRE LOS INDIVIDUOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 31

EL ANÁLISIS CLUSTER

� TÉCNICAS EN EL ANÁLISIS CLUSTER

� MÉTODOS MONOTÉTICOS-POLITÉTICOS:

� UN MÉTODO SE DICE MONOTÉTICO SI ESTÁ BASADO EN UNACARACTERÍSTICA ÚNICA DE LOS OBJETOS A CLASIFICAR.

� ES POLITÉTICO SI SE BASA EN VARIAS CARACTERÍSTICASDE LOS MISMOS:

� SIN EXIGIR QUE TODOS LOS OBJETOS LAS POSEAN.

� AUNQUE SÍ DEBEN POSEER LAS SUFICIENTES COMOPARA PODER JUSTIFICAR LA ANALOGÍA ENTRE LOSMIEMBROS DE UNA MISMA CLASE.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 32

EL ANÁLISIS CLUSTER

� TÉCNICAS EN EL ANÁLISIS CLUSTER

� MÉTODOS DIRECTOS-ITERATIVOS:

� UN MÉTODO ES DIRECTO SI UTILIZA ALGORITMOS EN LOSQUE. UNA VEZ ASIGNADO UN INDIVIDUO A UN GRUPO YANO SE SACA DEL MISMO

� LOS MÉTODOS ITERATIVOS CORRIGEN LAS ASIGNACIONESPREVIAS:

� VUELVEN A COMPROBAR EN POSTERIORES ITERACIONESSI LA ASIGNACIÓN DE UN INDIVIDUO A UNCONGLOMERADO ES ÓPTIMA.

� LLEVAN A CABO UN NUEVO REAGRUPAMIENTO DE LOSINDIVIDUOS SI ES NECESARIO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 33

EL ANÁLISIS CLUSTER

� TÉCNICAS EN EL ANÁLISIS CLUSTER

� MÉTODOS PONDERADOS-NO PONDERADOS:

� LOS MÉTODOS NO PONDERADOS SON AQUELLOS QUEESTABLECEN EL MISMO PESO A TODAS LASCARACTERÍSTICAS DE LOS INDIVIDUOS A CLASIFICAR.

� LOS PONDERADOS HACEN RECAER MAYOR PESO ENDETERMINADAS CARACTERÍSTICAS.

� MÉTODOS ADAPTATIVOS-NO ADAPTATIVOS:

� LOS MÉTODOS NO ADAPTATIVOS SON AQUELLOS PARA LOSQUE EL ALGORITMO UTILIZADO SE DIRIGE HACIA UNASOLUCIÓN EN LA QUE EL MÉTODO DE FORMACIÓN DECONGLOMERADOS ES FIJO Y ESTÁ PREDETERMINADO.

� LOS ADAPTATIVOS (MENOS UTILIZADOS) SON AQUELLOSQUE DE ALGUNA MANERA APRENDEN DURANTE ELPROCESO DE FORMACIÓN DE LOS GRUPOS Y MODIFICANEL CRITERIO DE OPTIMIZACIÓN O LA MEDIDA DESIMILITUD A UTILIZAR.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 34

EL ANÁLISIS CLUSTER

� CLUSTERS JERÁRQUICOS, SECUENCIALES, AGLOMERATIVOS YEXCLUSIVOS (S.A.H.N.)

� LOS MÉTODOS MÁS USADOS SON LOS QUE SON A LA VEZ:

� SECUENCIALES.

� AGLOMERATIVOS.

� JERÁRQUICOS.

� EXCLUSIVOS.

� RECIBEN EL ACRÓNIMO, EN LENGUA INGLESA, DE S.A.H.N.(SEQUENTIAL, AGGLOMERATIVE, HIERARCHIC YNONOVERLAPING).

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 35

EL ANÁLISIS CLUSTER

� CLUSTERS JERÁRQUICOS, SECUENCIALES, AGLOMERATIVOS YEXCLUSIVOS (S.A.H.N.)

� ALGUNOS MÉTODOS DE TIPO S.A.H.N. SON:

� METODO DE UNIÓN SIMPLE (SINGLE LINKAGE CLUSTERING),ENTORNO O VECINO MÁS CERCANO (NEAREST NEIGHBOUR)O MÉTODO DEL MÍNIMO (MINIMUM METHOD).

� MÉTODO DE LA DISTANCIA MÁXIMA O MÉTODO DELMÁXIMO (COMPLETE LINKAGE CLUSTERING, FURTHESTNEIGHBOUR O MAXIMUM METHOD).

� MÉTODO DE LA MEDIA O DE LA DISTANCIA PROMEDIO NOPONDERADO (WEIGHTED PAIR GROUPS METHOD USINGARITHMETIC AVERAGES WPGMW).

� MÉTODO DE LA MEDIA PONDERADA O DE LA DISTANCIAPROMEDIO PONDERADO (GROUP AVERAGE O UNWEIGHTEDPAIR GROUPS METHOD USING ARITHMETIC AVERAGESUPGMA).

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 36

EL ANÁLISIS CLUSTER

� CLUSTERS JERÁRQUICOS, SECUENCIALES, AGLOMERATIVOS YEXCLUSIVOS (S.A.H.N.)

� ALGUNOS MÉTODOS DE TIPO S.A.H.N. SON:

� MÉTODO DE LA MEDIANA O DE LA DISTANCIA MEDIANA(WEIGHTED PAIR GROUP CENTROID METHOD WPGMC).

� MÉTODO DEL CENTROIDE O DE LA DISTANCIA PROTOTIPO(UNWEIGHTED PAIR GROUP CENTROID METHOD UPGMC).

� MÉTODO DE WARD O DE MÍNIMA VARIANZA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 37

EL ANÁLISIS CLUSTER

� EL DENDOGRAMA EN EL ANÁLISIS CLUSTER JERÁRQUICO

� ES HABITUAL LA NECESIDAD DE CLASIFICAR LOS DATOS ENGRUPOS CON ESTRUCTURA ARBORESCENTE DEDEPENDENCIA, DE ACUERDO CON DIFERENTES NIVELES DEJERARQUÍA:

� SE PARTE DE TANTOS GRUPOS INICIALES COMOINDIVIDUOS SE ESTUDIAN.

� SE TRATA DE CONSEGUIR AGRUPACIONES SUCESIVASENTRE ELLOS DE FORMA QUE PROGRESIVAMENTE SE VAYANINTEGRANDO EN CLUSTERS.

� LOS CLUSTERS, A SU VEZ, SE UNIRÁN ENTRE SÍ EN UNNIVEL SUPERIOR FORMANDO GRUPOS MAYORES QUE MÁSTARDE SE JUNTARAN HASTA LLEGAR AL CLUSTER FINAL.

� EL CLUSTER FINAL CONTIENE TODOS LOS CASOSANALIZADOS.

� LA REPRESENTACIÓN GRÁFICA DE ESTAS ETAPAS DEFORMACIÓN DE GRUPOS, A MODO DE ÁRBOL INVERTIDO, SEDENOMINA DENDOGRAMA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 38

EL ANÁLISIS CLUSTER

� EL DENDOGRAMA EN EL ANÁLISIS CLUSTER JERÁRQUICO

� DENDOGRAMA:

� Nivel de jerarquía H

F

G

D

BC

E

A

1 2 3 4 5 6 7 8 9 10 Indiv.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 39

EL ANÁLISIS CLUSTER

� EL DENDOGRAMA EN EL ANÁLISIS CLUSTER JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 40

EL ANÁLISIS CLUSTER

� EL DENDOGRAMA EN EL ANÁLISIS CLUSTER JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 41

EL ANÁLISIS CLUSTER

� EL DENDOGRAMA EN EL ANÁLISIS CLUSTER JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 42

EL ANÁLISIS CLUSTER

� EJEMPLO DE ANÁLISIS CLUSTER JERÁRQUICO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 43

EL ANÁLISIS CLUSTER

� EJEMPLO DE ANÁLISIS CLUSTER JERÁRQUICO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 44

EL ANÁLISIS CLUSTER

� EJEMPLO DE ANÁLISIS CLUSTER JERÁRQUICO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 45

EL ANÁLISIS CLUSTER

� EJEMPLO DE ANÁLISIS CLUSTER JERÁRQUICO

� RESULTADOS COMPLETOS

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 46

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� LA CLASIFICACIÓN DE TODOS LOS CASOS DE UNA TABLA DEDATOS EN GRUPOS SEPARADOS QUE CONFIGURA EL PROPIOANÁLISIS PROPORCIONA CLUSTERS NO JERÁRQUICOS:

� NO HAY UNA ESTRUCTURA VERTICAL DE DEPENDENCIAENTRE LOS GRUPOS FORMADOS.

� LOS GRUPOS NO SE PRESENTAN EN DISTINTOS NIVELESDE JERARQUÍA.

� EL ANÁLISIS PRECISA QUE SE FIJE DE ANTEMANO EL N° DECLUSTERS EN QUE QUIERE AGRUPAR SUS DATOS.

� SI NO EXISTE UN N° DEFINIDO DE GRUPOS O, SI EXISTE PERO NOSE CONOCE EL N°:

� SE DEBE REPETIR LA PRUEBA CON DIFERENTE N° A FIN DEEVALUAR LA CLASIFICACIÓN:

� QUE MEJOR SE AJUSTE AL OBJETIVO DEL PROBLEMA, O.

� QUE BRINDE LA MÁS CLARA INTERPRETACIÓN.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 47

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� LOS MÉTODOS NO JERÁRQUICOS TAMBIÉN SE CONOCEN COMOMÉTODOS PARTITIVOS O DE OPTIMIZACIÓN:

� TIENEN POR OBJETIVO REALIZAR UNA SOLA PARTICIÓN DELOS INDIVIDUOS EN K GRUPOS:

� ESTO IMPLICA QUE SE DEBE ESPECIFICAR A PRIORI LOSGRUPOS QUE DEBEN SER FORMADOS.

� ESTA ES UNA IMPORTANTE DIFERENCIA RESPECTO DELOS MÉTODOS JERÁRQUICOS.

� LA ASIGNACIÓN DE INDIVIDUOS A LOS GRUPOS SE HACEMEDIANTE ALGÚN PROCESO QUE OPTIMICE ELCRITERIO DE SELECCIÓN.

� SE TRABAJA CON LA MATRIZ DE DATOS ORIGINAL Y NO SEREQUIERE SU CONVERSIÓN EN UNA MATRIZ DE PROXIMIDADES.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 48

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� PEDRET AGRUPA LOS MÉTODOS NO JERÁRQUICOS EN LASCUATRO FAMILIAS SIGUIENTES:

� REASIGNACIÓN.

� BÚSQUEDA DE LA DENSIDAD.

� DIRECTOS.

� REDUCCIÓN DE DIMENSIONES.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 49

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� LOS MÉTODOS DE REASIGNACIÓN PERMITEN QUE UNINDIVIDUO ASIGNADO A UN GRUPO EN UN DETERMINADO PASODEL PROCESO SEA REASIGNADO A OTRO GRUPO EN UN PASOPOSTERIOR SI ESTO OPTIMIZA EL CRITERIO DE SELECCIÓN:

� EL PROCESO TERMINA CUANDO NO QUEDAN INDIVIDUOSCUYA REASIGNACIÓN PERMITA OPTIMIZAR EL RESULTADOQUE SE HA CONSEGUIDO.

� EJEMPLOS DE ALGORITMOS:

� MÉTODO K-MEANS (O K-MEDIAS) DE MCQUEEN (1967).

� QUICK CLUSTER ANALYSIS.

� MÉTODO DE FORGY.

� SE SUELEN AGRUPAR COMO MÉTODOS CENTROIDES OCENTROS DE GRAVEDAD.

� MÉTODO DE LAS NUBES DINÁMICAS DE DIDAY.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 50

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� LOS MÉTODOS DE BÚSQUEDA DE LA DENSIDAD PRESENTANUNA APROXIMACIÓN TIPOLÓGICA Y UNA APROXIMACIÓNPROBABILÍSTICA:

� EN LA APROXIMACIÓN TIPOLÓGICA LOS GRUPOS SEFORMAN BUSCANDO LAS ZONAS EN LAS CUALES SE DA UNAMAYOR CONCENTRACIÓN DE INDIVIDUOS:

� LOS ALGORITMOS MÁS CONOCIDOS SON EL ANÁLISISMODAL DE WISHART, EL MÉTODO DE TAXMAP DECARMICHAEL Y SNEATH, Y EL MÉTODO DE FORTIN.

� EN LA APROXIMACIÓN PROBABILÍSTICA SE PARTE DELPOSTULADO DE QUE LAS VARIABLES SIGUEN UNA LEY DEPROBABILIDAD SEGÚN LA CUAL LOS PARÁMETROS VARÍANDE UN GRUPO A OTRO:

� SE TRATA DE ENCONTRAR LOS INDIVIDUOS QUEPERTENECEN A LA MISMA DISTRIBUCIÓN.

� SE DESTACA EL MÉTODO DE LAS COMBINACIONES DEWOLF.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 51

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� LOS MÉTODOS DIRECTOS PERMITEN CLASIFICARSIMULTÁNEAMENTE A LOS INDIVIDUOS Y A LAS VARIABLES:

� LAS ENTIDADES AGRUPADAS SON LAS OBSERVACIONES, ESDECIR, LOS CRUCES QUE CONFIGURAN LA MATRIZ DE DATOS.

� LOS MÉTODOS DE REDUCCIÓN DE DIMENSIONES, COMO ELANÁLISIS FACTORIAL DE TIPO Q, GUARDAN RELACIÓN CON ELANÁLISIS CLUSTER:

� CONSISTE EN BUSCAR FACTORES EN EL ESPACIO DE LOSINDIVIDUOS, CORRESPONDIENDO CADA FACTOR A UN GRUPO.

� LA INTERPRETACIÓN DE LOS GRUPOS PUEDE SERCOMPLEJA DADO QUE CADA INDIVIDUO PUEDECORRESPONDER A VARIOS FACTORES DIFERENTES.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 52

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� SE SUPONE QUE UNA CLASIFICACIÓN CORRECTA DEBE SERAQUELLA EN QUE LA DISPERSIÓN DENTRO DE CADA GRUPOFORMADO SEA LA MENOR POSIBLE:

� ES EL CRITERIO DE VARIANZA.

� LLEVA A SELECCIONAR UNA CONFIGURACIÓN CUANDO LASUMA DE LAS VARIANZAS DENTRO DE CADA GRUPO SEAMÍNIMA:

� VARIANZA RESIDUAL MÍNIMA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 53

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� HAY DIVERSOS ALGORITMOS DE CLASIFICACIÓN NOJERÁRQUICA:

� INTENTAN MINIMIZAR PROGRESIVAMENTE LA VARIANZA.

� DIFIEREN EN:

� LA ELECCIÓN DE LOS CLUSTERS PROVISIONALES QUENECESITA EL ARRANQUE DEL PROCESO.

� MÉTODO DE ASIGNACIÓN DE INDIVIDUOS A LOSGRUPOS.

� LOS MÁS UTILIZADOS SON:

� ALGORITMO DE LA H-MEDIAS.

� ALGORITMO DE LAS K-MEDIAS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 54

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EL ALGORITMO DE LAS H-MEDIAS:

� PARTE DE UNA PRIMERA CONFIGURACIÓN ARBITRARIA DEGRUPOS CON SU CORRESPONDIENTE MEDIA.

� SE ELIGE UN PRIMER INDIVIDUO DE ARRANQUE DE CADAGRUPO.

� SE ASIGNA POSTERIORMENTE CADA CASO AL GRUPO CUYAMEDIA ES MÁS CERCANA.

� SE CALCULA DE NUEVO LAS MEDIAS O CENTROIDES Y SELAS TOMA EN LUGAR DE LOS PRIMEROS INDIVIDUOS COMOUNA MEJOR APROXIMACIÓN DE LOS MISMOS.

� SE REPITE EL PROCESO MIENTRAS LA VARIANZA RESIDUALVAYA DISMINUYENDO.

� LA PARTICIÓN DE ARRANQUE DEFINE EL N° CLUSTERS:

� PUEDE DISMINUIR SI NINGÚN CASO ES ASIGNADO AALGUNO DE ELLOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 55

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EL ALGORITMO DE LAS K-MEDIAS:

� ES EL MÁS IMPORTANTE DESDE LOS PUNTOS DE VISTACONCEPTUAL Y PRÁCTICO.

� PARTE TAMBIÉN DE UNAS MEDIAS ARBITRARIAS.

� CONTRASTA EL EFECTO QUE SOBRE LA VARIANZARESIDUAL TIENE LA ASIGNACIÓN DE C/U DE LOS CASOS AC/U DE LOS GRUPOS.

� EL VALOR MÍNIMO DE VARIANZA DETERMINA UNACONFIGURACIÓN DE NUEVOS GRUPOS CON SUSRESPECTIVAS MEDIAS.

� SE ASIGNAN OTRA VEZ TODOS LOS CASOS A ESTOS NUEVOSCENTROIDES.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 56

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EL PROCESO QUE SE REPITE:

� HASTA QUE NINGUNA TRANSFERENCIA PUEDE YADISMINUIR LA VARIANZA RESIDUAL, O.

� SE ALCANCE OTRO CRITERIO DE PARADA:

• UN NÚMERO LIMITADO DE PASOS DE ITERACIÓN.

• QUE LA DIFERENCIA OBTENIDA ENTRE LOSCENTROIDES DE DOS PASOS CONSECUTIVOS SEAMENOR QUE UN VALOR PREFIJADO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 57

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EL PROCEDIMIENTO CONFIGURA LOS GRUPOS MAXIMIZANDOLA DISTANCIA ENTRE SUS CENTROS DE GRAVEDAD:

� COMO LA VARIANZA TOTAL ES FIJA:

� MINIMIZAR LA RESIDUAL HACE MÁXIMA LA FACTORIAL OINTERGRUPOS.

� MINIMIZAR LA VARIANZA RESIDUAL ES EQUIVALENTE ACONSEGUIR QUE SEA MÍNIMA LA SUMA DE DISTANCIAS ALCUADRADO DESDE LOS CASOS A LA MEDIA DEL CLUSTERAL QUE VAN A SER ASIGNADOS.

� EL MÉTODO UTILIZA LA DISTANCIA EUCLÍDEA ALCUADRADO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 58

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� PROPORCIONA UNA SOLUCIÓN FINAL ÚNICA PARA EL N° DECLUSTERS ELEGIDO:

� SE LLEGARÁ CON MENOR NÚMERO DE ITERACIONESCUANTO MÁS CERCA ESTÉN LAS “MEDIAS” DE ARRANQUEDE LAS QUE VAN A SER FINALMENTE OBTENIDAS.

� SE SELECCIONAN ESTOS PRIMEROS VALORES, TANTOSCOMO GRUPOS SE PRETENDA FORMAR, ENTRE LOS PUNTOSMÁS SEPARADOS DE LA NUBE.

� LOS CLUSTERS NO JERÁRQUICOS ESTÁN INDICADOS PARA:

� GRANDES TABLAS DE DATOS.

� DETECCIÓN DE CASOS ATÍPICOS:

� SI SE ELIGE PREVIAMENTE UN N° ELEVADO DE GRUPOS,SUPERIOR AL DESEADO, AQUELLOS QUE CONTENGANMUY POCOS INDIVIDUOS SERVIRÍAN PARA DETECTARCASOS EXTREMOS QUE PODRÍAN DISTORSIONAR LACONFIGURACIÓN.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 59

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� UN PROBLEMA IMPORTANTE ES LA ELECCIÓN DE UN N°ADECUADO DE CLUSTERS.

� SE USAN CRITERIOS TANTO MATEMÁTICOS COMO DEINTERPRETABILIDAD.

� ENTRE LOS CRITERIOS MATEMÁTICOS SE HAN DEFINIDONUMEROSOS INDICADORES DE ADECUACIÓN:

� CRITERIO CÚBICO DE CLUSTERS.

� PSEUDO F.

� EL USO INTELIGENTE DE LOS CRITERIOS MATEMÁTICOS,COMBINADO CON LA INTERPRETABILIDAD PRÁCTICA DE LOSGRUPOS:

� CONSTITUYE EL ARTE DE LA DECISIÓN EN LACLASIFICACIÓN MULTIVARIANTE DE DATOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 60

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� SE SUPONE QUE N ES EL N° DE SUJETOS A CLASIFICARFORMANDO K GRUPOS, RESPECTO A N VARIABLES X1,…, Xn.

� SEAN W, B Y T LAS MATRICES DE DISPERSIÓN DENTRO GRUPOS,ENTRE GRUPOS Y TOTAL RESPECTIVAMENTE:

� T = B + W.

� T NO DEPENDE DE LA FORMA EN QUE HAN SIDO AGRUPADOSLOS SUJETOS.

� UN CRITERIO RAZONABLE DE CLASIFICACIÓN CONSISTE EN:

� CONSTRUIR K GRUPOS.

� LOGRAR QUE B SEA MÁXIMA O W SEA MÍNIMA,SIGUIENDO ALGÚN CRITERIO APROPIADO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 61

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� ALGUNOS DE ESTOS CRITERIOS APROPIADOS SON:

� LOS CRITERIOS a) Y b) SE JUSTIFICAN PORQUE TRATAN DEMINIMIZAR LA MAGNITUD DE LA MATRIZ W.

� EL CRITERIO e) ES LLAMADO CRITERIO DE WILKS Y ESEQUIVALENTE A b) PORQUE det(T) ES CONSTANTE.

� EL CASO d) ES EL LLAMADO CRITERIO DE HOTTELLING.

� EL CRITERIO e) REPRESENTA LA SUMA DE LAS DISTANCIAS DEMAHALANOBIS DE CADA SUJETO AL CENTROIDE DEL GRUPOAL QUE ES ASIGNADO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 62

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� COMO EL N° DE FORMAS DE AGRUPAR N SUJETOS EN K GRUPOSES DEL ORDEN DE KN*K!, UNA VEZ ELEGIDO EL CRITERIO DEOPTIMIZACIÓN:

� ES NECESARIO SEGUIR ALGÚN ALGORITMO ADECUADO DECLASIFICACIÓN PARA EVITAR UN N° TAN ELEVADO DEAGRUPAMIENTOS.

� EL MÉTODO ISODATA, INTRODUCIDO POR BALL Y HALL (1967),ES UNO DE LOS MÁS CONOCIDOS:

� CONSISTE EN PARTIR DE K CLASES (CONSTRUIDAS POREJEMPLO ALEATORIAMENTE).

� REASIGNAR UN SUJETO DE UNA CLASE i A UNA CLASE j SI SEMEJORA EL CRITERIO ELEGIDO DE OPTIMIZACIÓN.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 63

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 64

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 65

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 66

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 67

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 68

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 69

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 70

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 71

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 72

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 73

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 74

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 75

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 76

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 77

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 78

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 79

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 80

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 81

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 82

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 83

EL ANÁLISIS CLUSTER

� ANÁLISIS CLUSTER NO JERÁRQUICO

� EJEMPLO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 84

EL ANÁLISIS CLUSTER

� EJEMPLO DE ANÁLISIS CLUSTER NO JERÁRQUICO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 85

EL ANÁLISIS CLUSTER

� EJEMPLO DE ANÁLISIS CLUSTER NO JERÁRQUICO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 86

EL ANÁLISIS CLUSTER

� EJEMPLO DE ANÁLISIS CLUSTER NO JERÁRQUICO

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 87

EL ANÁLISIS CLUSTER

� EJEMPLO DE ANÁLISIS CLUSTER NO JERÁRQUICO

� RESULTADOS COMPLETOS

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 88

LOS ÁRBOLES DE DECISIÓN COMO TÉCNICA PREDICTIVA DE CLASIFICACIÓN

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 89

LOS ÁRBOLES DE DECISIÓN

� LOS ÁRBOLES DE DECISIÓN, TAMBIÉN LLAMADOS ÁRBOLES DECLASIFICACIÓN:

� PRESENTAN UN ASPECTO SIMILAR A LOS DENDOGRAMASDEL ANÁLISIS DE CONGLOMERADOS JERÁRQUICO.

� SE CONSTRUYEN E INTERPRETAN DE FORMACOMPLETAMENTE DISTINTA.

� SON MÉTODOS:

� MUY FLEXIBLES.

� PUEDEN MANEJAR:

� UN GRAN N° DE VARIABLES.

� COMPLICADAS INTERACCIONES ENTRE ELLAS.

� LOS RESULTADOS RESULTAN FÁCILMENTEINTERPRETABLES PARA CUALQUIER PERSONA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 90

LOS ÁRBOLES DE DECISIÓN

� LOS ÁRBOLES DE CLASIFICACIÓN:

� SON PARTICIONES SECUENCIALES DEL CONJUNTO DEDATOS.

� SE BUSCA MAXIMIZAR LAS DIFERENCIAS DE LA VARIABLEDEPENDIENTE O CRITERIO BASE:

� CONLLEVAN LA DIVISIÓN DE LAS OBSERVACIONES ENGRUPOS QUE DIFIEREN RESPECTO A UNA VARIABLE DEINTERÉS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 91

LOS ÁRBOLES DE DECISIÓN

� ESTOS MÉTODOS DESARROLLAN UN PROCESO DE DIVISIÓN DEFORMA ARBORESCENTE:

� SE DETERMINA LA DIVISIÓN MÁS DISCRIMINANTE DE ENTRELOS CRITERIOS SELECCIONADOS:

� AQUELLA QUE PERMITE DIFERENCIAR MEJOR A LOSDISTINTOS GRUPOS DEL CRITERIO BASE:

• SE OBTIENE DE ESTE MODO LA PRIMERASEGMENTACIÓN.

� SE REALIZAN NUEVAS SEGMENTACIONES DE C/U DE LOSSEGMENTOS RESULTANTES.

� SE SIGUE HASTA QUE EL PROCESO FINALIZA:

� CON ALGUNA NORMA ESTADÍSTICA PREESTABLECIDA, O.

� INTERRUMPIDO VOLUNTARIAMENTE EN CUALQUIERMOMENTO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 92

LOS ÁRBOLES DE DECISIÓN

� EJEMPLO

� SE SUPONE QUE SE DESEA CONOCER QUÉ PASAJEROS DELTITANIC TUVIERON MÁS PROBABILIDADES DE SOBREVIVIR A SUHUNDIMIENTO, Y QUÉ CARACTERÍSTICAS ESTUVIERONASOCIADAS A LA SUPERVIVENCIA AL NAUFRAGIO.

� LA VARIABLE DE INTERÉS (VD) ES EL GRADO DESUPERVIVENCIA.

� SE PODRÍA ENTONCES DIVIDIR A LOS PASAJEROS EN GRUPOS DEEDAD, SEXO Y CLASE EN LA QUE VIAJABAN Y OBSERVAR LAPROPORCIÓN DE SUPERVIVIENTES DE CADA GRUPO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 93

LOS ÁRBOLES DE DECISIÓN

� EJEMPLO

� UN PROCEDIMIENTO ARBORESCENTE SELECCIONAAUTOMÁTICAMENTE LOS GRUPOS HOMOGÉNEOS CON LAMAYOR DIFERENCIA EN PROPORCIÓN DE SUPERVIVIENTESENTRE ELLOS; EN ESTE CASO, EL SEXO (HOMBRES Y MUJERES).

� EL SIGUIENTE PASO ES SUBDIVIDIR CADA UNO DE LOS GRUPOSEN FUNCIÓN DE OTRA CARACTERÍSTICA, RESULTANDO QUELOS HOMBRES SON DIVIDIDOS EN ADULTOS Y NIÑOS, MIENTRASQUE LAS MUJERES SE DIVIDEN EN GRUPOS BASADOS EN LACLASE EN LA QUE VIAJAN EN EL BARCO.

� UTILIZAR DIFERENTES PREDICTORES EN CADA NIVEL DELPROCESO DE DIVISIÓN SUPONE UNA FORMA SENCILLA YELEGANTE DE MANEJAR INTERACCIONES QUE A MENUDOCOMPLICAN EN EXCESO LOS MODELOS LINEALESTRADICIONALES.

� CUANDO SE HA COMPLETADO EL PROCESO DE SUBDIVISIÓN ELRESULTADO ES UN CONJUNTO DE REGLAS QUE PUEDENVISUALIZARSE FÁCILMENTE MEDIANTE UN ÁRBOL.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 94

LOS ÁRBOLES DE DECISIÓN

� EJEMPLO

� SI UN PASAJERO DEL TITANIC ES HOMBRE Y ES ADULTO,ENTONCES TIENE UNA PROBABILIDAD DE SOBREVIVIR DEL 20POR CIENTO.

� LA PROPORCIÓN DE SUPERVIVENCIA EN C/U DE LASSUBDIVISIONES PUEDE UTILIZARSE CON FINES PREDICTIVOSPARA VATICINAR EL GRADO DE SUPERVIVENCIA DE LOSMIEMBROS DE ESE GRUPO.

�PASAJEROS

HOMBRES MUJERES

ADULTOS 20%

NIÑOS 45%

1°y 2°CLASE 93%

3°CLASE Y TRIPUL.46%

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 95

LOS ÁRBOLES DE DECISIÓN

� EJEMPLO 2

� ALGORITMO DIVIDE Y VENCERÁS:

� 1. SE CREA UN NODO RAÍZ CON S:= TODOS LOS EJEMPLOS.

� 2. SI TODOS LOS ELEMENTOS DE S SON DE LA MISMACLASE, EL SUBÁRBOL SE CIERRA. SOLUCIÓNENCONTRADA.

� 3. SE ELIGE UNA CONDICIÓN DE PARTICIÓN SIGUIENDO UNCRITERIO DE PARTICIÓN (SPLIT CRITERION).

� 4. EL PROBLEMA (Y S) QUEDA SUBDIVIDO EN DOSSUBÁRBOLES (LOS QUE CUMPLEN LA CONDICIÓN Y LOSQUE NO) Y SE VUELVE A 2 PARA CADA UNO DE LOS DOSSUBÁRBOLES.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 96

LOS ÁRBOLES DE DECISIÓN

� EJEMPLO 2

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 97

LOS ÁRBOLES DE DECISIÓN

� EJEMPLO 3

� EJEMPLO CON DATOS DISCRETOS

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 98

LOS ÁRBOLES DE DECISIÓN

� EJEMPLO 3

� EJEMPLO CON DATOS DISCRETOS

� REPRESENTACIÓN LÓGICA:

� (OUTLOOK=SUNNY AND HUMIDITY=NORMAL) OR(OUTLOOK=OVERCAST) OR (OUTLOOK=RAIN ANDWIND=WEAK).

� EJ.: LA INSTANCIA (OUTLOOK = SUNNY, TEMPERATURE =COOL, HUMIDITY = HIGH, WIND = STRONG) ES NO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 99

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� LAS CARACTERÍSTICAS MÁS IMPORTANTES SON:

� LA ESPECIFICACIÓN DE LOS CRITERIOS PARA MINIMIZARLOS COSTES.

� LA SELECCIÓN DEL MÉTODO DE DIVISIÓN.

� LA ELECCIÓN DEL TRAMO DE ÁRBOL ADECUADO OPROBLEMA DEL SOBREAJUSTE.

� EN CUANTO A LA ESPECIFICACIÓN DE LOS CRITERIOS PARAMINIMIZAR LOS COSTES, EL OBJETIVO ES CLASIFICAR OPREDECIR CON EL MÍNIMO COSTE.

� GENERALMENTE LOS COSTES HACEN REFERENCIA A LAPROPORCIÓN DE CASOS MAL CLASIFICADOS.

� PUEDEN INFLUIR TAMBIÉN EN LOS COSTES FINALES DE UNACLASIFICACIÓN:

� LAS PROBABILIDADES A PRIORI.

� LOS COSTES DE UNA CLASIFICACIÓN ERRÓNEA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 100

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� LAS PROBABILIDADES A PRIORI O PONDERACIONES DE CLASE:

� ESPECIFICAN LA PROBABILIDAD, SIN TENER NINGÚNCONOCIMIENTO PREVIO DE LOS VALORES DE LOSPREDICTORES, DE QUE UN CASO CAIGA EN C/U DE LASCLASES DE LA VARIABLE DEPENDIENTE.

� EJ.: EN UN ESTUDIO EDUCACIONAL, SE OBSERVA QUE ENGENERAL EN SECUNDARIA EXISTEN MUCHOS MENOSABANDONOS ESCOLARES QUE CHICOS QUE SIGUENESTUDIANDO:

� LA PROBABILIDAD A PRIORI DE QUE UN ESTUDIANTEABANDONE LA ESCUELA ES MENOR QUE LAPROBABILIDAD DE QUE PERMANEZCA EN ELLA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 101

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� LAS PROBABILIDADES A PRIORI CONSTITUYEN ELEMENTOSCENTRALES DE CUALQUIER ÁRBOL DE DECISIÓN.

� ES POSIBLE UTILIZAR PONDERACIONES ESTIMADAS SEGÚN LASPROPORCIONES DE CADA CLASE.

� OTRA POSIBILIDAD ES ESPECIFICAR PROBABILIDADES IGUALESPARA CADA CLASE, TRATANDO A TODAS ELLAS COMO SI FUESENDEL MISMO TAMAÑO.

� OTRO FACTOR QUE INFLUYE EN EL COSTE DE UNACLASIFICACIÓN SON LOS COSTES DE UNA CLASIFICACIÓNERRÓNEA.

� LA MAYOR PARTE DE LOS ÁRBOLES DE DECISIÓN PERMITENESPECIFICAR TAMBIÉN COSTES VARIABLES DE UNACLASIFICACIÓN ERRÓNEA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 102

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� EJ. DE COSTE VARIABLE:

� QUE PARA UN BANCO SEA 10 VECES MÁS COSTOSO NO SERCAPAZ DE DETECTAR UNA TRANSACCIÓN FRAUDULENTAQUE DETENER UNA TRANSACCIÓN LEGAL.

� QUE SEA 200 VECES MÁS COSTOSO PARA UN HOSPITAL NODETECTAR UNA ENFERMEDAD CONTAGIOSA EN UN PACIENTEQUE DIAGNOSTICAR COMO CONTAGIOSA UNA ENFERMEDADQUE NO LO ES.

� NORMALMENTE ESTOS COSTES SE COMPUTAN CUANDO ELÁRBOL YA HA SIDO DESARROLLADO COMPLETAMENTE:

� NO TIENEN IMPACTO SOBRE SU ESTRUCTURA BÁSICA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 103

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� REGLA GENERAL: CONVIENE TENER EN CUENTA QUEMINIMIZAR LOS COSTES SE CORRESPONDE CON MINIMIZAR LAPROPORCIÓN DE CASOS MAL CLASIFICADOS ÚNICAMENTECUANDO:

� LAS PROBABILIDADES A PRIORI SE ESTIMAN DE FORMAPROPORCIONAL AL TAMAÑO DE CADA CLASE.

� LOS COSTES DE UNA CLASIFICACIÓN ERRÓNEA SON IGUALESEN CADA CLASE.

� LA SELECCIÓN DEL MÉTODO DE DIVISIÓN TRATA DE ESCOGEREL MÉTODO CON EL QUE SELECCIONAR, EN C/U DE LOS NIVELESDEL PROCESO DE DIVISIÓN, LA MEJOR DIVISIÓN POSIBLE DELMEJOR PREDICTOR.

� LOS ENFOQUES PREDOMINANTES SON:

� MÉTODOS EXHAUSTIVOS.

� MÉTODOS DE TIPO DISCRIMINANTE.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 104

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� MÉTODOS EXHAUSTIVOS: EL MÁS CONOCIDO YCONCEPTUALMENTE MÁS SIMPLE CONSISTE EN:

� EXAMINAR TODAS LAS POSIBLES DIVISIONES DE LOS DATOSSEGÚN CADA PREDICTOR.

� SELECCIONAR LA DIVISIÓN QUE PRODUCE CLASIFICACIONESMÁS PURAS (OBSERVANDO LA MEJORÍA EN LA BONDAD DEAJUSTE).

� LA BONDAD DE AJUSTE SE DETERMINA MEDIANTE:

� UNA SERIE DE MEDIDAS:

� GINI, ENTROPÍA, CHI-CUADRADO, TWOING, SYMGINI,TWOING ORDENADO, DESVIACIÓN DE MÍNIMOSCUADRADOS, COMBINACIONES LINEALES.

� CADA MEDIDA UTILIZAN ESTRATEGIAS MUY DIFERENTES YDESARROLLA ÁRBOLES DE CLASIFICACIÓNSUSTANCIALMENTE DISTINTOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 105

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� NO EXISTE UNA MEDIDA UNIVERSALMENTE PREFERIBLE PARACUALQUIER PROBLEMA:

� RESULTA CONVENIENTE DISPONER DE UNA AMPLIA GAMADE COEFICIENTES PARA PODER SELECCIONAR EL QUEMEJOR SE ADAPTA A CADA PROBLEMA CONCRETO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 106

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� PRINCIPALES PROBLEMAS DE LOS MÉTODOS EXHAUSTIVOSSON:

� SU COMPLEJIDAD COMPUTACIONAL (CUANDO HAY UNGRAN N° DE PREDICTORES CON MUCHOS NIVELES C/U, EL N°TOTAL DE DIVISIONES POSIBLES QUE DEBEN SEREXAMINADAS POR EL PROGRAMA LLEGA A SER ENORME).

� EL SESGO PARA SELECCIONAR VARIABLES, YA QUE ESTOSMÉTODOS TIENDEN A SELECCIONAR PRIMERO LOSPREDICTORES CON MÁS CATEGORÍAS.

� LOS MÉTODOS DE TIPO DISCRIMINANTE LOGRANRESOLVER AMBOS PROBLEMAS.

� MÉTODOS DE TIPO DISCRIMINANTE: ESTE TIPO DE MÉTODOSSIGUEN UN PROCESO DIFERENTE, COMPUTACIONALMENTE MÁSSENCILLO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 107

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� EN CADA NODO:

� CALCULAN PRIMERO:

� UN TEST CHI-CUADRADO: PARA CADA PREDICTORCATEGÓRICO.

� UN ANOVA: PARA CADA PREDICTOR MÉTRICO.

� SELECCIONAN DE ENTRE TODAS LAS VARIABLESSIGNIFICATIVAS, LA QUE PROPORCIONA PROBABILIDADESASOCIADAS MENORES.

� SE APLICA UN ANÁLISIS DISCRIMINANTE SOBRE ELPREDICTOR CON EL FIN DE ENCONTRAR LA MEJOR DIVISIÓNPOSIBLE DE LA VARIABLE.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 108

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� EN CUANTO A LA ELECCIÓN DEL TAMAÑO ADECUADO OPROBLEMA DEL SOBREAJUSTE, UNA CARACTERÍSTICA DE LOSÁRBOLES DE CLASIFICACIÓN ES QUE:

� SI NO SE ESTABLECE NINGÚN LÍMITE EN EL N° DEDIVISIONES A EJECUTAR, SE CONSIGUE SIEMPRE UNACLASIFICACIÓN PURA, EN LA QUE CADA NODO CONTIENEÚNICAMENTE UNA SOLA CLASE DE OBJETOS.

� LAS CLASIFICACIONES PURAS PRESENTAN VARIOSINCONVENIENTES PORQUE SUELEN SER POCO REALISTAS.

� SE CORRE EL RIESGO DE ENCONTRARNOS CON MUY POCOSELEMENTOS EN CADA CLASE.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 109

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� ESTA FALTA DE GENERALIZACIÓN, DE REPLICACIÓN A OTRASMUESTRAS, SE CONOCE COMO SOBREAJUSTE (OSOBREAPRENDIZAJE EN EL MARCO DE LAS REDESNEURONALES):

� PARA SOLUCIONARLO SE HAN PLANTEADO NUMEROSASESTRATEGIAS DIFERENTES Y EN OCASIONESCOMPLEMENTARIAS.

� LAS PRINCIPALES SON:

� LAS REGLAS DE PARADA.

� LA PODA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 110

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� REGLAS DE PARADA:

� UNA PRIMERA ESTRATEGIA CONSISTE EN DETENER LAGENERACIÓN DE NUEVAS DIVISIONES CUANDO ESTASSUPONGAN UNA MEJORA MUY PEQUEÑA DE LA PREDICCIÓN.

� EJEMPLO:

� SI CON DIEZ DIVISIONES SE CLASIFICAN CORRECTAMENTE AL90 POR CIENTO DE LOS SUJETOS Y CON 11 DIVISIONES ELPORCENTAJE SUBE AL 90,1 POR CIENTO, NO TIENE MUCHOSENTIDO AÑADIR MÁS AL ÁRBOL.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 111

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� HAY MUCHAS REGLAS DE PARADA DIRECTA PARA DETENER LACONSTRUCCIÓN DEL ÁRBOL.

� LAS PRINCIPALES SON LAS SIGUIENTES:

� EXTENSIÓN MÁXIMA DEL ÁRBOL, ES DECIR, N° DE NIVELESMÁXIMOS PERMITIDOS POR DEBAJO DEL NODO RAÍZ.

� MÍNIMO N° DE CASOS EN UN NODO, ESPECIFICA QUE LOSNODOS NO SOBREPASEN UN NÚMERO DETERMINADO DECASOS.

� MÍNIMA FRACCIÓN DE OBJETOS, QUE CONSISTE EN QUE LOSNODOS NO CONTENGAN MÁS CASOS QUE UNA FRACCIÓNDETERMINADA DEL TAMAÑO DE UNA O MÁS CLASES.

� LA REGLA DE PARADA LA ESTABLECE A PRIORI EL PROPIOINVESTIGADOR, EN FUNCIÓN DE INVESTIGACIONES PASADAS,ANÁLISIS PREVIOS, O INCLUSO EN FUNCIÓN DE SU PROPIAEXPERIENCIA E INTUICIÓN.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 112

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� PARA DETERMINAR SI EL TAMAÑO DE NUESTRO ÁRBOL ES ELADECUADO SE DEBE EVALUAR, UNA VEZ DETENIDO ELPROCESO DE DIVISIÓN, SU CALIDAD PREDICTIVA EN MUESTRASDISTINTAS A LAS UTILIZADAS PARA SU CÁLCULO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 113

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� LAS PRINCIPALES FORMAS DE VALIDACIÓN CRUZADA DE LACALIDAD PREDICTIVA DE UN ÁRBOL SON:

� VALIDACIÓN CRUZADA EN DOS MITADES:

� CONSISTE EN DIVIDIR LOS DATOS DISPONIBLES EN DOSPARTES, LA MUESTRA DE ESTIMACIÓN Y LA MUESTRADE VALIDACIÓN.

� DESARROLLAR UN ÁRBOL A PARTIR DE LA MUESTRA DEESTIMACIÓN.

� UTILIZARLO PARA PREDECIR LA CLASIFICACIÓN DE LAMUESTRA DE VALIDACIÓN.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 114

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� VALIDACIÓN CRUZADA EN v PARTES:

� DE LA MUESTRA DISPONIBLE SE EXTRAEALEATORIAMENTE v SUBMUESTRAS.

� SE CALCULAN v ÁRBOLES DE CLASIFICACIÓN, CADA VEZDEJANDO FUERA UNA DE LAS v SUBMUESTRAS PARAVALIDAR EL ANÁLISIS.

� CADA SUBMUESTRA SE UTILIZA v - 1 VECES PARAOBTENER EL ÁRBOL Y UNA SOLA VEZ PARA VALIDARLO:

• OPCIÓN SUMAMENTE ÚTIL CON MUESTRASPEQUEÑAS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 115

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� VALIDACIÓN CRUZADA GLOBAL:

� SE REPLICA EL ANÁLISIS COMPLETO UN N°DETERMINADO DE VECES.

� SE APARTA UNA FRACCIÓN DE LOS CASOS (CASOSHOLDOUT) PARA VALIDAR EL ÁRBOL SELECCIONADO.

� RESULTA ESPECIALMENTE ÚTIL EN COMBINACIÓN CONLAS TÉCNICAS AUTOMÁTICAS DE SELECCIÓN DEARBOLES:

• ENLAZA CON LA SEGUNDA DE LAS ESTRATEGIASPARA EVITAR EL SOBREAJUSTE: LA PODA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 116

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� PODA

� BREIMAN, FRIEDMAN, LOSEN Y STONE (1984) LLEGARON A LACONCLUSIÓN DE QUE RESULTA IMPOSIBLE ESPECIFICAR UNAREGLA QUE SEA TOTALMENTE FIABLE.

� EXISTE SIEMPRE EL RIESGO DE NO DESCUBRIR ESTRUCTURASRELEVANTES EN LOS DATOS DEBIDO A UNA FINALIZACIÓNPREMATURA DEL ANÁLISIS.

� SUGIEREN UN ENFOQUE ALTERNATIVO EN DOS FASES:

� PRIMERA FASE: SE DESARROLLA UN ENORME ÁRBOL QUECONTENGA CIENTOS O INCLUSO MILES DE NODOS.

� SEGUNDA FASE: EL ÁRBOL ES PODADO, ELIMINÁNDOSE LASRAMAS INNECESARIAS HASTA DAR CON EL TAMAÑOADECUADO DEL ÁRBOL.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 117

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� PODA

� PARA CALCULAR LOS COSTES DE VALIDACIÓN SE UTILIZA UNAFUNCIÓN QUE PENALIZA LA PROGRESIVA COMPLEJIDAD DELÁRBOL A MEDIDA QUE ÉSTE VA TENIENDO MÁS RAMAS.

� ESTA FUNCIÓN ENTRA EN FUNCIONAMIENTO CUANDO SEALCANZA UN VALOR CRÍTICO QUE SOBREPASA LOS COSTESDEL PROCESO DE DIVISIÓN (CADA VEZ MENORES).

� EN ESE MOMENTO, LOS COSTES DEJAN DE DESCENDER YCOMIENZAN A ASCENDER LIGERAMENTE, Y ES ALREDEDOR DEESE PUNTO DE INFLEXIÓN DONDE SE LOCALIZA EL TAMAÑOIDÓNEO DEL ÁRBOL.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 118

LOS ÁRBOLES DE DECISIÓN

� CARACTERÍSTICAS DE LOS ÁRBOLES DE DECISIÓN

� PODA

� COMO ES COMÚN QUE EXISTAN VARIOS ÁRBOLES CON COSTESVC (VALIDACIÓN CRUZADA) CERCA DEL MÍNIMO, SE PUEDEUTILIZAR LA REGLA 1ET:

� SELECCIONAR EL ÁRBOL DE MENOR COMPLEJIDAD DEENTRE TODOS LOS ÁRBOLES QUE NO SUPEREN EL MÍNIMOCOSTE VC MÁS 1 MEDIDA DE SU ERROR TÍPICO.

� OTROS MÉTODOS DE PODA SON:

� DESVIANZA-COMPLEJIDAD, ERROR REDUCIDO Y PODAPESIMISTA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 119

LOS ÁRBOLES DE DECISIÓN

� HERRAMIENTAS PARA EL TRABAJO CON ÁRBOLES DEDECISIÓN

� UNA CLASIFICACIÓN DE LOS PRINCIPALES PROGRAMAS DEÁRBOLES DE CLASIFICACIÓN PODRÍA SER LA SIGUIENTE:

� FAMILIA CART:

� CART, TREE(S), ETC.

� SU PROPÓSITO INICIAL ES LA PREDICCIÓN ESTADÍSTICA.

� REALIZA ÚNICAMENTE DIVISIONES BINARIAS.

� RECURRE A LA VALIDACIÓN CRUZADA Y A LA PODA PARADETERMINAR EL TAMAÑO CORRECTO DEL ÁRBOL.

� LA VARIABLE DEPENDIENTE PUEDE SER CUANTITATIVA ONOMINAL.

� LAS VARIABLES PREDICTORAS PUEDEN SER NOMINALES UORDINALES, AUNQUE LAS ÚLTIMAS VERSIONES TAMBIÉNADMITEN VARIABLES CONTINUAS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 120

LOS ÁRBOLES DE DECISIÓN

� HERRAMIENTAS PARA EL TRABAJO CON ÁRBOLES DEDECISIÓN

� FAMILIA CLS:

� CLS, ID3, C4.5, C5.0, ETC.

� SU PROPÓSITO INICIAL ES DETECTAR RELACIONESESTADÍSTICAS COMPLEJAS.

� EL N° DE RAMAS QUE PUEDE ORIGINAR VARÍA ENTRE DOS YEL N° DE CATEGORÍAS DEL PREDICTOR.

� PARA DETERMINAR EL TAMAÑO DEL ÁRBOL UTILIZA TESTSDE SIGNIFICACIÓN ESTADÍSTICA (CON AJUSTES DEMULTIPLICIDAD EN LAS ÚLTIMAS VERSIONES).

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 121

LOS ÁRBOLES DE DECISIÓN

� HERRAMIENTAS PARA EL TRABAJO CON ÁRBOLES DEDECISIÓN

� MÉTODOS DE TIPO DISCRIMINANTE:

� FACT Y QUEST.

� SU PROPÓSITO INICIAL ES SOLUCIONAR PROBLEMAS DE LOSMÉTODOS EXHAUSTIVOS.

� EN CONCRETO, TRATAN DE ELIMINAR EL DENOMINADOSESGO DE SELECCIÓN DE LA VARIABLE, QUE PRESENTANMÉTODOS COMO CART Y QUE CONSISTE EN LA TENDENCIA ASELECCIONAR EN PRIMER LUGAR LAS VARIABLES CON MÁSCATEGORÍAS.

� FACT ELIMINA ESTE SESGO SÓLO CUANDO UTILIZAVARIABLES DEPENDIENTES ORDINALES.

� QUEST LOGRA ELIMINAR ESTE SESGO, SEA LA VD NOMINAL UORDINAL.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 122

LOS ÁRBOLES DE DECISIÓN

� HERRAMIENTAS PARA EL TRABAJO CON ÁRBOLES DEDECISIÓN

� COMBINACIONES LINEALES:

� OC1, ÁRBOLES SE, ETC.

� SU PROPÓSITO INICIAL ES DETECTAR RELACIONES LINEALESCOMBINADAS CON EL APRENDIZAJE DE CONCEPTOS.

� EL NÚMERO DE RAMAS VARÍA ENTRE DOS Y EL NÚMERO DECATEGORÍAS DEL PREDICTOR.

� MODELOS HÍBRIDOS:

� IND, KNOWLEDGE SEEKER, ETC.

� SU PROPÓSITO INICIAL ES COMBINAR MÉTODOS DE OTRASFAMILIAS.

� IND COMBINA EL CART Y C4.5, ASÍ COMO MÉTODOSBAYESIANOS Y DE CODIFICACIÓN MÍNIMA.

� KNOWLEDGE SEEKER COMBINA CHAID Y EL ID3 CON UNNOVEDOSO AJUSTE DE MULTIPLICIDAD.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 123

LOS ÁRBOLES DE DECISIÓN

� HERRAMIENTAS PARA EL TRABAJO CON ÁRBOLES DEDECISIÓN

� LOS PROCEDIMIENTOS ARBORESCENTES MÁS ACEPTADOSTANTO EN LOS ÁMBITOS TEÓRICO COMO APLICADO SON:

� ÁRBOLES CHAID (KASS).

� ÁRBOLES CART (BREIMAN).

� ÁRBOLES QUEST (LOH Y SHIH).

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 124

LOS ÁRBOLES DE DECISIÓN

� ÁRBOLES CHAID

� CHAID O CHI-SQUARE AUTOMATIC INTERACTION DETECTOR:

� ES UN MÉTODO EXPLORATORIO DE ANÁLISIS DE DATOS.

� ES ÚTIL PARA IDENTIFICAR VARIABLES IMPORTANTES YSUS INTERACCIONES CON FINES DE SEGMENTACIÓN,ANÁLISIS DESCRIPTIVOS O COMO PASO PREVIO A OTROSANÁLISIS POSTERIORES.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 125

LOS ÁRBOLES DE DECISIÓN

� ÁRBOLES CHAID

� LA MEDIDA DEPENDIENTE PUEDE SER CUALITATIVA(NOMINAL U ORDINAL) O CUANTITATIVA:

� PARA VARIABLES CUALITATIVAS:

� EL ANÁLISIS LLEVA A CABO UNA SERIE DE ANÁLISIS CHICUADRADO ENTRE LAS VARIABLES DEPENDIENTES YPREDICTORAS.

� PARA VARIABLES DEPENDIENTES CUANTITATIVAS:

� SE RECURRE A MÉTODOS DE ANÁLISIS DE VARIANZA.

� LOS INTERVALOS (DIVISIONES) SE DETERMINANÓPTIMAMENTE PARA LAS VARIABLES INDEPENDIENTESDE FORMA QUE MAXIMICEN LA CAPACIDAD PARAEXPLICAR LA VARIANZA DE LA MEDIDA DEPENDIENTE.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 126

LOS ÁRBOLES DE DECISIÓN

� ÁRBOLES CHAID

� PERMITE TRABAJAR TANTO CON VARIABLES DEPENDIENTESCATEGÓRICAS COMO MÉTRICAS.

� LAS VARIABLES CATEGÓRICAS UTILIZAN EL ESTADÍSTICO CHI-CUADRADO Y DAN LUGAR A UN ÁRBOL DE CLASIFICACIÓN.

� LAS VARIABLES MÉTRICAS UTILIZAN EL ESTADÍSTICO F Y DANLUGAR A LOS ÁRBOLES DE REGRESIÓN.

� TAMBIÉN PERMITE UTILIZAR PREDICTORES DE TIPO MÉTRICO,MEDIANTE SU CONVERSIÓN PREVIA EN VARIABLESCATEGÓRICAS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 127

LOS ÁRBOLES DE DECISIÓN

� ÁRBOLES CART

� CART (CLASSIFICATION AND REGRESSION TREES) O C&RT:

� CONSTITUYEN UNA ALTERNATIVA AL CHAID EXHAUSTIVOPARA DESARROLLAR ÁRBOLES DE CLASIFICACIÓN.

� FUE DESARROLLADO PARA INTENTAR SUPERAR ALGUNAS DELAS DEFICIENCIAS Y DEBILIDADES DEL CHAID ORIGINAL.

� EXISTÍA LA NECESIDAD DE UN MÉTODO QUE PERMITIESEUTILIZAR CRITERIOS Y PREDICTORES DE CUALQUIER NIVELDE MEDIDA.

� CART SE FORTALECIÓ CON TODA UNA ESTRUCTURAESTADÍSTICA DE VALIDACIÓN CRUZADA Y FUE ADOPTADO ENENTORNOS MÉDICOS Y DE INVESTIGACIÓN.

� RESULTA APROPIADO PARA ÁRBOLES DE CLASIFICACIÓN (VDCUALITATIVA) O DE REGRESIÓN (VD CUANTITATIVA).

� GENERA ÁRBOLES BINARIOS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 128

LOS ÁRBOLES DE DECISIÓN

� ÁRBOLES CART

� SE CONSTRUYE DIVIDIENDO LA MUESTRA EN SUBCONJUNTOSDE DATOS.

� EN CADA DIVISIÓN SE EVALÚA CADA PREDICTOR PARAENCONTRAR EL MEJOR PUNTO DE CORTE (CON PREDICTORESCUANTITATIVOS) O LAS MEJORES AGRUPACIONES DECATEGORÍAS (CON PREDICTORES CATEGÓRICOS).

� SE COMPARAN TAMBIÉN LOS PREDICTORES,SELECCIONÁNDOSE EL PREDICTOR Y LA DIVISIÓN QUE PRODUCELA MAYOR BONDAD DE AJUSTE.

� COMO REGLA DE DIVISIÓN SE UTILIZAN MEDIDAS DE BONDADO DE IMPUREZA DE NODOS:

� PARA VARIABLES CUANTITATIVAS, LA REDUCCIÓN DELERROR CUADRÁTICO O LA DESVIACIÓN MEDIA ABSOLUTADE LA MEDIANA.

� CON VARIABLES CUALITATIVAS, EL COEFICIENTE GINI, LAMEDIDA CHI-CUADRADO DE BARTLETT, LA MEDIDA G-CUADRADO, EL COEFICIENTE TWOING.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 129

LOS ÁRBOLES DE DECISIÓN

� ÁRBOLES QUEST

� QUEST PROVIENE DE QUICK, UNBIASED, EFFICIENT,STATISTICAL TREE (LOH Y SHIH).

� SE TRATA DE UN ALGORITMO CREADO ESPECÍFICAMENTE PARARESOLVER DOS DE LOS PRINCIPALES PROBLEMAS DE CART YCHAID EXHAUSTIVO A LA HORA DE DIVIDIR UN GRUPO DESUJETOS EN FUNCIÓN DE UNA VARIABLE INDEPENDIENTE:

� LA COMPLEJIDAD COMPUTACIONAL.

� LOS SESGOS EN LA SELECCIÓN DE VARIABLES.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 130

LOS ÁRBOLES DE DECISIÓN

� ÁRBOLES QUEST

� EL ALGORITMO DE CÁLCULO RESULTA MUCHO MÁS SENCILLOQUE LOS MÉTODOS EXHAUSTIVOS:

� EN VEZ DE INTENTAR SELECCIONAR A LA VEZ EL MEJORPREDICTOR Y SU MEJOR PUNTO DE CORTE, QUEST ABORDAESTOS DOS PROBLEMAS POR SEPARADO.

� EN CADA NODO:

� SE CALCULA LA ASOCIACIÓN ENTRE CADA PREDICTOR YLA VD (VARIABLE DEPENDIENTE) MEDIANTE:

• EL ESTADÍSTICO F DEL ANOVA O LA F DE LEVENE(EN EL CASO DE PREDICTORES CONTINUOS YORDINALES), O.

• MEDIANTE UNA CHI-CUADRADO DE PEARSON (EN ELCASO DE PREDICTORES NOMINALES).

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 131

LOS ÁRBOLES DE DECISIÓN

� ÁRBOLES QUEST

� UNA COMPARACIÓN DE LOS PRINCIPALES MÉTODOSARBORESCENTES (SONG Y YOON) HA DEMOSTRADO QUE QUESTES EL ÚNICO MÉTODO QUE NO MUESTRA SESGOS SERIOS A LAHORA DE SELECCIONAR UNA VARIABLE U OTRA.

� CHAID PRESENTA UN SUAVE SESGO.

� CART ESTÁ CLARAMENTE SESGADO HACIA PREDICTORESCONTINUOS Y/O CON MUCHAS CATEGORÍAS.

� EN LÍNEAS GENERALES, QUEST PARECE SER SUPERIOR A CARTY ESTE, A SU VEZ, SUPERIOR A CHAID:

� LOS RESULTADOS DEPENDEN EN GRAN MEDIDA DEL TIPODE PROBLEMA CONCRETO QUE SE ESTÉ ABORDANDO.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 132

ANÁLISIS DE CONGLOMERADOS Y ÁRBOLES DE DECISIÓN COMO MÉTODOS DE SEGMENTACIÓN

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 133

ANÁLISIS DE CONGLOMERADOS Y ÁRBOLES DE DECISIÓN� EL ANÁLISIS DE CONGLOMERADOS O ANÁLISIS CLUSTER,

CONSTITUYE UNO DE LOS PROCEDIMIENTOS ESTADÍSTICOS MÁSUTILIZADOS HOY EN DÍA PARA LA SEGMENTACIÓN.

� LA DEFINICIÓN DE LA TÉCNICA SE ASEMEJA A LOS FINESGENÉRICOS QUE PERSIGUE LA SEGMENTACIÓN:

� IDENTIFICAR GRUPOS DE SUJETOS LO MÁS HETEROGÉNEOSPOSIBLE ENTRE SÍ Y LO MÁS HOMOGÉNEOS POSIBLE DENTRODE CADA GRUPO.

� SE ESTABLECEN DICHOS GRUPOS BASÁNDOSE EN LA SIMILITUDQUE PRESENTAN UN CONJUNTO DE ENTIDADES (POR EJEMPLO,TURISTAS) RESPECTO A UNA SERIE DE CARACTERÍSTICAS QUEEL INVESTIGADOR HA DE ESPECIFICAR PREVIAMENTE(MOTIVACIONES, NECESIDADES, BENEFICIOS BUSCADOS, ETC.).

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 134

ANÁLISIS DE CONGLOMERADOS Y ÁRBOLES DE DECISIÓN� ES EL ANÁLISIS, Y NO EL ANALISTA, EL QUE FINALMENTE

EXTRAE LOS GRUPOS DE SUJETOS Y SUS CARACTERÍSTICASDEFINITORIAS:

� NÚMERO DE SEGMENTOS, NÚMERO DE INTEGRANTES DECADA SEGMENTO, ETC.

� EL ANÁLISIS DE CONGLOMERADOS CONSTITUYE EL EJEMPLOPARADIGMÁTICO DEL ENFOQUE DE SEGMENTACIÓN POST HOC.

� SE TRATA DE UN MÉTODO DESCRIPTIVO DE SEGMENTACIÓN.

� POR OTRA LADO, LOS ÁRBOLES DE DECISIÓN CONSTITUYENMÉTODOS PREDICTIVOS DE SEGMENTACIÓN Y SON LAHERRAMIENTA MÁS UTILIZADA HOY EN DÍA PARA SEGMENTAR.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 135

ANÁLISIS DE CONGLOMERADOS Y ÁRBOLES DE DECISIÓN� EJEMPLO DE ÁRBOLES DE DECISIÓN O CLASIFICACIÓN

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 136

ANÁLISIS DE CONGLOMERADOS Y ÁRBOLES DE DECISIÓN� EJEMPLO DE ÁRBOLES DE DECISIÓN O CLASIFICACIÓN

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 137

ANÁLISIS DE CONGLOMERADOS Y ÁRBOLES DE DECISIÓN� EJEMPLO DE ÁRBOLES DE DECISIÓN O CLASIFICACIÓN

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 138

ANÁLISIS DE CONGLOMERADOS Y ÁRBOLES DE DECISIÓN� EJEMPLO DE ÁRBOLES DE DECISIÓN O CLASIFICACIÓN

� RESULTADOS COMPLETOS 1

� RESULTADOS COMPLETOS 2

� RESULTADOS COMPLETOS 3

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 139

ESQUEMA GENERAL DEL ANÁLISIS CLUSTER

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 140

K-Medias…

Casos Variables

OBJETIVOS DE LA INVESTIGACIÓN

¿Se aglomeran variables o casos?

DISEÑOS DE LA INVESTIGACIÓN

¿Hay valores atípicos? ¿Se estandariza? ¿Son los datos métricos? ¿Distancias?

ASUNCIONES

¿Es representativa la muestra de la población? ¿Existe multicolinealidadsuficientemente sustancial para que afecte a los datos?

MÉTODO CLUSTER

¿Método jerárquico o no jerárquico?

NÚMEROS DE CLUSTERS

Examen de coeficientes de aglomeración Dendograma y gráfico de carámbanos

REDEFINICIÓN DEL ANÁLISIS CLUSTER

¿Clusterspequeños? ¿Valores atípicos borrados?

INTERPRETACIÓN DE CLUSTERS

Variables de aglomeración, nombres,…

VALIDACIÓN DEL MÉTODO

¿Cambian los clusters con el método o la muestra?

NO

Jerárquico

Ward, Centroide…

Dos Fases No jerárquico

Análisis Clusterde casos Análisis Clusterde variables

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 141

OTROS MÉTODOS DESCRIPTIVOS

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 142

OTROS MÉTODOS DESCRIPTIVOS

� MÉTODOS DESCRIPTIVOS: CORRELACIONES Y ESTUDIOSFACTORIALES

� PERMITEN ESTABLECER RELEVANCIA / IRRELEVANCIA DEFACTORES Y SI AQUÉLLA ES POSITIVA O NEGATIVA RESPECTO AOTRO FACTOR O VARIABLE A ESTUDIAR.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 143

OTROS MÉTODOS DESCRIPTIVOS� EJEMPLO: ESTUDIO DE VISITAS: 11 PACIENTES, 7 FACTORES:

� HEALTH: SALUD DEL PACIENTE (REFERIDA A LA CAPACIDADDE IR A LA CONSULTA). (1-10).

� NEED: CONVICCIÓN DEL PACIENTE QUE LA VISITA ESIMPORTANTE. (1-10).

� TRANSPORTATION: DISPONIBILIDAD DE TRANSPORTE DELPACIENTE AL CENTRO. (1-10).

� CHILD CARE: DISPONIBILIDAD DE DEJAR LOS NIÑOS ACUIDADO. (1-10).

� SICK TIME: SI EL PACIENTE ESTÁ TRABAJANDO, PUEDE DARSEDE BAJA. (1-10).

� SATISFACTION: SATISFACCIÓN DEL CLIENTE CON SU MÉDICO.(1-10).

� EASE: FACILIDAD DEL CENTRO PARA CONCERTAR CITA YEFICIENCIA DE LA MISMA. (1-10).

� NO-SHOW: INDICA SI EL PACIENTE NO SE HA PASADO POR ELMÉDICO DURANTE EL ÚLTIMO AÑO (0-SE HA PASADO, 1 NO SEHA PASADO).

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 144

OTROS MÉTODOS DESCRIPTIVOS� MATRIZ DE CORRELACIONES:

� COEFICIENTES DE REGRESIÓN:

� INDICA QUE UN INCREMENTO DE 1 EN EL FACTORHEALTH AUMENTA LA PROBABILIDAD DE QUE NOAPAREZCA EL PACIENTE EN UN 64.34%.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 145

OTROS MÉTODOS DESCRIPTIVOS� MÉTODOS DESCRIPTIVOS: REGLAS DE ASOCIACIÓN Y

DEPENDENCIA:� LA TERMINOLOGÍA NO ES MUY COHERENTE EN ESTE CAMPO.� FAYYAD, P.EJ. SUELE LLAMAR ASOCIACIONES A TODO Y

REGLA DE ASOCIACIÓN A LAS DEPENDENCIAS.� ASOCIACIONES:

� SE BUSCAN ASOCIACIONES DE LA SIGUIENTE FORMA:• (X1 = a) ↔ (X4 = b).

� DE LOS n CASOS DE LA TABLA, QUE LAS DOSCOMPARACIONES SEAN VERDADERAS O FALSAS SERÁCIERTO EN RC CASOS.

� EL PARÁMETRO TC (CONFIDENCE) ES:• TC= CERTEZA DE LA REGLA = RC/n.

� SI CONSIDERAMOS VALORES NULOS, TENEMOS TAMBIÉNUN NÚMERO DE CASOS EN LOS QUE SE APLICASATISFACTORIAMENTE (DIFERENTE DE TC) YDENOMINADO TS.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 146

OTROS MÉTODOS DESCRIPTIVOS� DEPENDENCIAS DE VALOR:

� SE BUSCAN DEPENDENCIAS DE LA SIGUIENTE FORMA (IFANTE THEN CONS):

• P.EJ.: IF (X1= a, X3=c, X5=d) THEN (X4=b, X2=a).

� DE LOS n CASOS DE LA TABLA, EL ANTECENDENTE SE PUEDEHACER CIERTO EN ra CASOS Y DE ESTOS EN rc CASOS SE HACETAMBIÉN EL CONSECUENTE, TENEMOS LOS PARÁMETROS:

• TC (CONFIDENCE/ACCURACY) Y TS (SUPPORT).

• TC= CERTEZA DE LA REGLA =rc/ra, FUERZA O CONFIANZAP(CONS|ANTE).

• TS = MÍNIMO Nº DE CASOS O PORCENTAJE EN LOS QUESE APLICA SATISFACTORIAMENTE (rc O rc /nRESPECTIVAMENTE):

• TAMBIÉN SE LO DENOMINA PREVALENCIA: P(CONS ∧

ANTE).

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 147

OTROS MÉTODOS DESCRIPTIVOS� EJEMPLO:

� ASOCIACIONES:

• CASADO E (HIJOS > 0) ESTÁN ASOCIADOS (80%, 4CASOS).

• OBESO Y CASADO ESTÁN ASOCIADOS (80%, 4 CASOS).

� DEPENDENCIAS:

• (HIJOS > 0) � CASADO (100%, 2 CASOS).

• CASADO � OBESO (100%, 3 CASOS).

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 148

OTROS MÉTODOS DESCRIPTIVOS� CONDICIONES QUE SE SUELEN IMPONER:

� TC > 95%.

� TS > 20 (ABSOLUTO) O 50% (RELATIVO).

� LA BÚSQUEDA DE ASOCIACIONES CON ESTASCONDICIONES NO ES UN PROBLEMA INDUCTIVO, YA QUESE TRATA DE UN PROBLEMA COMPLETAMENTEDETERMINADO, SIN CRITERIOS DE EVALUACIÓN YRELATIVAMENTE SIMPLE.

� COMPLEJIDAD DE LOS ALGORITMOS DE ASOCIACIONES YDEPENDENCIAS:

� TEMPORAL:

• BAJO CIERTAS CONDICIONES DE DISPERSIÓN Y PARAATRIBUTOS DISCRETOS SE PUEDEN ENCONTRAR ENCASI TIEMPO LINEAL.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 149

OTROS MÉTODOS DESCRIPTIVOS� MÉTODOS DESCRIPTIVOS: ALGORITMOS DE BÚSQUEDA DE

ASOCIACIONES Y DEPENDENCIAS:� LA MAYORÍA SE BASA EN DESCOMPONER EL PROBLEMA EN

DOS FASES:� FASE A:

• BÚSQUEDA DE “LARGE ITEMSETS”.• SE BUSCAN CONJUNTOS DE ATRIBUTOS CON

‘SUPPORT’ >= AL SUPPORT DESEADO, LLAMADOS‘LARGE ITEMSETS’ (CONJUNTOS DE ATRIBUTOSGRANDES).

• DE MOMENTO NO SE BUSCA SEPARARLOS EN PARTEIZQUIERDA Y PARTE DERECHA.

� FASE B:• ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS).• SE HACEN PARTICIONES BINARIAS Y DISJUNTAS DE

LOS ITEMSETS Y SE CALCULA LA CONFIANZA DECADA UNO.

• SE RETIENEN AQUELLAS REGLAS QUE TIENENCONFIANZA >= A LA CONFIANZA DESEADA.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 150

OTROS MÉTODOS DESCRIPTIVOS� PROPIEDAD:

� CUALQUIER SUBCONJUNTO DE UN CONJUNTO GRANDE ESTAMBIÉN GRANDE.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 151

OTROS MÉTODOS DESCRIPTIVOS� PROPIEDAD:

� CUALQUIER SUBCONJUNTO DE UN CONJUNTO GRANDE ESTAMBIÉN GRANDE.

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 152

OTROS MÉTODOS DESCRIPTIVOS� MÉTODOS DESCRIPTIVOS: ALGORITMOS DE BÚSQUEDA DE

ASOCIACIONES:� FASE A:

� MÉTODO GENÉRICO DE BÚSQUEDA DE “LARGE ITEMSETS”.� DADO UN SUPPORT MÍNIMO smin:

• 1. i=1 (TAMAÑO DE LOS CONJUNTOS).• 2. GENERAR UN CONJUNTO UNITARIO PARA CADA

ATRIBUTO EN Si.• 3. COMPROBAR EL SUPPORT DE TODOS LOS

CONJUNTOS EN Si. ELIMINAR AQUELLOS CUYOSUPPORT < smin.

• 4. COMBINAR LOS CONJUNTOS EN Si PARA CREARCONJUNTOS DE TAMAÑO i+1 EN Si+1.

• 5. SI Si NO ES VACÍO ENTONCES i:= i+1. IR A 3.• 6. SI NO, RETORNAR S2 ∪ S3 ∪ ... ∪ Si

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 153

OTROS MÉTODOS DESCRIPTIVOS� HAY REFINAMIENTOS QUE PERMITEN UNA MEJOR

PARALELIZACIÓN (DIVIDEN EN SUBPROBLEMAS CONMENOS TUPLAS Y LUEGO COMPRUEBAN PARA TODO ELPROBLEMA):

• EL MÁS FAMOSO ES EL ALGORITMO “APRIORI”(AGRAWAL & SRIKANT).

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 154

OTROS MÉTODOS DESCRIPTIVOS� EJEMPLO:

� FASE A:

� SUPPORT = 2; CONFIDENCE = 0.75.

� TABLA:

S1= { {1}, {2}, {3}, {4}, {5} } S’1:support = { {1}:2, {2}:3, {3}:3, {5}:3 }

S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S’2:support = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 }

S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S’3:support = { {2,3,5}:2 }

Sfinal = S’2 ∪ S’3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 155

OTROS MÉTODOS DESCRIPTIVOS� FASE B:

� SE EVALÚA LA CONFIANZA:

{1}→{3} : 1 {3}→{1} : 0.67

{2}→{3} : 0.67 {3}→{2} : 0.67

{2}→{5} : 1 {5}→{2} : 1

{3}→{5} : 0.67 {5}→{3} : 0.67

{2,3}→{5} : 1 {2,5}→{3} : 0.67 {3,5}→{2} : 1

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 156

OTROS MÉTODOS DESCRIPTIVOS� MÉTODOS DESCRIPTIVOS: PATRONES SECUENCIALES:

� SE TRATA DE ESTABLECER ASOCIACIONES DEL ESTILO:

� “SI COMPRA X EN T COMPRARÁ Y EN T+P”.

� EJEMPLO:

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 157

OTROS MÉTODOS DESCRIPTIVOS

MINERÍA DE DATOS - TÉCNICAS DESCRIPTIVAS Y PREDICTIVAS DE CLASIFICACIÓN 158

OTROS MÉTODOS DESCRIPTIVOS� MÉTODOS REPRESENTATIVOS (AGRAWAL SRIKANT):

� APRIORIALL.

� APRIORISOME.

� DYNAMICSOME.

� PROBLEMA:

• LOS USUARIOS QUIEREN ESPECIFICARRESTRICCIONES SOBRE EL TIEMPO MÁXIMO YMÍNIMO ENTRE EVENTOS SECUENCIALES.

� EXTENSIONES:

• MINERÍA DE PATRONES SECUENCIALES CONRESTRICCIONES.

• P.EJ. SÓLO PERMITIR LAS SECUENCIAS SI LOSELEMENTOS ADYACENTES (P.EJ. COMPRAS) SUCEDENEN UN INTERVALO MENOR A DOS MESES.