http___educnet.decom-uv.cl_educnet_uploads_victor_farias.pdf_nombre=p373_victor_farias

download http___educnet.decom-uv.cl_educnet_uploads_victor_farias.pdf_nombre=p373_victor_farias

of 4

Transcript of http___educnet.decom-uv.cl_educnet_uploads_victor_farias.pdf_nombre=p373_victor_farias

  • 7/21/2019 http___educnet.decom-uv.cl_educnet_uploads_victor_farias.pdf_nombre=p373_victor_farias

    1/4

    1

    Company

    LOGO

    Algoritmo K-Means

    Integrantes: Vctor Farias E.

    Tabla de Contenido

    !Descripcin del Algoritmo

    !

    Explicacin del Data Set

    !

    Problema Propuesto

    !

    Ejemplo de algoritmo K-Means

    Algoritmo K-Means

    ! K-Means es uno de los algoritmos de aprendizaje sin supervisin ms

    simple que resuelve el problema de Clustering .El procedimiento sigue una

    forma simple y fcil de clasificar un grupo de datos dados, a travs de uncierto numero de cluster dados, fijados con anterioridad.

    ! La idea principal es definir k centroides .Estos centroides deben ser

    movidos de una forma astuta, debido a que distintas ubicaciones de estos

    causan distintos resultados, entonces la mejor decisin es moverlo lo maslejos posible el uno del otro.

    Algoritmo K-Means

    Pasos a Seguir

    1. Se toman al azar k clusters iniciales.

    2. Para el conjunto de observaciones, se vuelve a calcular las distancias a los centroides

    de los clusters y se reasignan a los que estn ms prximos. Se vuelven a recalcular

    los centroides de los k clusters despus de las reasignaciones de los elementos.

    3. Se repiten los dos pasos anteriores hasta que no se produzca ninguna reasignacin,

    es decir, hasta que los elementos se estabilicen en algn grupo.

    Usualmente, se especifican k centroides iniciales y se procede al paso (2) y, en la

    prctica, se observan la mayor parte de reasignaciones en las primeras iteraciones.

    Algoritmo K-Means

    Ventajas

    ! Entre los algoritmos de particionamientos , es uno de los mas simples

    ! Eficiencia O(n!k!I!d)

    !Agrupar gran cantidad de datos

    Desventajas

    ! Se Necesita conocer k de antemano! El resultado puede variar en base a las semillas inicio

    ! No trata datos nominales! El resultado depende de la seleccin inicial de centroides

    ! Ninguna garanta sobre la calidad de la solucin

    Algoritmo K-Means

    K Modes Algoritmo que utiliza modas en vez de medias para poder trabajar con atributos de tipo categrico.

    k-Medoids Algoritmo que utiliza medianas en vez de medias para limitar la influencia de los outliers

    GRASP Algoritmo que permite evitar optimo locales

    PAM Eficiencia es igual O (I!k(n-k)2) menor con respecto a k-means

    Clara Eficiencia es igual O(ks2+k(n-k)) menor con respecto a k-means

    Comparacin con otros Algoritmos

  • 7/21/2019 http___educnet.decom-uv.cl_educnet_uploads_victor_farias.pdf_nombre=p373_victor_farias

    2/4

  • 7/21/2019 http___educnet.decom-uv.cl_educnet_uploads_victor_farias.pdf_nombre=p373_victor_farias

    3/4

    3

    Ejemplo K-Means

    X1 X

    A 5 3

    B -1 1

    C 1 -2

    D -3 -2

    Ejemplo Supongamos dos variables x1 y x2 y 4 elementos: A, B, C, D. con la

    siguiente Tabla de valores:

    Dividir estos elementos en k=2 grupos

    Ejemplo K-Means

    Calculo de Centroides de clsteres

    Media de X1 Media de X1

    (5-1)/2=2 (3+1)/2=2

    Centroide(X,Y)=(2,2)

    Tabla 7: Calculo de Centroide Cluster(A, B)

    Media de X1 Media de X1

    (1-3)/2=-1 (-2-2)/2=-2

    Centroide(X,Y)=(-1,-2)

    Tabla 8: Calculo de Centroide Cluster(C, D)

    Ejemplo K-Means

    Calculo de Centroides de clsteres

    Distancia EuclidianaCluster (AB)

    Resultado Distancia EuclidianaCluster (CD)

    Resultado

    A "((5-2)#+(3-2) #) 3.16 "((5+1)#+(3+2) #) 7.81

    B "((-1-2)#+(1-2) #) 3.16 "((-1+1)#+(1+2) #) 3

    C "((-1-2)#+(3-2) #) 4 "((1+1)#+(-2+2) #) 2

    D "((-3-2)#+(-2-2) #) 6.40 "((-3+1)#+(-2+2) #) 4

    Ejemplo K-Means

    Resultado

    Cluster (A)

    Cluster (BCD)

    Calcular las nuevos centroides

    Media de X1 Media de X1

    5 3

    Centroide(X,Y)=(5,3)

    Tabla 10: Calculo de Centroide Cluster(A,

    Media de X1 Media de X1

    (-1+1-3)/3=-1 (1-2-2)/3=-1Centroide(X,Y)=(-1,-2)

    Tabla 11: Calculo de Centroide Cluster(BCD)

    Ejemplo K-Means

    Calculo de distancias

    DistanciaEuclidianaCluster (A)

    Resultado DistanciaEuclidiana

    Cluster (BCD)

    Resultado

    A "((5-5)#+(3-3) #) 0 "((5+1)#+(3+1) #) 7.21

    B "((-1-5)#+(1-3) #) 6.32 "((-1+1)#+(1+1) #) 2

    C "((-1-5)#+(3-3) #) 6 "((1+1)#+(-2+1) #) 2

    D "((-3-5)#+(-2-3) #) 9.43 "((-3+1)#+(-2+1) #) 4

    Tabla 12: Calculo de distancias

    Ejemplo K-Means

    Resultado Final

    Como no se producen cambios, entonces la solucin para

    k = 2 clusters es: A y (BCD).

    Si se quiere comprobar la estabilidad de los grupos, es

    conveniente volver a correr el algoritmo con otros clusters

    iniciales (una nueva particin inicial).

    Una vez considerados los clusters finales, es conveniente

    interpretarlos; para ello, se pueden cruzar con otras variables

    categricas o se pueden ordenar de modo que los objetosdel primer cluster aparezcan al principio y los del ltimo

    cluster al final.

  • 7/21/2019 http___educnet.decom-uv.cl_educnet_uploads_victor_farias.pdf_nombre=p373_victor_farias

    4/4

    4