Taller Clasificacion 2702361
-
Upload
henry-andrade -
Category
Documents
-
view
224 -
download
1
description
Transcript of Taller Clasificacion 2702361
-
MINERIA DE DATOS
Taller 4 Clasificacin PROFESORA ELIZABETH LEON GUZMN
Luis Andrade Cd. 2702361
ACTIVIDADES
1. Dado el siguiente conjunto de datos:
A B C clase
0 0 1 -
1 0 1 +
0 1 0 -
1 0 0 -
1 0 1 |
0 0 1 |
1 1 0 -
0 0 0 -
0 1 0 +
1 1 1 +
a) Estime la probabilidad condicional para P(A=1|+), P(B=1|+)P(C=1|+), P(A=1|), P(B=1|) y P(C=1|)
P(A=1|+) = P(A=1 Clase=+)/P(Clase=+) = 2/3 = 0,667
P(B=1|+) = P(B=1 Clase=+)/P(Clase=+) = 2/3 = 0,667
P(C=1|+) = P(C=1 Clase=+)/P(Clase=+) = 2/3 = 0,667
P(A=1|) = P(A=1 Clase=+)/P(Clase=-) = 2/3 = 0,4
P(B=1|) = P(B=1 Clase=+)/P(Clase=-) = 2/3 = 0,4
P(C=1|) = P(C=1 Clase=+)/P(Clase=-) = 2/3 = 0,4
b) Use las probabilidades calculadas para predecir la clase para el siguiente ejemplo z =< 1, 1, 1 >,
usando Naive Bayes
B=1
0,4
A=1
C=1
0,5 0,5
Clase = + Clase = - Clase = |
-
A=1 0,66666667 0,4 0,5 A=0 0,33333333 0,5 0,5 B=1 0,66666667 0,4 0 B=0 0,33333333 0,6 1 C=1 0,66666667 0,2 1 C=0 0,33333333 0,8 0
P(Clase = +) P(Clase = -) P(Clase = |)
0,3 0,5 0,2
A B C Clase
1 1 1 +
A B C Clase = + Clase = - Clase = |
1 1 1 0,0888889 0,016 0
Se encontr que la prediccin corresponde a la clase = +
c) Compare P(A = 1), P(B = 1), y P(A = 1,B = 1). Existe relacin entre A y B? explique.
P(A = 1) = 5/10 = 0,5
P(B = 1) = 4/10 = 0,4
P(A = 1,B = 1) = 2/10 = 0,2 Dado que P(A = 1)*(B = 1)=P(A = 1,B = 1) se puede deducir que son independientes.
d) Compare P(A = 1), P(B = 0), y P(A = 1,B = 0). Existe relacin entre A y B? explique.
P(A = 1) = 5/10 = 0,5
P(B = 0) = 6/10 = 0,6
P(A = 1,B = 0) = 3/10 = 0,3
Dado que P(A = 1)*(B = 0)=P(A = 1,B = 0) se puede deducir que son independientes
e) Compare P(A = 1,B = 1 | clase = +) con P(A = 1 | clase = +) y P(B = 1 | clase = +). Son las variables condicionalmente independientes dada la clase?
P(A = 1,B = 1 | clase = +) = 1/3 = 0,333
P(A = 1 | clase = +) = 2/3 = 0,667
P(B = 1 | clase = +) = 2/3 = 0,667
P(A = 1 | clase = +) * P(B = 1 | clase = +) = 4/9 = 0,444
Dado que P(A = 1,B = 1 | clase = +) es diferente a P(A = 1 | clase = +) * P(B = 1 | clase = +) se puede deducir que no son condicionalmente independientes de la clase.
2. Dado el siguiente conjunto de datos que describe seis sesiones de usuarios visitando un sitio Web con 4 URLs:
-
URL1 URL2 URL3 URL4: clase
si si si si
si si no no
si no no no
si no si si
no si no no
no si si no
a) Construir un rbol de decisin para predecir si un usuario visita o no la URL4 (tratada como la clase). Usar el criterio de informacin Gain para seleccionar los nodos. Colocar los detalles de los calculos de la entropa y Gain por cada atributo y por cada uno de los subconjuntos que se vayan generando. Ir dibujando el arbol a mediada que se va particionando. Explicar cual nodo es raiz y por que.
La entropa de la Clase:
=-0,33*LOG(0,33;2)-0,66*LOG(0,66;2)
URL4
SI NO
2 4
Entropa 0,9234
La entropa y la ganancia del atributo URL1 con respecto a la clase:
E(URL4,URL1)=P(SI)*E(2,2)+P(NO)*E(0,2)
URL4
SI NO
URL1 SI 2 2 4
NO 0 2 2
Total: 6
Entropa 0,66666 Gain 0,25674
La entropa y la ganancia del atributo URL2 con respecto a la clase:
E(URL4,URL2)=P(SI)*E(1,3)+P(NO)*E(1,1)
URL4
SI NO
URL2 SI 1 3 4
NO 1 1 2
Total: 6
Entropa 0,874185416 Gain 0,049214584
La entropa y la ganancia del atributo URL3 con respecto a la clase:
E(URL4,URL2)=P(SI)*E(2,1)+P(NO)*E(0,3)
URL4
SI NO
URL3 SI 2 1 3
NO 0 3 3
-
Total: 6
Entropa 0,459147917 Gain 0,464252083
Para el rbol, se toma como nodo raz el atributo URL3 que tiene la Mayor ganancia calculada, ya que es el atributo con la mayor relacin con respecto a la clase. Se continua evaluando los valores del subconjunto que ahora genera.
Para determinar los valores del atributo Si Los valores de entropa para el siguiente subconjunto:
URL1 URL2 URL3 URL4
SI SI SI SI
SI NO SI SI
NO SI SI NO
URL4
SI NO
2 1
ENTROPA 0,918295834
URL4
SI NO
URL1 SI 2 0 2
NO 0 1 1
Total: 3
Entropa 0 Gain 0,918295834
URL4
SI NO
URL2 SI 1 1 2
NO 1 0 1
Total: 3
Entropa 0,666666667 Gain 0,251629167
URL4
SI NO
URL3 SI 2 1 3
-
NO 0 0 0
Total: 3
Entropa 0,918295834 Gain 0
Dado el subconjuto anterior se calcularon los valores como Entropa y Ganancia, para continuar con la construccin del rbol, se selecciona el nodo URL1, el cual es que tiene la mayor Ganancia:
2). La URL2, no es relevante para predecir el comportamiento de navegacin de la clase objetivo. 3). Visita la URL4, si URL3 = Si => URL1 = 1 =>Visita URL4 = Si. R:/ IF (URL3 == Si AND URL1 ==Si) THEN Visita URL4 = Si 4). Predecir si el siguiente patrn visitar la URL4. URL1 = no; URL2 = no; URL3 = yes.
R:/ De acuerdo al rbol de decisin el patrn no visita la URL4, ya que UR1 = No.
a) Calcular:
VERDAD HIPTESIS
URL1 URL2 URL3 URL4 Visita URL4?
SI NO NO NO NO
SI SI SI SI SI
NO SI NO SI NO
NO NO SI NO NO
NO SI SI SI NO
i) Matriz de Confusin
Verdad
SI NO
Hiptesis SI 1 0
NO 2 2
ii) Tasa de deteccin = 3/5 iii) Falsa Alarma = 0/2
iv) Precisin
-
1 VP/(VP+FP)
v) Recall
0,333333 VP/(VP+FN)
vi) F1
0,5 2/((1/r)+(1/p))
3. Nearest Neighbor. Suponga que los ejemplos categricos de 5 dimensiones:
Xl X2 X3 X4 X5
A 1 0 1 1 0
B 1 1 0 1 0
C 0 0 1 1 0
D 0 1 0 1 0
E 1 0 1 0 1
F 0 1 1 0 0
estn distribuidos en dos grupos: Ci {A,B,E} Y C2 {C,D,F}
a) Use el algoritmo de k-nearest neighbor para encontrar la clasificacin de los siguientes
ejemplos: Y {1,1,0,1,1] usando K 1 Y {1,1,0,1,1] usando K 3 Y {0,1,0,0,0] usando K 1 Y {0,1,0,0,0] usando K 5
b) Discuta los resultados
4. SVM (Taller)
5. Se tiene la siguiente tabla correspondiente a 10 registros con su clase (5 y 5 -), la clase corresponde a la segunda columna. La tercera columna corresponde a la probabilidad Posterior P(+ ) generada por un clasificador Naive Bayes ordenados. Las otras columnas corresponden a TP, FP, TN y FN cuando se clasifican todos los registros mayores a la P( x) del registro actual como clase , y los que son menores a P( x) como clase -. Por ejemplo, los valores de la primera fila indican que los 10 registros fueron clasificados como pero 5 son de la clase - (FP); los valores de la segunda fila indican que 9 registros fueron clasificados como , y 1 como - (5 son de la clase -); los valores de la tercera fila indican que 8 registros fueron clasificados como , de los cuales 4 son de la clase -.
clase P(+|x) TP FP TN FN TPR FPR
1 + 0.25 5 5 0 0
2 - 0.43 4 5 0 1
3 + 0.53 4 4 1 1
4 - 0.76 3 4 1 2
5 - 0.85 3 3 2 2
6 - 0.85 3 2 3 2
7 + 0.85 3 1 4 2
8 - 0.87 2 1 4 3
9 + 0.93 2 0 5 3
10 + 0.95 1 0 5 4
1.00 0 0 5 5
-
a) Calcular la TPR y FPR TPR = TP , FPR = FP . TP + FN TN + FP
clase P(+|x) TP FP TN FN TPR FPR
1 + 0.25 5 5 0 0 1 1 2 - 0.43 4 5 0 1 0,8 1 3 + 0.53 4 4 1 1 0,8 0,8 4 - 0.76 3 4 1 2 0,6 0,8 5 - 0.85 3 3 2 2 0,6 0,6 6 - 0.85 3 2 3 2 0,6 0,4
7 + 0.85 3 1 4 2 0,6 0,2 8 - 0.87 2 1 4 3 0,4 0,2 9 + 0.93 2 0 5 3 0,4 0 10 + 0.95 1 0 5 4 0,2 0 1.00 0 0 5 5
b) Dibujar la curva Receiver Operating Characteristics (ROC)