La prueba X de Pearson Tema 10 1. Bondad de ajuste … · La prueba X2 de Pearson Tema 10 1. Bondad...
Transcript of La prueba X de Pearson Tema 10 1. Bondad de ajuste … · La prueba X2 de Pearson Tema 10 1. Bondad...
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
1
La prueba X2 de Pearson Tema 10
1. Bondad de ajuste
2. Independencia
3. Igualdad de proporciones
4. Medidas de asociación
5. Errores tipificados
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
2
1. Bondad de ajuste Objetivo: Comprobar si una distribución teórica de frecuencias de una variable cualitativa se ajusta a una distribución empírica. Organización de los datos:
Niveles de X 1 2 ... i ... I
Fr. observadas: n1 n2 ... ni ... nI n
Fr. esperadas: m1=nπ1 m2=nπ2 mi=nπi mI=nπI n
Variable X con I niveles Frecuencias observadas: ni Número de observaciones: n = n1 + n2 + ... + nI Probabilidades teóricas: π1, π2, ..., πI Frecuencias esperadas: mi = nπi
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
3
1. Hipótesis
H0: f (x) = f0 (x) (la distribución de X coincide con la teórica) H1: f (x) ≠ f0 (x)
2. Supuestos - Muestra aleatoria - Probabilidades constantes en cada extracción - Todas las fr. observadas son mayores que 0 - El 80% o más de las esperadas son mayores o iguales que 5
3. Estadístico de contraste
∑=
−=
I
i i
ii
mmnX
1
22 )(
X2 ~ χ2 con I-1 grados de libertad
4. Zona crítica: X2 ≥ 2
11 −− Iχα
5. Decisión: Rechazar H0 si X2 cae en la zona crítica
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
4
Ejemplo: Un psicólogo de animales afirma que el 25% de los chimpancés muestran conductas de indefensión aprendida ante un determinado estímulo aversivo, el 40% muestran una conducta de huida y el 35% muestran indiferencia. En su muestra de 30 especimenes encuentra que 12 muestran indefensión, 15 huida y 3 indiferencia. ¿Apoyan estos datos su teoría con α=0,05? 1. Hipótesis
H0: f (x) = f0 (x) (es decir, π1 = 0,25, π2 = 0,40 y π3 = 0,35)
H1: f (x) ≠ f0 (x) 2. Supuestos
Muestra aleatoria Probabilidades constantes en cada extracción
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
5
3. Estadístico de contraste Indefensión Huida Indiferencia
ni 12 15 3 30
mi m1 = nπ1
=30 (0,25) = 7,5
m2 = nπ2=30 (0,4)
= 12
m3 = nπ3 =30 (0,35)
= 10,5 30
81,85,10
)5,103(12
)1215(5,7
)5,712(
)(
222
1
22
=−
+−
+−
=
−= ∑
=
I
i i
ii
mmn
X
X2 ~ χ2 con 2 grados de libertad
6. Zona crítica: X2 ≥ 99,52295,0 =χ
7. Decisión: Rechazar H0
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
6
Tablas de contingencia Distribución de frecuencias de dos o más variables categóricas X e Y. Dimensiones de la tabla: número de variables. Tabla bidimensional:
Y 1 2 ... j ... J
1 n11 n12 … n1j … n1J n1+2 n21 n22 … n2j … n2J n2+… … … … … … … …i ni1 ni2 … nij ... niJ ni+
… … … … … … … …
X
I nI1 nI2 … nIj ... nIJ nI+ n+1 n+2 … n+j ... n+J n
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
7
Ejemplo: Se está estudiando el conocimiento que tienen de las noticias de actualidad los estudiantes de distintas facultades. Estos son los datos recogidos.
Conocimiento Bajo Medio Alto
Ciencias 20 13 2 35Filosofía 8 10 10 28Facultad Derecho 12 13 12 37
40 36 24 100
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
8
2. Independencia Objetivo: Contrastar si dos variables cualitativas (X e Y) son independientes, es decir, si conocer el valor de un sujeto en una variable no aporta información para conocer su valor en la otra. En un contraste sobre independencia se toma una muestra de tamaño prefijado (en el ejemplo n=100) y se clasifica cada sujeto según los dos criterios. Ejemplo: ¿Se relaciona el conocimiento que tienen los estudiantes de las noticias de actualidad con la facultad a la que pertenecen? 1. Hipótesis H0: X e Y son variables independientes H1: X e Y no son independientes
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
9
2. Supuestos - Muestra aleatoria - Probabilidades constantes en cada extracción - Todas las fr. observadas son mayores que 0 - El 80% o más de las esperadas son
mayores o iguales que 5 3. Estadístico de contraste Para cada casilla ij la frecuencia esperada es:
nnn
m jiij
++=ˆ
∑∑= =
−=
I
i
J
j ij
ijij
mmn
X1 1
22
ˆ
)ˆ(
X2 ~ χ2 con (I-1)(J-1) grados de libertad
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
10
4. Zona crítica: X2 ≥ 2
)1)(1(1 −−− JIχα
5. Decisión: Rechazar H0 si X2 cae en la zona crítica
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
11
Ejemplo: ¿Se relaciona el conocimiento que tienen los estudiantes de las noticias de actualidad con la facultad a la que pertenecen? Utilizar α = 0,05 1. Hipótesis H0: X e Y son variables independientes (el conocimiento no depende de la facultad) H1: X e Y no son independientes (están relacionadas, el conocimiento varía con la facultad) 2. Supuestos - Muestra aleatoria - Probabilidades constantes en cada extracción - Todas las fr. observadas son mayores que 0 - El 80% o más de las esperadas son mayores o iguales que 5
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
12
3. Estadístico de contraste Frecuencias observadas
Conocimiento Bajo Medio Alto
Ciencias 20 13 2 35Filosofía 8 10 10 28Facultad Derecho 12 13 12 37
40 36 24 100 Frecuencias esperadas
Conocimiento Bajo Medio Alto
Ciencias 14 12,6 8,4 35Filosofía 11,2 10,08 6,72 28Facultad Derecho 14,8 13,32 8,88 37
40 36 24 100
nnn
m jiij
++=ˆ
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
13
61,11 88,8
)88,812(14
)1420(
ˆ)ˆ(
22
1 1
22
=
−++
−=
−= ∑∑
= =
L
I
i
J
j ij
ijij
mmn
X
X2 ~ 24
2)1)(1( χχ =−− JI
1. Zona crítica:
X2 ≥ 49,92495,0
2)1)(1(1 ==−−− χχα JI
2. Decisión: Rechazar H0. El conocimiento
varía con la facultad
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
14
3. Igualdad de proporciones
Objetivo: Contrastar si la distribución de una variable (p.e. Y) es la misma en cada uno de los grupos de la otra variable (X).
a. La diferencia con el contraste sobre independencia está en el método de muestreo.
b. El investigador fija arbitrariamente los tamaños de los grupos de la variable X.
c. El contraste se realiza igual que el de independencia.
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
15
Ejemplo: Un investigador decide tomar una muestra de 30 estudiantes de ciencias, 35 de filosofía y 40 de derecho. El objetivo es contrastar si la distribución del conocimiento de actualidad es la misma en los tres grupos. 1. Hipótesis H0: La distribución de Y (conocimiento) es igual en los tres grupos de X (facultad).
H1: La distribución de Y varía según la facultad. 1. Supuestos (los mismos)
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
16
2. Estadístico de contraste
Frecuencias observadas Conocimiento Bajo Medio Alto
Ciencias 18 10 2 30Filosofía 6 14 15 35Facultad Derecho 11 20 9 40
35 44 26 105 Frecuencias esperadas
Conocimiento Bajo Medio Alto
Ciencias 10 12,57 7,43 30Filosofía 11,67 14,67 8,67 35Facultad Derecho 13,33 16,76 9,9 40
35 44 26 105
nnn
m jiij
++=ˆ
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
17
42,19 9,9
)9,99(10
)1018(
ˆ)ˆ(
22
1 1
22
=
−++
−=
−= ∑∑
= =
L
I
i
J
j ij
ijij
mmn
X
X2 ~ 24
2)1)(1( χχ =−− JI
4. Zona crítica:
X2 ≥ 49,92495,0
2)1)(1(1 ==−−− χχα JI
5. Decisión: Rechazar H0. El
conocimiento varía con la facultad
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
18
4. Medidas de asociación Objetivo: cuantificar la fuerza de la asociación entre las dos variables. 1. Coeficiente de contingencia Toma valores entre 0 y Cmax
nXX
C+
=2
2
kk
C1
max−
= k : número de filas y columnas (igual)
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
19
2. Coeficiente φ (phi) Se aplica en tablas 2x2. Valores entre 0 y 1
nX 2
=φ 3. Coeficiente V de Cramer Generaliza φ para tablas de cualquier tamaño
)1(
2
−=
knXV
k : menor de filas y columnas
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
20
Ejemplo: (continuación del contraste de independencia: conocimiento de las noticias por facultad)
n=100
X2 = 11,61
32,010061,11
61,112
2
=+
=+
=nX
XC
82,0321
max ==−
=kkC
24,0)2(100
61,11)1(
2
==−
=knXV
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
21
5. Errores tipificados Objetivo: cuantificar la diferencia entre la frecuencia observada y la esperada para cada celda de la tabla. Errores
ijijij mne ˆ−= Problema: es difícil compararlos para distintas celdas Errores tipificados
ij
ijije m
mnZ
ij ˆˆ−
=
Nota: ∑∑=i j
eijZX 22
Problema: Bajo H0 su distribución es normal (0, σ2 = (I-1)(J-1) / (IJ) ).
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
22
Ejemplo: (Estudios y facultad)
Errores Conocimiento Bajo Medio Alto
Ciencias 6 0,4 -6,4 Filosofía -3,2 -0,1 3,3 Facultad Derecho -2,8 -0,3 3,1
Errores tipificados Conocimiento Bajo Medio Alto
Ciencias 1,60 0,11 -2,21Filosofía -0,96 -0,03 1,27FacultadDerecho -0,73 -0,09 1,05
Distribución normal con media 0 y
σ2 = (I-1)(J-1) / (IJ) = 4 / 9 = 0,44
60,114
1420ˆ
ˆ11
111111
=−
=−
=mmnZe
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
23
Formulario del tema 10 Bondad de ajuste
mi = nπi
∑=
−=
I
i i
ii
mmnX
1
22 )(
X2 ~ 21χ
Independencia e igualdad de proporciones
nnn
m jiij
++=ˆ
∑∑= =
−=
I
i
J
j ij
ijij
mmn
X1 1
22
ˆ
)ˆ(
X2 ~
2)1)(1( −− JIχ
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
24
Coeficiente de contingencia
nXX
C+
=2
2
kk
C1
max−
= Coeficiente phi
nX 2
=φ Coeficiente V de Cramer
)1(
2
−=
knXV
Errores ijijij mne ˆ−=
Errores tipificados
ij
ijije m
mnZ
ij ˆ
ˆ−=
ijeZ ~ normal (0, σ2 = (I-1)(J-1) / (IJ) )
Universidad Autónoma de Madrid
Análisis de Datos en Psicología II Tema 10
25
Ejercicios recomendados del libro: 12.1 12.4 12.5 12.6 12.12 12.13