ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... ·...

28
1 ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA OFICIAL DE POSTGRADO EN ESTADÍSTICA E INVESTIGACIÓN OPERATIVA TEMA 3. ANÁLISIS DE DOS O MÁS VARIABLES Profesora: Mª Carmen Iglesias Pérez (Dpto. Estadística e I.O. U. Vigo) 3.1. Tablas de correlación y de contingencia. En muchas ocasiones interesa estudiar dos o más caracteres o variables (cualitativos o cuantitativos) simultáneamente en un conjunto de individuos. Centrándonos en el caso bidimensional, denotamos con x i a los distintos valores que toma la variable X y con y j los distintos valores que toma la variable Y y definimos: - Frecuencia absoluta CONJUNTA del par (x i , y j ): n ij, es el número de individuos que presentan simultáneamente los valores: x i en X e y j en Y. - Frecuencia Relativa CONJUNTA del par (x i , y j ): f ij= n ij /n , es la proporción de individuos que presentan simultáneamente los valores x i en X e y j en Y del total de individuos n. - Distribución Bidimensional de frecuencias es el conjunto de valores de la variable bidimensional (X,Y) junto a las frecuencias conjuntas de dichos valores. Una forma de presentar una distribución bidimensional de frecuencias es mediante una tabla de doble entrada. Su forma general es la siguiente: Y X y 1 y 2 y j y h n i. x 1 n 11 n 12 n 1j n 1h n 1. x 2 n 21 n 22 n 2j n 2h n 2. x i n i1 n i2 n ij n ih n i. x k n k1 n k2 n kj n kh n k. n .j n .1 n .2 n .j n .h n Nota: Si X e Y se pueden ordenar, los valores se colocan ordenados de menor a mayor. La última fila y columna proporcionan las frecuencias marginales de X e Y por separado. Cuando X e Y son variables cualitativas o atributos la tabla de doble entrada se denomina tabla de contingencia, cuando X e Y son variables numéricas se habla de tabla de correlaciones. Para hacer tablas de contingencia con R y calcular distintas frecuencias y porcentajes se usan los siguientes comandos: mytable <- table(X,Y) # mytable es una tabla con X en filas e Y en columnas mytable <- xtabs(~X+Y) # mytable es una tabla con X en filas e Y en columnas margin.table(mytable, 1) # frecuencias marginales de X margin.table(mytable, 2) # frecuencias marginales de Y prop.table(mytable) # proporciones totales de cada celda prop.table(mytable, 1) # proporciones respecto a la fila prop.table(mytable, 2) # proporciones respecto a la columna

Transcript of ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... ·...

Page 1: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

1

ANÁLISIS EXPLORATORIO DE DATOS

PROGRAMA OFICIAL DE POSTGRADO EN ESTADÍSTICA E INVESTIGACIÓN OPERATIVA

TEMA 3. ANÁLISIS DE DOS O MÁS VARIABLES

Profesora: Mª Carmen Iglesias Pérez (Dpto. Estadística e I.O. U. Vigo) 3.1. Tablas de correlación y de contingencia. En muchas ocasiones interesa estudiar dos o más caracteres o variables (cualitativos o cuantitativos) simultáneamente en un conjunto de individuos. Centrándonos en el caso bidimensional, denotamos con xi a los distintos valores que toma la variable X y con yj los distintos valores que toma la variable Y y definimos: - Frecuencia absoluta CONJUNTA del par (xi , yj): nij, es el número de individuos que presentan simultáneamente los valores: xi en X e yj en Y. - Frecuencia Relativa CONJUNTA del par (xi , yj): fij=nij/n, es la proporción de individuos que presentan simultáneamente los valores xi en X e yj en Y del total de individuos n. - Distribución Bidimensional de frecuencias es el conjunto de valores de la variable bidimensional (X,Y) junto a las frecuencias conjuntas de dichos valores. Una forma de presentar una distribución bidimensional de frecuencias es mediante una tabla de doble entrada. Su forma general es la siguiente: Y X

y1 y2 … yj … yh ni.

x1 n11 n12 n1j n1h n1. x2 n21 n22 n2j n2h n2. … xi ni1 ni2 nij nih ni. … xk nk1 nk2 nkj nkh nk. n.j n.1 n.2 n.j n.h n Nota: Si X e Y se pueden ordenar, los valores se colocan ordenados de menor a mayor. La última fila y columna proporcionan las frecuencias marginales de X e Y por separado. Cuando X e Y son variables cualitativas o atributos la tabla de doble entrada se denomina tabla de contingencia, cuando X e Y son variables numéricas se habla de tabla de correlaciones. Para hacer tablas de contingencia con R y calcular distintas frecuencias y porcentajes se usan los siguientes comandos: mytable <- table(X,Y) # mytable es una tabla con X en filas e Y en columnas mytable <- xtabs(~X+Y) # mytable es una tabla con X en filas e Y en columnas margin.table(mytable, 1) # frecuencias marginales de X margin.table(mytable, 2) # frecuencias marginales de Y prop.table(mytable) # proporciones totales de cada celda prop.table(mytable, 1) # proporciones respecto a la fila prop.table(mytable, 2) # proporciones respecto a la columna

Page 2: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

2

También se pueden usar las siguientes funciones, previa instalación de algún paquete como Rcmdr totPercents(mytable) # porcentajes totales con suma marginal rowPercents(mytable) # porcentajes respecto a la fila con totales y recuento colPercents(mytable) # porcentajes respecto a la fila con totales y recuento Ejercicio 1. Carga el archivo del paquete car y calcula la tabla de contingencia entre “oil” y “region” > library(car) > help(Leinhardt) > attach(Leinhardt) > mytable<-table(oil,region) > mytable region oil Africa Americas Asia Europe no 31 21 26 18 yes 3 2 4 0 > prop.table(mytable) region oil Africa Americas Asia Europe no 0.29523810 0.20000000 0.24761905 0.17142857 yes 0.02857143 0.01904762 0.03809524 0.00000000 > totPercents(mytable) Africa Americas Asia Europe Total no 29.5 20.0 24.8 17.1 91.4 yes 2.9 1.9 3.8 0.0 8.6 Total 32.4 21.9 28.6 17.1 100.0 3.2. Representaciones gráficas Las representaciones gráficas bidimensionales son muy variadas y dependen, fundamentalmente, del tipo de variables X e Y que estemos estudiando. A continuación destacamos algunos gráficos muy utilizados dependiendo del tipo de variables: 1. PARA DOS VARIABLES CUALITATIVAS: - Diagrama de rectángulos agrupados: Las modalidades de Y se representan en el eje de abcisas y para cada una de ellas se generan tantos rectángulos como modalidades de X haya. Pueden colocarse apilados o unos al lado de otros. La altura de cada rectángulo viene dada por la frecuencia conjunta, aunque también se pueden usar distintos tipos de porcentajes. Además, todos los rectángulos asociados a la misma modalidad de Y presentan igual color. La instrucción básica en R para esta gráfica es barplot(mytable), la cual admite diferentes opciones.

Page 3: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

3

Ejercicio 2. - Ejecuta la función siguiente: > barplot(mytable, beside=TRUE, legend=rownames(mytable), + xlab="region", ylab="frecuencia",col=rainbow(2),main="Distribución Países por región y petróleo")

Africa Americas Asia Europe

noyes

Distribución Paises por region y oil

region

frecu

ency

05

1015

2025

30

- Prueba a cambiar sus opciones, por ejemplo: > barplot(mytable, legend.text=c(“no”,”si”), col=c("darkblue","red")) - Haz diagramas de barras con porcentajes: > table2<-prop.table(mytable,2) > table2<-table2*100 > table2 > barplot(table2) 2. PARA DOS VARIABLES CUANTITATIVAS: - Diagrama de dispersión o nube de puntos: Los valores de X se representan en el eje de abcisas y los valores de Y en el eje de ordenadas y cada par de valores (xi, yj) se representa como un punto. Se pueden usar representaciones de los puntos que permitan caracterizar las frecuencias. La instrucción básica en R para esta gráfica es plot(X,Y), aunque admite diferentes opciones. Consulta help(plot). Ejercicio 3. - Ejecuta la función siguiente: >plot(income, infant, main="Scatterplot Example", xlab="income",ylab="infant", +col="red",pch=19)

Page 4: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

4

0 1000 2000 3000 4000 5000

010

020

030

040

050

060

0

Scatterplot Example

income

infa

nt

- Prueba a cambiar las distintas opciones del comando anterior. - Añade una recta de ajuste usando: >abline(lm(infant∼income), col="red") -Transforma las variables infant e income usando logaritmos y repite el gráfico y el ajuste lineal. 3. PARA UNA VARIABLE CUALITATIVA Y OTRA CUANTITATIVA: - Diagrama de CAJA POR GRUPOS: En el eje de abcisas se colocan las modalidades del atributo X y sobre ellas (en vertical) se representan los diagramas de caja de la variable numérica Y calculados sólo para el grupo de individuos con dicha modalidad. La instrucción básica en R para esta gráfica es boxplot(Y∼X), puesto que: El formato general del diagrama de caja boxplot(x, data=),, donde x es una fórmula y data= denota el dataframe que proporciona los datos. Un ejemplo de una fórmula es y~grupo, donde se genera un diagrama de caja separada de la variable numérica y para cada valor de grupo. Añadir varwidth = TRUE para hacer el ancho del boxplot proporcional a la raíz cuadrada de los tamaños de las muestras. Añadir horizontal = TRUE para invertir la orientación del eje. Ejercicio 3. - Representa el diagrama de caja de income según la región de cada país. > boxplot(income~region, main="Boxplot Example", xlab="region",ylab="income", +col="red")

Page 5: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

5

Africa Americas Asia Europe

010

0020

0030

0040

0050

00

Boxplot Example

region

inco

me

- Prueba con las opciones varwidth = TRUE y horizontal = TRUE. 3.3 Independencia y dependencia estadística Una variable se dice que depende funcionalmente de otra cuando existe una función que permite obtener los valores de la primera a partir de los de la segunda. La situación opuesta a la dependencia funcional es la independencia estadística, que se presentará cuando entre las variables no exista ningún tipo de relación. Para definir formalmente la condición de independencia se utiliza el razonamiento de que si X es independiente de Y, su distribución de frecuencias, dado cualquier valor de Y, no debe variar y debe coincidir con su distribución marginal (la de X). Es decir, que para todo i se tiene:

nn

nn

nn

nn

nn i

h

ih

j

ijii •

••••

====== ......2

2

1

1

Esto equivale a la condición:

jin

nnn

nn jiij ,

.∀= ⋅

o bien a que nij=eij para todo i,j, siendo

nnn

e jiij

.⋅=

Entre los dos casos planteados, dependencia funcional e independencia estadística, pueden existir muchas situaciones intermedias, donde existe una cierta relación entre las variables que no puede ser expresada de modo exacto mediante una función: son casos de dependencia estadística.

Page 6: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

6

Para profundizar en el estudio de las relaciones entre variables que presentan dependencia estadística existen diversas técnicas y modelos estadísticos. Entre ellos destacan:

1. PARA DOS VARIABLES CUALITATIVAS: Medidas de asociación entre atributos

2. PARA DOS VARIABLES CUANTITATIVAS: Medidas de la correlación y modelos de regresión

3. PARA UNA VARIABLE CUALITATIVA Y OTRA CUANTITATIVA: Comparación de las distribuciones numéricas condicionadas a las modalidades del atributo. En un primer paso abordaremos estas técnicas solamente desde un punto de vista descriptivo. 3.4. Análisis de variables cualitativas. Medidas de asociación A partir de una tabla de contingencia podemos determinar si dos caracteres cualitativos o atributos son o no independientes mediante la condición de independencia de las frecuencias. Cuando los atributos son estadísticamente dependientes tiene interés medir su grado de dependencia o asociación. Una forma de hacerlo es comparando las frecuencias eij con nij. En esta línea, se puede definir la medida de asociación chi-cuadrado dada por:

∑−

=ji ij

ijij

een

,

22 )(

χ

Este coeficiente mide, en términos relativos, cuanto dista la distribución conjunta de los atributos de la situación de independencia; por tanto, cuanto mayor sea el valor de χ² mayor será el grado de asociación entre los atributos; en caso de independencia, χ²=0. Esta medida no está acotada. Coeficiente de contingencia C Se define como sigue:

nC

+= 2

2

χχ

El coeficiente C de contingencia está acotado entre 0 y 1, obteniéndose el valor 0 en el caso de independencia entre los atributos. El valor 1 nunca se alcanza y en el caso de tablas cuadradas (h=nºfilas= nºcolumnas)

se puede probar que el máximo valor que puede tomar C es hh 1−

. Algunos ejemplos son:

k=h: 2 3 4 5 6 max. C: 0.71 0.82 0.87 0.89 0.91

Observación: test Chi-cuadrado de independencia. Cuando estamos en un contexto de inferencia, en realidad calculamos la medida Chi-cuadrado sobre una muestra de los individuos de la población. En esta situación es prácticamente imposible que el Chi-cuadrado de la muestra nos de exactamente 0 aunque las variables sean independientes en la población (del mismo modo que, aun estando equilibrada una moneda, es bastante difícil que al lanzarla 50 veces nos salgan exactamente 25 caras y 25 cruces).

Page 7: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

7

Así que la pregunta en este caso es: ¿A partir de qué valor consideraré que el Chi-cuadrado resulta demasiado grande para poder asumir que la muestra procede de un modelo poblacional independiente? En realidad estoy “contrastando (juzgando) la hipótesis (nula) de que las variables son independientes en la población” y decido aceptar esa hipótesis si el valor del Chi-cuadrado que se obtiene en la muestra no difiere significativamente de valores que considero razonables cuando la hipótesis (nula) de independencia es cierta. En caso de que existan diferencias significativas rechazaré la hipótesis y supondré que las variables son dependientes en la población. Los contrastes o test de hipótesis proporcionan una metodología para decidir si aceptamos o rechazamos una hipótesis sobre una población. Corresponden a las técnicas de Inferencia Estadística que revisaremos brevemente en un apartado posterior. En el caso del test Chi-cuadrado de independencia, para poder aplicarlo correctamente se debe cumplir que la muestra sea grande (n>30) y las frecuencias esperadas mayores o iguales a 5. En ese caso un p-valor inferior a 0.05 nos indicara una discrepancia alta entre los valores observados y la hipótesis de independencia, que nos llevará a rechazar la independencia. En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado de independencia para una tabla de contingencia de (X,Y): > mytable <- table(X,Y) > test<-chisq.test(mytabla) > test Algunas opciones de este objeto son: > test$observed > test$expected > test$residuals > test$statistic El coeficiente de contingencia se puede definir utilizando una función. Ejercicio 4 - Estudia las caracterísicas de help(chisq.test) - Calcula la tabla de contingencia, frecuencias observadas, esperadas, residuos, medida chi-cuadrado y p-valor del test de independencia para la tabla de contingencia entre oil y region. - ¿ Qué obtienes al hacer > (sum(test$residuals^2)) ? - ¿ Qué obtienes al hacer > sum(test$observed) ? -Define el coeficiente de contingencia y calcula su valor para la tabla (oil,region) > Contingencia<-function(X,n){ sqrt( X/(X+n) )} 3.5. Coeficientes de correlación entre variables numéricas Cuando dos variables numéricas presentan dependencia estadística, interesa determinar en qué medida están relacionadas. La correlación entre dos variables numéricas es una medida del grado de dependencia mutua entre dichas variables. Diremos que la correlación es positiva si al aumentar una de las variables por encima de su media, la otra lo hace también y recíprocamente; en este caso se dirá que existe

Page 8: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

8

una relación directa entre las variables. En caso contrario, cuando al aumentar los valores de una variable disminuyen los de la otra, se dice que la correlación es negativa; en este caso existirá una dependencia inversa entre las variables. Cuando el aumento o disminución de una de las variables no permita deducir el comportamiento de la otra variable, se dirá que existe una ausencia de correlación o incorrelación. Covarianza La covarianza es una medida de la variación conjunta de dos variables que indica sólo si existe relación lineal entre ellas y no de otro tipo. Es por ello que Si X e Y son variables independientes, entonces su covarianza es 0. Sin embargo, existen variables cuya covarianza vale 0 y no son independientes. La covarianza entre las variables X e Y viene dada por:

( )( )∑ −−=ji

ijjiXY nyyxxn

S,

1

Y el signo de SXY nos indica: SXY > 0 → Correlación positiva. SXY < 0 → Correlación negativa. SXY = 0 → Ausencia de correlación. Además, a mayor valor absoluto de SXY mayor grado de relación lineal entre X e Y. Coeficiente de correlación lineal La covarianza tiene el inconveniente de ser una medida absoluta, ya que depende de las unidades de medida de las variables; por este motivo, no permite comparar el grado de dependencia lineal de distribuciones que vienen dadas en unidades diferentes. Además, no está acotada. Para subsanar estos inconvenientes definimos: El coeficiente de correlación lineal de Pearson:

YX

XY

SSS

=XYr

rXY es adimensional y varía entre -1 y 1: -1≤ rXY ≤ 1 . El signo de rXY coincide con el signo de SXY y se interpreta de la misma forma. Además, cuanto más cerca de 1 esté el valor absoluto de rXY mayor grado de relación lineal entre X e Y. En concreto: Si rXY =1 → Correlación positiva máxima: todos los puntos están sobre una recta de pendiente positiva. Si rXY = -1 → Correlación negativa máxima: todos los puntos están sobre una recta de pendiente negativa. Es lógico pensar que exista una relación entre el coeficiente de correlación lineal de Pearson y la bondad de ajuste de los datos mediante una recta. Efectivamente, como se verá en el próximo tema cuando se estudie el modelo de regresión lineal, el cuadrado del coeficiente de correlación de Pearson coincide con la proporción de la varianza de la variable Y que logra explicar el modelo lineal de X, esa proporción se denomina coeficiente de determinación, R2. Así un coeficiente de correlación de 0.7 supone un 49% de variabilidad de Y explicada por el modelo lineal. Es habitual estudiar las correlaciones entre varias variables cruzándolas dos a dos. Estas se muestran mediante la llamada matriz de correlaciones. Coeficiente de correlación de Spearman Consiste en calcular el coeficiente de correlación lineal de Pearson para los rangos de los valores de la variable. Los rangos son el valor de orden de cada valor de la

Page 9: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

9

variable, ordenados de menor a mayor. Este coeficiente también varía entre -1 y 1, y a mayor valor, mayor es el grado de relación entre las variables. Representa una alternativa no paramétrica y robusta a la correlación de Pearson. Suele utilizarse en variables ordinales, cuando hay presencia de datos atípicos o ausencia de normalidad. En general, recoge mejor las relaciones no lineales que puedan existir entre las variables. En R estos coeficientes se calculan usando la función cor(x,use=” “,method=” “) donde: x es una matriz o dataframe: use indica como tratar los datos faltantes, con opciones all.obs, complete.obs o pairwise.complete.obs y method puede ser pearson, spearman o kendall. Ejercicio 5 - Ejecuta: > cor(infant,income,use="complete.obs") - Calcula la covarianza de las variables anteriores sustituyendo cor por cov - Calcula el coeficiente de Spearman de las variables anteriores - Calcula el coeficiente de Pearson y el de Spearman de los logaritmos de las variables anteriores - Encuentra los errores de estas sentencias: > cov(infant,income) > cov(infant,income,use=complete.obs) > corr(infant,income,use="complete.obs") > cor(log(infant),log(income),use="complete.obs",method="Pearson") 3.6. Comparación de distribuciones (relación entre una variable cualitativa y otra cuantitativa). Cuando analizamos la relación entre una variable cualitativa y otra cuantitativa, suele interesar comparar el comportamiento de la distribución de la variable numérica según los distintos valores que presenta el atributo. A nivel de la muestra o datos observados esto se lleva a cabo a nivel gráfico (por ejemplo con el diagrama de caja por grupos) y comparando las principales medidas descriptivas: media, desviación, cuartiles,… Una forma sencilla en R para la comparación de descriptivos entre los distintos grupos se puede hacer usando: tapply() Por ejemplo, > data(Leinhardt) > tapply(Leinhardt$income,list(region=Leinhardt$region),summary) da como resultado: $Africa Min. 1st Qu. Median Mean 3rd Qu. Max. 50.00 82.75 132.00 273.20 219.20 3010.00 $Americas Min. 1st Qu. Median Mean 3rd Qu. Max. 100.0 327.0 507.0 939.9 743.0 5523.0

Page 10: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

10

$Asia Min. 1st Qu. Median Mean 3rd Qu. Max. 71.0 100.5 245.5 638.9 539.2 3723.0 $Europe Min. 1st Qu. Median Mean 3rd Qu. Max. 406 2081 3302 3040 3927 5596 Ejercicio 6 - Compara la media y desviación típica de infant según las regiones -Ejecuta > scatterplot(Leinhardt$infant~Leinhardt$income | Leinhardt$region) Y estudia sus opciones usando help. En la mayor parte de las situaciones donde existe incertidumbre, la comparación descriptiva entre grupos se realiza en base a datos muestrales y es frecuente preguntarse si las diferencias encontradas en la muestra son lo suficientemente importantes como para no ser atribuidas al mero azar. Esto también ocurre con los valores muestrales de los coeficientes de correlación o de las medidas de asociación, ¿indican los valores obtenidos una dependencia en el modelo que ha generado los datos muestrales (es decir, en la población). Para responder a esta pregunta se necesita el uso de modelos de probabilidad y de modelos y técnicas de Inferencia Estadística, entre las que resulta básica el Contraste de Hipótesis. 3.7. Revisión: modelos de probabilidad, conceptos de Inferencia y Contraste de Hipótesis. Revisamos brevemente algunos conceptos básicos: - Distribución de probabilidad de una variable aleatoria De forma intuitiva puede considerarse la probabilidad como una medida del grado de certeza sobre la ocurrencia de cierto suceso al realizar un experimento aleatorio. De modo que la probabilidad es una función que se define sobre cada suceso y todos los sucesos forman el llamado espacio muestral. Una variable aleatoria (v.a.) es una función que asigna un valor numérico a cada elemento del espacio muestral. Así, los valores que toma la v.a. van a aparecer con una cierta probabilidad, heredada de la probabilidad con la que ocurren los sucesos. Los valores de la variable aleatoria junto con la probabilidad con la que aparecen constituyen una distribución de probabilidad, que en las variables discretas suele darse mediante la función de masa de probabilidad { (xi,pi)} y en las variables continuas mediante su función de densidad f (función no negativa que integra 1). - Distribución Normal Se trata de una v.a. cuya función de densidad es la conocida campana de Gauss. Esto quiere decir, que los valores más probables se agrupan alrededor de un valor central (su media) y que a medida que nos alejamos de ese valor medio es menos probable encontrar valores. Es una de las distribuciones más utilizadas. Su importancia se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal:

Page 11: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

11

• Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, p.ejm. tallas, pesos, envergaduras, diámetros, perímetros,...

• Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono.

• Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen.

• Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio,...

• Errores cometidos al medir ciertas magnitudes. • Valores estadísticos muestrales, por ejemplo : la media. • Otras distribuciones como la binomial o la de Poisson pueden aproximarse por

la normal, ... Y en general cualquier característica que se obtenga como suma de muchos factores.

Formalmente, diremos que una v.a. continua X sigue una distribución normal de media μ y desviación típica σ y la denotaremos por N(μ,σ), si se cumplen las siguientes condiciones:

1. La variable X recorre el intervalo (-∞, +∞) 2. Su función de densidad viene dada por la siguiente expresión:

2

21

21)(

⎟⎠⎞

⎜⎝⎛ −

= σμ

πσ

x

exf

Gráficamente:

Ejercicio 7. - Prueba a dibujar en R la densidad Normal usando: > .x <- seq(-3.291, 3.291, length.out=100) > plot(.x, dnorm(.x, mean=0, sd=1)) - También puedes calcular la probablilidad acumulada hasta un valor (por ejemplo el 2) usando: > pnorm(c(2), mean=0, sd=1, lower.tail=TRUE) - Distribución Chi-cuadrado, t de Student, F de Fisher-Snedecor Son modelos de distribución importantísimos en muchos procedimientos de Inferencia Estadística.

1.- La v.a. 2nχ de Pearson

Page 12: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

12

Si tenemos n v.a. con distribución N(0,1), independientes, las elevamos al cuadrado y las sumamos obtenemos una nueva v.a. que se denomina Chi-cuadrado de Pearson con n grados de libertad. La n es el parámetro de la Chi- cuadrado y se puede comprobar que su media es n y su varianza 2n.

Cualquier 2nχ es una v.a. continua que toma valores en [0,+∞) y su función de

densidad es asimétrica con una moda en n-2, como se muestra en la gráfica de abajo. Los percentiles de la distribución Chi-cuadrado están tabulados y resultan muy importantes para hacer inferencias sobre la varianza de una población Normal y para contrastar la hipótesis de independencia entre variables.

Densidad de la v.a. Chi-cuadrado para n=10, 15 y 20 grados de libertad

2.-La v.a. nt de STUDENT

Si tenemos dos v.a. independientes: Z con distribución N(0,1) y U con distribución 2nχ

y consideramos nUZ

/ obtenemos una nueva v.a. que se denomina t de Student con n grados de libertad. La n es el parámetro de la t y se puede comprobar que su varianza es n/(n-2) aunque su media es siempre 0. Cualquier tn es una v.a. continua que toma valores en (-∞,+∞) y su función de densidad es simétrica en el 0. La altura del máximo es inferior al de la N(0,1) y sus colas son más pesadas, pero conforme aumenta n se va acercando a la N(0,1). Gráficamente:

Page 13: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

13

Densidad de la v.a. t de Student Los percentiles de la distribución t de Student están tabulados y resultan muy importantes para hacer inferencias sobre la media de una población Normal cuando se estima su varianza y la muestra es pequeña. También se usa para contrastar la hipótesis de igualdad entre las medias de dos poblaciones con muestras independientes o relacionadas. 2.-La v.a. F de FISHER-SNEDECOR Sean U= 2

nχ y V= 2mχ dos variables aleatorias independientes.

La variable aleatoria mVnUF mn /

/, = tiene distribución F de Fisher-Snedecor con n y m

grados de libertad. Su función de densidad viene dada por

0,)(

)(2

12

3 >+

= +

xsinmx

xcXf nm

m

. Su media es: E( mnF , ) = n/(n-2), si n>2.

Esta distribución sólo toma valores positivos y es muy asimétrica.

Presenta la propiedad de que si X es mnF , , entonces nmFesX ,1

.

Como consecuencia de esta última propiedad se verifica que el percentil de probabilidad p de una mnF , es el inverso del percentil 1-p de una nmF , .

Los percentiles de esta distribución están tabulados y resultan muy importantes para hacer comparaciones entre varianzas de variables Normales. - Inferencia Estadística, métodos paramétricos y no paramétricos La Inferencia Estadística estudia cómo extraer conclusiones para toda la población a partir de una muestra de dicha población. En el proceso inductivo de pasar de lo particular (muestra) a lo general (población) no habrá nunca certeza absoluta, pero si

Page 14: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

14

se exigirá a los procedimientos de Inferencia un alto grado de confianza medido en términos de probabilidad. Los principales procedimientos de Inferencia Estadística son la Estimación Puntual, la Estimación por Intervalo (o Intervalos de Confianza) y el Contraste de Hipótesis. De modo formal o matemático, en un problema de inferencia consideramos: Una población, representada por una v.a. X con distribución de probabilidad desconocida. Una muestra, representada por n v.a. X1, X2,..., Xn a partir de la cual se realizan inferencias o extraen conclusiones sobre la distribución de X. Los procedimientos de Inferencia pueden ser de tipo paramétrico o no paramétrico. En los primeros se supone que la distribución de la población sigue un modelo conocido (normal, binomial, …) aunque se desconocen los valores de los parámetros que la determinan, de modo que se hace inferencia sobre dichos parámetros (media, varianza, proporción, ...). En el enfoque no paramétrico no se asume a priori ninguna distribución de probabilidad sobre la población. - Metodología general de un Contraste de hipótesis. P-valor. El procedimiento de Inferencia denominado Contraste de Hipótesis propone una metodología para evaluar una hipótesis o conjetura inicial sobre la población en estudio. La hipótesis que se evalúa o contrasta se denomina hipótesis nula, H0, y se asume como cierta a no ser que los datos observados (muestra) proporcionen evidencia suficiente en su contra. Cuando se rechaza la hipótesis nula se asume como correcta una hipótesis complementaria, H1, que se denomina hipótesis alternativa. Para tomar la decisión de aceptar o rechazar H0 se necesita un estadístico de contraste o medida de discrepancia entre los datos observados y la hipótesis nula. Ejemplo: En la población de los alumnos matriculados en un centro universitario se considera la variable X=ser fumador. Nos interesa contrastar la hipótesis de que exista un 60% de fumadores, es decir p=0,60. DEFINICIONES: Hipótesis nula: la denotamos por H0, es la hipótesis que se desea contrastar o evaluar. Se enuncia de acuerdo al principio de simplicidad científica y se asume como cierta a no ser que los datos proporcionen evidencia suficiente en su contra. Cuenta con la presunción de inocencia. En el ejemplo la hipótesis nula sería p=0,60. Hipótesis alternativa: la denotamos por H1, es lo que sucede cuando no es cierta la hipótesis nula. Por contar la hipótesis nula con la presunción de inocencia, sobre la hipótesis alternativa recae la carga de la prueba. Por tanto, cuando rechazamos H0 en favor de H1 es porque hemos encontrado pruebas significativas a partir de la muestra. En el ejemplo H1 sería p≠0,60. Hipótesis simple: es la que está constituida por un único punto. Por ejemplo p=0,60. Hipótesis compuesta: es la que está constituida por más de un punto. Por ejemplo p≠0,60. Estadístico del contraste: función de los valores muestrales y del valor propuesto en la hipótesis nula, cuya distribución en el muestreo es conocida cuando H0 es cierta. Es una medida de la discrepancia entre lo afirmado en la hipótesis nula y la información muestral. Según el valor que tome se decide aceptar o rechazar la hipótesis nula H0.

Page 15: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

15

En el ejemplo, un estadístico de contraste podría ser E=

nx

p40,060,0

60,0ˆ − que cuando H0

es cierta verifica que E es N(0,1) para n grande. Región crítica (o de rechazo): conjunto de valores del estadístico de contraste E que provocan un rechazo de la hipótesis nula. Región de Aceptación: conjunto de valores del estadístico E que llevan a aceptar H0. Contraste unilateral: Aquel cuya región crítica está formada por un solo intervalo de la recta real. Se produce cuando la hipótesis alternativa tiene un único sentido. Por ejemplo, H1: p<0,60. Contraste bilateral: Aquel cuya región crítica está formada por dos intervalos de la recta real. Se produce cuando la hipótesis alternativa tiene dos sentidos. Por ejemplo, H1: p≠0,60. La elección de las regiones de aceptación y rechazo en un contraste llevan a una decisión sobre H0, de acuerdo con el siguiente esquema:

DECISIÓN \ REALIDAD H0 cierta H0 falsa Aceptar H0 Correcto Error tipo II Rechazar H0 Error tipo I Correcto

Error de tipo I: el que cometemos cuando rechazamos la hipótesis nula H0, siendo cierta. Error de tipo II: el que cometemos cuando aceptamos la hipótesis nula H0, siendo falsa. Nivel de significación (α) : probabilidad de cometer el error de tipo I: α= p (rechazar H0 / H0 cierta)= p (Error de tipo I) Potencia (β): probabilidad de detectar que una hipótesis es falsa: β= p (rechazar H0/ H0 falsa) = 1- p (Error de tipo II) Metodología: Debemos adoptar un criterio que, a partir de la muestra, nos permita decidir si aceptamos o rechazamos la hipótesis nula. El interés está en minimizar las probabilidades de los errores de tipo I y II. Como ello no es posible simultáneamente, una forma habitual de proceder consiste en: fijar el nivel de significación y escoger el criterio que nos proporcione la mayor potencia posible. Así actúan los contrastes de significación. Los niveles de significación más usados son α= 0,01 0,05 y 0,10. CASO CONTRASTE BILATERAL: En el ejemplo, H0: p=0,60 y H1: p≠0,60 decidimos rechazar H0 si E toma valores muy grandes (en valor absoluto) lo cual significaría que p̂ y 0,60 están muy alejados en los dos sentidos de la hipótesis alternativa: p<0,60 o p>0,60. Sabemos que cuando H0 es cierta E sigue una distribución N(0,1), de modo que los percentiles de la Normal nos sirven para delimitar la zona de valores grandes de E, sabiendo que va a ser la región de rechazo y que tendrá probabilidad α= p (rechazar H0 / H0 cierta)= p (Error tipo I).

Page 16: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

16

Observaciones:

Región de aceptación:⎟⎠⎞⎜

⎝⎛ +−

−− 2121,

ααZZ

: H0 se acepta si 2121 αα −−+<<− ZEZ

Región crítica o de rechazo: ⎟⎠⎞⎜

⎝⎛ −∞−

− 21,

αZ

U⎟⎠⎞⎜

⎝⎛ +∞+

−,

21 αZ

. De modo que H0 se

rechaza si 21 α−−< ZE

o si 21 α−> ZE

. La probabilidad de la región de rechazo es α=p(error tipo I). El contraste es bilateral.

Si suponemos en el ejemplo que n=25, p̂ =0,50 y tomamos α=0,05 tenemos:

E= -0,10/0,0979= -1,02. =+

− 21 αZ

Z0,975 = 1,96. Entonces E pertenece a la región de aceptación y aceptamos H0. Es decir, fijado un nivel de significación del 5% no hay evidencias significativas para rechazar H0 por lo que la asumimos como cierta. Se dice que el test es no significativo. La decisión tomada se interpretaría diciendo que podemos asumir un porcentaje de fumadores del 60% en el centro universitario. CASO CONTRASTE UNILATERAL A LA DERECHA: Supongamos ahora el siguiente contraste, H0: p=0,60 (p≤0,60) y H1: p>0,60. Planteamos este contraste unilateral cuando queremos detectar si hay suficientes evidencias a favor de la alternativa p>0,60, que en este ejemplo significa suficiente evidencia a favor de un porcentaje de fumadores superior al 60%. En este caso decidimos rechazar H0 si E toma valores positivos muy grandes lo cual significaría que p̂ y 0,60 están muy alejados en el sentido de la hipótesis alternativa: p>0,60. Sabemos que cuando H0 es cierta E sigue una distribución N(0,1), de modo que los percentiles de la Normal nos sirven para delimitar la zona de valores grandes de E, sabiendo que va a ser la región de rechazo y que tendrá probabilidad α= p (rechazar H0 / H0 cierta)= p (Error de tipo I).

Observaciones:

Región de aceptación: ( )α−+∞− 1, Z . De modo que H0 se acepta si α−+< 1ZE

Región crítica o de rechazo: ( )+∞+ − ,1 αZ . De modo que H0 se rechaza si α−> 1ZE . La probabilidad de la región de rechazo es α=p(error tipo I).

1-αα/2 α / 2

AceptaciónRechazo Rechazo

Distribución de E con Ho cierta

1-αα

AceptaciónRechazo

Distribución de E con Ho cierta

Page 17: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

17

El contraste es unilateral a la derecha.

Si suponemos en el ejemplo que n=25, p̂ =0,50 y tomamos α=0,05 tenemos:

E= -0,10/0,0979= -1,02. =+ −α1Z Z0,95 = 1,645. Entonces E pertenece a la región de aceptación y aceptamos H0. Es decir, fijado un nivel de significación del 5% no hay evidencias significativas para rechazar H0 y aceptar un valor de p>0,60. Se dice que el test es no significativo. La decisión tomada se interpretaría diciendo que no hay evidencias significativas a favor de un porcentaje de fumadores superior al 60% en el centro universitario, aceptando por tanto un porcentaje menor o igual al 60%. Para el CONTRASTE UNILATERAL A LA IZQUIERDA se procede de forma similar. NIVEL CRÍTICO O P-VALOR El concepto de nivel crítico proporciona una filosofía alternativa al cálculo de las regiones de aceptación y rechazo para la resolución de un contraste de hipótesis. Sea E un estadístico de contraste y e el valor del estadístico en una muestra particular. Se define el nivel crítico o p-valor como la probabilidad de obtener una discrepancia mayor o igual que e cuando H0 es cierta. La discrepancia mayor o igual se mide en el sentido de la alternativa, de modo que el p- valor se calcula como: ( )eEP ≥ , cuando el contraste es bilateral,

( )eEP ≥ , cuando el contraste es unilateral a la derecha, ( )eEP ≤ , para contrastes unilaterales a la izquierda.

El p-valor varía entre 0 y 1 y sirve para medir el grado de discrepancia o incompatibilidad de los datos muestrales con H0, de forma que cuanto menor sea p, mayor será la discrepancia entre la muestra y H0. Fijado un nivel de significación α procederemos del modo siguiente:

Si el valor de p es menor que α se rechaza H0 y en otro caso se acepta H0.

En los contrastes planteados para el ejemplo de la proporción de fumadores se tiene: CONTRASTE BILATERAL: H0: p=0,60 y H1: p≠0,60. La muestra lleva a un valor del estadístico E igual a e= -1. Nivel crítico o p-valor = P ( )1−≥E =2P(Z>1)=2(1-0,8413)= 0,3174.

Como 0,3174 ≥ 0,05 decidimos aceptar H0 con un nivel de significación del 5%. Gráficamente: p-valor = área rayada. CONTRASTE UNILATERAL A LA DERECHA: H0: p=0,60 (p≤0,60) y H1: p>0,60. La muestra lleva a un valor del estadístico E igual a e=-1. Nivel crítico o p-valor = P ( )1−≥E = P(Z≤1) = 0,8413. Como 0,8413 ≥ 0,05 decidimos aceptar H0 con un nivel de significación del 5%.

1-αα/2 α / 2

AceptaciónRechazo Rechazo

Distribución de D con Ho cierta

Page 18: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

18

Gráficamente: p-valor = área rayada. Para el CONTRASTE UNILATERAL A LA IZQUIERDA se procede de forma similar. 3.8. Comparación de distribuciones: test paramétricos y no paramétricos. Hasta el momento hemos realizado un análisis exploratorio descriptivo. Ahora vamos a utilizar los contrastes de hipótesis para comparar distribuciones. Se trata de valorar si las diferencias encontradas en la muestra son lo suficientemente importantes como para no ser atribuidas al mero azar, sino a la diferencia existente entre las distribuciones de las variables a nivel poblacional. Comenzaremos exponiendo los principales contrastes paramétricos y a continuación los no paramétricos. Veremos: Test paramétricos en dos poblaciones normales: - Prueba t de comparación de medias para muestras independientes - Prueba t de comparación de medias para muestras relacionadas - Prueba F de comparación de varianzas Test no paramétricos para dos muestras: - Test de Wilcoxon para muestras independientes - Test de Wilcoxon para muestras apareadas Test no paramétricos para más de dos muestras: - Test de Kruskal-Wallis para k muestras independientes - Test de Friedman para k muestras relacionadas 3.8.1. Test paramétricos en dos poblaciones normales Los test paramétricos asumen que se tienen dos variables poblacionales X e Y con funciones de distribución desconocidas, pero que siguen un modelo de distribución Normal. Formalmente: ),( XXNX σμ≈ y ),( YYNY σμ≈ , donde los parámetros son desconocidos. Y el interés radica en contrastar si las dos medias y/o las dos varianzas son iguales. Para cada contraste se necesita un estadístico de contraste con una distribución conocida bajo la hipótesis nula, la distribución de ese estadístico suele dar el nombre al contraste o prueba.

1. Prueba t de comparación de medias para muestras independientes Sea X1, X2,..., Xn una muestra de tamaño n procedente de una distribución normal

),( XXNX σμ≈ y sea Y1, Y2,..., Ym una muestra de tamaño m de otra población normal ),( YYNY σμ≈ , independiente de la anterior. Para contrastar la igualdad de medias, el estadístico cambia dependiendo de que se asuman varianzas poblacionales desconocidas pero iguales o que se asuman desiguales. De forma general ambos casos se pueden formular de la forma siguiente:

1-αα

Aceptación Rechazo

Distribución de E con Ho cierta

d

Page 19: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

19

1. 0:0 =− YXH μμ ( 0d= )

2. vtYXdYX

E ≈−−−

=)(ˆ

)( 0

σ si 0H cierta.

En el caso de varianzas iguales v=n+m-2. En el caso de varianzas distintas v, además de depender de n y m, depende de las varianzas muestrales: )1/()( 22 −−= ∑ nXXS iX y ).1/()( 22 −−= ∑ mYYS iY

3. En función de la hipótesis alternativa 1H y del nivel de significación α que elija el investigador, se determina la región crítica o de rechazo. La hipótesis alternativa puede ser bilateral ( 0:1 ≠− YXH μμ ), unilateral a la derecha ( 0:1 >− YXH μμ ) o unilateral a la izquierda ( 0:1 <− YXH μμ ) e indica qué cola o colas de la distribución de E se eligen. La probabilidad de dicha cola o colas debe ser igual a α.

4. Se calcula el valor de E en la muestra y se rechaza 0H si ese valor pertenece a la región crítica. Alternativamente, para el valor de E en la muestra, e, se calcula su p-valor y se rechaza si es menor que α.

Por ejemplo, para el contraste bilateral, se rechaza 0H al nivel de significación α si

( ) α<> etP v .

En R este contraste se realiza usando: > t.test(Y~X) donde Y es numérica y X es un factor binario. También, t.test(y1,y2) si las muestras numéricas están en y1 e y2. Si las varianzas son iguales hay que usar la opción var.equal = TRUE. Para los contrastes unilaterales a la izquierda y a la derecha hay que incluir la opción alternative="less" or alternative="greater", respectivamente. Ejercicio 8 - Utilizaremos el test t para comparar income según oil. > data (Leinhardt) > attach(Leinhard) > t.test(infant~oil) El resultado es: Welch Two Sample t-test data: infant by oil t = -1.2054, df = 7.134, p-value = 0.2665 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -266.78422 86.17347 sample estimates: mean in group no mean in group yes 81.89462 172.20000 - Utiliza el test t para comparar log(income) según oil, asumiendo varianzas iguales y no asumiendo varianzas iguales.

Page 20: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

20

- Contrasta que la media del log(infant) sea igual según oil frente a que sea mayor en el grupo de países exportadores. - Revisa las características de help(t.test).

2. Prueba t de comparación de medias para muestras relacionadas

En este caso se considera una muestra X1, X2,..., Xn de tamaño n procedente de una distribución normal ),( XXNX σμ≈ y una muestra Y1, Y2,..., Yn de tamaño también

n, de otra población normal ),( YYNY σμ≈ , no necesariamente independientes. En este caso se pueden reducir los datos a una sola muestra D1, D2,..., Dn , donde cada Di =Xi - Yi , que tendrá también distribución normal con media YXD μμμ −= . Este caso es habitual cuando se toman medidas repetidas en los mismos individuos de una población, por ejemplo, antes y después de someterlos a un tratamiento. Para contrastar 0:0 =− YXH μμ ( Dμ 0d= =0) se utiliza el estadístico de contraste

nS

dDE

D

0−= que sigue una distribución t con n-1 grados de libertad, si 0H es cierta.

De modo que, por ejemplo, para un contraste unilateral a la derecha, se rechaza 0H

con un nivel de significación α si ( ) α<>− etP n 1 , siendo e el valor de E en la muestra observada. En R este contraste se realiza usando: > t.test(y1,y2,paired=TRUE) donde y1 e y2 son las variables numéricas apareadas cuyas medias se quieren comparar. Las opciones para los test unilaterales son similares al caso anterior.

3. Prueba F de comparación de varianzas Sea X1, X2,..., Xn una muestra de tamaño n procedente de una distribución normal

),( XXNX σμ≈ y sea Y1, Y2,..., Ym una muestra de tamaño m de otra población normal ),( YYNY σμ≈ , independiente de la anterior.

Para contrastar 220 : YXH σσ = ( 22 / YX σσ =1) se utiliza el estadístico de contraste

⎟⎟⎟⎟

⎜⎜⎜⎜

−−

−−

==

)1()1(

)1()1(

2

2

2

2

2

2

mSm

nSn

SSE

Y

Y

X

X

Y

X

σ

σ que sigue una distribución F con n-1,m-1 grados de

libertad si 0H es cierta.

De modo que, por ejemplo, para un contraste unilateral a la izquierda, se rechaza 0H

con un nivel de significación α, si ( ) α<<−− eFP mn 1,1 , siendo e el valor de E en la

muestra observada. En R este test se realiza utilizando: > var.test(Y~X), con Y numérica y X factor binario. Ejercicio 9:

Page 21: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

21

- Contrasta igualdad de varianzas de income según oil e interpreta los resultados. > var.test(income~oil) Se obtiene: F test to compare two variances data: income by oil F = 2.4426, num df = 95, denom df = 8, p-value = 0.1747 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.6526001 5.6876508 sample estimates: ratio of variances 2.442636 - Contrasta ahora la igualdad de varianzas de infant según oil e interpreta los resultados. - Finalmente contrasta la igualdad de varianzas de log(infant) según oil, interpreta los resultados y compáralos con el caso anterior. 3.8.2. Test no paramétricos para dos muestras Los test no paramétricos no asumen ningún modelo de distribución de probabilidad para las variables poblacionales. Tan solo hacen consideraciones muy generales, del tipo que las variables sean continuas, …

1. Test de Wilcoxon para muestras independientes Sea X1, X2,..., Xn una muestra de tamaño n procedente de una población con distribución de tipo continuo XF y sea Y1, Y2,..., Ym una muestra de tamaño m de otra

población con distribución de tipo continuo YF , independiente de la anterior. Se trata de contrastar la hipótesis nula YX FFH =:0 frente a la alternativa bilateral

YX FFH ≠:1 (porque difieren en la tendencia central), o bien, frente a las alternativas unilaterales YX FFH <:1 (en el sentido de que P(X≤t)<P(Y≤t), es decir, la variable aleatoria X tiende a ser mayor que Y, esto es, la tendencia central de X es mayor que la de Y) o YX FFH >:1 (en el sentido análogo al anterior). El test de Wilcoxon se basa en los rangos de las observaciones y utiliza la idea de que, si 0H es cierta, se espera que los rangos correspondientes a los valores de una y otra muestra estén entremezclados o dispersos, mientras que en otro caso, debe esperarse que los rangos de las observaciones de cada muestra estén muy agrupados en los extremos. Llamando R a la suma de los rangos asociados a las observaciones de una cualquiera de las dos muestras (por ejemplo, la de menor tamaño), la distribución del estadístico R está tabulada y permite calcular las regiones de rechazo según el nivel de significación y el tipo de alternativa, unilateral o bilateral. El estadístico R está perfectamente relacionado con el estadístico U de Mann-Whitney, de manera que ambos proporcionan la misma prueba. Además, existen correcciones para tratar los empates entre observaciones, por lo cual la hipótesis de continuidad sobre las variables poblacionales puede rebajarse.

Page 22: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

22

En R el test de Wilcoxon se obtien con la función: > wilcox.test(Y~X) donde Y es numérica y X es un factor binario. También, wilcox.test(y1,y2) si las muestras numéricas están en y1 e y2. Para los contrastes unilaterales a la izquierda y a la derecha hay que incluir la opción alternative="less" or alternative="greater", respectivamente. Ejercicio 10: - Utilizaremos este test para comparar infant según oil. > wilcox.test(infant~oil) Wilcoxon rank sum test with continuity correction data: infant by oil W = 261.5, p-value = 0.1666 alternative hypothesis: true location shift is not equal to 0 - Haz los dos contrastes unilaterales. - Haz el contraste bilateral cambiando infant por income. - Haz ahora el contraste bilateral para valorar si la distribución de log(income) se comporta de modo similar según el grupo de oil.

2. Test de Wilcoxon para muestras apareadas La hipótesis a contrastar es la misma que la del test anterior, YX FFH =:0 , pero en este caso se considera una muestra de tamaño n de una población bivariante, es decir n pares de observaciones muestrales (X1, Y1) ,…,(Xn , Yn) correspondientes a dos v.a. X e Y, con distribución de tipo continuo, pero no necesariamente independientes. Como ya se comentó anteriormente, esta situación aparece frecuentemente al tomar medidas repetidas sobre un mismo individuo. Si reducimos los datos a una sola muestra D1, D2,..., Dn , donde cada Di =Xi - Yi , pasamos a trabajar con una muestra de tamaño n de la v.a. diferencia D=X-Y. Bajo la hipótesis nula, esta variable diferencia estará distribuida de forma simétrica respecto al 0, por lo que las diferencias positivas y negativas de igual magnitud absoluta serán equiprobables. Los estadísticos de Wilcoxon se basan en esta idea y calculan la suma de los rangos de las diferencias positivas, T+, y de las diferencias negativas, T-, habiéndose asignado los rangos a los valores absolutos de las diferencias observadas. La distribución de los estadísticos de Wilcoxon (por ejemplo del T+) está tabulada y permite calcular las regiones de rechazo según el nivel de significación y el tipo de alternativa, unilateral o bilateral. Para muestras grandes, los estadísticos de Wilcoxon, tanto para muestras apareadas como independientes, tienen una distribución aproximadamente Normal, cuya media y varianza dependen de los tamaños muestrales. En R este contraste se realiza usando: > wilcox.test(y1,y2, paired=TRUE) donde y1 e y2 son las variables numéricas apareadas cuyas distribuciones se quieren comparar. Las opciones para los test unilaterales son similares al caso anterior.

Page 23: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

23

3.8.3. Test no paramétricos para más de dos muestras En muchas ocasiones interesa realizar contrastes que involucran a más de dos muestras. En el caso paramétrico, estos contrastes se realizan dentro del modelo denominado Análisis de la Varianza, que estudiaremos en el tema 4. A continuación se presentan los dos test no paramétricos más utilizados para abordar este problema.

1. Test de Kruskal-Wallis para k muestras independientes Se trata de una generalización del test de Wicoxon al caso de k muestras. Sean (X11, X12,..., X1n1 ), (X21, X22,..., X2n2 ), …,(Xk1, Xk2,..., Xknk ), k muestras de tamaños n1, n2,…,nk, respectivamente, de sendas distribuciones continuas. Se quiere contrastar la hipótesis nula de que las k distribuciones son idénticas frente a la alternativa de que difieren en su tendencia central. A cada una de las N= n1+n2+…+nk observaciones conjuntamente ordenadas, se les asigna un rango y se determina la suma de los rangos Rj de las observaciones de cada una de las muestras, j=1,…,k. En esencia, el contraste determina si la disparidad entre las Rj con respecto a los tamaños muestrales nj de las muestras es suficientemente significativa para llevar al rechazo de la hipótesis nula. Si 0H es cierta y para tamaños muestrales suficientemente grandes, el estadístico

)1(3)1(

121

+−⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞⎜

⎝⎛

+= ∑

=

NnjRj

NNH

k

j

se distribuye aproximadamente como una 21−kχ , por lo que para un nivel de

significación α, se rechazará 0H si H > el percentil 1-α de una 21−kχ .

En R este contraste se realiza usando: kruskal.test(y~A), donde y es numérica y A un factor con más de dos niveles. Ejercicio 11: - Utilizaremos este test para comparar income según region. > kruskal.test(income~region) Kruskal-Wallis rank sum test data: income by region Kruskal-Wallis chi-squared = 49.7884, df = 3, p-value = 8.863e-11 - Haz el contraste cambiando infant por income. ¿Cuál es la hipótesis nula? ¿Qué decide el contraste? Acompaña el contraste de un gráfico y de valores muestrales apropiados.

2. Test de Friedman para k muestras relacionadas

Page 24: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

24

Se trata de una generalización del test de Wicoxon para dos muestras apareadas al caso de k muestras. En esta prueba se asignan los rangos independientemente para cada uno de los n individuos, que si no hay empates irán desde 1 hasta k, y después se suman los rangos correspondientes a cada una de las k muestras: kRR ,...,1 . Bajo la hipótesis nula de que las k distribuciones son idénticas, frente a la alternativa de que difieren en su tendencia central, las sumas de los rangos se dispersarán aleatoriamente y en caso contrario, las muestras con medianas más altas producirán sumas de rangos más altas. Si 0H es cierta y para tamaños muestrales suficientemente grandes, el estadístico

)1(3)1(

121

2 +−⎟⎟⎠

⎞⎜⎜⎝

⎛+

= ∑=

knRknk

Hk

jj

se distribuye aproximadamente como una 21−kχ , por lo que para un nivel de

significación α, se rechazará 0H si H> el percentil 1-α de una 21−kχ .

El estadístico anterior tiene una versión corregida en presencia de empates. En R este contraste se realiza definiendo un conjunto de datos apareados por columnas, al cual se aplica el test: >data(Datos) >attach(Datos) >.Responses <- na.omit(with(Datos, cbind(var1, var2, var3,…))) >friedman.test(.Responses) 3.9. Otros contrastes o test de hipótesis En el apartado anterior hemos utilizado los contrastes de hipótesis para comparar distribuciones. Ahora los usaremos también para valorar si el grado de dependencia de la medida de asociación chi-cuadrado, o el grado de correlación del coeficiente de Spearman observados en la muestra, son lo suficientemente importantes como para no ser atribuidos al mero azar, sino a una verdadera situación de dependencia a nivel poblacional, esto es, las medidas poblacionales son iguales a cero.

1. Contraste chi-cuadrado de independencia Sean X e Y dos variables aleatorias con distribución conjunta F(x,y), y distribuciones marginales F1(x) y F2(y), respectivamente. Supongamos que disponemos de n observaciones conjuntas de (X,Y) y que dividimos el espacio de valores tomados por X en r clases o categorías excluyentes A1, A2,..., Ar y de forma similar, dividimos el espacio de valores tomados por Y en s clases excluyentes B1, B2,..., Bs. Denotamos por: - nij al número de observaciones que pertenecen simultáneamente a la clase Aix Bj - ni. al número de observaciones cuyo valor de X pertenece a la clase Ai

- n.j al número de observaciones cuyo valor de Y pertenece a la clase Bj - ( )jiij BAYXPp ×∈= ),( , ( )ii AXPp ∈=. y ( )jj BYPp ∈=. .

Queremos contrastar la hipótesis nula de independencia, es decir, )()(),(: 210 yFxFyxFH = frente a )()(),(: 211 yFxFyxFH ≠ , la cual se puede

escribir como jiij pppH ..0 : = frente a jiij pppH ..1 : ≠ .

Page 25: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

25

Observemos que bajo la hipótesis de independencia el número esperado de

observaciones de la clase Aix Bj viene dado por nnn

nn

nn

nppne jijijiij

...... ˆˆ === y se

puede demostrar que el estadístico ( )

∑∑= =

−=

r

i

s

ij ij

ijij

een

E1

2

se distribuye asintóticamente

como una v.a. 2)1()1( −− srχ .

Entonces, a un nivel de significación α, se rechaza la hipótesis nula de independencia si ( ) αχ <≥−− eP sr

2)1()1( , siendo e el valor de E en la muestra observada.

En la práctica, para poder utilizar la aproximación asintótica, debe cumplirse que n>30 y las frecuencias 5≥ije . Se puede ver que la formulación de este test es lo suficientemente general como para no restringirse únicamente al caso de que X e Y sean atributos. X e Y pueden ser variables discretas, y también continuas agrupadas en intervalos de clase. Como ya vimos anteriormente, el código R para este test es: > mytable <- table(X,Y) > test<-chisq.test(mytabla) > test

2. Contraste sobre el coeficiente de correlación de Spearman Bajo la hipótesis de independencia de las v.a. X e Y, la distribución del coeficiente de correlación de Spearman como estadístico muestral, Sr , puede determinarse exactamente (está tabulada), y para un tamaño muestral grande (en la práctica n>10), se distribuye asintóticamente como una normal de media cero y varianza 1/(n-1). Esto permite contrastar la hipótesis nula 0:0 =SH ρ , contra alternativas uni y bilaterales. Los contrastes sobre el coeficiente de correlación de Pearson se realizan del mismo modo, pero su fundamento teórico se estudiará en el contexto de los modelos de regresión, en el próximo tema. Se trata de un contraste paramétrico que asume la normalidad de las variables. > cor.test(X,Y,method="spearman",use="complete.obs") Ejercicio 12: > cor.test(income,infant,method="spearman",use="complete.obs") resulta en: Aviso en cor.test.default(income, infant, method = "spearman", use = "complete.obs") : Cannot compute exact p-values with ties Spearman's rank correlation rho data: income and infant S = 294826.1, p-value < 2.2e-16 alternative hypothesis: true rho is not equal to 0 sample estimates: rho

Page 26: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

26

-0.7171001 - Ejecuta > cor.test(income,infant), ¿qué obtienes?

3. Contrastes de normalidad Una de las hipótesis básicas para decidir si utilizar procedimientos de inferencia paramétricos o no paramétricos es la normalidad de las variables. El problema general de contrastar la hipótesis nula de que una v.a. X siga una cierta distribución F0, especificada por el investigador, recibe el nombre de test de bondad de ajuste. Existen diversos contrastes de bondad de ajuste, entre los que destacan: - el test chi-cuadrado de bondad de ajuste, cuyo estadístico se construye a

partir de la diferencia entre las frecuencias observadas en cada clase y las esperadas bajo el modelo propuesto en la hipótesis nula,

- el contraste de Kolmogorov-Smirnov, cuyo estadístico se construye a partir de la diferencia entre la función de distribución empírica y la función de distribución propuesta en la hipótesis nula. Este último contraste tiene una adaptación cuando F0 es la distribución normal.

Además de estos contrastes, la normalidad se contrasta con otros test más específicos como la el test de Kolmogorov-Smirnov-Lilliefors, el test de Agostino o el de Shapiro-Wilk. Describiremos brevemente éste último, por ser el contraste de normalidad básico de R. El contraste de Shapiro-Wilk. Este contraste se construye a partir de un estadístico basado en las distancias entre los estadísticos ordenados de lugar simétrico. Así se tienen en cuenta la distancia entre la mayor y a menor observación muestral, entre la segunda y la penúltima (dispuestos los datos en orden creciente), etc. El estadístico de Shapiro-Wilk está tabulado. Dado que puede interpretarse como el cuadrado del coeficiente de correlación lineal de los puntos muestrales dibujados sobre papel probabilístico normal, la hipótesis de normalidad se rechazará para valores pequeños del estadístico, que indicarán independencia o alejamiento de la distribución normal. En R el código para realizar este test es: > shapiro.test(X) donde X es una variable numérica. Además de los contrastes de normalidad es frecuente la exploración gráfica, usando histogramas y los qq-plots, que comparan los cuantiles muestrales con los de una distribución Normal. > qqnorm(data$X) > qqline(data$X) Ejercicio 13: - Contrasta la normalidad de income, infant, log(income), log(infant). > library(car) > data(Leinhardt) > attach(Leinhardt) > shapiro.test(income) Shapiro-Wilk normality test

Page 27: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

27

data: income W = 0.6796, p-value = 8.129e-14 > shapiro.test(infant) Shapiro-Wilk normality test data: infant W = 0.7344, p-value = 3.157e-12 > shapiro.test(log(income)) Shapiro-Wilk normality test data: log(income) W = 0.932, p-value = 4.288e-05 > shapiro.test(log(infant)) Shapiro-Wilk normality test data: log(infant) W = 0.9687, p-value = 0.01673 - Haz los gráficos de cuantiles para infant e income. - Vamos a estudiar la normalidad de income en el grupo de países exportadores y no exportadores de petróleo. Para ello primero creamos dos nuevas variables incomesi, incomeno, : > attach(Leinhardt) > incomesi<-income[oil=="yes"] > incomeno<-income[oil=="no"] > shapiro.test(income) Shapiro-Wilk normality test data: income W = 0.6796, p-value = 8.129e-14 > shapiro.test(incomesi) Shapiro-Wilk normality test data: incomesi W = 0.8391, p-value = 0.05646 > shapiro.test(incomeno) Shapiro-Wilk normality test

Page 28: ANÁLISIS EXPLORATORIO DE DATOS PROGRAMA …eio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado

28

data: incomeno W = 0.6676, p-value = 1.995e-13 > qqnorm(incomesi) > qqnorm(incomeno) Bibliografía • Cao Abad, R. et al. (2001). Introducción a la estadística y sus aplicaciones. Pirámide. • Peña Sánchez de Rivera, D. (1994). Estadística. Modelos y Métodos. 1. Fundamentos. Alianza Universidad Textos. • Martinez Almécija, Alfredo y otros (1993). Inferencia Estadística. Un enfoque clásico. Pirámide. • Abraira Santos, V. y Pérez de Vargas, A. (1996). Métodos Multivariantes en Bioestadística. Centro de Estudios Ramón Areces. Recursos 1. Visita Quick-R en: http://www.statmethods.net/ 2. R tiene un paquete que trabaja con un intermediario de Windows. Es el paquete R commander. Cárgalo, revisa sus opciones y haz pruebas con el archivo Leinhardt. > library(Rcmdr) Ejercicios finales 1. Carga el archivo SPSS MUNDO.sav y utiliza los contrastes para 2 muestras relacionadas y para k muestras relacionadas para comparar las distribuciones de ALFABMAS, ALFABFEM y de ALFABMAS, ALFABFEM y ALFABET, respectivamente. > library(foreign) > datos<-read.spss(file="c:/pruebadatos/MUNDO.sav", to.data.frame=TRUE) > attach(datos) > View(datos) > summary(datos) 2. Carga el archivo Excel cuestionario_completo09-10.xls y haz un análisis gráfico descriptivo e inferencial de las relaciones entre: procedencia y sexo, procedencia y nota (de entrada en la universidad), gusto carrera-gusto estadística-estadística importante (en su formación). >library(xlsReadWrite) >datos<-read.xls("c:/pruebadatos/cuestionario_completo09-10.xls ") Si no puedes cargar esta librería prueba a guardar el archivo Excel como archivo .csv Fíjate en el separador decimal, para usar bien la función read.csv. (Ve a help(read.table).