Metodos analisis datos.pdf

31
1 Universidad de Alcalá Departamento de Ecología MÉTODOS DE ANÁLISIS DE DATOS EN ECOLOGÍA Prácticas de Ecología Licenciaturas de Biología y Ciencias Ambientales Curso 2004-2005

Transcript of Metodos analisis datos.pdf

Page 1: Metodos analisis datos.pdf

1

Universidad de Alcalá

Departamento de Ecología

MÉTODOS DE ANÁLISIS DE DATOS EN ECOLOGÍA

Prácticas de Ecología

Licenciaturas de Biología y Ciencias Ambientales

Curso 2004-2005

Page 2: Metodos analisis datos.pdf

2

1. INTRODUCCIÓN 4

1.1. Distribuciones de datos 4

1.2. Pruebas de contraste de hipótesis 6

2. ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS: TEST DE LA χ2 7

2.1. Requisitos e hipótesis de trabajo 7

2.2. Procedimiento de cálculo 7

2.3. Contraste de hipótesis 9

2.4. Caso práctico 9

3. TESTS DE COMPARACIÓN DE DOS MEDIAS 10

3.1. Selección del test 10

3.2. Test paramétrico: t de Student 10 3.2.1. Requisitos 10 3.2.2. Hipótesis 11 3.2.3. Procedimiento de cálculo 11 3.2.4. Caso Práctico 11

3.3. Test no paramétrico: U de Mann-Whitney 12 3.3.1. Requis itos 12 3.3.2. Hipótesis 12 3.3.3. Procedimiento de cálculo 12 3.3.4. Caso práctico 13

4. TESTS DE COMPARACIÓN DE MÁS DE DOS MEDIAS 13

4.1. Selección del test 14

4.2. Test paramétrico: Análisis de la Varianza (ANOVA) 14 4.2.1. Requisitos 14 4.2.2. Hipótesis 14 4.2.3. Procedimiento de cálculo 14 4.2.4. Caso Práctico 15

4.3. Test no paramétrico: Kruskal-Wallis 16 4.3.1. Requisitos 16 4.3.2. Hipótesis 16 4.3.3. Procedimiento de cálculo 16 4.3.4. Caso práctico: 17

Page 3: Metodos analisis datos.pdf

3

5. ASOCIACIÓN ENTRE VARIABLES CUANTITATIVAS: ÍNDICES DE CORRELACIÓN 18

5.1. Rangos de variación de los coeficientes 18

5.2. Hipótesis 18

5.3. Selección del test 19

5.4. Correlación paramétrica: r de Pearson 19 5.4.1. Procedimiento de cálculo 19 5.4.2. Caso práctico 19

5.5. Correlación no paramétrica: r de Spearman 20 5.5.1. Procedimiento de cálculo 20 5.5.2. Caso práctico 20

6. TABLAS ESTADÍSTICAS 22

6.1. Tabla de valores críticos del estadístico χ2 22

6.2. Tabla de valores críticos del estadístico t de Student 23

6.3. Tabla de valores críticos de l estadístico U de Mann Whitney 24

6.4. Tabla de valores críticos del estadístico F de Snedecor 28

6.5. Tabla de valores críticos de l estadístico H de Kruskal-Wallis 29

6.6. Tabla de valores críticos del coeficiente de correlación de Pearson (r) 30

6.7. Tabla de valores críticos del coeficiente de correlación de Spearman (rs) 31

Page 4: Metodos analisis datos.pdf

4

1. INTRODUCCIÓN La estadística es una disciplina que proporciona a la Ecología las herramientas

necesarias para el análisis de los datos. Dado que no podemos hacer estudios en toda la población (no es posible contar todos los ácaros que hay en un suelo, ni es posible medir el área foliar de todas las hojas de los árboles de un bosque, ni medir la longitud del cuerpo de todas las carpas que tiene un lago), la estadística nos permite cuantificar la probabilidad de cometer error al extrapolar los resultados obtenidos de una serie de muestras al conjunto de la población. Por tanto, la estadística permite cuantificar el error que cometemos al aceptar nuestros resultados obtenidos a partir de muestras (“encuestas”) de una población generalmente muy extensa.

Hay dos tipos de estadística, la estadística descriptiva, que reúne un conjunto de técnicas que facilitan la organización, resumen y comunicación de datos; y la estadística inferencial, que permite hacer pruebas de contraste de hipótesis.

1.1. Distribuciones de datos Cuando tenemos una colección de datos como resultado de un trabajo científico que

hemos realizado, es importante conocer el tipo de distribución que siguen esos datos para poder decidir posteriormente qué herramientas estadísticas son más adecuadas para el análisis de los mismos.

Los histogramas de frecuencias son una herramienta de representación de datos que nos permiten observar cómo se distribuyen los mismos. Están formados por rectángulos adyacentes que tienen por base cada uno de los intervalos de la variable medida y por altura las frecuencias absolutas (nº de veces que aparecen datos dentro de ese intervalo). La superficie de cada rectángulo es proporcional a la frecuencia de cada una de las clases y el área total lo será al número de individuos en la muestra. El número de intervalos a utilizar (k) se puede calcular según la regla de Sturges (1926): K = 1 + 3.322 * log (n), donde n es el tamaño de muestra.

Figura 1: Representación gráfica de la distribución de frecuencias de la variable longitud del ala en una población de aves

Asimismo, para conocer mejor cómo se distribuyen unos datos es importante conocer cuál es valor central de los mismos así como el grado de dispersión de los datos alrededor de ese valor central. Para ello existen una serie de parámetros que informan acerca de estas características de las distribuciones de datos.

00,5

11,5

22,5

33,5

44,5

3,3* 3,4* 3,5* 3,6* 3,7* 3,8* 3,9* 4,0* 4,1* 4,2* 4,3* 4,4* 4,5*

Longitud del ala (cm)

Fre

cuen

cia

Page 5: Metodos analisis datos.pdf

5

Medidas de tendencia central: indican alrededor de qué valores se agrupan los datos observados. Distinguimos: 1. Media aritmética: es el centro de gravedad de la serie de datos y se calcula como ∑xi/n.

µ- media de la población x- media de la muestra.

2. Mediana: es el punto medio de una serie ordenada de datos 3. Moda: es el valor más frecuente de la serie de datos.

Medidas de dispersión: indican si los valores de la variable están muy dispersos o se concentran alrededor de la medida de centralización. Son:

- Rango. Diferencia entre el valor máximo y el mínimo observado.

Rango: xmax-xmin

- Varianza. Expresa la dispersión de valores entorno a la media

σ2- varianza de la población σ2

n

xxi∑ −=

2)(

s2-varianza de la muestra s2

1

)( 2

−= ∑

n

xxi

- Desviación estándar. Es la raíz cuadrada de la varianza

σ - desviación estándar de la población

s - desviación estándar de la muestra

De entre todas las distribuciones posibles que puedan seguir unos datos, la distribución normal es la más interesante desde el punto de vista estadístico, pues reúne unas propiedades que han hecho posible que a partir de ella se desarrollaran numerosos métodos de análisis de datos. En ella, los valores cercanos a la media son los más abundantes y a medida que nos alejamos de la media, los datos presentan una frecuencia cada vez menor. Por este motivo, el histograma de frecuencias adopta una forma de campana de Gauss:

Figura 2. Representación de la media (mean), mediana y moda en cuatro distribuciones.

Page 6: Metodos analisis datos.pdf

6

La distribución normal posee una serie de características: - Corresponde a variables cuantitativas continuas. - Se caracteriza por dos medidas: media y desviación típica. - Es unimodal. - Es simétrica alrededor de la media. Por tanto, media, mediana y moda coinciden. - Tiene forma acampanada, sin un pico excesivo. - El área bajo la curva = 1.

El 50% de las observaciones se encuentran por debajo de la media y el 50% por encima.

El 68% de las observaciones se encuentran dentro del intervalo x ± s El 95% de las observaciones se encuentran dentro del intervalo x ± 1,96 s El 99% de las observaciones se encuentra dentro del intervalo x ± 2,57 s.

1.2. Pruebas de contraste de hipótesis Debido a esta propiedad de poder conocer la probabilidad de que un valor determinado

forme parte de la distribución normal, se han desarrollado numerosos tests estadísticos que permiten realizar pruebas de contraste de hipótesis a partir de la distribución normal, son las pruebas paramétricas. Sin embargo, no siempre los datos que obtenemos en un trabajo científico se ajustan a la distribución normal, por lo que para hacer pruebas de contraste de hipótesis necesitaremos recurrir a la estadística no paramétrica.

La aplicación del método científico no nos permite demostrar la veracidad de una hipótesis sino su falsedad, es decir, que las hipótesis ecológicas (Hecol) que proponemos se dan por válidas siempre y cuando no se demuestre que son falsas. En las pruebas de contraste de hipótesis, las diferentes pruebas estadísticas utilizan la llamada hipótesis nula (H0) para verificar la validez de las hipótesis ecológicas. La hipótesis nula siempre presupone que la distribución de los datos es al azar, es decir, que no existen diferencias entre los grupos o asociación entre las variables debidas a factores ecológicos. Dicho de otra forma, la H0 es la negación de la hipótesis ecológica. Por tanto, cuando realizamos cualquier test estadístico de contraste de hipótesis, nuestro objetivo será rechazar la H0, lo que nos permite seguir dando por válida la hipótesis ecológica.

El grado de significación estadística (p) es el parámetro que cuantifica el error que se estamos cometiendo al aceptar nuestros resultados. Concretamente, lo que indica es la probabilidad de que rechacemos la H0 siendo cierta. Cuanto más pequeño sea el valor de ‘p’ menor será la probabilidad de que H0 sea cierta, y por tanto mayor es la probabilidad de que Hecol sea la correcta. Para tomar una decisión respecto a cuál sea la hipótesis ‘verdadera’, el investigador fija el nivel máximo de error que se permite al aceptar Hecol (a). En general, se ha fijado por convenio el umbral de p=0.05 como válido, es decir, nos permitimos un error máximo del 5% en nuestra afirmación de la hipótesis ecológica. En cualquier caso, conviene señalar que lo más importante es dar a conocer el error de nuestros resultados.

En función del número de variables implicadas en un análisis estadístico, distinguimos tres tipos de métodos de análisis de datos:

Métodos monovariantes: Se han registrado los valores de una sola variable, o de dos variables pero al menos una de ellas es cualitativa Métodos bivariantes: Se han registrado los valores de dos variables cuantitativas Métodos multivariantes: Se han registrado los valores de tres o más variables

En el siguiente cuadro se muestran de forma resumida las diferentes pruebas estadísticas que la estadística paramétrica y la no paramétrica proporcionan a los

Page 7: Metodos analisis datos.pdf

7

investigadores para realizar las pruebas de contraste de hipótesis necesarias en los trabajos científicos:

2. ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS: TEST DE LA χ2

El test de la χ2 se utiliza para analizar la asociación entre dos variables cualitativas (por ejemplo, la presencia de una especie con el tipo de suelo, o la presencia de individuos en estado de flor con una época del año, etc...). Lo que hace el test es comparar la distribución de frecuencias observadas de la asociación entre las variables con la distribución de frecuencias esperadas en caso de que no existiera asociación (es decir, si las dos variables cualitativas no están asociadas sino que se distribuyen al azar). Para analizar la asociación entre las variables cualitativas multiestado se utilizan las tablas de contingencia. A nivel general, este test sirve para comparar frecuencias, por lo que puede utilizarse para verificar si una colección de datos se distribuye de acuerdo a algún tipo de distribución específica.

2.1. Requisitos e hipótesis de trabajo La aplicación de este test requiere que las muestras estén tomadas al azar y que las

frecuencias esperadas sean superiores a 5. Como se trata de un test que relaciona variables cualitativas, no hay ningún requisito acerca de la distribución de las variables.

Las hipótesis de trabajo serán del tipo:

Hecol: Existe relación entre las variables

H0: Las dos variables son independientes (no hay asociación entre ellas)

2.2. Procedimiento de cálculo Supongamos, por ejemplo, que queremos saber si existe asociación entre la presencia

de la especie A (un invertebrado acuático) y el tramo del río (alto, medio y bajo) para el caso del río Henares. Para ello hemos hecho un muestreo a lo largo del río y en cada tramo hemos registrado la presencia (+) o ausencia (-) de la especie en 15 muestras de agua tomadas al azar. Los resultados obtenidos son:

Variable 1 Variable 2 Métodos paramétricos Métodos no paramétricos

Cualitativa

Cualitativa

Test de la χ2 (tablas de contingencia)

Cuantitativa

Cualitativa

t de Student t de Student para datos pareados Análisis de la Varianza

U de Mann-Whitney Prueba de los rangos de Wilcoxon Prueba de Kruskal-Wallis

Cuantitativa Cuantitativa Coeficiente de Correlación de Pearson

Coeficiente de Correlación de Spearman

Page 8: Metodos analisis datos.pdf

8

Tramo Alto Tramo Medio Tramo Bajo

+

+

+

-

+

+

+

+

+

+

-

+

+

+

+

-

-

-

+

-

-

-

-

+

-

-

-

-

-

-

-

+

-

-

-

-

-

-

-

-

-

-

-

-

-

A partir de estos datos construiríamos una tabla de contingencia con los datos observados en campo de la siguiente manera:

Tramo del río

Alto Medio Bajo

+ 13 2 1 Especie A

- 2 13 14

A continuación se calcula el estadístico 2

calχ siguiendo la siguiente fórmula:

o = frecuencias observadas en el inventario e = frecuencia esperada de una celda, suponiendo que no hubiese asociación

( ) 22( , .)gl

o eeαχ−

= ∑ N

fce tt *

=

ct = total de la columna donde está la celda ft = total de la fila donde está la celda N = nº total de casos

gl. (grados de libertad) = (nº columnas-1)*(nº filas-1)

En nuestro ejemplo, el cálculo del estadístico 2

calχ se haría de esta forma:

Page 9: Metodos analisis datos.pdf

9

* Tramo del río

Alto Medio Bajo Total

+ 13 (5.3) 2 (5.3) 1 (5.3) 16 Especie A

- 2 (9.7) 13 (9.7) 14 (9.7) 29

Total 15 15 15 45

* Entre paréntesis aparecen las frecuencias esperadas calculadas

Caso especial: En las tablas de contingencia de 2x2, como la de la figura:

Variable 1

A B Total filas

+ (a) (b) (a+b) Variable 2

+ (c) (d) (c+d)

Total columnas (a+c) (b+d) (a+b+c+d)

el estadístico 2

calχ se puede calcular también de esta forma :

Si N ≥ 30 Si N < 30 (Corrección de Yates)

)(*)(*)(*)(*)**( 2

2

dbcadcbaNcbda

cal ++++−

=χ )(*)(*)(*)(

)2/|**(|* 22

dbcadcbaNcbdaN

cal ++++−−

2.3. Contraste de hipótesis

Se compara el valor obtenido de 2

calχ con el valor 2

critχ correspondiente al número de grados de libertad apropiados y al valor de α previamente seleccionado (normalmente, α=0.05 ó 0.01):

Si 22critcal

χχ ≥ , se rechaza la H0 (hay asociación entre las variables)

Si 22

critcal χχ < , se acepta la H0 (no hay asociación entre las variables)

2.4. Caso práctico Continuamos con el ejemplo que hemos empezado antes, en el que queremos estudiar si existe

asociación entre la presencia de la especie A y el tramo del río Henares donde esta especie vive. Recordemos que, en nuestro caso: Hecol: Existe relación entre la presencia de la especie A y el tramo del río H0: La presencia de la especie A es independiente del tramo del río

A partir de la tabla de contingencia elaborada en el apartado 2.2, calculamos el estadístico 2

calχ de la

siguiente forma:

( ) ( ) ( ) ( ) ( ) ( )8.23

2

7.9

7,9142

7.9

7,9132

7.9

7,922

3.5

3,512

3.5

3,522

3.5

3,5132 =−

+−

+−

+−

+−

+−

=calχ

Page 10: Metodos analisis datos.pdf

10

?2 crít (2 g.l., a=0.05) = 5.99è ?2 cal > ?2 crít èSe rechaza H0; por tanto, concluimos que la especie A aparece

preferentemente en los tramos altos del río.

3. TESTS DE COMPARACIÓN DE DOS MEDIAS Sirven para comparar las medidas de tendencia central (media o mediana) de dos

grupos de datos distintos, para determinar si las diferencias entre dichas medidas se deben al azar del muestreo o a diferencias reales entre los grupos que se están comparando. Relacionan una variable cualitativa de dos casos (variable independiente) con otra cuantitativa (variable dependiente). Los dos estados de la variable cualitativa son los que designan los grupos. Si quisiéramos estudiar, por ejemplo, si existen diferencias en el potencial hídrico de las encinas entre el día y la noche, y hubiéramos tomado muestras de potencial hídrico en encinas de día y otras muestras en encinas por la noche, para analizar los datos utilizaríamos un test de este tipo. En ese caso, la variable cualitativa es la hora del día, que es la variable independiente que define los dos grupos de datos; y el potencial hídrico sería la variable dependiente y cuantitativa.

3.1. Selección del test Para seleccionar el test apropiado para analizar nuestros datos, una vez realizado el

muestreo se construye un diagrama de frecuencias (o se realiza un test estadístico si se dispone de software apropiado) para comprobar la normalidad de la variable cuantitativa en cada uno de los dos grupos. Asimismo, se realiza el test de la F de Snedecor* para comprobar la homogeneidad de las varianzas entre los dos grupos.

Si la variable cuantitativa sigue la distribución normal en todos los casos y las varianzas no son significativamente distintas, se utilizará el test paramétrico: t de Student

En cualquier otro caso se realizará el test no paramétrico: U de Mann-Whitney

3.2. Test paramétrico: t de Student Se utiliza para detectar la existencia de diferencias significativas entre las medias de

una determinada variable cuantitativa en dos grupos de datos.

3.2.1. Requisitos

• Datos distribuidos según una distribución normal en cada grupo

• Las varianzas de las dos muestras han de ser iguales

• Muestras independientes y tomadas al azar

* Prueba de comprobación de varianzas iguales: F de Snedecor

Se calculan las varianzas de cada una de las dos muestras: 21s y 2

2s Se calcula el estadístico Fcal a partir de la siguiente fórmula:

2

2

menor

mayorcal s

sF =

grados libertad: n1-1, n2-1 (n1 tamaño de la muestra de varianza mayor) Ho: varianzas iguales. Si Fcal ≥Fcrít (La Fcrít se busca en las tablas, ver sección dedicada al ANOVA), se rechaza la Ho, es decir, se concluye que las varianzas no son iguales.

Page 11: Metodos analisis datos.pdf

11

3.2.2. Hipótesis

a) HIPÓTESIS DE DOS COLAS:

La hipótesis ecológica establece que existen diferencias entre las medias de los dos grupos considerados, sin presuponer cuál de las dos medias es mayor que la otra. La hipótesis nula establece que no existen diferencias entre dichas medias.

Hecol: µ1 ? µ2

H0: µ1 = µ2

b) HIPÓTESIS DE UNA COLA:

La hipótesis ecológica establece que existen diferencias entre las medias de los grupos considerados, presuponiendo que una de las dos medias es mayor que la otra. La hipótesis nula establece que no existen diferencias entre dichas medias, o que las diferencias van en sentido contrario a como han sido expresadas en la hipótesis ecológica.

Hecol: µ1 > µ2 ⇒ H0: µ1 ≤ µ2

Hecol: µ1 < µ2 ⇒ H0: µ1 ≥ µ2

3.2.3. Procedimiento de cálculo

Se calcula el estadístico tcal a partir de la siguiente fórmula:

21

21

11nn

Sc

xxtcal

+

−= donde:

221

222

211

−++

=nn

snsnSc

n1 y n2= tamaños de las muestras 1 y 2 respectivamente

1x y 2x = medias de las muestras 1 y 2 respectivamente 21s y 2

2s = varianzas de las muestras 1 y 2 respectivamente

A continuación se mide la significación del estadístico tcal , comparando ese valor con el valor de un estadístico tcrit que se obtiene mirando las tablas correspondientes. Para identificar el tcrit que nos corresponde hemos de fijarnos en el número de colas que tiene nuestra hipótesis (una cola: one-tailed; dos colas: two-tailed), en el nivel de significación (a) con el que pretendemos rechazar la hipótesis nula (normalmente a = 0.05 ó 0.01); y en los grados de libertad del test (n1 + n2 - 2).

- Si tcal≥ tcrit (a=0.05 o inferior) ⇒ se rechaza H0 y se acepta Hecol (las medias son diferentes)

- Si tcal< tcrit (a=0.05) ⇒ se acepta H0 y se rechaza Hecol (las medias son iguales)

3.2.4. Caso Práctico Queremos saber si la humedad del suelo en un determinado lugar varía en función de la cubierta vegetal

del mismo (tomillar o suelo desnudo), pues suponemos que la cubierta vegetal contribuye a aumentar la humedad del suelo por disminución de la evaporación. Para ello se ha realizado un muestreo en el que se ha medido la humedad de suelo (en % del volumen) en seis muestras distribuidas al azar bajo tomillares y en 8 muestras también distribuidas al azar en la misma zona, pero en condiciones de suelo desnudo.

Variables: - Cobertura de suelo (cualitativa, independiente) - Humedad del suelo (cuantitativa, dependiente) Hipótesis ecológica: Hecol: la humedad de suelo es mayor bajo el tomillar: µtomillar >µsuelo desnudo Se trata, por tanto, de un test de una cola.

Page 12: Metodos analisis datos.pdf

12

Hipótesis nula: H0: µtomillar ≤ µsuelo desnudo Tras el muestreo se obtienen los siguientes datos:

Cobertura Humedad de suelo (%) n Media 2s

tomillar 73.0 74.2 75.0 75.3 75.5 75.8 6 74.8 1.04 suelo desnudo 71.0 71.5 72.0 72.4 73.5 74.0 74.3 75.2 8 72.9 2.20

• Cálculo del estadístico tcal :

36.2

81

61

42.1

9.728.74 =

+

−=calt

• Comprobación de la significación del estadístico tcal :

tcal = 2.36 > tcrít (a=0.05, 12 gl, una cola) = 1.782 Por tanto, se rechaza la H0, y se acepta la Hecol, es decir, se concluye que existen diferencias

significativas en la humedad del suelo en función de la cobertura vegetal, siendo mayor en condiciones de cubierta vegetal de tomillar que en condiciones de suelo desnudo.

3.3. Test no paramétrico: U de Mann-Whitney Compara las diferencias entre dos medianas, por lo que se basa en rangos en lugar de

en los parámetros de la muestra (media, varianza). Se emplea cuando los datos no siguen la distribución normal, en lugar del test de la t de Student (paramétrico).

3.3.1. Requisitos

• Variable cuantitativa que no cumple los requisitos de normalidad y/o homogeneidad de varianzas, o variable semicuantitativa.

• Muestras independientes y al azar.

3.3.2. Hipótesis

a) HIPÓTESIS DE DOS COLAS:

La hipótesis ecológica establece que existen diferencias entre las medianas (M) de los dos grupos considerados, sin presuponer cuál de las dos medianas es mayor que la otra. La hipótesis nula establece que no existen diferencias entre dichas medianas.

Hecol: M1 ? M2

H0: M1 = M2

b) HIPÓTESIS DE UNA COLA:

La hipótesis ecológica establece que existen diferencias entre las medianas de los grupos considerados, presuponiendo que una de las dos medianas es mayor que la otra. La hipótesis nula establece que no existen diferencias entre dichas medianas, o que las diferencias son en sentido contrario a lo expresado en la hipótesis ecológica.

Hecol: Μ1 > M2 ⇒ H0: Μ1 ≤ M2

Hecol: Μ1 < M2 ⇒ H0: Μ1 ≥ M2

3.3.3. Procedimiento de cálculo

• Asignación de rangos a cada dato. Para ello se ordenan todos los datos (juntando los dos grupos) en orden creciente. El rango de cada dato será el número de orden que le

Page 13: Metodos analisis datos.pdf

13

corresponde a cada dato. Cuando se repita el mismo valor numérico, el rango que se asigna a esos datos es la media aritmética de los rangos que les corresponderían en función del número de orden que ocupan.

• Se suman los rangos de cada uno de los inventarios (grupos) y se calcula la suma de los rangos de los datos de cada uno de los grupos (R1 y R2)

• Se calculan los estadísticos U1 y U2 a partir de las siguientes fórmulas:

2

22

1 2)1(

21 Rnn

nnU −+

+⋅= 1

11

2 2)1(

21 Rnn

nnU −+

+⋅=

• Se obtiene el estadístico Ucal escogiendo el valor más grande entre U1 y U2 .

• Se comprueba la significación estadística del estadístico Ucal comparando este valor con el valor de un estadístico Ucrít obtenido a partir de las tablas correspondientes.

Si Ucal ≥ Ucrít (a=0.05 o inferior) ⇒ se rechaza H0 y se acepta Hecol (las medianas son diferentes)

Si Ucal < Ucrít (a=0.05) ⇒ se acepta H0 y se rechaza Hecol (las medianas son iguales)

3.3.4. Caso práctico Se quiere estudiar si el número de especies de ácaros edáficos se ve influido por un incendio de baja

intensidad. Para ello se simuló un incendio de baja intensidad en una parcela de un territorio homogéneo, y se tomaron 6 muestras al azar de la zona incendiada y 7 muestras también al azar de la zona no incendiada, contándose el número de especies de ácaros edáficos en cada muestra.

Variable dependiente: número de especies de ácaros edáficos (cuantitativa) Variable independiente: ocurrencia de un incendio (cualitativa) H0= La mediana del número de especies de ácaros edáficos es igual en la parcela quemada que en la no

quemada: Mquemada = Mno quemada Hecol= La mediana del número de especies de ácaros edáficos varía dependiendo de que se haya

producido un incendio: Mquemada ? Mno quemada . Por tanto, de acuerdo con nuestra hipótesis ecológica, vamos a hacer un test de dos colas.

Los datos obtenidos en el muestreo son los siguientes:

Parcela Número de especies de ácaros edáficos n quemada 6 9 12 12 15 16 6

no quemada 10 13 16 16 17 19 20 7 - Asignación de rangos a cada dato:

dato * 6 9 10 12 12 13 15 16 16 16 17 19 20 rango 1 2 3 4’5 4’5 6 7 9 9 9 11 12 13

* en negrita los valores correspondientes al inventario de la parcela quemada - Se suman los rangos de cada grupo: R1=28 R2=63 - Cálculo del estadístico Ucal :

U1=6x7+[(7x8)/2]-63=7 U2=6x7+[(6x7)/2]-28=35 è Ucal

- Comprobación de la significación del estadístico Ucal : Ucal = 35 < Ucít (a=0.05) = 36 è No se rechaza la H0, concluimos que el número de especies de

ácaros edáficos no se ve influido significativamente por la ocurrencia de un incendio de baja intensidad.

4. TESTS DE COMPARACIÓN DE MÁS DE DOS MEDIAS Sirven para comparar las medidas de tendencia central (media o mediana) de más de

dos grupos de datos distintos, para determinar si las diferencias entre dichas medidas se deben al azar del muestreo o a diferencias reales entre los grupos que se están comparando.

Page 14: Metodos analisis datos.pdf

14

Relacionan una variable cualitativa de más de dos casos (variable independiente) con otra cuantitativa (variable dependiente). Los estados de la variable cualitativa designan dichos grupos. Un ejemplo de problema científico en el que utilizaríamos este tipo de tests sería determinar si existen diferencias significativas en la densidad de escarabajos (variable dependiente, cuantitativa) que encontramos en un determinado lugar en las cuatro estaciones del año (variable independiente, cualitativa, define los grupos).

4.1. Selección del test La selección del test apropiado para analizar nuestros datos se hace a través del

siguiente procedimiento: Una vez que se ha hecho el muestreo y se ha medido la variable cuantitativa en cada uno de los grupos de la población, se construye un diagrama de frecuencias (o se realiza un test estadístico si se dispone de software apropiado) para comprobar la normalidad de la variable cuantitativa en cada uno de los grupos. Asimismo, se realiza el test de la F de Snedecor para comprobar la homogeneidad de las varianzas entre los distintos grupos.

Si la variable cuantitativa sigue la distribución normal en todos los casos y las varianzas no son significativamente distintas, se utilizará el test paramétrico: ANOVA

En cualquier otro caso se realizará el test no paramétrico: Kruskal-Wallis

4.2. Test paramétrico: Análisis de la Varianza (ANOVA) Se utiliza para detectar la existencia de diferencias significativas entre las medias de

una determinada variable cuantitativa en tres o más grupos de datos.

4.2.1. Requisitos

• Datos distribuidos según una distribución normal

• Las varianzas de las distintas muestras han de ser iguales

• Muestras independientes y tomadas al azar

4.2.2. Hipótesis

La hipótesis ecológica establece que existen diferencias entre las medias de los grupos considerados, es decir, que al menos dos de las medias serán distintas. La hipótesis nula establece que no existen diferencias entre dichas medias.

Hecol: No todas las medias son iguales

H0: µ1 = µ2 = ... = µk

4.2.3. Procedimiento de cálculo

La valoración de las diferencias entre las medias de los distintos grupos se basa en la descomposición de la variabilidad total del conjunto de datos en dos términos: variabilidad debida a las diferencias entre los grupos (variabilidad entre grupos), y variabilidad debida al azar del muestreo (variabilidad dentro de grupos).

La variabilidad entre datos se puede estimar con la varianza (s2), y con Suma de Cuadrados (SS), que es el cociente entre la varianza y los grados de libertad (g-l.). Por tanto:

SStotal = SSentre grupos + SSdentro grupos

Variabilidadtotal = Variabilidadentre grupos + Variabilidaddentro grupos

Page 15: Metodos analisis datos.pdf

15

Las diferentes sumas de cuadrados se obtienen a partir de las siguientes fórmulas:

( )∑ ∑−=

N

xxSS total

2

2 ( ) ( ) ( ) ( )

N

x

n

x

n

x

n

xSS

k

kgruposentre

22

2

22

1

21 ... ∑∑∑∑ −

+++=

x = cada uno de los datos de cada grupo

El cálculo de la suma de cuadrados dentro de grupos es más laboriosa y por ello la obtenemos despejando de la ecuación:

- Cálculo de los grados de libertad de las sumas de cuadrados:

1.. −= NSSlg total 1.. −= kSSlg guposentre kNSSlg gruposdentro −=..

- Conversión de las sumas de cuadrados (SS) en varianzas:

1..2

−==

k

SS

lg

SSs gruposentre

gruposentre

gruposentregruposentre

kN

SS

lg

SSs gruposdentro

gruposdentro

gruposdentrogruposdentro −

==..

2

- Cálculo del estadístico F:

2

2

gruposdentro

gruposentre

s

sF =

Si en la población de la que proceden las muestras no hay diferencias reales entre los grupos definidos por la variable cualitativa, la varianza entre grupos será similar a la varianza dentro de grupos (por tanto el cociente entre ambas estará cerca de 1). En el caso de que existan diferencias reales entre los grupos (lo que presupone la hipótesis ecológica) la varianza entre grupos será mayor que la varianza dentro de los grupos (el cociente entre ambas será mayor de 1). El estadístico que nos dice si las desviaciones respecto a ese valor de 1 son significativas es F.

El contraste de hipótesis se realiza comparando el valor de la Fcal con el valor Fcrít obtenido a partir de la tabla para el valor de α previamente establecido (normalmente α=0.05 o inferior). La búsqueda de dicha Fcrít requiere del número de grados de libertad del numerador y del denominador. La forma habitual de notación que se usa en las tablas lleva el valor de α entre paréntesis, y los grados de libertad del numerador y del denominador a continuación, en orden consecutivo y separados por comas. Por ejemplo, Fcrít (0.05) 3, 22. significa el valor del estadístico F de las tablas para un α=0.05, con 3 grados de libertad en el numerador y 22 en el denominador.

- Si Fcal ≥ Fcrít ⇒ se rechaza H0 y se acepta Hecol (alguna de las medias es diferente)

- Si Fcal < Fcrít ⇒ se acepta H0 y se rechaza Hecol (las medias son iguales)

4.2.4. Caso Práctico Se quiere saber si el tipo de cobertura de suelo (suelo desnudo, piedras, hojarasca y pastizal) influye

sobre la densidad de hormigueros. Para ello se ha realizado un muestreo en el que se ha medido el número de hormigueros en diez muestras distribuidas al azar dentro de cada una de las zonas con diferente cobertura.

grupocadaen datosdenúmero...,,,datos de totalnúmero grupos denúmero 21 === knnnNkg r u pc a d ae n d a t o sd en ú m e r o. . . ,,,d a t o s d e t o t a ln ú m e r o g r u p o s d en ú m e r o 21 === knnnNk g r u p oc a d ae n d a t o sd en ú m e r o. . . ,,,d a t o s d e t o t a ln ú m o g r u p o s d en ú m e r o 21 === knnnNk

SSdentro grupos = SStotal – SSentre grupos

Page 16: Metodos analisis datos.pdf

16

- Variables: cobertura de suelo (cualitativa, independiente) y densidad de hormigueros (cuantitativa, dependiente)

- Hecol: Alguna de las medias es diferente (la cobertura de suelo influye sobre la densidad de hormigueros)

- H0: µsuelo desnudo = µpiedras =µhojarasca = µpastizal - Tras el muestreo se obtienen los siguientes datos:

Cobertura Densidad de hormigueros n Media Σx (Σx)2 Σx2 suelo desnudo 78 88 87 88 83 82 81 80 80 89 10 83.6 836 698896 70036

piedras 78 78 83 81 78 81 81 82 76 76 10 79.4 794 630436 63100 hojarasca 79 73 79 75 77 78 80 78 83 84 10 78.6 786 617796 61878 pastizal 77 69 75 70 74 83 80 75 76 75 10 75.4 754 568516 57006 Total 40 3170 252020 • Cálculo de la suma de cuadrados total:

SST = 252020 - (3170)2/40 = 797.5 • Cálculo de la variabilidad entre grupos (SSentre grupos):

SSentre = 698896/10 + 630436/10 + 617796/10 + 568516/10 - 31702/40 = 341.9 • Cálculo de la variabilidad dentro de los grupos (SSdentro grupos):

SST = SSentre + SSdentro ⇒ SSdentro = SStotal - SSentre = 797.5 – 341.9 = 455.6 • Determinar los grados de libertad de cada una de las suma de cuadrados estimadas:

SST = N - 1 = 40 - 1 = 39 SSentre grupos = k - 1 = 4 - 1 = 3 SSdentro grupos = N - k = 40 - 4 = 36 • Estimación de las varianzas dividiendo las SS por los grados de libertad:

s2entre grupos = 341.9/3 = 113.97 s2

dentro grupos = 455.6/36 12.66 • Cálculo del estadístico Fcal y comparación con el estadístico Fcrít:

Fcal = s2entre grupos /s

2dentro grupos =113.97/12.66 = 9.002

Fcrít (0.05) 3, 36 < 2.92

4.3. Test no paramétrico: Kruskal-Wallis Se basa en rangos en lugar de los parámetros de la muestra (media, varianza). Se

emplea cuando los datos no siguen la distribución normal y/o tienen varianzas distintas, en sustitución del ANOVA paramétrico. Cuando el número de grupos es 2 es idéntico a la U de Mann-Whitney.

4.3.1. Requisitos

• Variable cuantitativa que no cumple los requisitos de normalidad y/o homogeneidad de varianzas, o variable semicuantitativa.

• Muestras independientes y al azar.

4.3.2. Hipótesis

La hipótesis ecológica establece que existen diferencias entre las medianas (Μ) de los grupos considerados, es decir, que al menos dos de las medianas serán distintas. La hipótesis nula establece que no existen diferencias entre dichas medianas.

Hecol: Las medianas no son todas iguales

H0: Μ1 = Μ2 = ... = Μk

4.3.3. Procedimiento de cálculo

- Asignación de rangos: se realiza exactamente igual que para la U de Mann-Whitney.

Fcal > Fcrít ⇒ Rechazamos Ho La abundancia de hormigueros no es la misma en todas las zonas con distinta cobertura de suelo

Page 17: Metodos analisis datos.pdf

17

- Cálculo del estadístico H:

Cuando existen rangos ligados (dos o más números con el mismo rango) se aplica un factor de corrección, siendo Hc el estadístico que se utiliza en lugar de H, calculado según la siguiente expresión:

El valor crítico del estadístico calculado (H o Hc) se consulta en la tabla de la χ2 si N≥15, o si k > 5, para (k-1) grados de libertad. Si N<15 y k<5 se consulta en la tabla específica para H.

- Si Hcal ≥ Hcrít (χ2crít) ⇒ se rechaza H0 y se acepta Hecol (alguna de las medianas es

diferente)

- Si Hcal < Hcrít (χ2crít) ⇒ se acepta H0 y se rechaza Hecol (las medianas son iguales)

4.3.4. Caso práctico: Se quiere estudiar si el pH de cuatro charcas situadas sobre sustratos diferentes es distinto. Para ello se

obtuvieron 8 muestras de agua procedentes de cada una de las charcas, midiéndose el pH en cada una de ellas. Los datos de pH se ordenaron de forma ascendente para cada charca. (Una muestra de agua de la charca nº 3 se perdió, de forma que n3=7; pero el test no requiere igualdad en el número de datos de cada grupo). Los rangos se muestran entre paréntesis.

Variable dependiente: pH (cuantitativa) Variable independiente: tipo de sustrato sobre el que cada charca (cualitativa) H0= el pH es el mismo en las cuatro charcas Hecol= el pH no es el mismo en las cuatro charcas

Charca 1 Charca 2 Charca 3 Charca 4 7.68 (1) 7.71 (6*) 7.74 (13.5*) 7.71 (6*) 7.69 (2) 7.73 (10*) 7.75 (16) 7.71 (6*)

7.70 (3.5*) 7.74 (13.5*) 7.77 (18) 7.74 (13.5*) 7.70 (3.5*) 7.74 (13.5*) 7.78 (20*) 7.79 (22)

7.72 (8) 7.78 (20*) 7.80 (23.5*) 7.81 (26*) 7.73 (10*) 7.78 (20*) 7.81 (26*) 7.85 (29) 7.73 (10*) 7.80 (23.5*) 7.84 (28) 7.87 (30) 7.76 (17) 7.81 (26*) 7.91 (31)

n1=8 n2=8 n3=7 n4=8 R1=55 R2=132.5 R3=145 R4=163.5

* Rangos ligados

)1(3)1(

12

1

2

+−+

= ∑=

NnR

NNH

k

i i

i

i grupo elen datos de número datos de totalnúmero N

grupos de número

===

in

k

CH

Hc =NN

ttC

m

iii

−−=

∑=

31

3 )(1

ligados rangos de grupos de número

grupo cadaen ligados rangos de número

=

=

m

ti

Page 18: Metodos analisis datos.pdf

18

5. ASOCIACIÓN ENTRE VARIABLES CUANTITATIVAS: ÍNDICES DE CORRELACIÓN

El coeficiente de correlación cuantifica el grado de asociación entre dos variables cuantitativas.

ρ es el coeficiente de correlación real que existe entre dos variables en el conjunto de la población.

r y rs son los coeficientes medidos sobre la muestra.

5.1. Rangos de variación de los coeficientes Los coeficientes de correlación varían entre –1 y 1 del siguiente modo: a) 1≥ ρ > 0 : correlación positiva. b) −1 ≤ ρ < 0 : correlación negativa. c) ρ ≈ 0 : no hay correlación, los valores de x e y varían de forma independiente.

Cuanto más cerca esté el coeficiente de 1 ó –1, más fuerte es la correlación

5.2. Hipótesis a) HIPÓTESIS DE DOS COLAS

Existe correlación entre las variables x e y, ya sea positiva o negativa. La hipótesis nula dice que no existe correlación entre las variables.

Hec: ρ ≠ 0 (ρ < 0 ó ρ > 0)

318788 =+++=N

876.11)32(38

5.1637

1458

5.1328

55)32(31

12)1(3

)1(12 2222

1

2

=−

+++=+−

+= ∑

=

NnR

NNH

k

i i

i

168)33()22()33()44()33()33()22()( 3333333

1

3 =−+−+−+−+−+−+−=−∑=

i

m

ii tt

7 ligadosrangos degrupos de Número == m

9944.0297601681

31311681

)(

133

1

3

=−=−

−=−

−=∑

=

NN

tt

C

m

iii

943.1109944

876.11 ===CHH c 31 =−= kν 815.72

3,05.0 =χ

Se rechaza H0

El pH no es el mismo en todas las charcas ⇒

2crítc calH χ>

Page 19: Metodos analisis datos.pdf

19

−×

×−

=

∑∑∑∑

∑ ∑∑

=

=

=

=

=

=

=

=

=

=

=

=

=

=2

11

22

11

2

1 11

in

ni

in

ni

in

ni

in

ni

ni

i

ni

iii

ni

iii

yynxxn

yxyxn

r

H0: ρ = 0

b) HIPÓTESIS DE UNA COLA

Existe correlación positiva o negativa entre las variables x e y. La hipótesis nula dice que no hay correlación o que ésta es del signo contrario al esperado en la hipótesis ecológica.

Hecol: ρ > 0 ⇒ H0: ρ ≤ 0

Hecol: ρ < 0 ⇒ H0: ρ ≥ 0

5.3. Selección del test Para seleccionar el tipo de correlación con el que analizaremos nuestros datos

(paramétrica o no paramétrica), seguiremos los siguientes pasos: una vez que se haya realizado el muestreo y hayamos medido las variables x e y en la muestra, representaremos los pares de datos en un diagrama x-y. A continuación comprobaremos la normalidad de las variables (construyendo el diagrama de frecuencias o utilizando un software apropiado).

Si las dos variables cuantitativas siguen una distribución normal, utilizaremos la correlación de Pearson (paramétrica).

Si alguna de las dos variables cuantitativas no sigue una distribución normal, utilizaremos la correlación de Spearman (no paramétrica).

5.4. Correlación paramétrica: r de Pearson

5.4.1. Procedimiento de cálculo

El cálculo del índice de correlación de Pearson se hace a partir de la siguiente fórmula:

n- nº de pares de muestras

xi- valores de la variable x

yi- valores de la variable y

A continuación, se comprueba la significación del índice de correlación calculado comparándolo con el valor de un estadístico rcrit obtenido a partir de la tabla correspondiente, para una a = 0.05 o inferior y las colas que establezca la hipótesis.

Si rcal ≥ rcrit (a=0.05 o inferior) à Se rechaza la hipótesis nula. à Existe correlación.

5.4.2. Caso práctico Un ornitólogo está interesado en conocer la longitud del pico de una población de aves que estudia. Sin

embargo esa medida resulta más costosa de tomar que el peso corporal. Por ello quiere saber si ambas variables se correlacionan para estimar la primera a partir de la segunda.

- Variables: x- longitud del pico; y –peso corporal. Ambas son cuantitativas y normales. - Hipótesis de dos colas:

Hecol: ρ ≠ 0 (ρ < 0 ó ρ > 0) H0: ρ = 0

- Tras tomar una muestra de 10 individuos se obtienen los siguientes datos:

Page 20: Metodos analisis datos.pdf

20

Obs. Longitud del pico

(mm)

Peso corporal (g)

x2 y2 xy

1 33.5 51 1122 2601 1708 2 38.0 59 14444 3481 2242 3 32.0 49 1024 2401 1568 4 37.5 54 1406 2916 2025 5 31.5 50 992 2500 1575 6 33.0 55 1089 3025 1815 7 31.0 48 961 2304 1488 8 36.5 53 1332 2809 1935 9 34.0 52 1156 2704 1768 10 35.0 57 1225 2349 1995

SUMA 342 528 11752 27990 18119 n = 10; r = 0.779, rcal = 0.779 > r crit (0.01) n=10 = 0.765. Se rechaza H0 y se acepta Hecol Por tanto, se puede concluir que existe una correlación positiva entre el peso corporal y la longitud del

pico de esa población de aves. Esto significa que los cambios en peso corporal de esas aves son un fiel reflejo de los cambios en la longitud del pico.

5.5. Correlación no paramétrica: r de Spearman

5.5.1. Procedimiento de cálculo

Para calcular la r de Spearman hay que realizar los siguientes pasos:

- Ordenar los pares de datos en función del valor de x y asignar rangos a x.

- Repetir la ordenación en función de y y asignar rangos a y.

- Calcular el coeficiente:

nn

dr

ni

ii

s−

−=∑=

=3

1

261

n = nº de pares de datos

di = diferencia de rangos en las variables del par i

Para comprobar la significación estadística del índice de correlación se consulta en la tabla correspondiente el valor crítico de rs para n pares de datos, para p=0.05 o inferior y para el número de colas acorde con la hipótesis. Si rs cal ≥ rs crít, se rechaza H0.

5.5.2. Caso práctico Se sospecha que la abundancia de la especie de gramínea Poa bulbosa en los pastizales mediterráneos

depende en gran medida de la humedad que hay en el suelo. Para comprobar la hipótesis se realiza un muestreo con una cuadrícula de 20 cm de lado, que se dispone 12 veces al azar sobre la comunidad de pasto. En cada cuadrícula se mide la cobertura de la especie y la humedad del suelo mediante un TDR.

Variables: Cobertura de la especie y humedad del suelo. Ambas son cuantitativas, y no siguen una

distribución normal. Hipótesis de una cola: existirá una correlación positiva entre la cobertura de Poa y la humedad. Hec: ρ > 0 è H0: ρ ≤ 0 Tras realizar el muestreo se obtienen los siguientes datos:

Page 21: Metodos analisis datos.pdf

21

Obs. Cobertura Humedad Rango cob. Rango hum. d d2 1 82 42 2 3 -1 1 2 98 46 6 4 2 4 3 87 39 5 2 3 9 4 40 37 1 1 0 0 5 116 65 10 8 2 4 6 113 88 9 11 -2 4 7 111 86 8 10 -2 4 8 83 56 3 6 -3 9 9 85 62 4 7 -3 9 10 126 92 12 12 0 0 11 106 54 7 5 2 4 12 117 81 11 9 2 4 Suma 52

82.01212

5261

3=

×−=sr > rs crit (0.05) = 0.503 --> Se rechaza H0, hay correlación positiva entre la

cobertura de Poa bulbosa y la humedad del suelo. Es importante destacar que este muestreo no es una demostración de una relación causa-efecto entre

las variables, es decir, que con este muestreo no podemos concluir que la mayor humedad de suelo es la causa de la mayor abundancia de Poa bulbosa. Para determinar relaciones de causa-efecto se necesita realizar experimentos controlados y otros tests estadísticos que verifiquen ese tipo de relación.

Page 22: Metodos analisis datos.pdf

22

6. TABLAS ESTADÍSTICAS 6.1. Tabla de valores críticos del estadístico χ2

Page 23: Metodos analisis datos.pdf

23

6.2. Tabla de valores críticos del estadístico t de Student One tailed: hipótesis de una cola

Two tailed: hipótesis de dos colas

Page 24: Metodos analisis datos.pdf

24

6.3. Tabla de valores críticos del estadístico U de Mann Whitney

α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 19 20 20 21 21 22 22 23 23 24 24 25 25 26 26 27 27 28 28 29 29 30 30 31 31 32 32 33 33 34 34 35 35 36 36 37 37 38 38 39 38 39 40 39 40

2 2 3 4 5 10 6 12 7 14 8 15 16 9 17 18 10 19 20 11 21 22 12 22 23 13 24 26 25 14 25 28 27

α una cola α dos colas

n1 n2 0.05 0.01 0.05 0.01 2 15 27 30 29 16 29 32 31 17 31 34 32 18 32 36 34 19 34 37 36 38 20 36 39 38 40 21 37 41 39 42 22 39 43 41 44 23 41 45 43 46 24 42 47 45 48 25 44 49 47 50 26 46 51 48 52 27 47 52 50 53 28 49 54 52 55 29 51 56 54 57 30 53 58 55 59 31 54 60 57 61 32 56 62 59 63 33 58 64 61 65 34 59 65 63 67 35 61 67 64 69 36 63 69 66 71 37 64 71 68 73 38 66 73 70 75 39 68 75 71 76 40 69 77 73 78

3 3 9 4 12 5 14 15 6 16 17 7 19 21 20 8 21 24 22 9 23 26 25 27 10 26 29 27 30 11 28 32 30 33 12 31 34 32 35 13 33 37 35 38 14 35 40 37 41 15 38 42 40 43 16 40 45 42 46 17 42 47 45 49 18 45 50 47 52 19 47 53 50 54 20 49 55 52 57 21 52 58 55 60 22 54 60 57 62 23 56 63 60 65 24 59 66 62 68 25 61 68 65 70 26 63 71 67 73 27 66 74 70 76 28 68 76 72 79 29 70 79 74 81

α una cola α dos colas

n1 n2 0.05 0.01 0.05 0.01 3 30 73 81 77 84 31 75 84 79 87 32 77 87 82 89 33 80 89 84 92 34 82 92 87 95 35 84 94 89 97 36 87 97 92 100 37 89 100 94 103 38 91 102 97 105 39 94 105 99 108 40 96 107 102 111

4 4 15 16 5 18 20 19 6 21 23 22 24 7 24 27 25 28 8 27 30 28 31 9 30 33 32 35 10 33 37 35 38 11 36 40 38 42 12 39 43 41 45 13 42 47 44 49 14 45 50 47 52 15 48 53 50 55 16 50 57 53 59 17 53 60 57 62 18 56 63 60 66 19 59 67 63 69 20 62 70 66 72 21 65 73 69 76 22 68 77 72 79 23 71 80 75 83 24 74 83 79 86 25 77 87 82 90 26 80 90 85 93 27 83 93 88 96 28 86 96 91 100 29 89 100 94 103 30 92 103 97 107 31 95 106 100 110 32 98 110 104 114 33 101 113 107 117 34 104 116 110 120 35 107 120 113 124 36 110 123 116 127 37 113 126 119 131 38 116 130 122 134 39 118 133 125 137 40 121 136 129 141

5 5 21 24 23 25 6 25 28 27 29 7 29 32 30 34 8 32 36 34 38 9 36 40 38 42

Page 25: Metodos analisis datos.pdf

25

α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 5 10 39 44 42 46 11 43 48 46 50 12 47 52 49 54 13 50 56 53 58 14 54 60 57 63 15 57 64 61 67 16 61 68 65 71 17 65 72 68 75 18 68 76 72 79 19 72 80 76 83 20 75 84 80 87 21 79 88 83 91 22 82 92 87 96 23 86 96 91 100 24 91 100 95 104 25 93 104 98 108 26 97 108 102 112 27 100 112 106 119 28 104 116 110 120 29 107 120 113 124 30 111 124 117 128 31 115 128 121 133 32 118 132 125 137 33 122 136 128 141 34 125 140 132 145 35 129 144 136 149 36 132 148 140 153 37 136 152 144 157 38 140 156 147 161 39 143 160 151 165 40 147 164 155 169

6 6 29 33 31 34 7 34 38 36 39 8 38 42 40 44 9 42 47 44 49 10 46 52 49 54 11 50 57 53 59 12 55 61 58 63 13 59 66 62 68 14 63 71 67 73 15 67 75 71 78 16 71 80 75 83 17 76 84 80 87 18 80 89 84 92 19 84 94 89 97 20 88 98 93 102 21 92 103 97 107 22 96 108 102 111 23 101 112 106 116 24 105 117 111 121 25 109 121 115 126 26 113 126 119 131

α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 6 27 117 131 124 135 28 122 135 128 140 29 126 140 132 145 30 130 145 137 150 31 134 149 141 154 32 138 154 146 159 33 142 158 150 164 34 147 163 154 169 35 151 168 159 173 36 155 172 163 178 37 159 177 167 183 38 163 182 172 188 39 167 186 176 193 40 172 191 181 197

7 7 38 43 41 45 8 43 49 46 50 9 48 54 51 56 10 53 59 56 61 11 58 65 61 67 12 63 70 66 72 13 67 75 71 78 14 72 81 76 83 15 77 86 81 89 16 82 91 86 94 17 86 96 91 100 18 91 102 96 105 19 96 107 101 111 20 101 112 106 116 21 106 117 111 122 22 110 123 116 127 23 115 128 121 132 24 120 133 126 138 25 125 139 131 143 26 129 144 136 149 27 134 149 141 154 28 139 154 146 160 29 144 160 151 165 30 149 165 156 170 31 153 170 161 176 32 158 175 166 181 33 163 181 171 187 34 168 186 176 192 35 172 191 181 198 36 177 196 186 203 37 182 202 191 208 38 187 207 196 214 39 191 121 201 219 40 196 217 206 225

8 8 49 55 51 57 9 54 61 57 63 10 60 67 63 69 11 65 73 69 75

α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 8 12 70 79 74 81 13 76 84 80 87 14 81 90 86 94 15 87 96 91 100 16 92 102 97 106 17 97 108 102 112 18 103 114 108 118 19 108 120 114 124 20 113 126 119 130 21 119 132 125 136 22 124 138 131 142 23 130 144 136 149 24 135 150 142 155 25 140 155 147 161 26 146 161 153 167 27 151 167 159 173 28 156 173 164 179 29 162 179 170 185 30 167 185 175 191 31 172 191 181 197 32 178 197 187 203 33 183 203 192 209 34 188 208 198 215 35 194 214 203 221 36 199 220 209 228 37 205 226 215 234 38 210 232 220 240 39 215 238 226 246 40 221 244 231 252

9 9 60 67 64 70 10 66 74 70 77 11 72 81 76 83 12 78 87 82 90 13 84 94 89 97 14 90 100 95 104 15 96 107 101 111 16 102 113 107 117 17 108 120 114 124 18 114 126 120 131 19 120 133 126 138 20 126 140 132 144 21 132 146 139 151 22 138 153 145 158 23 144 159 151 164 24 150 166 157 171 25 156 172 163 178 26 162 179 170 185 27 168 185 176 191 28 174 192 182 198 29 179 198 188 205 30 185 205 194 212 31 191 211 201 218

Page 26: Metodos analisis datos.pdf

26

α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 9 32 197 218 207 225 33 203 224 213 232 34 209 231 219 238 35 215 237 226 245 36 221 244 232 252 37 227 250 238 258 38 233 257 244 265 39 239 263 250 272 40 245 270 257 279

10 10 73 81 77 84 11 79 88 84 92 12 86 96 91 99 13 93 103 97 106 14 99 110 104 114 15 106 117 111 121 16 112 124 118 129 17 119 132 125 136 18 125 139 132 143 19 132 146 138 151 20 138 153 145 158 21 145 160 152 166 22 152 167 159 173 23 158 175 166 180 24 165 182 173 188 25 171 189 179 195 26 178 196 186 202 27 184 203 193 210 28 191 210 200 217 29 197 217 207 224 30 204 224 213 232 31 210 232 220 239 32 217 239 227 246 33 223 246 234 254 34 230 253 241 261 35 236 260 247 268 36 243 267 254 276 37 249 274 261 283 38 256 281 268 290 39 262 289 275 298 40 269 296 284 305

11 11 87 96 91 100 12 94 104 99 108 13 101 112 106 116 14 108 120 114 124 15 115 128 121 132 16 122 135 129 140 17 130 143 136 148 18 137 151 143 156 19 144 159 151 164 20 151 167 158 172 21 158 174 166 180 22 168 182 173 188

α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 11 23 172 190 180 196

24 179 198 188 204 25 186 205 195 212 26 194 213 203 220 27 201 221 210 228 28 208 229 218 236 29 215 236 225 244 30 222 244 232 252 31 229 252 240 260 32 236 260 247 268 33 243 267 255 276 34 250 275 262 284 35 257 283 269 292 36 265 290 277 300 37 272 298 284 308 38 279 306 291 316 39 286 314 299 323 40 293 321 306 331

12 12 102 113 107 117 13 109 121 115 125 14 117 130 123 134 15 125 138 131 143 16 132 146 139 151 17 140 155 147 160 18 148 163 155 169 19 156 172 163 177 20 163 180 171 186 21 171 188 179 194 22 179 197 187 203 23 186 205 195 212 24 194 213 203 220 25 202 222 211 229 26 209 230 219 238 27 217 239 227 246 28 225 247 235 255 29 232 255 243 263 30 240 264 251 272 31 248 272 259 280 32 256 280 267 289 33 263 289 275 298 34 271 297 283 306 35 279 305 291 315 36 286 314 299 323 37 294 322 307 332 38 302 330 315 340 39 309 339 323 349 40 317 347 331 358

13 13 118 130 124 135 14 126 139 132 144 15 134 148 141 153 16 143 157 149 163 17 151 166 158 172

α una cola α dos colas n1 n2 0.05 0.01 0.05 0.01 13 18 159 175 167 181

19 167 184 175 190 20 176 193 184 200 21 184 202 193 209 22 192 211 201 218 23 201 220 210 227 24 209 229 218 237 25 217 238 227 246 26 225 247 236 255 27 234 256 244 264 28 242 265 253 273 29 250 274 261 283 30 258 283 270 292 31 267 292 278 301 32 275 301 287 310 33 283 310 296 319 34 291 319 304 329 35 299 328 312 338 36 308 337 321 347 37 316 346 330 356 38 324 355 338 365 39 332 363 347 374 40 341 372 355 384

14 14 135 149 141 154 15 144 159 151 164 16 153 168 160 174 17 161 178 169 184 18 170 187 178 194 19 179 197 188 203 20 188 207 197 213 21 197 216 206 223 22 206 226 215 233 23 215 235 224 243 24 223 245 234 253 25 232 255 243 263 26 241 264 252 272 27 250 274 261 282 28 259 283 270 292 29 268 293 279 302 30 276 302 289 312 31 285 312 298 321 32 294 321 307 331 33 303 331 316 341 34 312 341 325 351 35 320 350 334 361 36 329 360 343 370 37 338 369 353 380 38 347 379 362 390 39 356 388 371 400 40 364 398 380 410

15 15 153 169 161 174 16 163 179 170 185

Page 27: Metodos analisis datos.pdf

27

α una cola α dos colas

n1 n2 0.05 0.01 0.05 0.01 15 17 172 189 180 195

18 182 200 190 206 19 191 210 200 216 20 200 220 210 227 21 210 230 219 237 22 219 240 229 248 23 229 251 239 258 24 238 261 249 269 25 247 271 258 279 26 257 281 268 290 27 266 291 278 300 28 276 301 288 311 29 285 312 297 321 30 294 322 307 331 31 304 332 317 342 32 313 342 327 352 33 323 352 336 363 34 332 362 346 373 35 341 372 356 383 36 351 382 366 394 37 360 393 375 404 38 369 403 385 415 39 379 413 395 425 40 388 423 404 435

16 16 173 190 181 196 17 183 201 191 207 18 193 212 202 218 19 203 222 212 230 20 213 233 222 241 21 223 244 233 252 22 233 255 243 263 23 243 266 253 274 24 253 276 264 285 25 263 287 274 296 26 273 298 284 307 27 283 309 295 318 28 292 319 305 329 29 302 330 315 340 30 312 341 326 351 31 322 352 336 362 32 332 362 346 373 33 342 373 357 384 34 352 384 367 395 35 362 395 377 406 36 372 405 388 417 37 382 416 398 428 38 392 427 408 439 39 402 437 418 450 40 412 448 429 461

α una cola α dos colas

n1 n2 0.05 0.01 0.05 0.01 17 17 193 212 202 219

18 204 224 213 231 19 214 235 224 242 20 225 247 235 254 21 236 258 246 266 22 246 269 257 278 23 257 281 268 289 24 267 292 279 301 25 278 303 290 313 26 288 315 301 324 27 299 326 312 336 28 309 337 322 348 29 320 349 333 359 30 330 360 344 371 31 341 371 355 382 32 351 383 366 394 33 362 394 377 406 34 372 405 388 417 35 383 417 399 429 36 393 428 410 440 37 404 439 420 452 38 414 451 431 464 39 425 462 442 475 40 435 473 453 487

18 18 215 236 225 243 19 226 248 236 255 20 237 260 248 268 21 248 272 259 280 22 260 284 271 292 23 271 296 282 305 24 282 308 294 317 25 293 320 305 329 26 304 332 317 341 27 315 344 328 354 28 326 355 340 366 29 337 367 351 378 30 348 379 363 390 31 359 391 374 403 32 370 403 386 415 33 382 415 397 427 34 393 427 409 439 35 404 439 420 451 36 415 451 432 464 37 426 463 443 476 38 437 475 454 488 39 448 486 466 500 40 459 498 477 512

α una cola α dos colas

n1 n2 0.05 0.01 0.05 0.01 19 19 238 260 248 268

20 250 273 261 281 21 261 286 273 294 22 273 298 285 307 23 285 311 297 320 24 296 323 309 333 25 308 336 321 346 26 320 348 333 359 27 331 361 345 371 28 343 373 357 384 29 355 386 369 397 30 366 398 381 410 31 378 411 393 423 32 390 423 405 436 33 401 436 417 448 34 413 448 429 461 35 424 461 441 474 36 436 473 453 487 37 448 486 465 500 38 459 498 477 512 39 471 511 489 525 40 482 523 502 538

20 20 262 286 273 295 21 274 299 286 308 22 276 313 299 322 23 299 326 311 335 24 311 339 234 349 25 323 352 337 362 26 335 365 349 376 27 348 378 362 389 28 360 391 374 403 29 372 404 387 416 30 384 418 400 430 31 396 431 412 443 32 409 444 425 456 33 421 457 438 470 34 433 470 450 483 35 445 483 463 497 36 457 496 475 510 37 469 509 488 523 38 482 522 501 537 39 535 513 550 40 548 526 563

Page 28: Metodos analisis datos.pdf

28

6.4. Tabla de valores críticos del estadístico F de Snedecor ?1: grados de libertad del numerador

?2: grados de libertad del denominador

a = 0.05

a = 0.01

Page 29: Metodos analisis datos.pdf

29

6.5. Tabla de valores críticos del estadístico H de Kruskal-Wallis

n1 n2 n3 n4 n5 α=0.05 α=0.01 2 2 2 3 2 1 3 2 2 4.714 3 3 1 5.143 3 3 2 5.361 3 3 3 5.600 4 2 1 4 2 2 5.333 4 3 1 5.208 4 3 2 5.444 6.444 4 3 3 5.791 6.745 4 4 1 4.967 6.667 4 4 2 5.455 7.036 4 4 3 5.598 7.144 4 4 4 5.692 7.654 5 2 1 5.000 5 2 2 5.160 6.533 5 3 1 4.960 5 3 2 5.251 6.909 5 3 3 5.648 7.079 5 4 1 4.985 6.955 5 4 2 5.273 7.205 5 4 3 5.656 7.445 5 4 4 5.657 7.760 5 5 1 5.127 7.309 5 5 2 5.338 7.338 5 5 3 5.705 7.578 5 5 4 5.666 7.823 5 5 5 5.780 8.000 6 1 1 6 2 1 4.822 6 2 2 5.345 6.982 6 3 1 4.855 6 3 2 5.348 6.970 6 3 3 5.615 7.410 6 4 1 4.947 7.106 6 4 2 5.340 7.340 6 4 3 5.610 7.500 6 4 4 5.681 7.795 6 5 1 4.990 7.182 6 5 2 5.338 7.376 6 5 3 5.602 7.590 6 5 4 5.661 7.936 6 5 5 5.729 8.028 6 6 1 4.945 7.121 6 6 2 5.410 7.467 6 6 3 5.625 7.725 6 6 4 5.724 8.000 6 6 5 5.765 8.124 6 6 6 5.801 8.222 7 7 7 5.819 8.378 8 8 8 5.805 8.465 2 2 1 1 2 2 2 1 5.679 2 2 2 2 6.167 6.667 3 1 1 1 3 2 1 1 3 2 2 1 5.833 3 2 2 2 5.333 7.133 3 3 1 1 6.333 3 3 2 1 6.244 7.200 3 3 2 2 6.527 7.636 3 3 3 1 6.600 7.400 3 3 3 2 6.727 8.105 3 3 3 3 7.000 8.538

4 1 1 1 4 2 1 1 5.833

n1 n2 n3 n4 n5 α=0.05 α=0.01 4 2 2 1 6.133 7.000 4 2 2 2 6.545 7.391 4 3 1 1 6.178 7.067 4 3 2 1 6.309 7.455 4 3 2 2 6.621 7.871 4 3 3 1 6.545 7.758 4 3 3 2 6.795 8.333 4 3 3 3 6.984 8.659 4 4 1 1 5.945 7.909 4 4 2 1 6.386 7.886 4 4 2 2 6.731 8.346 4 4 3 1 6.635 8.231 4 4 3 2 6.874 8.621 4 4 3 3 7.038 8.876 4 4 4 1 6.725 8.588 4 4 4 2 6.957 8.871 4 4 4 3 7.142 9.075 4 4 4 4 7.235 9.287 2 1 1 1 1 2 2 1 1 1 2 2 2 1 1 6.750 2 2 2 2 1 7.133 7.533 2 2 2 2 2 7.418 8.291 3 1 1 1 1 3 2 1 1 1 6.583 3 2 2 1 1 6.800 7.600 3 2 2 2 1 7.309 8.127 3 2 2 2 2 7.682 8.682 3 3 1 1 1 7.111 3 3 2 1 1 7.200 8.073 3 3 2 2 1 7.591 8.576 3 3 2 2 2 7.910 9.115 3 3 3 1 1 7.576 8.424 3 3 3 2 1 7.759 9.051 3 3 3 2 2 8.044 9.505 3 3 3 3 1 8.000 9.451 3 3 3 3 2 8.200 9.876 3 3 3 3 3 8.333 10.200

Page 30: Metodos analisis datos.pdf

30

6.6. Tabla de valores críticos del coeficiente de correlación de Pearson (r) Una cola Dos colas n α=0.05 α=0.01 α=0.05 α=0.01 3 0.988 1.000 0.997 1.000 4 0.900 0.980 0.950 0.990 5 0.805 0.934 0.878 0.959 6 0.729 0.882 0.811 0.917 7 0.669 0.833 0.755 0.875 8 0.622 0.789 0.707 0.834 9 0.582 0.750 0.666 0.798 10 0.549 0.715 0.632 0.765 11 0.521 0.685 0.602 0.735 12 0.497 0.658 0.576 0.708 13 0.476 0.634 0.553 0.684 14 0.458 0.612 0.532 0.661 15 0.441 0.592 0.514 0.641 16 0.426 0.574 0.497 0.623 17 0.412 0.558 0.482 0.606 18 0.400 0.542 0.468 0.590 19 0.389 0.529 0.456 0.575 20 0.378 0.515 0.444 0.561 21 0.369 0.503 0.433 0.549 22 0.360 0.492 0.423 0.537 23 0.352 0.482 0.413 0.526 24 0.344 0.472 0.404 0.515 25 0.337 0.462 0.396 0.505 26 0.330 0.453 0.388 0.496 27 0.323 0.445 0.381 0.487 28 0.317 0.437 0.374 0.479 29 0.312 0.430 0.367 0.471 30 0.306 0.423 0.361 0.463 32 0.296 0.409 0.349 0.449 34 0.287 0.397 0.339 0.436 36 0.279 0.386 0.329 0.424 38 0.271 0.376 0.320 0.413 40 0.264 0.367 0.312 0.403 42 0.257 0.358 0.304 0.393 44 0.251 0.350 0.297 0.384 46 0.246 0.342 0.291 0.376 48 0.240 0.335 0.285 0.368 50 0.235 0.328 0.279 0.361 52 0.231 0.322 0.273 0.354 54 0.226 0.316 0.268 0.348 56 0.222 0.310 0.263 0.341 58 0.218 0.305 0.259 0.336 60 0.214 0.300 0.254 0.330 62 0.211 0.295 0.250 0.325 64 0.207 0.290 0.246 0.320 66 0.204 0.286 0.242 0.315 68 0.201 0.282 0.239 0.310 70 0.198 0.278 0.235 0.306 72 0.195 0.274 0.232 0.302 74 0.193 0.270 0.229 0.298 76 0.190 0.266 0.226 0.294 78 0.188 0.263 0.223 0.290 80 0.185 0.260 0.220 0.286 82 0.183 0.257 0.217 0.283 84 0.181 0.253 0.215 0.280 86 0.179 0.251 0.212 0.276 88 0.177 0.248 0.210 0.273 90 0.174 0.245 0.207 0.270 92 0.173 0.242 0.205 0.267 94 0.171 0.240 0.203 0.264 96 0.169 0.237 0.201 0.262 98 0.167 0.235 0.199 0.259 100 0.165 0.232 0.197 0.257

Page 31: Metodos analisis datos.pdf

31

6.7. Tabla de valores críticos del coeficiente de correlación de Spearman (rs) a (1): hipótesis de una cola

a (2): hipótesis de dos colas