BIOESTADISTICA EJERCICIOS 2011

50
1 EJERCICIOS DE METODOS ESTADISTICOS PARA LA INVESTIGACION 2011 MUESTREO SISTEMÁTICO Ejemplo: Se desea elegir una muestra de 20 consultorios de una lista de 500 consultorios. N = 500 n = 20 k = N n = 500 20 = 25 Se elige el primer consultorio en forma aleatoria entre el 1 y el 25. Supongamos que sea el consultorio número 12, entonces los consultorios seleccionados serán el: 12, , , , , , , ... 487(completar) Sol. 12, 37, 62, 87, 112, 137, 162, 187, 212, 237, 262, 287, 312, 337, 362, 387, 412, 437, 462, 487 EJEMPLO 1 Variable Cualitativa o Atributo : Estado Civil Modalidades del Atributo : Casado, Soltero y Viudo Número de personas = n i = frecuencia absoluta de la categoría o clase i DISTRIBUCIÓN DE 9000 PERSONAS DE UNA POBLACIÓN X DE ACUERDO A SU ESTADO CIVIL ESTADO CIVIL NÚMERO DE PERSONAS SOLTERO CASADO VIUDO 4500 3000 1500 9000 EJEMPLO 2 Variable Cuantitativa Discreta

Transcript of BIOESTADISTICA EJERCICIOS 2011

Page 1: BIOESTADISTICA EJERCICIOS 2011

1

EJERCICIOS DE METODOS ESTADISTICOS PARA LA INVESTIGACION 2011

MUESTREO SISTEMÁTICO

Ejemplo: Se desea elegir una muestra de 20 consultorios de una lista de 500 consultorios.

N = 500 n = 20 k = Nn

= 50020

= 25

Se elige el primer consultorio en forma aleatoria entre el 1 y el 25. Supongamos que sea el consultorio número 12, entonces los consultorios seleccionados serán el:

12, , , , , , , ... 487(completar)

Sol.12, 37, 62, 87, 112, 137, 162, 187, 212, 237, 262, 287, 312, 337, 362, 387, 412, 437, 462, 487

EJEMPLO 1Variable Cualitativa o Atributo : Estado CivilModalidades del Atributo : Casado, Soltero y Viudo

Número de personas = ni = frecuencia absoluta de la categoría o clase i

DISTRIBUCIÓN DE 9000 PERSONAS DE UNA POBLACIÓN X DE ACUERDO A SU ESTADO CIVIL

ESTADO CIVIL NÚMERO DE PERSONASSOLTEROCASADOVIUDO

4500300015009000

EJEMPLO 2 Variable Cuantitativa DiscretaExperimento Aleatorio: Se lanza un dado 100 vecesx i = Número i que aparece en la cara superior del dadoni = Número de veces que se repite el númeroi que aparece en la cara superior del dado

NÚMERO QUE APARECE EN LA CARA SUPERIOR DEL DADO

NÚMERO DE VECES QUE SE REPITE

123456

211815201610100

Page 2: BIOESTADISTICA EJERCICIOS 2011

2

x i ni N i f i F i f i% F i%123456

211815201610

2139547490100

0,210,180,150,200,160,10

0,210,390,540,740,901,00

211815201610

2139547490100

100 1,00 100

El número asociado a cada categoría o clase lo llamaremos frecuencia absoluta.

ni = frecuencia absoluta de la clase i ∑i=1

k

ni=n

k = número de clases

EJEMPLO 3Variable Cuantitativa Continua X = estatura, en metros, de alumno de un curso Z

1,72 1,67 1,69 1,58 1,81 1,47 1,62 1,47 1,72 1,771,55 1,53 1,38 1,37 1,64 1,65 1,85 1,65 1,64 1,631,64 1,49 1,68 1,57 1,80 1,60 1,83 1,65 1,66 1,731,59 1,62 1,68 1,57 1,65 1,64 1,78 1,58 1,71 1,59

1. Ordenar y completar la tabla de abajo

1.37 1.38 1.47 1.47 1.49 1.53 1.55 1.57 1.57 1.581.58 1.59 1.59 1.6 1.62 1.62 1.63 1.64 1.64 1.641.64 1.65 1.65 1.65 1.65 1.66 1.67 1.68 1.68 1.691.71 1.72 1.72 1.73 1.77 1.78 1.8 1.81 1.83 1.85

REGLAS GENERALES PARA FORMAR LOS INTERVALOS DE CLASE

1o )Se determina el recorrido o rango de la variable (Re )

Re = diferencia entre el mayor y menor valor de la variable = Xmayor − Xmenor

Re = 1,85 - 1,37 = 0,48

2o )Se divide el Recorrido por el número de intervalos deseados. (entre 5 y 20 intervalos)(a) Suponga que se desean 5 intervalos de clase

Re : 5 = 0,48 : 5 = 0,096 0,10 = amplitud de cada intervalo de clase. Se aproxima aumentando y dejando con el mismo número de decimales de los datos.

INTERVALOS DE CLASE FRECUENCIA1,37 – 1,46 2

Page 3: BIOESTADISTICA EJERCICIOS 2011

3

1,47 – 1,561,57 – 1,661,67 – 1,761,77 – 1,86

5198640

DISTRIBUCIÓN DE 40 ALUMNOS DE UN CURSO Z DE ACUERDO A SU ESTATURA

ESTATURAS NÚMERO DE ALUMNOS1,365 - 1,4351,435 - 1,5051,505 - 1,5751,575 - 1,6451,645 - 1,7151,715 - 1,7851,785 - 1,855

23412105440

AMPLITUD O LONGITUD DEL INTERVALO DE CLASE: es la diferencia entre el

límite superior e inferior del intervalo de clase = a i=Li−liMARCA DE CLASE: es el punto medio del intervalo de clase, se obtiene sacando el

promedio entre los registros o los límites del intervalo de clase = x i=

Ri+r i

2=

Li+li2

ESTATURAS NÚMERO DE ALUMNOS x i

1,365 - 1,4351,435 - 1,5051,505 - 1,5751,575 - 1,6451,645 - 1,7151,715 - 1,7851,785 - 1,855

234121054

1,41,471,541,611,681,751,82

40

REPRESENTACIÓN GRÁFICA DE UNA DISTRIBUCIÓN DE FRECUENCIAS

El verdadero objetivo de dichas representaciones es facilitar en forma rápida la captación de los datos estadísticos.

Page 4: BIOESTADISTICA EJERCICIOS 2011

4

EJEMPLO 4Dibujar el Diagrama de Barras de la distribución de frecuencias del Ejemplo 1

SOLTERO CASADO VIUDO0

500100015002000250030003500400045005000 4500

3000

1500

Estado Civil

Num

ero

de P

erso

nas

GRÁFICO SECTORIAL O DE SECTORES O PIE O PASTELConsiste en un círculo que se divide en sectores. Los 360° se reparten proporcionalmente. No se utiliza para variables ordinalesEJEMPLO 5 Gráfico Sectorial de la distribución de frecuencias del Ejemplo 1

ESTADO CIVIL

NÚMERO DE PERSONAS

ÁNGULO EN GRADOS

%

SOLTEROCASADOVIUDO

450030001500

180°120°60°

503317

9000 360° 100

50%33%

17%

DISTRIBUCIÓN DE 9000 PERSONAS DE UNA POBLACIÓN X DE ACUERDO A SU ESTADO CI-

VIL

SOLTERO

CASADO

VIUDO

Page 5: BIOESTADISTICA EJERCICIOS 2011

5

EJEMPLO 6 Dibujar el Histograma de la distribución de frecuencias del Ejemplo 3 (con 7 intervalos de clase)

1,365 - 1,435

1,435 - 1,505

1,505 - 1,575

1,575 - 1,645

1,645 - 1,715

1,715 - 1,785

1,785 - 1,855

0

2

4

6

8

10

12

14

2 3 4

1210

5 4

Intervalos de Clase

Num

ero

de A

lum

nos

IV POLÍGONO DE FRECUENCIA

EJEMPLO 7Polígono de frecuencias de la distribución de frecuencias del Ejemplo 3

1.33 1.40 1.47 1.54 1.61 1.68 1.75 1.82 1.8902468101214

DISTRIBUCIÓN DE 40 ALUMNOS DE UN CURSO Z DE ACUERDO A SU ESTATURA

ESTATURAS (METROS)

ME

RO

DE

AL

UM

NO

S

Page 6: BIOESTADISTICA EJERCICIOS 2011

6

ESTADISTICO

ESTADÍSTICO: expresión que permite cuantificar una característica de la población o de la muestra.

ESTADÍGRAFOS ¿ { ( I ) ESTADÍGRAFOS DE TENDENCIA CENTRAL ¿ ¿¿(I) ESTADÍSTICOS O MEDIDAS DE TENDENCIA CENTRAL Es el valor que da una idea del centro de una distribución de frecuencias.

(a) (i) MEDIA ARITMÉTICAEs muy importante, corrientemente se le llama promedio y corresponde a la suma de todos los valores de la variable dividida por el número total de ellos.

En los siguientes ejemplos se calculará la media aritmética.

EJEMPLO 9

Sea A={1 ,3 , 7 , 8,9 } una muestra. x=

∑i=1

5

x i

5=1+3+7+8+9

5=5,6

El promedio de los datos es de 5,6 unidades.

Calcular la media aritmética de los siguientes números

13,15,14, 17,19, 20, 24,22,13,21

Media= 17,8

EJEMPLO 10

Sea B= {1,1,2,2,2,3,4,4,5,5 } una muestra

x i nix i⋅n i

12345

23122

263810

10 29

Page 7: BIOESTADISTICA EJERCICIOS 2011

7

x=

∑i=1

5

x i⋅ni

10=2+6+3+8+10

10=29

10=2,9

El promedio de los datos es de 2,9 unidades.

EJEMPLO 11 Estaturas, en metros, de 40 alumnos de un curso Z

ESTATURAS N° DE ALUMNOS x i x i⋅n i

1,365 - 1,4351,435 - 1,5051,505 - 1,5751,575 - 1,6451,645 - 1,7151,715 - 1,7851,785 - 1,855

234121054

1,401,471,541,611,681,751,82

2.84.416.1619.3216.88.757.28

40 65,52

Si los datos son de una muestra

x = ∑i=1

7

xin i

40 =

2,80+4,41+6,16+19,32+16,80+8,75+7,2840

=65,5240

=1,638 metros

El promedio de estatura de los 40 alumnos del curso Z es de 1,638 metros.

EJEMPLO 12La siguiente distribución de frecuencia indica el contenido de albúmina total circulante (en gramos) de 30 varones normales de edad comprendida entre 20 años y 29 años. Determine el contenido de albúmina media.

Contenido de Albúmina N° de varones x i x i⋅n i

99,5 - 109,5109,5 - 119,5119,5 - 129,5129,5 - 139,5139,5 - 149,5149,5 - 159,5

266781

104.5114.5124.5134.5144.5154.5

209687747

941,51156154,5

30 3895

Page 8: BIOESTADISTICA EJERCICIOS 2011

8

Si los datos son de una muestra

x = ∑i=1

6

xin i

30 =

209+687+747+941,5+1156+154,530

=389530

=129 ,833 gramos

(b) MEDIANAEs un estadístico que divide la distribución en dos grupos con igual número de observaciones.

(i) Si la serie tiene un número impar de términos, la mediana es el valor central. EJEMPLO 14

{2 ,10 ,13 ,5,7 }⃗ ORDENAR {2,5,7 ,10 ,13 } Me=7

(ii) Si la serie tiene un número par de términos, la mediana es la media aritmética de los dos términos centrales.

EJEMPLO 15 {1,2,5,7 ,10 ,13 } Me=

5+72

=6

(c) MODAModa, Modo o valor modal de la variable es el valor que más veces se repite y en consecuencia en una distribución de frecuencias es el valor de la variable que viene afectado por la máxima frecuencia. La moda no es una medida muy utilizada.

En los siguientes ejemplos se calculará la moda.

EJEMPLO 18

Sea A={5 , 3 , 2 , 2 , 4 , 3 , 2 ,1 } M o=2 unimodal

EJEMPLO 19 B= 2, 4, 4, 5, 6, 7,7,8 bimodal

EJEMPLO 20

Sea B= {1 , 1 , 2 , 2 , 3 , 3 } No existe M o

CUANTILAS O FRACTILAS

(a) CUARTILES: estadígrafo que divide la serie en cuatro partes iguales.

Se tienen tres cuartiles Q1 , Q2 y Q3 .

Page 9: BIOESTADISTICA EJERCICIOS 2011

9

(b) DECILES: estadígrafo que divide la serie en 10 partes iguales.

Se tienen 9 deciles D1 ,D2 , D3 .. .. . D9 .(c) PERCENTILES: estadígrafo que divide la serie en cien partes iguales.

Se tienen noventa y nueve percentiles P1 , P2 , P3 .. . .. P99 . El uso de los percentiles sólo se justifica si existen muchos

valores de la variable.

EJEMPLO 21

Sea A={7,7,8,9 ,10 ,12 ,15 ,22 ,22,24 ,25 ,25 ,26 }

n4=13

4=3 ,25≈3 supera a 3 datos ∴ Q1=9

n2=13

2=6,5≈6 supera a 6 datos ∴ Q2=15=M e

3n4

=3⋅134

=9 ,75≈9 supera a 9 datos ∴ Q3=24

(II) ESTADISTICOS DE DISPERSIÓN

Consideremos los dos conjuntos de datos siguientes:

A={4 ,5 ,5 ,5 ,6 } B= {1 ,1 ,1 ,9 ,9 ,9 } x A=M eA=5 xB=M eB=5

Los dos conjuntos tienen media aritmética y mediana igual a cinco, sin embargo, ellos son absolutamente diferentes. Mientras en A la mayoría de los datos tiene el valor cinco, en cambio en B los datos están alejados de este valor. Por lo tanto, se hace necesario encontrar una forma de expresar lo que ocurre en ambos casos. Para esto definimos un cierto tipo de estadígrafo que mide el grado de alejamiento o dispersión de los valores de las observaciones con respecto a un valor central, generalmente la media.

RANGOEs la diferencia entre el mayor y el menor valor de la variable.

Re=Xmayor−Xmenor

Es una medida de dispersión bastante imperfecta, aunque en determinadas ocasiones es una rápida y eficaz ayuda. El recorrido brinda una primera idea acerca de la heterogeneidad, pero tiene el inconveniente que sólo toma en cuenta los dos valores extremos, descuidando el conjunto de valores intermedios.

RECORRIDO INTERCUARTÍLICO ReQ=Q3−Q1

Page 10: BIOESTADISTICA EJERCICIOS 2011

10

RECORRIDO INTERDECIL ReD=D9−D1

RECORRIDO INTERPERCENTIL R eP=P99−P1

DESVIACIÓN ESTANDAR (D.E.)

Es la raíz cuadrada positiva del promedio de los cuadrados de las desviaciones de los valores de la variable con respecto a la media aritmética.

D .E . POBLACIONAL=σ=√∑i=1

N

(x i−μ )2

N=√∑i=1

N

x i2

N−μ2=√∑i=1

k

(x i−μ )2ni

N=√∑i=1

k

x i2ni

N−μ2

D .E . MUESTRAL = s = √∑i=1

n

(x i−x )2

n−1=√∑i=1

n

x i2

n−1− n x2

n−1=√∑i=1

k

( xi−x )2ni

n−1=√∑i=1

k

x i2ni

n−1− n x2

n−1

EJEMPLO 23

x i ni x i⋅n i x i2ni

123456

61167911

62218284566

64454112225396

50 185 837

Si los datos son de una población

D .E . POBLACIONAL=σ=√∑i=1

k

x i2ni

N−μ2=√837

50−(185

50 )2

=1,746

Si los datos son de una muestra

Page 11: BIOESTADISTICA EJERCICIOS 2011

11

D .E . MUESTRAL=s=√∑i=1

k

x i2ni

n−1− n x2

n−1=√837

49−

50⋅(185/50 )2

49=1 ,764

EJEMPLO 25

Estaturas, en metros, de 40 alumnos de un curso Z

ESTATURAS ni x i x i2⋅ni

1,365 - 1,4351,435 - 1,5051,505 - 1,5751,575 - 1,6451,645 - 1,7151,715 - 1,7851,785 - 1,855

234121054

1,401,471,541,611,681,751,82

3,926,48279,486431,105228,22415,312513,2496

40 107,7804

Si los datos son de una población

D .E . POBLACIONAL=σ=√∑i=1

k

x i2ni

N−μ2=√107 ,7804

40−(1 ,638 )2=0 ,10707 metros

Si los datos son de una muestra

D .E . MUESTRAL=s=√∑i=1

k

x i2ni

n−1− n x2

n−1=√107 ,7804

39−

40⋅(1 ,638 )2

39=0 ,10844 metros

VARIANZA

Es el cuadrado de la desviación estándar.

Observaciones:(1) La varianza es mayor o igual a cero.(2) La desviación estándar se expresa en las mismas unidades de la variable estudiada, mientras que la varianza se expresa en el cuadrado de la unidad de medida.

PROPIEDADES DE LA VARIANZA

1.- La varianza de una constante es cero. V ar (K )=0

Page 12: BIOESTADISTICA EJERCICIOS 2011

12

2.- La varianza de una constante por una variable es la constante al cuadrado por la

varianza de la variable. V ar (KX )=K2V ar ( X )

3.- La varianza de una constante más o menos una variable es la varianza de la variable.

V ar (K±X )=V ar (X )

V ar (aX+b )=a2 V ar (X ) X es variable, a y b son constantes

INFERENCIA ESTADÍSTICA

(I) ESTIMACIÓN (a) ESTIMACIÓN PUNTUAL

En la estimación puntual se usa un solo estadístico muestral.

μ¿

=x μ1−μ2=x1−x2

P¿

=p P1−P2=p1−p2

σ2

¿

=s2

σ12

σ22=

s12

s22

Un estimador es un procedimiento expresado a manera de regla o de fórmula por medio del cual se obtiene un valor numérico denominado estimación.

Por ejemplo x=

∑i=1

n

x i

n representa el método por el cual se calcula una media muestral es un estimador, pero el resultado numérico que se obtiene efectuando la operación indicada es una estimación.

(b) ESTIMACIÓN POR INTERVALOSUna estimación por intervalos consta de dos puntos, definidores de un intervalo, que, según nuestras estimaciones contienen el parámetro poblacional que nos interesa.Una estimación por intervalos recibe el nombre de Intervalo de Confianza (IC).INTERVALOS DE CONFIANZA PARA UNA MEDIA POBLACIONAL μ

(A) Población distribuida Normal y varianza de la población conocida.

X N (μ ,σ2 ) σ 2 conocida

Page 13: BIOESTADISTICA EJERCICIOS 2011

13

x − z0⋅σ

√n ≤ μ ≤ x + z0⋅

σ

√n

x = estimadorz0 = factor de confiabilidadσ

√n = error típico del estimador

En términos generales un intervalo de confianza se puede expresar como

(ESTIMADOR )±(FACTOR DE CONFIABILIDAD )⋅(ERROR TÍPICO DEL ESTIMADOR )

Si N es conocido

Se usa

N−nN−1 = factor de corrección para población finita (c.p.f.)

x − z0⋅σ

√n⋅√N-n

N-1 ≤ μ ≤ x + z0⋅

σ

√n⋅√N-n

N-1

El c.p.f. se ignora si

nN

≤ 0 ,05

EJEMPLO 26Un biólogo desea hacer una estimación, con un IC del 95%, de la cantidad promedio de agua que consume diariamente cierta especie animal en condiciones experimentales. El investigador supone que la población de valores de consumo diario de agua está normalmente distribuida y, con base en experiencias pasadas que la varianza de la población es de 4 gramos cuadrados. Una m.a. de 25 animales arrojó una media de 16,5 g.

X=cantidad de agua , en gramos , que consume diariamente cierta especie animal en condiciones e xperimentales .X N (μ ,σ2 ) σ 2=4 g2

1−α = 0 ,95⇒ z0=1 ,96

n=25 x=16 ,5 g

x − z0⋅

σ

√n ≤ μ ≤ x + z0⋅

σ

√n

Page 14: BIOESTADISTICA EJERCICIOS 2011

14

Calcule los intervalos de confianza

16 . 5 − 1. 96 ⋅4

√25 ≤ μ ≤ 16 . 5+ 1. 96 ⋅

4

√2515 .716 ≤ μ ≥ 17 .284

El biólogo, puede afirmar con un nivel de confianza del 95% que la verdadera cantidad promedio de agua que consume diariamente la especie animal en condiciones experimentales está en algún punto comprendido entre 15,716 y 17,284 gramos.

(B) Población distribuida Normal y varianza de la población desconocida.

X N (μ ,σ2 ) σ 2 desconocida

x − t0⋅s

√n⋅ √N-n

N-1 ≤ μ ≤ x + t0⋅

s

√n⋅√N-n

N-1

s2=

∑i=1

n

xi2

n−1− n x2

n−1 = varianza muestral

Se usa la distribución t−student con n−1 grados de libertad

EJEMPLO 27Un psicólogo desea calcular el tiempo medio de respuesta de unos jóvenes a un determinado sonido, selecciona una m.a.s. de 25 universitarios para participar en el experimento. El tiempo medio de respuesta para la muestra es de 160 milisegundos con una desviación típica de 5 milisegundos. Suponiendo que el tiempo de respuesta de todos los individuos está normalmente distribuido. Construya el I de C del 99%.

X=tiempo de respuesta , en milisegundos , de un joven a un d eter minado sonidoX N (μ ,σ2 ) σ 2 desconocida

1−α = 0 ,99⇒ t0=2 ,7969

n=25 x=160 milisegundos s = 5 milisegundos

x − t 0⋅

s

√n ≤ μ ≤ x + t0⋅

s

√nCalcule los intervalos de confianza:

160 − 2 .7969 ⋅5

√25 ≤ μ ≤ 160 + 2 .7969 ⋅

5

√25

157 . 2031 ≤ μ ≥ 162 .7969

Page 15: BIOESTADISTICA EJERCICIOS 2011

15

El psicólogo puede afirmar con un 99% de confiabilidad, que el tiempo medio verdadero de respuesta para todos los individuos similares a los que se emplean en el experimento, está aproximadamente entre 157 y 163 milisegundos.

TAMAÑO DE MUESTRA para estimar la MEDIA de la población

En cualquier investigación es de gran importancia que la muestra que se va a sacar sea de tamaño adecuado. Si se toma una muestra demasiado grande, se pierde dinero y otros recursos, por otra parte si la muestra es demasiado pequeña, produce resultados inútiles.Sabemos que un I de C se construye por medio de la fórmula general

(ESTIMADOR )±(FACTOR DE CONFIABILIDAD )⋅(ERROR TÍPICO DEL ESTIMADOR )Si la población está normalmente distribuida, con varianza conocida.

x − z0⋅

σ

√n ≤ μ ≤ x + z0⋅

σ

√n

Observamos que z0⋅

σ

√n=

a la mitad de la amplitud del intervalo de confianza.Si antes de sacar una muestra podemos especificar la amplitud del I. de C. que en último término quisiéramos construir, habremos determinado la magnitud deseada de

z0⋅σ

√n Al determinar amplitud deseada del I de C que buscamos, estamos determinando qué tan cerca nos gustaría que estuviera nuestra estimación de la media verdadera

Si d=zo⋅σ

√n ⇒ n ≥ ( zo⋅σd )

2

d= mitad de la amplitud del intervalo de confianza deseado o qué tan cerca

deseamos que se encuentre nuestra estimación de la media verdadera.

zo=valor de la tabla normal estandarizada correspondiente al nivel de confianza deseado

σ=desviación típica de la población de donde se va a sacar la muestra.

Si σ2

es desconocido es necesario hacer una estimación de σ2

mediante (i) muestra piloto. (1% del tamaño de la población)

Page 16: BIOESTADISTICA EJERCICIOS 2011

16

(ii) estudios previos

Si hay que sacar la muestra de una población finita

Si d=zo⋅σ

√n⋅√ N−n

N−1⇒n≥

N⋅zo2⋅σ2

zo2⋅σ 2+d2⋅(N−1 )

EJEMPLO 29Un investigador a cuyo cargo está un departamento de educación física, desea hacer una estimación del consumo de oxígeno (en litros por minuto) de los estudiantes normales que estén entre los 17 y 21 años de edad, después de haber hecho un tipo especial de ejercicio. El investigador desea que su estimación se encuentre por lo menos a 0,1 litros de la media verdadera con un nivel de confianza del 95%. Los estudios que se han hecho indican que la varianza del consumo de oxígeno de éste tipo de sujetos, bajo las condiciones especificadas, es aproximadamente igual a 0,09 litros por minutos al cuadrado ¿qué tamaño debe tener la muestra que necesita éste investigador?

X= consumo de oxígeno (en litros por minuto) de estudiante normal que está entre los 17 y 21 años de edad, después de haber hecho un tipo especial de ejercicio.

d=0 ,10 1-α=0,95⇒ z=1,96 σ=√0,09=0,3

Calcule el tamaño muestral

n=( Z0 . σd )

2

=( 1.96×0.30.10 )

2

=(5.88 )2=34.57

El investigador necesita tomar una muestra de tamaño 35 por lo menos.

EJEMPLO 30Un investigador de un colegio que tiene 2500 alumnos, desea hacer una estimación del tiempo promedio que gastan los estudiantes en el viaje entre el colegio y la casa. El investigador desea un intervalo de confianza del 99% y una estimación que esté comprendida entre un minuto y la media verdadera. Un pequeña muestra piloto dio una varianza de 25 minutos al cuadrado ¿qué tamaño debe tener la muestra que necesita el investigador?

X= tiempo, en minutos que gasta un estudiante en el viaje entre el colegio y la casa.

Page 17: BIOESTADISTICA EJERCICIOS 2011

17

d=1 1-α=0,99⇒ z=2,575 σ2¿

=25=s2 N=2500

Calcule el tamaño muestral

Si d=zo⋅σ

√n⋅√ N−n

N−1⇒n≥

N⋅zo2⋅σ2

zo2⋅σ 2+d2⋅(N−1 )

n=N . Z0

2 . σ2

Z02 .σ 2+d2 . (N−1 )

=(2500 ) (2.575 )2 (25 )

(2.575 )2 (25 )+12 ∙ (2500−1 )= 414414.06

2664.76=155.51

Una muestra de tamaño adecuado sería de por lo menos 156 estudiantes. INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN POBLACIONAL P

n≥30

P¿

− z0⋅√ P¿

Q¿

n⋅√N-n

N-1 ≤ P ≤ P

¿

+ z0⋅√ P¿

Q¿

n⋅√N-n

N-1

EJEMPLO 33En un estudio sobre las razones que dan los alumnos suspendidos en el colegio, un investigador tomó una muestra de 200 estudiantes en una población de 1500 que habían sido suspendidos. De los 200 estudiantes suspendidos que fueron entrevistados, 140 manifestaron que habían fallado debido a dificultades económicas en su familia. El investigador quiere construir un intervalo de confianza del 95% para la verdadera proporción de jóvenes que habían fallado por esta razón.

P=proporcióndeestudiantes suspendidosque han fallado por dificultades económicas en su familiaoX=número deestudiantes suspendidosquehan fallado por dificultades económicasen su familia

P¿=p=140

200=0,7

Q¿

=q=0,3

nN

=2001500

=0,13>0 ,05 se usa c . p . f .

Calcule P

P¿

− z0⋅√ P¿

Q¿

n⋅√N-n

N-1 ≤ P ≤ P

¿

+ z0⋅√ P¿

Q¿

n⋅√N-n

N-1

0.7−1.96 ∙√ (0.7 ) (0.3 )200

∙√ 1500−2001500−1

≤P≤0.7+1.96 ∙√ 0.7 ∙0.3200

∙√ 1500−2001500−1

Page 18: BIOESTADISTICA EJERCICIOS 2011

18

0,6408 ≤ P ≤ 0,7591

Tenemos un 95% de confianza de que este intervalo contenga a P, la verdadera proporción de estudiantes suspendidos que han fallado por dificultades económicas en su familia, puesto que, en un muestreo repetido, aproximadamente el 95% de los intervalos construidos de esta forma a partir de todas las muestras de tamaño 200 que se pueden sacar de la población de 1500 suspendidos incluirían a P.

(II) DOCIMASIA DE HIPÓTESIS

Hipótesis se define como una afirmación o suposición que está sujeta a verificación o comprobación (no un hecho establecido).

Por ejemplo:1.- Un investigador puede proponer la hipótesis de que para enseñar biología el método A es superior al método B.

2.- Un fabricante de drogas puede plantear la hipótesis que un determinado medicamento es más efectivo que otro que se venía usando normalmente en el tratamiento de cierta enfermedad.

Las hipótesis establecidas en esta forma proporcionan, con frecuencia, motivos para realizar una investigación, la que puede basarse en la experiencia y la observación, en la experimentación o en la intuición, y se denominan Hipótesis de Investigación.

Generalmente hay que volver a plantear las hipótesis de investigación antes de verificarlas estadísticamente. Cuando ya se han planteado en forma conveniente de tal forma que se puedan comprobar, por medio de los métodos estadísticos, las hipótesis se llaman: Hipótesis Estadísticas.

Las Hipótesis Estadísticas son afirmaciones sobre uno o más parámetros de una o más poblaciones.

HIPÓTESIS ESTADÍSTICAS ¿ {HIPÓTESIS NULA (H 0)¿ ¿¿

Page 19: BIOESTADISTICA EJERCICIOS 2011

19

H 0 es la hipótesis que se debe comprobar, es una afirmación en la que se dice que no hay ninguna diferencia entre dos poblaciones, entre dos parámetros poblacionales o entre el valor verdadero de algún parámetro y su valor hipotético.

Para verificar una hipótesis examinamos los datos de la muestra tomada de la población pertinente y determinamos si son o no compatibles con la hipótesis nula.

Si los datos de la muestra no son compatibles con H 0 ⇒ H 0 se rechaza.

Si los datos de la muestra son compatibles con H 0 ⇒ H 0 no se rechaza.

Si H 0 no se rechaza, decimos que los datos particulares de la muestra no dan suficiente

evidencia como para que concluyamos que H 0 es falsa. Si H 0 se rechaza, decimos que los datos particulares de la muestra sí dan suficiente evidencia como para hacernos concluir que la hipótesis nula es falsa y que la hipótesis alterna es verdadera.

Las hipótesis en los ejemplos anteriores serían:

1.-

H0 : μ A=μB

H1 : μA>μB Elmétodo A daun puntaje promediomayorque elmétodoB .

2.-

H0 :P A=PB

H1 :PA>PB La proporción verdadera de casos que responden favorablemente a la nueva droga es mayor que la proporción que responde favorablemente a la droga usual.

PROCEDIMIENTO(1) Planteamiento de las hipótesis

Generalmente queremos obtener una conclusión rechazando H0 , es decir preferimos

que los datos de nuestra muestra apoyen a H1 . En consecuencia, al determinar lo que debe ser la hipótesis alterna, debemos preguntarnos ¿qué deseo concluir? o ¿qué creo

que es verdadero? La respuesta a estas preguntas constituye la expresión de H1 . El

planteamiento complementario de H1 sirve de H0 .

(2) Selección del nivel de significación De los resultados que se obtienen en el análisis de los datos de la muestra, rechazamos o no la hipótesis nula.

DECISIÓN ESTADÍSTICACERTEZA DE H0

Page 20: BIOESTADISTICA EJERCICIOS 2011

20

Verdadera Falsa

Rechazo de H0

No rechazo de H0

Error Tipo I Decisión correcta

Decisión Correcta Error Tipo II

α=P (cometer Error Tipo I )=P (Re chazo de H0 /H 0 es verdadero )

β=P (cometer Error Tipo II )=P ( Aceptación de H0 /H 0 es falsa)

Para la verificación de una hipótesis determinada preferiríamos que alfa y beta fueran pequeños. En virtud de la relación entre estas dos probabilidades, encontramos que, para

un tamaño de muestra dado, una disminución de α ⇒ aumento de β y viceversa. Siendo esto así, parece prudente que, en una situación determinada, tratemos de minimizar la probabilidad de cometer el error más serio. Desafortunadamente en muchas áreas de investigación, es difícil o imposible evaluar los dos tipos de error en cuanto a la seriedad de cada uno de ellos. Entonces lo que se hace es seleccionar algún valor pequeño para α digamos 0,05 ó 0,01 , el que se denomina nivel de significación.

Cuando se escoge un nivel de significación igual a α y se rechaza H0 decimos que los resultados de la muestra son significativos.

(3) Descripción de la poblacional que interesa y planteamiento de las suposiciones necesarias.

Los procedimientos para la verificación de hipótesis dependen de las características de la distribución muestral (que está implícita) las que dependen en parte de la naturaleza de la población muestreada. Por esta razón, debemos investigar la naturaleza de la población muestreada para justificar la selección del procedimiento.

Generalmente nos interesamos en conocer el tamaño aproximado de la población y en saber si se puede considerar distribuida aproximadamente normal. También deseamos establecer el hecho de que sea razonable suponer que la muestra tomada constituye una m.a.s. de la población de interés.

(4) Especificación del estadístico de prueba y consideración de su distribución

Un estadístico de prueba es una cantidad numérica que se calcula a partir de los datos de una muestra y que se utiliza para tomar la decisión de rechazar o no una hipótesis nula.

(5) Especificaciones de las regiones de rechazo y aceptación

Page 21: BIOESTADISTICA EJERCICIOS 2011

21

Región de rechazo: consta de todos aquellos valores del estadístico de prueba que son de tal magnitud que, de ser el valor observado del estadístico de prueba igual a uno de ellos, la hipótesis nula se rechaza.

Región de aceptación: es el complemento de la región de rechazo.

Los tamaños de las regiones de rechazo y de aceptación están determinados por alfa.

Por ejemplo

Con el propósito de verificar una hipótesis sobre una media poblacional, se extrae una muestra de una población normalmente distribuida con varianza conocida.

Page 22: BIOESTADISTICA EJERCICIOS 2011

22

Un valor calculado de zeta es significativo si nos lleva a rechazar una hipótesis nula.

Llamamos valores críticos de un estadístico de prueba a aquellos valores que separan una región de rechazo de una región de aceptación.

Un valor p es el valor más pequeño de α con el que se puede rechazar la hipótesis nula.

(6) Recolección de datos y cálculo de los estadísticos necesarios

Los datos que se necesitan para verificar las hipótesis formuladas y que satisfacen las suposiciones necesarias de la prueba, se deben recolectar en una forma adecuada. Una vez que se han recogido, se calcula el estadístico apropiado y el estadístico de prueba.

(7) Decisión estadística

Se compara el valor real calculado del estadístico de prueba con el valor crítico de éste.

Si el valor calculado está en la región de rechazo, entonces se rechaza H0 ; de lo contrario, no se rechaza.

(8) Conclusión

La decisión se expresa en función del estadístico de prueba, y la conclusión, en función del parámetro o la población a que se refiere la prueba.

EJEMPLO 39

En una reunión informativa, el gerente de un hotel “Concepción”, indicó que el número promedio de habitaciones arrendadas por noche es mayor que 212. Uno de los funcionarios considera que esta cifra puede estar algo sobreestimada. Una muestra de 150 noches produce una media de 222,7 habitaciones y una desviación estándar de 45,5 habitaciones. Si estos resultados sugieren que el gerente ha “inflado” su información, será amonestado severamente. ¿Cuál es el destino del gerente?

(1) Planteamiento de la hipótesisH0 : μ≤212H1 : μ>212

Page 23: BIOESTADISTICA EJERCICIOS 2011

23

(2) Selección del nivel de significaciónα=0 ,05

(3) Descripción de la poblacional que interesa y planteamiento de las suposiciones necesarias

X=número de habitaciones arrendadas por noche

X ? pero n=150≥30

(4) Especificación del estadístico de prueba y consideración de su distribución

Zc=x−μ0

σ√n N (0,1 )

(5) Especificaciones de las regiones de rechazo y aceptación

RC={ z /z>1 ,645 } RC=REGIÓN CRÍTICA O REGIÓN DRECHAZO (6) Recolección de datos y cálculo de los estadísticos necesarios

Zc=x−μ0

σ√n

=222 ,7−21245 ,5√150

=2,88

(7) Decisión estadística

Page 24: BIOESTADISTICA EJERCICIOS 2011

24

Zc=2 ,88∈RC⇒RECHAZAMOS H0

(8) Conclusión

El número promedio de habitaciones arrendadas por noche es mayor que 212 con p=0 ,002Parece que el gerente no se ha excedido al estimar su tasa de ocupación y aparentemente no recibirá una reprimenda.

EJEMPLO 40Un especialista en lectura cree que los estudiantes de clases no programadas obtienen puntajes superiores en pruebas de comprensión de lectura que los estudiantes de clases programadas. El puntaje medio obtenido en la prueba de comprensión de lectura por los estudiantes de clases programadas que entraron a cuarto año durante los 5 años anteriores fue de 4,25; un grupo de 81 estudiantes que asistió a clases no programadas durante sus 3 primeros años, obtuvo un puntaje en la prueba de comprensión de lectura de 5,30; con una desviación típica de 1,8. ¿ Proporcionan estos datos evidencia suficiente como para apoyar la hipótesis del especialista en lectura? --------------------

X= puntaje de prueba de comprensión de lectura de estudiante de clase no programada

H0 : μ≤4 ,25H1 : μ>4 ,25

α=0 ,05

X ? pero n=81≥30

Calcule valor Z

Zc=x−μo

σ√n

=5.30−4.251.8√81

=5.2 5

Page 25: BIOESTADISTICA EJERCICIOS 2011

25

RC={ z /z>1 ,645 }Zc=5 ,25∈RC⇒RECHAZAMOS H0

El puntaje promedio obtenido por los estudiantes de clases no programadas es mayor que 4,25 con p aproximadamente 0. Por lo tanto estos datos apoyan al especialista.

EJEMPLO 42Una muestra aleatoria de 225 habitantes de departamentos reveló que 18 de ellos poseían perros. ¿Proporcionan estos datos evidencia suficiente como para concluir que menos del 10% de los habitantes de departamentos poseen perros? --------------------

X= número de habitantes de departamentos que poseen perros. OP= proporción de habitantes de departamentos que poseen perros.

H0 :P≥0 ,10H1 :P<0 ,10

α=0 ,05 n=225≥30

Page 26: BIOESTADISTICA EJERCICIOS 2011

26

RC={ z /z<−1 ,645 }

Calcule Z

Zc=p−Po

√ P0Q0

n

= 0.0 8−0.10

√ 0.10 ∙0.90225

=−0.020.02

=−1

Zc=−1∉RC⇒NO RECHAZAMOS H0

Los datos de la muestra no dan suficiente evidencia como para concluir que menos del 10% de los habitantes de departamentos poseen perros.

ALGUNOS USOS DEL CHI-CUADRADO

Con alguna frecuencia deseamos verificar la hipótesis nula de que:(a) los datos observados de una muestra son el resultado del hecho de que dos

características de una población no tienen relación entre sí. Por ejemplo podemos plantear la hipótesis de que la actitud de las personas hacia un determinado grupo no tiene relación con su nivel de educación.

(b) En varias poblaciones, la proporción de sujetos que tienen una determinada característica, es la misma.

Por ejemplo podemos plantear la hipótesis de que en tres grupos, digamos de recursos económicos bajos, medios y altos, la proporción de personas con cierto conocimiento, es la misma.

El análisis se basa en conteos o frecuencias y no medidas. Se definen categorías mutuamente excluyentes y se registran frecuencias observadas con los elementos se pueden incluir en estas categorías. Luego se comparan estas frecuencias observadas con las frecuencias que se esperarían si fueran en realidad verdaderas las condiciones hipotéticas Si la diferencia entre las frecuencias observadas y las esperadas es demasiado grande para

atribuirlas a la casualidad cuandoH0 es verdadera, rechazamos H0 de que la condición particular de interés es verdadera.

Estudiaremos dos tipos de pruebas chi-cuadrado: I) χ2

de Independencia

II) χ2

de Homogeneidad

Page 27: BIOESTADISTICA EJERCICIOS 2011

27

I) PRUEBA χ2

DE INDEPENDENCIA

Un investigador puede estar interesado en saber, respecto de UNA POBLACIÓN, si dos criterios de clasificación están probablemente relacionados o no. Si concluimos que dos criterios de clasificación no están relacionados, decimos que son independientes. Dos criterios de clasificación son independientes si la distribución de un criterio no depende de la distribución del otro.

H0 :Los dos criterios de clasificación son independientes .H1 :Los dos criterios de clasificación no son independientes .

1°) Se extrae una m.a. de sujetos de la población de interés y se escoge a cada sujeto de acuerdo con cada uno de los dos criterios de clasificación. (podemos denominar las diferentes categorías en que se divide un criterio como niveles de ese criterio)

2°) Los datos de la muestra se distribuyen en una tabla denominada Tabla de Contingencia, en la cual los niveles de un criterio de clasificación forman las filas y los niveles del otro criterio, las columnas. Las celdas que se encuentran en las intersecciones de las filas y las columnas contienen conteos o frecuencias de sujetos que se han clasificado en forma cruzada con base en los dos criterios.

PRIMER CRITERIONIVELES

SEGUNDO CRITERIONIVELES

1 2 3 . . .j . . . c TOTAL

123.

i.

.F

n11 n12 n13 ...n1 j … n1 c

n21 n22 n23 …n2 j… n2 c

n31 n32 n33 …n3 j… n3 c

ni 1 ni 2 ni 3 …nij … nic

n f 1 n f 2 n f 3 …n fj… n fc

n1 .

n2 .

n3 .

ni .

n f .

TOTAL n. 1 n. 2 n. 3 …n. j… n.c

n

Page 28: BIOESTADISTICA EJERCICIOS 2011

28

3°) Se calculan las frecuencias esperadas para cada una de las celdas de la tabla de

contingencia suponiendo que H0 es verdadera, es decir que los dos criterios de clasificación son independientes.

4°) Comparamos χc

2=∑i=1

f

∑j=1

c [ (Oij−E ij )2

Eij] * para su significación, con los valores

tabulados de χ2

.Oij=frecuencia observada Eij=frecuencia esperada

Si χ c2≥ χ2 ⇒Re chazamo H0 para los grados de libertad apropiado y el nivel

escogido de significación α Para encontrar la frecuencia esperada de una celda determinada, dividimos el producto de

los totales marginales correspondientes por n

E11=

(n1 .) (n. 1)n ......

Eij=(ni . ) (n. j )

n

grados de libertad=ν=( f−1 )⋅(c−1 )

Frecuencias esperadas pequeñas A veces descubrimos que las frecuencias esperadas de algunas de las celdas de una tabla de

contingencia son muy pequeñas. Cuando esto sucede la distribución χ2

puede no proporcionar una buena aproximación de la distribución. Aunque no hay un consenso general sobre lo que constituye una frecuencia esperada pequeña algunos autores recomiendan que para tablas de contingencia con más de un grado de libertad se puede permitir una expectativa mínima de una observación por celda, si no más del 20% de las celdas tienen frecuencias esperadas menores que 5. Se pueden combinar celdas adyacentes para lograr una expectativa mínima.

Tabla de contingencia de (2×2 )Primer criterio de clasificación Segundo criterio de clasificación

1 21 a b a+b2 c d c+d

a+c b+d

grados de libertad=ν=(2−1 )⋅(2−1 )=1

χc2=

n (ad−bc )2

(a+b ) ( c+d ) (a+c ) (b+d )

II) PRUEBA χ2

DE HOMOGENEIDAD

Podemos verificar H0 de que dos proporciones poblacionales son iguales por medio de la prueba chi- cuadrado de Homogeneidad. Se pueden disponer los datos en una tabla de

Page 29: BIOESTADISTICA EJERCICIOS 2011

29

contingencia de (2×2 ) utilizando las dos poblaciones como un criterio de clasificación y la característica de interés como el otro, siendo la presencia y la ausencia del criterio los dos

niveles de clasificación. Calculamos el estadístico de prueba χc2

a partir de los datos con la

ecuación * y lo comparamos para su significación, con el valor de χ2

tabulado con un grado de libertad.Observe que la hipótesis nula de que dos proporciones poblacionales sean iguales, que

escribimos en símbolos como H0 :P1=P2 puede expresarse en palabras así:“Las dos poblaciones son homogéneas respecto de la característica de interés”Podemos establecer las hipótesis nula y alterna simbólicamente, de la siguiente manera:H0 :P1=P2

H1 :P1≠P2

Es posible ampliar la prueba chi- cuadrado de homogeneidad para verificar hipótesis acerca

de más de dos poblaciones. Es decir podemos verificar H0 :P1=P2=P3 . .. .. Pc donde c es el número de poblaciones que se están considerando. Sacamos una m.a. de cada población y observamos en cada muestra el número de sujetos con la característica de interés.

Page 30: BIOESTADISTICA EJERCICIOS 2011

30

EJEMPLO 48 Se desea saber si existe una asociación entre los factores género y color de cabello y se

considera una m.a. de 100 personas (50 hombres y 50 mujeres) y se observa en cada caso si el individuo es rubio o moreno.

GENERO COLOR DE CABELLO RUBIO CASTAÑO

MASCULINOFEMENINO

20(22) 30(28) 24(22) 26(28)

5050

44 56 100H0 :Color de cabello es independiente (o no es dependiente)del género .H1 :C olor de ca bello no es independiente del género .

O11=20 E11=(50 ) ( 44 )100

=22

O12=30 E12=(50 ) (56 )100

=28

O21=24 E21=(50 ) (44 )100

=22

O22=26 E22=(50 ) (56 )100

=28

χc2=

(20−22 )2

22+

(30−28 )2

28+

(24−22 )2

22+

(26−28 )2

28=0 ,64935

grados de libertad=ν=(2−1 )⋅(2−1 )=1RC={ χ2 / χ2>3 ,84 } con α=0 ,05

χc2∉ RC⇒no podemos rechazar H0 0,649 no es significativo al nivel 0,05

Por lo tanto no hemos demostrado que las frecuencias observadas y aquellas calculadas basadas en una hipótesis de “no hay relación”son significativamente distintas.Conclusión: Color de cabello no está asociado al género. En otras palabras los dos factores parecen ser independientes.

ANALISIS DE REGRESION LINEAL Y DE CORRELACION SIMPLE

A menudo se presentan situaciones en que es de gran interés estudiar la relación entre dos variables, por ejemplo un profesor puede estar interesado en conocer de que manera se puede predecir el rendimiento en Biología de un estudiante con base en el puntaje obtenido en una prueba de conocimiento específica en Biología. Relaciones de esta naturaleza se pueden investigar por medio del análisis de regresión o análisis de correlación.El análisis de regresión se refiere a la naturaleza de las relaciones entre las variables y el análisis de correlación tiene que ver con la fuerza o intensidad de las relaciones.

Page 31: BIOESTADISTICA EJERCICIOS 2011

31

Los conceptos de regresión y correlación fueron presentados por el científico inglés Sir Francis Galton (1822-1911) cuando hacía sus investigaciones sobre la herencia y otras áreas de la biología.Cuando las investigaciones de las relaciones está limitada solamente a dos variables, denominamos esos métodos analíticos como análisis de regresión y correlación simple. Si consideramos más de dos variables, denominamos entonces a las técnicas analíticas como análisis de regresión y correlación múltiple.

Modelo de regresión lineal simple Simbolizamos las variables por las letras X e Y.

X = variable independiente(en muchas situaciones puede ser controlada por el investigador) Por ejemplo el investigador puede seleccionar sólo ciertos valores de X para utilizarlos en el análisis.Y = variable dependienteUno de los usos del análisis de regresión es construir un instrumento llamado ecuación de predicción, que nos permite predecir que valor asume probablemente Y cuando X toma un valor determinado. Por esta razón a veces llamamos a X variable de predicción y a Y variable repuesta.El estudio de la relación entre dos variables debe iniciarse con la construcción de un gráfico, denominado diagrama de dispersión que presenta la naturaleza de la relación.Se asignan los valores de la variable independiente al eje horizontal y los valores de la variable dependiente al eje vertical. La gráfica consta de puntos colocados en las intersecciones de líneas imaginarias que se extienden verticalmente desde cada valor de X y horizontalmente desde los valores correspondientes de Y. Los diagramas de dispersión son extremadamente útiles en el estudio de la relación entre dos variables.

y i=β0+β1 x i+εi Modelo de Regresión Lineal Simpley i=valor general de la var iable de respuesta Yβ0 y β1=parámetros de la poblaciónβ0=cons tan te de regres iónβ1=coeficiente de regresiónx i=cons tan te conocida o valor i general de la var iable in dependiente Xε i=tér mino aleatorio de error i=1 , nn=número de valores

A este modelo lo llamamos modelo de regresión lineal, puesto que la variable independiente está elevada a la primera potencia.Suposiciones1.- La variable X puede ser una variable no aleatoria o una variable aleatoria.2.- La variable Y es una v.a. y para cada valor de X hay una subpoblación de Y.3.- Las medias de estas subpoblaciones están ubicadas todas en la misma línea recta.

4.- Los valores de Y correspondientes a un valor dado de X se escogen independientemente de aquellos valores de Y correspondientes a otro valor de Y.

5.- La variable X se mide sin error.

Page 32: BIOESTADISTICA EJERCICIOS 2011

32

Estas cinco suposiciones son las mínimas del modelo. Cuando se hacen son válidos ciertos análisis descriptivos de los datos.

En el análisis de regresión lineal simple se emplean métodos inferenciales válidos solamente cuando se pueden sostener las siguientes suposiciones adicionales6.- Las subpoblaciones de los valores Y están normalmente distribuidas.7.- Las subpoblaciones de los valores Y tienen todas la misma varianza.

Las suposiciones que apoyan el modelo de regresión lineal simple pueden parecer un poco irreales. Pero afortunadamente existen muchas situaciones prácticas en las que el modelo

y i=β0+β1 x i+εi y las suposiciones que lo apoyan se ajustan a los datos lo suficientemente bien como para producir resultados útiles.¿Qué tanto se ajusta el modelo a una situación real?, es una decisión que el investigador debe tomar principalmente con base en el conocimiento que tenga de los datos y de los procesos por los cuales se generan. Si el modelo que se considera no es una representación razonable de la realidad, el investigador puede tener en cuenta otros modelos.En la mayoría de las situaciones, la verdadera línea de regresión poblacional es desconocida, sin embargo, se puede obtener una estimación de la línea a partir de los datos de la muestra y llegar a decisiones sobre la utilidad siempre que se hagan las suposiciones establecidas.La línea debe representar los datos de la muestra tanto como sea posible.Un método que generalmente se emplea es el de los Mínimos Cuadrados “la suma de las distancias verticales al cuadrado de los puntos del diagrama de dispersión respecto de la línea de mínimos cuadrados es menor que cualquier otra suma similar calculada en relación con una línea diferente”. El método de mínimos cuadrados proporciona estimaciones de los parámetros poblacionales

yc=b0+b1 x Ecuación de Regresión Lineal Simple Muestralyc=valor calculadodeY por sustitución dea lg únvalor de X enla ecuaciónb0= int ercepto deY=punto en el cual la línea cruza el eje Yb1=pendiente de l a línea=cantidad enque var ía yc cuando X var íaenunaunidad

β1

¿

=b1 donde

b1=∑ (x i−x) ( y i− y )

∑ (x i−x )2=∑ x i y i−

∑ x i∑ y i

n

∑ x i2−

(∑ x i)2

n

β0

¿

=b0 donde b0=

1n (∑ y i−b1∑ x i)= y−b1 x

Uno de los principales objetivos del análisis de regresión consiste en obtener una ecuación que nos permita predecir el valor que probablemente toma Y dado un valor particular de X. La ecuación de mínimos cuadrados es una de las que se emplea con este propósito. Antes de utilizar la ecuación de regresión para la predicción desearíamos saber que tan útil podemos esperar que sea esta ecuación en el logro de estos objetivos. En otras palabras

Page 33: BIOESTADISTICA EJERCICIOS 2011

33

deseamos saber con que exactitud va a predecir la ecuación de Y para un valor particular de X.La evaluación de la ecuación de regresión muestral nos permite determinar si la medida de dispersión de los valores Y respecto de la línea de los mínimos cuadrados está suficientemente cerca de cero como para garantizar su uso al predecir el valor probable de Y correspondiente a un valor dado de X.Para determinar qué proporción de la suma total de cuadrados está explicada por la regresión de Y respecto de X, calculamos una medida conocida como

Coeficiente de Determinación = razón entre la suma de cuadrados debida a la regresión y

la suma total de cuadrados. 0≤r2≤1

r2=SCRSCT

=∑ ( yc− y )2

∑ ( y i− y )2=

b1(∑ x i y i−∑ x i∑ y i

n )∑ y i

2−(∑ y i )

2

n

=(∑ x i y i−

∑ x i∑ y i

n )2

(∑ x i2−

(∑ x i )2

n )(∑ y i2−

(∑ y i )2

n )r2=0 No hay relación lineal entre X e Y.

r2=1 X e Y están perfectamente relacionados linealmente.

Podemos interpretar a r2

como medida de la fuerza de la relación lineal entre los valores muestrales observados de X e Y. Sin embargo, nuestro interés primordial está en la verdadera relación entre X e Y que existe en la población. Por lo tanto, nos preguntamos si los datos de la muestra proporcionan evidencia suficiente para indicar la existencia de una relación lineal entre X e Y en la población.

H0 : X e Y no están relacionadas linealmenteH1 :X e Y están relacionadas linealmente

ANOVAF.deV. g.l. SC CM Fc

RegresiónError

1n-2

SCRSCE

CMRCME

CMR/CME

Total n-1 SCT

Page 34: BIOESTADISTICA EJERCICIOS 2011

34

EJEMPLO 46Un equipo de investigadores de un hospital psiquiátrico realizó un experimento para estudiar la relación que existe en pacientes esquizofrénico entre el tiempo de reacción a un estímulo particular y el nivel de la dosis de una droga. Los investigadores hicieron el experimento con dosis de 0,5; 1,0; 1,5; 2,0; 2,5 y 3,0 mg. Seleccionaron una m.a. de 18 pacientes en una población hospitalaria de esquizofrénico y asignaron al azar a cada paciente una de las dosis. Cada dosis fue administrada a un total de 3 pacientes.X = dosificación en mgY = tiempo de reacción en milisegundo.

La dosificación es una variable fija, puesto que los investigadores seleccionaron, anticipadamente su valor específico. La unidad de asociación es el paciente esquizofrénico y la muestra consiste en 18 unidades de asociación.

X 0,5 0,5 0,5 1,0 1,0 1,0 1,5 1,5 1,5 2,0 2,0 2,0 2,5 2,5 2,5 3,0 3,0 3,0Y 12 22 30 18 32 36 30 34 46 40 44 50 44 60 64 64 68 76

∑ x i=31 ,5 ∑ yi=770 ∑ x i2=68 ,25 ∑ yi

2=38508 ∑ x i y i=1595Calcule b1

b1=∑ x i y i−

∑ x i∑ y i

n

∑ x i2−

(∑ x i)2

n

=1595−

(31 .5 )(770)18

68. 25−(31. 5)2

18

=247 . 513 . 125

=18 .8571

b0= y−b1 x=42 ,7778−(18 ,8571 ) (1 ,75 )=9 ,7779 yc=b0+b1 x =9,7779+18,8571x Ecuación de Regresión Lineal Simple Muestral

Calcule el valor de R2

r2=SCRSCT

==

b1(∑ x i y i−∑ x i∑ yi

n )∑ yi

2−(∑ yi )

2

n

=18 . 8571 (1595−

(31. 5)(770 )18 )

38508−(770)2

18

=4667 . 135569 . 11

=0 . 838

El 84 % de la variabilidad total presente en nuestros datos, se explica por la regresión.

H0 :Dosificación y Tiempo de Reacción no están relacionadas linealmenteH1 :Dosificación y Tiempo de Reacción están relacionadas linealmente

F.deV. g.l. SC CM Fc

RegresiónError

116

4667,13901,98

4667,1356,37

82,79

Total 17 5569,11

Page 35: BIOESTADISTICA EJERCICIOS 2011

35

RC={F/F>10 ,58 } α=0,005 Fc=82,79∈RC⇒Re chazo H0

El tiempo de reacción y el nivel de dosificación están relacionados linealmente. Por lo tanto podremos utilizar, con seguridad, nuestra ecuación de regresión muestral para predecir el valor que Y probablemente tomará para un valor dado de X.

Modelo BivarianteCon alguna frecuencia el interés que hay en la relación entre dos variables X e Y se concentra en determinar si están o no relacionadas y en caso afirmativo en averiguar que tan fuerte es la relación.El investigador puede estar o no interesado en la predicción y en la estimación. La técnica apropiada que se emplea en esta situación es el análisis de correlación. En contraste con el análisis de regresión, el análisis de correlación requiere que X e Y sean v.a. Recordemos que en el análisis de regresión X puede ser aleatoria o fija.En la situación usual en que se emplea el análisis de correlación, el investigador toma una m.a. de unidades de asociación de la población de interés y hace dos mediciones asociaciones, una de X y una de Y, en cada unidad de asociación de la muestra. El investigador toma cualquier valor de X ( y también de Y) que esté en la muestra. No se hace ningún intento de limitar el análisis para los valores preseleccionados de X, como puede suceder con el análisis de regresión.Una población de valores X e Y en la que ambas son variables aleatorias, se denomina distribución bivariante.

Modelo de correlaciónVamos ahora a considerar un modelo de distribución bivariante. Como ciertas técnicas de correlación resultan apropiadas en el análisis de los datos de acuerdo con este modelo lo denominaremos modelo de correlación. Más específicamente lo podemos denominar modelo de correlación lineal simple puesto que participan dos variables que están relacionadas de manera lineal.No distinguimos las variables X e Y según sea una independiente y la otra dependiente. En realidad bajo el modelo de correlación podemos intercambiar las posiciones de Y y de X en

la ecuación y i=β0+β1 x i+εi Suposiciones1.- La distribución conjunta de X e Y es normal, llamada Normal Bivariante.2.- Para cada valor de X hay una subpoblación de valores de Y normalmente distribuida.3.- Las subpoblaciones de valores de Y tienen todas la misma varianza.4.- Las medias de las subpoblaciones de Y están todas colocadas en la misma línea recta.

5.- Para cada valor de Y hay una subpoblación de valores de X que está normalmente distribuida.

6.- Las subpoblaciones de valores de X tienen todas las mismas varianza.7.- Las medias de las subpoblaciones de valores X se encuentran todas en la misma línea recta

El coeficiente de correlación es el parámetro que presenta el interés primordial en la correlación. Este parámetro es una medida de la correlación o relación lineal entre dos

Page 36: BIOESTADISTICA EJERCICIOS 2011

36

variables que existe en una población bivariante. Puede asumir valores entre menos 1 y uno.Si es menos -1 la relación entre dos variable es perfectamente lineal e inversa.Si es 1 la relación es perfectamente lineal y directa.Si es 0 las dos variables no están correlacionadas.

El coeficiente de correlación entre dos variables X e Y tendrá siempre el mismo signo que la pendiente de la ecuación de regresión de Y sobre X. Con base en estos hechos, debemos suponer que mientras más cerca esté el valor numérico del coeficiente de correlación a +1 o –1, más estrecha será la relación entre X e Y. Entonces, la magnitud de ρ nos da una indicación de la fuerza que tiene la relación entre las dos variables.

Rara vez conocemos ρ . Sin embargo podemos estimar a ρ a partir de los datos de una

muestra aleatoria de la población de interés. ρ=r¿

r=∑ (x i−x )( y i− y )

√∑ (x i−x )2√∑ ( y i− y )2=

n∑ x i y i−(∑ x i) (∑ y i)

√n∑ x i2−(∑ x i)

2√n∑ yi2−(∑ y i)

2

r=

∑ xi y i

n−∑ x i

n∑ y i

n

√∑ xi2

n−(∑ x i

n )2 √∑ y i

2

n−(∑ y i

n )2=

σ XY

¿

σ X

¿

σY

¿

EJEMPLO 47 En un estudio preparado para investigar la relación que existe entre la creatividad y otras variables, un equipo de sicólogos administró a una muestra aleatoria de 20 estudiantes una prueba para medir el nivel de creatividad. Los investigadores solicitaron a cada estudiante que memorizaran un poema corto. La tabla muestra los puntajes obtenidos por los estudiantes en la prueba de creatividad y los puntajes que indican su habilidad en la memorización del poema.

X=puntaje de memorizaciónY=puntaje de creatividad

X 13 85 27 69 76 30 39 32 13 58 84 27 56 49 88 79 51 37 24 59Y 11 96 15 88 92 34 44 67 37 38 78 27 71 75 89 60 41 28 56 54

∑ x i=996 ∑ yi=1101 ∑ x i2=60972 ∑ yi

2=73681 ∑ x i y i=64498

Calcule r

Page 37: BIOESTADISTICA EJERCICIOS 2011

37

r=

6449820

−99620

.110120

√ 6097220

−( 99620 )

2 √ 7368120

−( 110120 )

2

r(3224.9 )−(49.8 ) (55.05 )

√3048.6−2480.04√3684.05−3030.5025= 483.41

609.5744=0.79

La creatividad y la capacidad de memorización están correlacionadas.

r=

∑ xi y i

n−∑ x i

n∑ y i

n

√∑ xi2

n−(∑ x i

n )2 √∑ y i

2

n−(∑ y i

n )2=