CURSO ESTADISTICA 2

115
Capítulo : DISTRIBUCIONES DE PROBABILIDAD 1.1 Definición general En lecciones anteriores se estudiaron probabilidades de eventos asociados a los resultados físicos del espacio muestral . Por ejemplo cuando se lanza una moneda 2 veces se obtiene como espacio muestral y un evento de interés es ocurrir una cara cuyos elementos son . este evento tiene como probabilidad En la práctica resulta de mayor interés el estudio de eventos tales como: A: ``número de caras que ocurren al lanzar dos monedas'' Similarmente, si dos personas empiezan a caminar desde el mismo punto al mismo tiempo a lo largo de líneas perpendiculares, entonces el espacio muestral es el conjunto de pares ordenados de números reales positivos correspondientes a sus distancias desde el punto de inicio Ahora si y representan sus velocidades en kilómetros por hora y si estamos interesados en la distancia entre los dos después de horas, entonces la variable aleatoria de interés es Así, para todo punto (resultado del espacio muestral) en se puede asignar un número real positivo que representa la distancia entre las dos personas despues de horas. En ambos ejemplos estamos interesados no en la ocurrencia de un elemento del espacio muestral sino en en algun número real asignado a . Frecuentemente el resultado es en sí mismo un número real.

description

estadistica

Transcript of CURSO ESTADISTICA 2

Page 1: CURSO ESTADISTICA 2

Capítulo : DISTRIBUCIONES DE PROBABILIDAD

1.1 Definición general

En lecciones anteriores se estudiaron probabilidades de eventos asociados a los

resultados físicos del espacio muestral . Por ejemplo cuando se lanza una moneda 2

veces se obtiene como espacio muestral

y un evento de interés es ocurrir una cara cuyos elementos son

. este evento tiene como probabilidad

En la práctica resulta de mayor interés el estudio de eventos tales como:

A: ``número de caras que ocurren al lanzar dos monedas''

Similarmente, si dos personas empiezan a caminar desde el mismo punto al mismo

tiempo a lo largo de líneas perpendiculares, entonces el espacio muestral es el conjunto

de pares ordenados de números reales positivos correspondientes a sus

distancias desde el punto de inicio

Ahora si y representan sus velocidades en kilómetros por hora y si estamos

interesados en la distancia entre los dos después de horas, entonces la variable

aleatoria de interés es

Así, para todo punto (resultado del espacio muestral) en se puede asignar un

número real positivo que representa la distancia entre las dos personas

despues de horas.

En ambos ejemplos estamos interesados no en la ocurrencia de un elemento del

espacio muestral sino en en algun número real asignado a .

Frecuentemente el resultado es en sí mismo un número real.

Page 2: CURSO ESTADISTICA 2

1.1.1Definición

Sea un espacio muestral con una clase de eventos . cualquier regla que asigna a cada

elemento un número real es llamada variable aleatoria.

El concepto de variable aleatoria (v.a.) proporciona un medio para relacionar cualquier

resultado de un experimento aleatorio con una medida cuantitativa, lo cual significa que

a cada elemento de un espacio muestral se le asigna un valor sobre la recta de los reales.

Nota 1.

Suponiendo que es una variable aleatoria sobre Entonces la función (o variable

aleatoria) toma valores sobre la recta real, y así se induce otro espacio muestral

que puede ser tomado como . En este caso es un caso

de espacio muestral no contable

¿ Cúales son los eventos en el espacio muestral ?.

Todos los subconjuntos de un solo punto y todos los intervalos (cerrados, abiertos, o

semicerrados) son eventos. También uniones, diferencias e intersecciones de intervalos.

¿ Cúal es la álgebra asociada al espacio muestral ?

La álgebra asociada al espacio muestral es la llamada álgebra de Borel

conformada por todos los subconjuntos . Esta álgebra es generada por la

colección de todos los intervalos semicerrados de la forma y es denotada por

Los conjuntos de son llamados conjuntos de Borel.

Nota 2.

Las variables aleatorias será denotadas con letras mayúsculas , ,U,V,W, etc. El

valor asignado por será denotado por . Esto es, se escribira por .

Ejemplo 1

Número de hijos en una familia, número de cuartos en una casa, el ingreso de una

familia, el tiempo de duración de una pieza de un equipo, el número de errores en un

página de un libro, la corriente eléctrica que pasa por un punto dado.

Ejemplo 2

Page 3: CURSO ESTADISTICA 2

Un dado es lanzado una vez. En este caso el espacio muestral es . Se

oberva que la ejecución es un número real. Se define la variable aleatoria como:

la cual asigna a cada elemento del espacio muestral un número real como se

muestra de manera explicita a continuación:

2

3

4

5

6

Luegos se dice que la variable aleatoria toma valores

Ahora otra variable aleatoria para este experimento se definiría como:

entonces toma los valores

Ejemplo 3

Un dado es lanzado dos veces, entonces .

Algunas variables aleatorias que se podrían definir son:

Page 4: CURSO ESTADISTICA 2

El rango o los valores que toman las anteriores variables son respectivamente:

OTRA DEFINICION DE VARFIABLE ALEATORIA

Sea un espacio muestral y la álgebra asociada Una función de valor real que

proyecta en es llamada variable aleatoria si la imagen inversa bajo de todo

conjunto de Borel en son eventos, esto es,

Determinar si una función es una variable aleatoria por la definición no es

fácil ya que se tendria que probar que la imagen inversa bajo de todo conjunto de

Borel en . Por ello se recomienda aplicar el siguiente teorema

Teorema

es una variable aleatoria si y solo si para cada

Ejemplo 1

Sea el experimento: lanzar una moneda, entonces el espacio muestral es y

sea álgebra de todos los subconjuntos de dada por

. Defina la variable aleatoria como

Page 5: CURSO ESTADISTICA 2

Entonces

luego para la imágen inversa es siempre un conjunto de la

álgebra .

Ejemplo 2

Sea el experimento: lanzar dos monedas, entonces el espacio muestral es

y sea álgebra de todos los subconjuntos de . Defina

la variable aleatoria como

número de caras en

Entonces

luego para la imágen inversa es siempre un conjunto de la

álgebra .

Ejercicios

1. Sea el número de caras al lanzar tres monedas.

a. Determine el espacio muestral

b. Escriba los valores que asigna a los elementos de .

Page 6: CURSO ESTADISTICA 2

c. Escriba los elementos del evento

d. Escriba los elementos del evento

2. Un dado es lanzado dos veces. Sea la suma de los valores de las caras , y el valor

absoluto de la diferencia en las caras.

a. Determine el espacio muestral

b. Escriba los valores que asigna a los elementos de .

c. Escriba los valores que asigna a los elementos de .

d. Chequear si es una variable aleatoria

e. Chequear si es una variable aleatoria

f. Otra definición de variable aleatoria

1.2 Caso Discreto

Definición

Una variable aleatoria (v.a.) es discreta si los valores que asigna forman un conjunto

contable (finito o infinito).

Ejemplo

Sea el número de caras al lanzar dos monedas. Los valores que asigna son ,

el cual es un conjunto contable (finito).

Función de Probabilidad

Sea una variable discreta. La colección de números que satisface las

propiedades:

.

Se llamará una función de probabilidad o función de masa de probabilidad de la variable

aleatoria discreta .

Ejemplo de 2 dados

Se realiza el siguiente experimento: se lanzan dos dados, uno rojo y otro azul.

El espacio muestral para este experimento es:

Page 7: CURSO ESTADISTICA 2

En una función de probabilidad sobre una sigma álgebra asociada al espacio muestral

es dada por:

:

donde es definida como

Explicación: Esta es una de las maneras de definir una función de probabilidad sobre la

sigma álgebra. En este caso debido a que el espacio muestral es finito, se define la

función de probabilidad para cada elemento de como:

Sea la variable aleatoria que representa la suma de los números obtenidos en las caras,

entonces la variable aleatoria asigna números reales a cada uno de los elementos de

espacio muestral como se muestra Aquí

De esta manera se dice que la variable aleatoria toma los valores

La función de probabilidad para la variable se determina como se muestra a

continuación:

Page 8: CURSO ESTADISTICA 2

El valor se obtiene de la función de probabilidad definida sobre la sigma álgebra

que fué denotado anteriormente como .

Explicación: Observe que la letra representa l aprobabilidad de un evento para la

variable aleatoria y la letra representa la probabilidad para un elemento del espacio

muestral.

Análogamente la probabilidad para los otros valores de la variable se presenta en la

siguiente tabla:

Probabilidad

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

Para poder observar mejor el comportamiento de la distribución de la probabilidad de la

variable observe la figura que se presenta a continuación.

Page 9: CURSO ESTADISTICA 2

En la gráfica se observa que la distribución de probabilidad es simétrica esto implica

que las medidas de tendencia: Media Aritmética, Mediana y La moda , son iguales. La

manera de calcular estas medidas se estudia en la lección Valor esperado. Observe que

lo más probable que puede ocurrir al lanzar dos es que la suma de las caras sea 7.

Función de Probabilidad Acumulada

La función distribución acumulada de la variable aleatoria discreta , cuya

distribución de probabilidad es , es la probabilidad de que la variable sea menor

o igual al valor Esto es,

Ejemplo

Para el ejemplo tratado anteriormente, La función distribución acumulada de la

variable aleatoria discreta es determinada así:

1. Divida el rango de la variable en subintervalos: y . Esta

división es realizada de acuerdo a la partición de la recta real dada en la función de

probabilidad.

Page 10: CURSO ESTADISTICA 2

2. Calcule la función de probabilidad acumulada para un un valor que se encuentre en

el intervalo como la suma de las probabilidades de los valores de la variable menores a

.

ya que según la definición de la función de probabilidad cuando

como es en este caso.

Luego La función distribución acumulada de la variable aleatoria discreta es

dada por

Mas ejemplos

EJEMPLOS 1

Se extraen dos pelotas de una urna que contiene 4 pelotas rojas R y 3 blancas (B).

Determine una función de probabilidad para la variable aleatoria que cuenta el

número de pelotas rojas para los casos siguientes:

a. Cuando una pelota se extrae y se devuelve a la urna. (con reemplazamiento)

b. Cuando una pelota se extrae y no se devuelve a la urna. (sin reemplazamiento)

Page 11: CURSO ESTADISTICA 2

Solución.

Los elementos del espacio muestral en este experimento son:

a.La función de probabilidad asociada con ese espacio muestral es:

La asignación de las probabilidades es así:

Para el caso de , al extraer la primera pelota, la probabilidad de que sea roja es

y como la pelota se regresa de nuevo a la urna, la probabilidad de que la segunda

pelota salga blanca es ya que hay 3 pelotas blancas entre las 7 de la urna. Un

razonamiento análogo permite determinar los otros valores de probabilidad.

La variable aleatoria es dada por:

1

2

0

Así, los valores que toma la variable son:

y la distribución de probabilidad, para este caso en el que se hace con reemplazamiento

Los resultados posibles y los valores de la variable aleatoria Y, donde Y es el número

de pelotas rojas, son:

Page 12: CURSO ESTADISTICA 2

El evento para la variable aleatoria se obtiene cuando ocurre la intersección de

los dos eventos Sacar una pelota blanca en la primera extracción y Sacar

una pelota blanca en la segunda extracción. Estos eventos están dados explicitamente

por:

B,R B,B y R,B B,B

la intersección es dada por:

B,R B,B R,B B,B B,B

luego el eveto mpara la variable aleatoria es equivalente al evento B,B ,

así:

donde las probabilidades y son obtenidas con la función de probabilidad

definida sobre la sigma álgebra como se mostró anteriormente. Asi:

y por ser una función de probabilidad, se cumple que

luego Un razonamiento análogo nos permite llegar a que

Por tanto

Page 13: CURSO ESTADISTICA 2

Una manera más sencilla de obtener el resultado anterior es conociendo que en este caso

la variable aleatoria se distribuye binomial , en donde , , y

y así:

haciendo un razonamiento similar al de , se obtiene que

y

0

1

2

El gráfico de esta función de probabilidad aparece en la figura.

b. Para el caso sin reemplazamiento, defina a como:

Page 14: CURSO ESTADISTICA 2

y proceda de una manera similar a la anterior, pero utilizando las probabilidades

anteriores para obtener los valores de la variable aleatoria, con lo cual llegaría a que

0

1

2

2. El espacio muestral de un experimento aleatorio es , y

cada resultado es igualmente probable. Se define una variable aleatoria de la siguiente

manera

1. Determine la función de probabilidad de x, hacer gráfico.

Page 15: CURSO ESTADISTICA 2

2. Determinar las siguientes probabilidades

3 El espacio muestral de un experimento aleatorio es , y cada resultado

es igualmente probable. Se define una variable aleatoria de la siguiente manera

a

0

b

c

1.5

d

e

2

Page 16: CURSO ESTADISTICA 2

f

3

La función de probabilidad acumulada para la variable aleatoria es

Ejercicio 1

Verifique que la siguiente función es función de probabilidad y calcule las

probabilidades pedidas.

x -2 -1 0 1 2

f(x)

1. P( X/2)

2. P( X>-2)

3. P( -1/X/1)

4. P( X/-1/text o X=2)

Ejercicio 2

Page 17: CURSO ESTADISTICA 2

Un grupo de partes moldeadas se clasifica de acuerdo con su longitud, de la siguiente

manera.

1. Si la variable aleatoria es la longitud (redondeada a la décima de milímetro

más cercana) de una parte moldeada seleccionada al azar, determine la función

de probabilidad de .

2. ¿Cuál es el valor de

3. ¿Cuál es el valor de

Ejercicio 3

Un ingeniero de control de calidad muestrea cinco piezas de un lote grande de

percutores fabricados y determina si tiene defectos. Aunque el inspector no lo sabe, tres

de los cinco percutores muestreados tiene defectos. El ingeniero prueba los cinco

percutores en un orden escogido al azar hasta que observa un percutor defectuoso (en

cuyo caso se rechazará todo el lote). Sea Y el número de percutores que debe probar el

ingeniero de control de calidad. Calcule y grafique la distribución de probabilidad de Y.

1.3 Caso Continuo

Una variable es llamada continua si toma todos sus valores sobre un intervalo de la

recta real. Esto es, el conjunto es un intervalo sobre . Como

ejemplo este caso se pueden considerar variables tiempo, edad y estatura.

Función de Densidad

Sea una variable aleatoria definida sobre La función de densidad

es dada por alguna función integrable sobre tal que

para todo evento

Teorema

Sea una variable aleatoria definida sobre . Toda función que es

integrable sobre y satisface:

Page 18: CURSO ESTADISTICA 2

es la función de densidad de alguna variable aleatoria continua .

Este teorema nos sirve para determinar cuando una función integrable sobre es una

función de densidad de alguna variable aleatoria continua .

Ejemplo

Sea una función sobre dada por

Esta es una función integrable que satisface que para todo como se

puede observar en la figura 1.

Figura 1. Gráfico de función de probabilidad

Además

Sea el evento A= entonces la probabilidad de A puede ser calculada como

Función de Densidad Acumulada

Page 19: CURSO ESTADISTICA 2

La función de probabilidad acumulada o función de distribución de una variable

aleatoria sobre , denotada por , es definida por la relación

Ejemplo

para el ejemplo tratado anteriormente la función de distribución es determinada como

sigue:

1. Divida el rango de la variable en subintervalos: , y

. esta división es realizada de acuerdo a la partición de la recta real dada en la

función de probabilidad. cambie la notación de por para evitar confuciones.

2. Calcule la función de probabilidad acumulada para un un valor que se encuentre en

el intervalo como la suma de las probabilidades de los valores de la variable menores a

.

ya que según la definición de la función de probabilidad cuando

Page 20: CURSO ESTADISTICA 2

Luego la función distribución acumulada de la variable aleatoria continua es

dada por

Page 21: CURSO ESTADISTICA 2

y el gráfico es dado

Figura 2. Gráfico de función de probabilidad acumulada

Sea el evento A= entonces la probabilidad de A puede ser calculada como

Teorema

Sea una función de distribución. Entonces

para todo

así F es no decreciente

lím para todo F es continua a la

derecha

lím y lím

Ejemplo

Sea una variable aleatoria con función de distribución acumulada dada por (Figura 3)

Page 22: CURSO ESTADISTICA 2

Construir la Figura 3. Gráfico de función de probabilidad

Diferenciando con respecto a se tiene

La función no es continua en , o en

Mas ejemplos

Ejemplo 1

El error en la temperatura de reacción, en grados centígrados, para un cierto

experimento controlado de laboratorio es una variable aleatoria continua , que tiene la

función de densidad de probabilidad:

Construir grafico y probar que es función de probabilidad.

Page 23: CURSO ESTADISTICA 2

Ejercicio 1

El número total de horas, medidas en unidades de 100 horas, que una familia utiliza una

aspiradora en un periodo de un año es una variable aleatoria continua que tiene la

función de densidad

Encuentre la probabilidad de que en un periodo de un año, una familia utilice su

aspiradora

a. menos de 120 horas

b. entre 50 y 100 horas

Ejercicio 2

Sea c una constante y consideremos la función de densidad

a. Calcule el valor de .

b. Obtenga la función de distribución acumulativa

c. Calcule

d. Calcule

Ejercicio

1.4 Valor Esperado

Los promedios son parte de nuestro diario vivir. Nosotros escuchamos el promedio de

lluvia en una ciudad en un año, el promedio de temperatura en Agosto, el promedio de

edad de los trabajadores de una empresa, entre otros. El objetivo de esta seccióon es

mostrar algunas características numéricas de una distribución poblacional. El más

comun promedio utilizado en estadística es la media o valor esperado o esperanza

matemática.

Sea una variable aleaoria definida sobre y sea una función real definida sobre .

defina por

Page 24: CURSO ESTADISTICA 2

1.4.1 Caso discreto

Suponga que es una variable aleatoria es discreta. Si

, entonces se define la media de o el valor esperado

de por

1.4.2 Caso continuo

Suponga que es una variable aleatoria continua y la función de densidad de . Si

, entonces se define la media de o el valor esperado de

por

Mas ejemplos

Ejemplo 1

Un jugador tiene tres oportunidades de lanzar una moneda normal y obtener cara, si cae

cara la 1ra vez el jugador gana $2, si cae cara la 2da vez gana $4 y si cae cara en la 3ra

vez gana $8, el juego termina en el momento en que cae una cara o después de tres

intentos. Si no cae cara en los tres lanzamientos pierde $20.

¿Cuál es la esperanza de ganancia o perdida en el juego?

La probabilidad de que en la 1ra ocasión salga cara es

La probabilidad de que en la 2ra ocasión salga cara es

La probabilidad de que en la 3ra ocasión salga cara es

La probabilidad de que no salga ninguna cara en los tres lanzamientos es

Page 25: CURSO ESTADISTICA 2

Así, el jugador esperará ganar luego de muchos juegos $0.5. Cabe notar que 50 centavos

no es ninguno de los posibles valores de la variable aleatoria, así, es completamente

posible que una variable aleatoria nunca tome el valor de su esperanza.

Ejemplo 2

Suponga que el número de autos que pasa por un lavado de autos entre 4:00 p.m. y

5:00 pm en cualquier viernes soleado tiene la siguiente distribución de probabilidad:

Sea la cantidad de dinero en dólares, que el administrador paga al

dependiente. Encuentre las ganancias esperadas del dependiente en este periodo

particular.

Solución:

Ejemplo 3

Sea la variable aleatoria continua el diámetro de un agujero taladrado en una placa de

metal. El diámetro requerido es 12.5 milímetros, pero muchas perturbaciones aleatorias

en el proceso dan como resultado diámetros más grandes. La recopilación de datos

indica que la distribución de puede modelarse con la función de densidad de

probabilidad ¿Cuál es el valor esperado de la

?, ¿Cuál es su varianza?

Page 26: CURSO ESTADISTICA 2

Ejercicios

Ejercicio 1

En un estudio de exploración petrolera Kinchen (1986) cita un ejemplo en el que un

presupuesto de exploración de 50.000 dólares se asigna a un solo prospecto. El

resultado puede ser un pozo seco, 50.000 barriles (bbl), 100.000 bbl, 500.000 bbl o

1.000.000 bbl, con las probabilidades y resultados monetarios que se muestran en la

tabla. Sea el valor monetario de un solo prospecto petrolero. Calcule y .

1. Calcule la media y la desviación estándar de la longitud del cable.

2. Si las especificaciones para la longitud son milímetros,¿Qué

valor de la media da la mayor proporción de cables que cumplen con las

especificaciones?

Ejercicio 3

Demostrar las características de las medias y las varianzas (del 1 al 5).

EJERCICIOS PROPUESTOS

1. (Ejercicio 3.22 Montgomery) Una persona pide prestado un llavero con cinco llaves,

y no sabe cuál es la que abre un candado. Por tanto, intenta con cada llave hasta que

consigue abrirlo. Sea la variable aleatoria el número de intentos necesarios para abrir

el candado. Determine la función de probabilidad de .

¿Cuál es el valor de

¿Cuál es el valor de

¿Cuál es el valor de

Page 27: CURSO ESTADISTICA 2

2. (Ejercicio 3.26 Montgomery). Determine la función de distribución acumulada para

la variable aleatoria del ejercicio 1; asimismo, calcule las probabilidades siguientes:

3. (Ejercicio 3.36 Montgomery). Si el rango de es el conjunto y

, determine la media y la varianza de la variable aleatoria.

(Ejercicio 5.13 Mendenhall) Investigadores de la University of Rochester estudiaron la

fricción que ocurre en el proceso de alimentación de papel de una fotocopiadora

(Journal of Engineering for Industry, mayo de 1993). El coeficiente de fricción es una

proporción que mide el grado de fricción entre dos hojas de papel adyacente en la pila

de alimentación. En un experimento se utilizó una distribución triangular para modelar

el coeficiente de fricción. La función de densidad para la distribución de fricción

triangular está dada por:

f(y)=

Demuestre que

Calcule la media de la distribución de fricción triangular.

Calcule la varianza de la distribución de fricción triangular.

1.5 Distribuciones de variables aleatorias discretas

1.5.1 Distribución Uniforme

Notación:

X UD( )

Definición

Es la más simple de todas las distribuciones modelo y en ella la variable aleatoria asume cada

uno de los valores con una probabilidad idéntica.

Page 28: CURSO ESTADISTICA 2

" Sea la variable aleatoria X que puede asumir valores con idéntica

probabilidad. Entonces la distribución uniforme discreta viene dada por:

O sea que el parámetro clave en esta distribución es =número de valores que asume la

variable aleatoria X y que sería un parámetro de contéo.

Así por ejemplo cuando se lanza un dado correcto, cada una de las seis caras posibles

conforman el espacio muestral: La v.a X: número de

puntos en la cara superior del dado tiene una distribución de probabilidad Uniforme

discreta, puesto que:

= para

en otro caso.

La representación gráfica de esta distribución de probabilidad puede hacerse con un

histograma para v.a. discreta, es en este caso la altura de

Planteemos sus características principales de tendencia central y dispersión.

El valor esperado y varianza de una distribución discreta uniforme se obtienen así:

Valor esperado ( )

Page 29: CURSO ESTADISTICA 2

Varianza (

Para el caso del lanzamiento del dado: el valor esperado y la varianza del número de

puntos en la cara superior son:

Ejercicio

(Walpole, pág 122) Selección de un empleado entre equipo de 10 con el fin de

supervisar un proyecto especifico. Esa selección se hace al azar utilizando papeleta con

números.

a- Cuál es la probabilidad de que el número de la papeleta seleccionado sea menor de 4?

(

b- Cuál es la media y la varianza de la distribución de probabilidad del número de la

papeleta.? y

1.5.2 Distribución Multinomial

Notación:

Definición

Es una distribución de probabilidad conjunta para múltiples variables aleatorias (

discretas donde cada , dándose cuando en cada prueba

ó ensayo independiente (con reposición) del E.A. interesa contar el número de exitos en

cada una de la k maneras como se puede dar un atributo.

Ejemplo

El atributo calidad de un producto se puede dar como: Excelente, bueno, regular y malo.

icas:

Page 30: CURSO ESTADISTICA 2

1. Son pruebas ó ensayos repetidos e idénticos (con reposición).

2. En cada prueba ó ensayo se pueden producir resultados.

3. Las probabilidadeds de cada uno de los resultados permanecen

constantes en todas las pruebas ó ensayos.

4. Son pruebas ó ensayos independientes.

5. El interes se centra en contar los éxitos que se producen en los

ensayos de cada una de las categorias posibles de observar cada vez.

Si una prueba ó intento puede dar cualquiera de los resultados posibles

con probabilidades , entonces la distribución multinomial dara la

probabilidad de que:

En pruebas independientes.

y donde: y

Como son pruebas independientes, cualquier orden específico que produzca

ocurrirá con de probabilidad.

El número de ordenes ó arreglos que pueden producir resultados similares será:

Combinando los dos componentes, se tiene entonces que:

Page 31: CURSO ESTADISTICA 2

Con y

Ejemplo

Se sabe que las bombas de gasolina para autos existentes en el mercado se pueden

clasificar en:

de rendimiento excelente .

de rendimiento bueno .

de rendimiento regular .

de rendimiento malo .

Se selecciona una muestra de bombas mediante proceso aleatorio. Cúal sera la

probabilidad de que quede conformada por: y ?

Ejercicio

(Walpole, pag 123)

Un estudiante que va a la universidad en carro encuentra un semáforo, el cual

permanece en verde durante 35 segundos, en amarillo 5 segundos y en rojo 60

segundos. Su viaje a la universidad es entre 8:00 y 8:30 AM en la semana de 6 dias

hábiles. Sea el número de veces que encuentra el semaforo en verde, en luz

amarilla y en luz roja. Hallar la distribución conjunta de y .

1.5.3 Variable Aleatoria Bernoull

Experimento Bernoulli

Page 32: CURSO ESTADISTICA 2

Las características de un experimento aleatorio Bernoulli son:

1.El experimento tiene solamente dos posibles resultados mutuamente excluyente

denominados éxito (E) y fracaso (F). de esta manera el espacio muestral es dado por

2.La probabilidad de éxito y fracaso son constantes y se denotan por y

respectivamente

Variable aleatoria Bernoulli y su función de probabilidad

Una variable aleatoria Bernoulli se define como el resultado numérico de una prueba

Bernoulli

o de manera formal como una función

éxito

y así el rango de la variable aleatoria es , el cual es denotado como

.

Una variable aleatoria de Bernoulli, por sí sola, tiene poco interés en las aplicaciones de

ingeniería. En cambio la realización de una serie de experimentos bernhoulli conduce a

varias distribuciones de probabilidad discretas muy útiles.

La función de probabilidad de una variable bernoulli es dada por

donde

es la probabilidad de éxito en una sola prueba.

es el número de éxitos en la prueba.

El parámetro es

Page 33: CURSO ESTADISTICA 2

Media y Varianza

La media y varianza de una variable aleatoria bernoulli son respectivamente

Ejemplo

El experimento de seleccionar un producto y observar si tiene defectos o no.

Aqui se puede definir ser defectuoso como el éxito y no ser defectuoso como el fracaso.

Media y Varianza de la distribución bernoulli

La media y varianza de una variable aleatoria bernoulli son respectivamente

1.5.4 Distribución Binomial

Notación:

Definición

Es una de las distribuciones de probabilidad más útiles ( control de calidad, producción,

investigación). Tiene que ver con el experimento aleatorio que produce en cada ensayo

o prueba uno de dos resultados posibles mutuamente excluyentes: ocurrencia de un

criterio o característica específico (llamado éxito) y no ocurrencia de éste (llamado

fracaso). Los términos o calificativos de "éxito y fracaso" son solo etiquétas y su

interpretación puede no corresponder con el resultado positivo o negativo de un

experimento en la realidad.

Ejemplo

Éxito podría ser hallar en un ensayo específico que la unidad es defectuosa al examinarla. Cada

experimento aleatorio consiste en una serie de ensayos o pruebas repetidas realizadas en

idénticas condiciones ( veces), o sea que cada uno de ellos es independiente de los demás.

Sea la probabilidad de éxito cada vez que el experimento se realiza y la

probabilidad de fracaso. Sea X la variable aleatoria que representa el número de éxitos

en los ensayos o pruebas. El interés se centra en conocer la probabilidad de obtener

exactamente éxitos en esos ensayos.

Page 34: CURSO ESTADISTICA 2

Criterios o propiedades para definir la Distribución Binomial

Resumiendo, podemos definir estos criterios:

1- El experimento aleatorio consiste en ensayos o pruebas repetidas, e idénticas y

fijadas antes del experimento (pruebas de Bernoulli). Son pruebas con reemplazamiento

o con reposición.

2- Cada uno de los ensayos o pruebas arroja solo uno de dos resultados posibles

resultados: éxito ó fracaso.

3- La probabilidad del llamado éxito ( , pemanece costante para cada

ensayo o prueba.

4- Cada prueba o ensayo se repite en idénticas condiciones y es independiente de las

demás.

Cuando estas propiedades se cumplen en el experimento aleatorio se dice que el

constituye un proceso de Bernoulli y cada uno de los ensayos que lo conforman se llama

experimento de Bernoulli.

5. El interés recae en hallar la probabilidad de obtener número de éxitos al realizar

ensayos del mismo E.A.

La función de probabilidad de X en esas condiciones será:

Para entero y

Planteamiento Básico

Supongamos un proceso productivo en serie de una misma unidad metalmecánica y en

él que: Probabilidad de una unidad defectuosa : y probabilidad de unidad no

defectuosa: .

Supongamos que el interés está en evaluar el proceso mediante una muestra aleatoria de

4 unidades y por tanto se define la v.a X como el número de unidades defectuosas en la

muestra. Para garantizar que los ensayos resulten independientes hacemos la selección

con reemplazamiento o sustitución.

Page 35: CURSO ESTADISTICA 2

Supongamos que centramos nuestro interes en unidad defectuosa en las cuatro

pruebas o ensayos. Sea B=bueno y D= defectuoso. Por lo tanto el esta conformado

por 16 resultados posibles

.....

Se puede entonces notar que los eventos favorables a constiuyen el subconjunto

. Como no importa el orden de aparición de

la unidad defectuosa sino que aparezca exactamente una unidad con esa característica

tenemos:

o sea:

para cada posible resultado de una unidad defectuosa

Como son cuatro resultados los que satisfacen el interés específico de una unidad

defectuosa entonces

Si generalizamos: donde: son las distintas maneras

como éxitos se producen dentro de los ensayos; es la probabilidad de

éxitos en cada una de las maneras distintas de producirse los éxitos .

Para el caso del ejemplo:

Consideremos el caso ya no de defectuoso; sino todos los valores que puede

asumir X en las cuatro pruebas.

Page 36: CURSO ESTADISTICA 2

Como son 4 ensayos y consideramos todos los posibles valores de

entonces la

Los valores de se pueden calcular por medios electrónicos ó utilizando las tablas de

la distribución binomial que proporcionan la solución de estas operaciones, a veces

largas o laboriosas.

Con los resultados de esos cálculos podemos construir la tabla de distribución de

probabilidades, hacer su gráfica y definir sus principales características.

Tomemos como ejemplo la distribución binomial de parámetros y

Características de la distribución binomial.

Tendencia central: = aplicando la definición

de valor esperado se obtiene que para esta distribución :

Dispersión ó variación: : =

lo que conduce a que una v.a. binomial X tiene como varianza

Por lo tanto su desviación estandar: .

Asimetria ó deformacíon (Forma): con base en la razón entre los momentos centrales

de orden dos y tres como quedo definido antes:

sobre la base de que si:

Page 37: CURSO ESTADISTICA 2

Generalmente la distribución binomial es sesgada ó asimetrica hacia la derecha, sesgo

que se va perdiendo cuanto más grande sea el valor de (# de pruebas) y en la medida

en que se acerque a (por lo tanto tienda a ), limite en el cual se torna

simétrica

Para el caso considerado y utilizando tanto la metodología tradicional de la definición

de conceptos como usando las fórmulas simplificadas, tenemos:

Total

0

; tambien

;

Su función de distribución acumulada sera:

Ejemplo

Una empresa adoptó un proceso de control ded calidad consistente en diariamente

seleccionar al azar 20 unidadeds del total producido y conocer el número de unidades

defectuosas. El plan establece que si al examinar diariamente las veinte unidades, tres ó mas

salen defectuosas, algo esta pasando y se ordena detener el proceso productivo para buscar la

falla. Cúal es la probabilidad de que se ordene parar el proceso productivo si se sabe por

experiencia que la probabilidad de una unidad defectuosa es 10%?

Se pide:

La solución más corta para este planteamiento sería entonces:

Page 38: CURSO ESTADISTICA 2

o sea

que sera la probabilidad de que cualquier dia se ordene parar el proceso de producción

según el planteamiento de control del mismo.

Si consideramos las características, tenemos:

Valor esperado unidades defectuosas.

Varianza

Valores que como es lógico tambien pueden ser hallados por el método tradicional.

Si se hace la grafica para determinar la forma (aunque se deduce que como

será sesgada a la derecha). Veremos sin embargo que dado , no es tan sesgada

como en el caso del otro ejemplo tratado aqui.

Si se hace crecer , por ejemplo, hasta , todavía se torna más simétrica,

tendiendo hacia una normal a pesar de que no sea tan cercano a pero si alejado de

cero ( ) ó de uno ( ). En la práctica, si irá tornandose simétrica para valores

de ( )

Se puede obtener la función de distribución acumulada y obtener asi los cuantiles ó

fractiles de la distribución.

La siguiente figura muestra tres funciones de distribución binomial con y

valores de y

La A con es ligeramente sesgada a la derecha ó con sesgo positivo. La B con

es simetrica y la C con tendra sesgo negativo, interpretaciones

que resultan consecuentes con el indice de sesgo ya planteado.

Ejercicios

Page 39: CURSO ESTADISTICA 2

1. Una empresa fabricante de neumáticos para tractomulas realiza pruebas de

ponchaduras en un terreno difícil. Se encuentra que el de los neumáticos probados

presentaron pinchazo en el recorrido total. Se prueban 15 neumáticos más tomados al

azar: Halle la probabilidad de las siguientes cantidades de neumáticos con pinchaduras :

Entre 3 a 6 .

Mas de 5 .

1.5.5 Distribución Hipergeométrica

Notación:

Definición

Muchas veces en la práctica es difícil realizar pruebas con reposición ó

reemplazamiento. Por ejemplo, si en el control de calidad se pierde el elemento que se

prueba, pues no se puede hacer reposición directamente. Se plantéa entonces la prueba

sin reposición, donde los elementos de la muestra se toman todos a la vez y no

individualmente ó donde el elemento seleccionado no se reintegra al experimento ó a la

muestra nuevamente.

La diferencia mas simple con la binomial es la forma de aplicar el muestreo. En efecto,

en:

: Muestreo con reemplazamiento e independencia de pruebas ó ensayos.

: Muestreo sin reemplazamiento y sin independeencia entre pruebas

ó ensayos.

Sus aplicaciones estan en areas con uso considerable de muestreo de aceptación,

pruebas electronicas y de aseguramiento de la calidad, fabricación de piezas, etc.

Definición

En la distribución Hipergeométrica cantidad de resultados éxitos en una muestra

aleatoria (sin reposición) de tamaño , tomada de una población de tamaño y de la

cual satisface una caracteristica ó propiedad (éxito) antes del muestreo y no la

satisface (fracaso).

Criterios ó propiedades que la caracterizan.

1. La población del conjunto de unidades ó elementos es de orden fínito, de los

cuales una parte: "son éxitos", y otra parte: son "fracasos".

Page 40: CURSO ESTADISTICA 2

2. Cada elemento puede ser caracterizado como éxito ó fracaso.

3. Se obtiene una muestra aleatoria de elementos todos a la vez (sin

reemplazamiento) y no de forma independiente. No son pruebas repetidas.

4. El tamaño de la muestra aleatoria es grande relativamente en comparación con

el tamaño de la población. Generalmente:

5. Se busca la probabilidad de número de éxitos a partir de los resultados ó

elementos y fracasos a partir de los elementos asi clasificados, al

obtener una muestra aleatoria de tamaño

Supongamos un lote de productos de los cuales:

Obtenemos muestra de productos, todos a la vez. Interesa entonces la probabilidad de

sacar productos defectuosos (Exito), o sea:

Planteado así el (E.A.) Podemos hacer el siguiente raciocinio:

De una población de elementos se pueden extraer muestras de tamño de formas

diferentes (distintas muestras de tamaño ). Al extraer muestras de tamaño productos,

el número de formas de obtener productos defectuosos de de ellos será: y

entonces sera el número de formas de obtener productos no defectuosos

entre de ellos.

Como es el mismo evento compuesto, entonces el número de formas de seleccionar

productos defectuosos esta ligado con el número de formas de obtener

productos no defectuosos. Luego el total de formas posibles sera:

Combinando los casos

Los parámetros de la distribución Hipergeométrica son entonces:

Tamaño de población.

Número de elementos de con una caracteristica ó propiedad específica (éxitos).

Page 41: CURSO ESTADISTICA 2

Tamaño de muestra aleatoria extraida.

Nota: Algunos tratadistas simbolizan esta distribución con:

Características de la Distribución Hipergeométrica.

En la practica, si , no se aplica el pues su valor tendera a cero

La función de distribución acumulativa quedará definida entonces por:

Pueden ser calculos tediosos ó laborosos cuando es grande. Por ello hay quienes

aplican la forma simplificada ó de recurrencia:

Ejemplo

En una empresa industrial diariamente se producen 90 unidades de unidad

metalmecánica, de las cuales generalmente 5 salen defectuosas. Se examina en un dia

cualquiera una muestra de 5 unidades. Hallar la probabilidad de unidades defectuosas.

para

que resolviendo permite definir la tabla de distribución de probabilidad:

Si representamos gráficamente la tabla resultante, tenemos:

Page 42: CURSO ESTADISTICA 2

Calculamos el valor de sus principales medidas características:

Media: =

Que simplificadamente:

Varianza:

ó tambien.

y que aún de forma mas simplificada:

Sesgo: Hacia la derecha ó positivo como se vé graficamente. Además, aqui:

pues y pues

1.5.7 Distribución Poison

Notación:

X

Introducción

Llamada asi por su autor Siméon Denis Poisson, probabilista del siglo XIX, pues fue el

primero en describirla. Es una generalización de la distribución binomial cuando sobre

un . se define una variable aleatoria que representa el número de éxitos

independientes que ocurren para intervalos de medida específicos ( tiempos, lugares,

espacios) , ademas con una probabilidad de ocurrencia pequeña.

Se le llama distribución de los "eventos raros" pues se usa como aproximación a la

binomial cuando el tamaño de muestra es grande y la proporción de éxitos es pequeña.

Page 43: CURSO ESTADISTICA 2

Esos intervalos de medida pueden referirse a: Tiempo: (Segundo , minuto, hora, dia,

semana, etc.) Area: (Segmento de linea, pulgada cuadrada, Centimetro cuadrado, etc).

Volumen:( Litro, galón, onza, etc.)

Ejemplo

Número de defectos por .en piezas similares de un material ..

Número de personas que llegan a un taller automotriz en un lapso de tiempo

específico.

Número de impulsos electrónicos errados transmitidos durante espacio de

tiempo específico.

Número de llamadas telefónicas que ingresan a un conmutador por minuto.

Número de interrupciones en servicios de energía en intervalos de un dia.

Cantidad de átomos que se desintegran en sustancia radioactiva.

Número de accidentes automovilísticos en un cruce específico durante una

semana.

Criterios ó propiedades

1. Se da un intervalo de medida que divide un todo de números reales y donde el

contéo de ocurrencias es aleatorio. Esa división puede ser un subintervalo de

medida.

2. El número de ocurrencias ó de resultados en el intervalo ó subintervalo de

medida, es independiente de los demás intervalos ó subintervalos. por eso se

dice que el proceso de Poisson no tiene memoria.

3. La probabilidad de que un solo resultado ocurra en un intervalo de medida muy

corto ó pequeño es la misma para todos los demás intervalos de igual tamaño y

es proporcional a la longitud del mismo ó al tamaño de medida.

4. La probabilidad de que más de un resultado ocurra en un intervalo ó

subintervalo corto es tan pequeña que se considera insignificante (cercana ó

igual a cero).

Procesos que se ajustan a estos criterios, se dice, son procesos de Poisson.

Definición

Sea una variable aleatoria que representa el número de eventos aleatorios

independientes que ocurren con igual rapidez en un intervalo de medida. Se tiene

entonces que la función de probabilidad de esta variable, se expresa por:

Donde es parámetro de tendencia central de la distribución y representa el número

promedio ó cantidad esperada de ocurrencias (éxitos) del evento aleatorio por unidad de

medida ó por muestra; y Número de ocurrencias especificas para el

Page 44: CURSO ESTADISTICA 2

cual se desea conocer la probabilidad respectiva. Segun sea el valor de de , se

define toda una familia de probabilidades de Poisson. La probabilidad de que una

variable aleatoria de Poisson sea menor ó igual a un valor de se halla por la función

de distribución acumulativa, planteada entonces como:

Los resultados de las probabilidades individuales para valores de serán más pequeños

conforme la variable aleatoria toma valores cada vez más grandes.

Ejemplo

El número promedio de partículas radioactivas que registra un contador en un

milisegundo en la realización de un experimento aleatorio es de cinco (5) partículas.

Hallar la probabilidad de que se registre distinto número de partículas en un mismo

milisegundo.

Acudiendo a las tablas existentes para tal fín ó a los medios electrónicos, se llega a

construir la tabla de distribución de probabilidades, dando:

y valores de más grandes pero con probabilidad mas pequeña. Se nota el punto de

inflexión entre y y no es tan sesgada a la derecha por el valor

Características de la distribución de Poisson

Valor Esperado: , el cual debe ser conocido.

Varianza:

Forma ó sesgo: Hacia la derecha ó con sesgo positivo y que se va perdiendo a medida

que crece. Veamos una gráfica de funciones de probabilidad para diferentes valores de

Page 45: CURSO ESTADISTICA 2

Se puede calcular un coeficiente de asimetría mediante la expresión Es de

observar que mientras en una distribución binomial: en Poisson se puede dar

que

Alternativa: Si se da la probabilidad de tener, de manera exacta, ocurrencias en un

intervalo veces mayor que el de refencia en la medición entonces la distribución de

probabilidades de Y número de éxitos en la nueva unidad de referencia viene dada por

donde Promedio de ocurrencias por intervalo ó unidad de medida considerada en X

y Número de intervalos ó unidades de medida especificados.

Aqui y

Ejemplo

El número de pulsos que llegan a un contador GEIGER se presentan en promedio de 6

pulsos por minuto. Hallar la probabilidad de que en 15 minutos se reciban exactamente

20 pulsos.

es decir, que una frecuencia de 6 pulsos por minuto es eqyivalente a una de 1

por minutos.

1.6 Distribución normal

Importancia de la distribución normal

La distribución normal es de suma importancia en estadística por tres razones

principales:

1. Numerosas variables continuas de fenómenos aleatorios tienden a comportarse

probabilisticamente mediante ésta.

2. Es el límite al que convergen tanto variables aleatorias continuas como discretas.

3. Proporciona la base de la inferencia estadística clásica debido a su relación con

el teorema del límite central.

Page 46: CURSO ESTADISTICA 2

Propiedades de la distribución normal

1. Su grafica tiene forma acampanada.

2. El valor esperado, la mediana y la moda tienen el mismo valor cuando la

variable aleatoria se distribuye normalmente.

3. Su dispersión media es igual a 1.33 desviaciónes estándar. Es decir, el alcance

intercuartil está contenido dentro de un intervalo de dos tercios de una

desviación estándar por debajo de la media a dos tercios de una desviación

estándar por encima de la media.

En la práctica, algunas de las variables que observamos sólo pueden aproximar estas

propiedades. Así que si el fenómeno puede mediarse aproximadamente mediante la

distribución normal se tendrá:

1. Que el polígono puede verse en forma de campana y simétrico.

2. Sus mediciones de tendencia central tienen bastante parecido.

3. El valor intercuartil puede diferir ligeramente de 1.33 desviaciones estándar.

4. El dominio de la variable aleatoria normalmente distribuida generalmente caerá

dentro de 3 desviaciones estándar por encima y por debajo de la media.

El modelo matemático

El modelo o expresión matemática que representa una función de densidad de

probabilidad se denota mediante el símbolo . Para la distribución normal, se tiene

la siguiente función de probabilidad.

donde

es la constante matemática aproximada por 2.71828

es la constante matemática aproximada por 3.14159

Parámetros

es cualquier valor de la variable aleatoria continua, donde

Así,

Page 47: CURSO ESTADISTICA 2

A continuación se presentan las gráficas de las funciones de densidad Normal con el

objetivo de observar cambios en la distribución de probabilidad:

caso 1:

Cuando se mantiene la misma media, pero cambia la varianza.

Ejemplo:

caso 2:

Cuando se mantiene la misma varianza, pero cambia la media.

Ejemplo: ( y )

Ahora, al examinar la primera y segunda derivada de , se pueden listar otras

propiedades de la curva normal:

1. La moda, que es el punto sobre el eje horizontal donde la curva es un máximo

ocurre cuando .

Page 48: CURSO ESTADISTICA 2

2. La curva es simétrica alrededor de un eje vertical a través del valor esperado

.

3. La curva tiene sus puntos de inflexión en , es cóncava hacia abajo

si , y es cóncava hacia arriba en cualquier otro punto.

4. La curva normal se aproxima al eje horizontal de manera asintótica conforme

nos alejamos de la media en cualquier dirección.

Haciendo una transformación a la variable aleatoria normal , ésta se puede llevar a un

nuevo conjunto de observaciones de una variable aleatoria normal con media cero y

varianza 1. A dicha transformación se le conoce como estadarización de la variable

aleatoria normal :

Definición

La distribución de probabilidad de una variable aleatoria normal con media cero y

varianza 1 se llama distribución normal estándar.

Función de Densidad

Normal (0,1)

Gráfico 6.

En la distribución normal estándar se sabe que las áreas se distribuyen de la siguiente

manera:

Función de Densidad

Normal (0,1)

Page 49: CURSO ESTADISTICA 2

Manejo de tablas

La tabla anexa representa las probabilidades o áreas bajo la curva normal calculadas

hasta los valores particulares de interés (Transformados). Al observar la tabla se

observa que todos los valores deben registrarse primero con hasta dos lugares

decimales. Por ejemplo, para leer el área de probabilidad bajo la curva hasta ,

podemos recorrer hacia abajo la columna Z de la tabla hasta que ubiquemos el valor de

interés (en décimas). Así pues, nos detenemos en la fila . A continuación,

leemos esta fila hasta que intersecamos la columna que contiene el lugar de centésimas

del valor ( ). Por tanto, en el cuerpo de la tabla, la probabilidad tabulada para

z=1.57 corresponde a la intersección de la fila z=1.5 con la columna z=0.07 y es 0.9418.

Métodos descriptivos para determinar la normalidad

En las siguientes clases se aprenderá a hacer inferencias acerca de la población con base

en información de la muestra. Varias de estas técnicas se basan en el supuesto de que la

población presenta una distribución normal aproximada. Por tanto, será importante

determinar si los datos de la muestra provienen de una población normal, antes de

aplicar dichas técnicas.

Para determinar si los datos provienen de una distribucón aproximadamente normal, se

pueden considerar tres métodos:

1. Construir en histograma de frecuencia relativa o bien un diagrama de tallos y

hojas para los datos. Si los datos son aproximadamente normales, la forma de la

gráfica será similar a la de la curva normal. (Con forma de joroba y simétrica

alrededor de la media.)

Page 50: CURSO ESTADISTICA 2

2. Calcular el rango intercuartílico ( ) y la desviación estándar ( ), para la

muestra, y luego calcular el cociente . Si los datos son aproximadamente

normales,

3. Construir una gráfica de probabilidad normal para los datos Si los datos son

aproximadamente normales, los puntos caerán (aproximadamente) en una línea

recta.

Construcción De Una Gráfica de Probabilidad Normal Para Un Conjunto

De Datos

1.Haga una lista de las observaciones del conjunto de datos de muestra en orden

ascendente, donde representa el i-ésimo valor ordenado.

2.Para cada observación, calcule el área de cola correspondiente de la distribución

normal estándar ( ), . Empíricamente condición de continuidad.

donde es el tamaño de la muestra.

3.Calcule el valor esperado estimado de suponiendo normalidad, mediante la

siguiente fórmula:

donde es la desviación estándar de la muestra y es el valor de que recorta un

área de la cola inferior de la distribución normal estándar.

4.Grafique las observaciones ordenadas en el eje vertical y los valores esperados

estimados correspondientes, en el eje horizontal.

NOTA: Las verificaciones de normalidad dadas son sólo técnicas descriptivas. Es

posible (aunque poco probable) que los datos no sean normales a pesar de que las

verificaciones se satisfacen razonablemente. Por tanto, se debe tener cuidado de no

asegurar que las mediciones, de hecho, se distribuyen normalmente. Sólo podemos decir

que es razonable pensar que los datos provienen de una distribución normal.

Aproximación para la distribución binomial

La distribución normal frecuentemente es una buena aproximación a una distribución

discreta cuando la última adquiere una forma de campana simétrica. Desde un punto de

vista teórico algunas distribuciones convergen a la normal conforme sus parámetros se

acercan a ciertos límites. La distribución normal es una aproximación conveniente pues

la distribución acumulada se tabula más fácil. La distribución binomial se aproxima

Page 51: CURSO ESTADISTICA 2

bien por la normal en problemas prácticos cuando se trabaja con la función de

distribución acumulada.

Teorema. (Aplicación del Teorema del Límite Central)

Si es una variable aleatoria binomial con media y varianza

entonces la forma limitante de la distribución de

cuando , es la distribución normal estándar

La distribución normal proporciona una buena aproximación de la binomial aún cuando

es pequeña y está razonablemente cercana a 0.5.

1.6.1 Distribución Exponencial

Notación:

Introducción

Antes de introducir la variable exponencial puede mirarse un origen natural de ésta a

partir de una variable aleatoria Poisson, la cual indica el número de veces que ocurre un

evento en una unidad de tiempo. Si se escribe la función de probabilidad Poisson de la

siguiente manera:

la probabilidad de que no ocurra algún evento, en el periodo hasta el tiempo está dada

por:

De esta manera, puede definirse ahora una variable aleatoria continua que mide el

tiempo que tarda en ocurrir el primer evento de Poisson. Es decir,

Lo que permite construir la función de distribución acumulada así:

Page 52: CURSO ESTADISTICA 2

Al derivar, con respecto a se tiene la función de densidad de la variable aleatoria

exponencial .

Definición

La variable aleatoria que es igual a la distancia (o tiempo) entre ocurrencias

sucecesivas de un proceso Poisson con media tiene una distribución

exponencial con parámetro

Función de densidad de Probabilidad:

Valor esperado: Varianza:

Observaciones:

1. En la definición de la variable aleatoria exponencial, ésta se plantea como tiempo que

tarda en ocurrir el primer evento Poisson. Sin embargo, esta definición puede hacerse

extensiva a las demás unidades de medición consideradas en los eventos de Poisson, por

ejemplo, cantidad de metros de carretera que deben recorrerse hasta que aparezca el

primer bache, cantidad de que deben inspeccionarse en una hacienda hasta que

aparezca el primer cafetal de broca, etc.

2. En el lenguaje de las aplicaciones también se utiliza la distribución exponencial para

modelar tiempo entre eventos, distancia entre eventos, volumen entre eventos.

Ejemplo

Supóngase que la duración de los instrumentos electrónicos D y D tienen

distribuciones Exponenciales asi : D D

Cual se debe preferir para usarlo durante un periodo de 45 horas?

Debería preferirse aquel instrumento que de mayor garantía de duración para un mínimo

de tiempo como el requerido, es decir, debe calcularse la probabilidad de que el

instrumento dure por lo menos 45 horas, en cada caso.

Page 53: CURSO ESTADISTICA 2

El instrumento dos tiene mayor probabilidad de tener duración de 45 o más horas.

Comprueba los anteriores resultados utilizando la función de distribución.

2. ESTADISTICA INFERENCIAL

1.1 DEFINICION DE TERMINOS

Parámetro: Es una medida estadística (promedio, varianza, etc.) calculada con todos los

elementos de la población. Generalmente se simbolizan con letras del alfabeto griego o con letras mayúsculas.

Estimador: Es una medida estadística (promedio, varianza, etc.) calculada con la información suministrada por una muestra. Generalmente se simbolizan con la letra que identifica al parámetro y un ^ encima que se lee estimado, o con letras minúsculas de nuestro alfabeto.

Estimación: Es el valor numérico del estimador

Generalmente, en estadística no es posible tomar toda la información, es decir, no se puede hacer un censo, por lo tanto se debe tomar una muestra para analizarla y con base en la información suministrada por la muestra generalizar el comportamiento de la población. A esta generalización o paso de lo particular a lo general se le llama inferencia estadística .

En la estadística es fundamental el proceso de inferencia, ya que se afirma algo acerca del comportamiento de la población a partir de una muestra.

Dentro del proceso de inferencia hay dos tipos de estimación: estimación puntual y estimación por intervalo.

1.2.1 ESTIMACION PUNTUAL . Si se toma una muestra aleatoria y con la información

suministrada por ella se obtiene un indicador cualquiera (promedio, desviación estándar o proporción) es un estimador puntual del valor del parámetro. Es decir que un estimador puntual es un solo valor que se supone nos representa adecuadamente el comportamiento de una variable.

Un estimador puntual debe cumplir las siguientes condiciones mínimas para que sea considerado un buen estimador. Estas condiciones o propiedades son: insesgado, consistente, eficiente o de varianza mínima y suficiente.

Insesgado . Un estimador es insesgado si el valor promedio o esperanza matemática del estimador es igual al valor del parámetro.

Cuando un estimador es sesgado se puede introducir una corrección que elimine el sesgo.

Consistente . Un estimador es consistente, si a medida que aumenta el tamaño de la muestra, el valor del estimador se acerca al valor del parámetro.

Page 54: CURSO ESTADISTICA 2

Eficiente o de varianza mínima . Si se toman dos muestras aleatorias del mismo tamaño

provenientes de la misma población y si con cada una de estas muestras se obtiene un estimador insesgado, es eficiente el que tenga menor varianza.

Suficiente . Un estimador es suficiente si para calcularlo se utiliza toda la información suministrada por la muestra.

TEOREMA CENTRAL DEL LIMITE

Es frecuente tomar muestras de poblaciones que no son normales, cualquiera que sea la

distribución de la población con tal de que tenga varianza finita, la media muestral tendrá aproximadamente, para muestras grandes, la distribución normal. Esta propiedad se conoce como teorema central del límite.

La importancia de este teorema, en lo que concierne a aplicaciones prácticas, se debe al hecho de que el promedio de una muestra aleatoria procedente de cualquier distribución con

varianza finita y , tiene para muestras grandes, una distribución aproximadamente

normal con media m y varianza /n.

DISTRIBUCIONES MUESTRALES

De una población de tamaño N, se pueden sacar N combinado n muestras diferentes de tamaño n. Con cada una de estas muestras es posible obtener un estimador, ya sea la media, proporción, varianza, etc.. La distribución de estos estimadores se conoce como distribución en el muestreo.

El conocer la distribución en el muestreo de algunos de estos estimadores es útil en el

desarrollo teórico de los temas correspondientes a estimación por intervalo y pruebas de hipótesis. A continuación se verán las distribuciones en el muestreo más utilizadas.

DISTRIBUCION MUESTRAL DE LA MEDIA

Dependiendo de las características de la población y del tamaño de la muestra se tienen varios casos.

1.4.2.1 . Se selecciona una muestra aleatoria de tamaño n de una población con distribución

normal con media m y varianza , con s 2 conocida.

La media muestral tiene también distribución normal,

(1.6)

1.4.2.2 . Se selecciona una muestra aleatoria de tamaño n > 30 de una población con distribución diferente a la normal

(1.7)

Page 55: CURSO ESTADISTICA 2

1.4.2.3 . Se selecciona una muestra aleatoria de tamaño n < 30 . La distribución t es

adecuada para trabajar con muestras pequeñas, y se obtiene del cociente entre una distribución normal estándar y la raíz cuadrada de una chi-cuadrado dividida por sus grados de libertad, por lo tanto:

(1.8)

Si se utiliza la varianza corregida:

(1.9)

DISTRIBUCION MUESTRAL DE LA PROPORCION

Una proporción poblacional se define como =X/N, donde X es el número de elementos en la población que poseen cierta característica y N es el total de elementos de la población.

Una proporción muestral se define como p = x/n, donde x es el número de elementos en la muestra que poseen cierta característica y n es el total de elementos de la muestra.

Cuando se desea estimar una proporción, el tamaño de la muestra siempre debe ser grande, es decir, n 30.

Si la muestra se obtiene con reemplazo, x tiene distribución binomial y debido a que la

muestra es grande, por el teorema central del límite se aproxima a una distribución normal; por consiguiente:

Debido a que se desconoce la proporción poblacional, se utiliza la proporción muestral para estimar la varianza, por lo tanto:

Page 56: CURSO ESTADISTICA 2

(1.13)

DISTRIBUCION MUESTRAL DE LA VARIANZA

El supuesto fundamental es que la población tiene distribución normal con media y varianza

. De esta población se obtiene una muestra aleatoria de tamaño n.

La varianza de la muestra se define como:

Si se multiplica por n/ se obtiene:

(1.1)

La expresión (1.1) es similar a:

(1.2)

que tiene distribución chi-cuadrado con n grados de libertad. La única diferencia es que en el

uno interviene la media muestral (x) y en el otro la media poblacional ( ). Por lo tanto, la pregunta es si la expresión (1.1) también tiene distribución chi-cuadrado con n grados de

libertad.

que tiene distribución chi-cuadrado con n grados de libertad. La única diferencia es que en el

uno interviene la media muestral (x) y en el otro la media poblacional ( ). Por lo tanto, la pregunta es si la expresión (1.1) también tiene distribución chi-cuadrado con n grados de libertad.

Recordemos que una variable aleatoria con distribución normal estándar, elevada al cuadrado, tiene distribucion chi-cuadrado y sus grados de libertad dependen del número de observaciones.

Si una variable aleatoria X tiene distribución normal, N( , ), por el teorema central del límite:

Page 57: CURSO ESTADISTICA 2

(1.3)

Para hacer la demostración partimos de la expresión (1.2), a la que se le resta y se le suma la media muestral:

Desarrollando el binomio y aplicando propiedades de la suma se obtiene:

Por propiedades de la media:

Despejando:

Por lo tanto,

(1.4)

Es decir que la sustitución de la media poblacional por la media muestral reduce en 1 los

grados de libertad de la chi-cuadrado. Lo anterior nos indica que cada vez que se reemplaza un parámetro por un estimador, se reduce en 1 los grados de libertad de la distribución chi-cuadrado.

Page 58: CURSO ESTADISTICA 2

Si se utiliza la varianza corregida,

(1.5)

Lo anterior se debe a que la varianza corregida se define como:

En caso de ser iguales se trabaja con el 3 y si son diferentes se trabaja con el caso 4 de los casos especiales.

DISTRIBUCION MUETRAL PARA DIFERENCIA DE MEDIAS

Cuando se toman dos muestras aleatorias de poblaciones diferentes, generalmente se quieren comparar los dos promedios o medir la diferencia que hay entre ellos.

Si se toman dos muestras aleatorias independientes, de tamaños n1 y n2 procedentes de

poblaciones con medias y y varianzas y respectivamente:

1.4.3.1 . Si las muestras proceden de poblaciones con distribución normal y las varianzas poblacionales son conocidas :

(1.10)

1.4.3.2 . Si las muestras provienen de poblaciones no normales pero los tamaños de

muestra son grandes , es decir, n1 30 y n2 30, la distribución de la diferencia de medias es como en el caso anterior.

1.4.3.3 . Si las muestras provienen de poblaciones normales con varianzas poblacionales iguales pero desconocidas y tamaños de muestra pequeños , es decir, n1 30 y n2 30. Como se desconocen las varianzas poblacionales se debe obtener una expresión que elimine dichas varianzas, y debido a que las muestras son pequeñas se debe obtener una distribución t-Student

Page 59: CURSO ESTADISTICA 2

Simplificando se obtiene:

(1.11)

1.4.3.4 . Si las muestras provienen de poblaciones normales con varianzas poblacionales desconocidas pero diferentes y tamaños de muestra pequeños , es decir, n1 30 y n2 30:

(1.12)

Donde:

Cuando se va a hacer una prueba de hipótesis o un intervalo de confianza para la diferencia

de medias y las muestras son pequeñas, primero se debe comprobar si las varianzas poblacionales son iguales o no. En caso de ser iguales se trabaja con el 3 y si son diferentes se trabaja con el caso 4 de los casos especiales.

1.4.5 DISTRIBUCION DE LA DIFERENCIA DE PROPORCIONES De dos poblaciones se

toman dos muestras aleatorias independientes de tamaños n1 30 y n2 30, y en cada una

de ellas se observa una característica o cualidad. La proporción muestral de elementos con una característica se define como:

Page 60: CURSO ESTADISTICA 2

(1.14)

1.4.6 DISTRIBUCION DEL COCIENTE DE VARIANZAS De dos poblaciones con

distribución normal y varianzas poblacionales y se toman dos muestras aleatorias independientes de tamaños n1 y n2 .

Como se vió, en la distribución de la varianza se llega a una distribución chi-cuadrado y del cociente de dos chi-cuadrado se obtiene una distribución F de Snedecor.

(1.15)

Conocidas las distribuciones en el muestreo de los principales estimadores, se tiene la

fundamentación teórica que nos permite desarrollar el tema correspondiente a los intervalos de confianza y las pruebas de hipótesis.

ESTIMACION POR INTERVALOS DE CONFIANZA

Hasta ahora se ha hablado de la estimación puntual, en donde se halla un solo valor o indicador del comportamiento de una variable, pero no se sabe qué tan cerca está el valor estimado del parámetro y generalmente se necesita más que un valor exacto, un rango dentro del cual esperamos que esté el valor del parámetro; por esta razón, es de gran

utilidad la estimación por intervalo en donde se tiene en cuenta la dispersión de los datos y de antemano se conoce la confiabilidad de la estimación.

Page 61: CURSO ESTADISTICA 2

En el presente capítulo se desarrolla el tema correspondiente a los intervalos de confianza

para la media, la proporción y la varianza.

2.1 INTERVALO DE CONFIANZA

Cuando se selecciona una muestra aleatoria y se obtiene un estimador puntual (promedio, proporción, etc.), no se sabe qué tan cerca está dicha estimación del parámetro, por ésta

razón es necesario construir un intervalo de confianza, en donde además de tener en cuenta el grado de dispersión o variación de los datos y el tamaño de la muestra se establece un nivel de confianza o probabilidad de que el valor del parámetro esté contenido en dicho intervalo o rango.

Para obtener un intervalo de confianza se determinan los valores Z1 y Z2 y a tales que la

confiabilidad de que el parámetro q esté dentro de los límites Z1 y Z2 sea - a , es decir:

Donde:

1- = Se conoce como confiabilidad o nivel de confianza y generalmente está entre el 90 y el 99%

= Nivel de significancia o márgen de error, del 1 al 10%

Z1 y Z2 = son percentiles correspondientes a una distribución de probabilidad, la cual depende de la distribución en el muestreo del estimador con el que se esté trabajando. Los valores de estos percentiles también dependen del nivel de confianza.

Gráficamente, se hallan dos valores tales que el área que hay entre Z1 y Z2 sea 1- y el área

restante ( ) se divide en dos partes iguales, quedando /2 en la parte inferior y el otro /2 en la parte superior de la distribución, tal como se observa en la figura 2.1. Por esta razón

de ahora en adelante Z1 y Z2 se notarán como y .

Figura 2.1 Nivel de confianza y nivel de significancia

INTERVALO DE CONFIANZA PARA LA MEDIA

Como en el caso de las distribuciones en el muestreo, se tienen varios casos, los cuales dependen de las características de la población y el tamaño de la muestra.

Page 62: CURSO ESTADISTICA 2

CASOS DE LOS INTERVALOS DE CONFIANZA

CASOS :

2.2.1 . Intervalo de confianza para la media, cuando se selecciona una muestra

aleatoria de tamaño n de una población con distribución normal con media y

varianza conocida.

En este caso, por las condiciones de la muestra se utiliza la distribución normal estándar, por

lo tanto y pertenecen a una distribución normal estándar. Como se trabaja con una

distribución normal, y son iguales pero con diferente signo, es negativo y es

positivo, por lo tanto en la fórmula se incluye el signo y y se reemplazan por Z. Para obtener el intervalo de confianza para la media se utiliza la siguiente expresión:

(2.1)

Donde Z pertenece a una distribución normal estándar.

Interpretando este intervalo se dirá que el promedio poblacional estará entre:

con una confiabilidad del (1- ) por ciento.

EJEMPLO

Un proceso manufacturero usado por una fábrica durante los últimos 10 años, tiene una distribución normal con desviación estándar de 8 unidades por hora. Se desea estimar un intervalo de confianza del 90 por ciento para el promedio de unidades por hora producido con dicho proceso. Para tal efecto, se toma una muestra aleatoria de la producción por hora durante 25 horas y se obtiene un promedio de 160 unidades.

Solución . Como la distribución de la población es normal y se conoce la desviación estándar poblacional, se utiliza la expresión 2.1 para calcular el intervalo de confianza.

El valor de Z se halla en una tabla de la distribución normal. La confiabilidad es del 90 por ciento, por lo tanto el nivel de significancia o a (0.1) se divide en dos y se deja a /2 en la

cola inferior y a /2 en la cola superior. En la figura 2.2, el área que hay de - a Z es 0,95 y

para ésta área el valor de Z en la distribución normal es 1,64

2.2.2. Intervalo de confianza para la media si se selecciona una muestra aleatoria de tamaño n 30 de una población con distribución diferente a la normal.

Por las condiciones de la muestra, se utiliza la expresión (1.7). Haciendo el mismo proceso que se hizo en el caso anterior se obtiene:

(2.2)

Donde Z pertenece a una distribución normal estándar.

Page 63: CURSO ESTADISTICA 2

EJEMPLO

En un estudio elaborado acerca de la duración de 51 bombillas de semáforos en cierta

ciudad, se determinó un promedio de duración de 1.795 horas con una desviación estándar de 489 horas. Halle un intervalo con el 95 por ciento de confiabilidad para estimar la media poblacional.

Solución

Como el tamaño de la muestra es mayor que 30, se utiliza la expresión 2.2 y para una

confiabilidad del 95 por ciento, el valor de Z en la distribución normal es 1,96. Reemplazando:

Interpretación . Con una confiabilidad del 95 por ciento, la duración promedio de las bombillas de semáforos de dicha ciudad, está entre 1.661 y 1.921 horas.

Figura 2.2 Percentil de la distribución normal

Interpretación . El promedio de unidades por hora producidas en dicha fábrica está entre 157 y 163 con una confiabilidad del 90 por ciento.

2.2.3 . Intervalo de confianza para la media si se selecciona una muestra aleatoria de tamaño n<30 .

Como la muestra es pequeña, se utiliza la expresión (1.8) para despejar el intervalo de

confianza para , obteniéndose:

Page 64: CURSO ESTADISTICA 2

(2.3)

En donde Z pertenece a una distribución t con (n-1) grado de libertad.

Si se trabaja con la desviación estándar corregida, se utiliza la expresión (1.9), obteniéndose:

(2.4)

En donde Z pertenece a una distribución t con (n-1) grado de libertad.

EJEMPLO

Se desea hallar un intervalo de confianza para la estatura promedio de todos los estudiantes de ingeniería industrial de la Universidad Nacional Sede Manizales. Para tal efecto, de los estudiantes de dicha carrera se seleccionó una muestra aleatoria de 15 personas a quienes se les preguntó su estatura en metros, obteniéndose los siguientes resultados:

ESTATURA: 1,50 1,63 1,50 1,69 1,69 1,79 1,73 1,69 1,56 1,70 1,65 1,74 1,70 1,70 1,65

Halle un intervalo de confianza del 95 por ciento.

Solución . Con la información disponible se calculó el promedio aritmético y la desviación

estándar, los que respectivamente son 1,6613 y 0,0808 n = 15 y 1- = 0,95

Como la muestra es pequeña se utiliza la expresión 2.3. El valor de Z se halla en una tabla de la distribución t con 14 grados de libertad, que para un nivel de confianza del 95 por ciento es 2,145. Reemplazando:

Interpretación . Con un 95 por ciento de confiabilidad, se puede afirmar que la estatura promedio de los estudiantes de ingeniería industrial de la universidad Nacional Sede Manizales, está entre 1,62 y 1,71 mts.

INTERVALO DE CONFIANZA PARA LA PROPORCION

Cuando se observa una característica o cualidad en la muestra se puede estimar la proporción de elementos que tienen una característica determinada; en estos casos, el tamaño de la muestra siempre debe ser grande, por lo tanto se tiene un solo caso.

Para despejar el intervalo de confianza se parte de la expresión (1.13) y haciendo el mismo proceso que para el caso de la media, se obtiene:

(2.5)

Donde Z pertenece a la distribución normal estándar.

Page 65: CURSO ESTADISTICA 2

Ejemplo

La Federación Nacional de Cafeteros, realizó un estudio con el fin de conocer el porcentaje de propietarios y arrendatarios de las fincas productoras del grano en la región del viejo Caldas.

Para tal efecto se tomó una muestra aleatoria de 100 fincas, en las cuales se encontró que 65 de los caficultores eran dueños del predio. Halle un intervalo del 95 por ciento de confianza para el porcentaje de propietarios de fincas en la región del viejo Caldas.

Solución

Se utiliza la expresión 2.5. El valor de Z se halla en la tabla de la distribución normal, que para una confiabilidad del 95 por ciento es de 1,96. Reemplazando:

Interpretación . En la región del Viejo Caldas, el porcentaje de propietarios de fincas cafeteras, está entre el 55,7 y el 74,3 por ciento, con una confiabilidad del 95 por ciento.

INTERVALO DE CONFIANZA PARA LA VARIANZA

De una población con distribución normal con media m y varianza s 2 se obtiene una

muestra aleatoria de tamaño n. Para obtener el intervalo de confianza para la varianza ( s 2 ) se parte de la expresión (1.4):

Se divide por ns2 :

Se invierte:

Reescribiendo:

Page 66: CURSO ESTADISTICA 2

(2.6)

Donde y pertenecen a una distribución chi-cuadrado con (n-1) grado de libertad, por

lo tanto, y son diferentes y < .

Ejemplo

La varianza de la resistencia a la rotura de 30 cables probados fué de 32.000 lbs 2. Halle un intervalo de confianza del 90 por ciento, para la varianza de la resistencia de todos los cables de ésta marca.

Solución . Se utiliza la expresión 2.6. Los valores de y pertenecen a una

distribución chi-cuadrado con 29 grados de libertad. como puede observarse en la figura 2.3

el área que hay por debajo de Z a /2 es 0,05, por lo tanto =17,71 y el área que hay por

debajo de es 0,95, por lo tanto =42,56

Figura 2.3 Percentiles de la distribución chi-cuadrado

Reemplazando en la expresión 2.6 se obtiene:

Por razones de utilidad se halla el intervalo de confianza para la desviación estándar, sacando la raíz cuadrada de los límites, por lo tanto:

Interpretación . El promedio de variación o de dispersión de la rotura de los cables de dicha marca, está entre 150 y 233 lbs . con una confiabilidad del 90 por ciento.

Page 67: CURSO ESTADISTICA 2

PRUBAS DE HIPOTESIS

Dentro del proceso de inferencia, además de la estimación puntual y la por intervalo, en muchas ocasiones es necesario hacer pruebas de hipótesis, las cuales se hacen con base en la información muestral.

En este capítulo se verá la prueba de hipótesis para la media, la proporción, la varianza, la diferencia de medias, la diferencia de proporciones, el cociente de varianzas, la prueba de independencia y la prueba de bondad de ajuste.

3.1 HIPOTESIS

Una hipótesis estadística es un supuesto acerca del valor de un parámetro de una población determinada. Este supuesto debe comprobarse con la información suministrada por una muestra aleatoria obtenida de dicha población.

Cuando se realiza una prueba de hipótesis, se plantean dos hipótesis que deben ser mutuamente excluyentes; una es la hipótesis nula que se nota como H0 y la otra es la hipótesis alternativa que se nota como H1 .

Se debe establecer un criterio o regla de decisión según la cual no se rechace la hipótesis nula o se rechace. Si se rechaza la hipótesis nula (H0 ) se acepta hipótesis alternativa (H1 ). Para establecer esta regla de decisión la distribución de probabilidad se divide en dos categorías mutuamente excluyentes: la que lleva al rechazo de H0 , es decir está en la zona de rechazo y la que lleva al no rechazo de H0 , es decir, está en la zona de no rechazo.

Debido a que se está trabajando con una muestra aleatoria, cuando se realiza una prueba de hipótesis se pueden cometer dos tipos de errores. La hipótesis nula (H0 ) es en realidad

verdadera, pero debido a que los datos muestrales parecen ser inconsistentes con ella, se la rechaza (ERROR TIPO I) y la probabilidad de cometer un error tipo I se llama nivel de

significancia ( ). Puesto que cuando se comete un error tipo I, seguiríamos una acción errónea, se puede definir el nivel de significancia como la probabilidad de decidirnos por H1 dado que H0 es verdadera.

Por otro lado, podemos no rechazar H0 siendo en realidad falsa, a este error se le llama ERROR TIPO II.

3.1.1 FORMULACION DE HIPOTESIS

El primer paso en la prueba de hipótesis es el planteamiento de las hipótesis, lo que en algunos casos no es una tarea fácil.

Hay tres tipos de hipótesis, a saber:

- Prueba de hipótesis a dos colas

H0: = k

H1: k

- Prueba de hipótesis a una cola superior

H0 : = k ó H0: k

H1 : > k ó H1 : > k

- Prueba de hipótesis a una cola inferior

Page 68: CURSO ESTADISTICA 2

H0 : = k ó H0 : k

H1 : < k ó H1 : < k

Nótese que las hipótesis siempre se plantean para un parámetro .

Una vez establacidas las hipótesis, se selecciona el nivel de significancia o márgen de error (

) el que generalmente se fija entre el uno y el diez por ciento.

El tercer paso es la estadística a probar o estadística de trabajo, la cual depende de la distribución en el muestreo del estimador con el que se esté trabajando y de los supuestos

correspondientes a la población y al tamaño de la muestra. Cuando se realizan los cálculos siempre se supone que la hipótesis nula (H0) es cierta.

El cuarto paso es establecer la regla de decisión, la cual depende de la distribución de

probabilidad de la estadística a probar, del nivel de significancia ( ) y de la hipótesis alternativa (H1).

Finalmente se toma la decisión de no rechazar la hipótesis nula o rechazarla.

PRUEBA DE HIPOTESIS PARA LA MEDIA

El promedio aritmético poblacional es un indicador muy importante, por lo tanto, frecuentemente se desea probar si dicho promedio ha permanecido igual, ha aumentado o ha disminuído. A través de la prueba de hipótesis se determina si la media poblacional es significativamente mayor o menor que algún valor supuesto.

Hipótesis

Se puede plantear uno de los siguientes tres tipos de hipótesis:

- Prueba de hipótesis a dos colas

H0 : = k

H1 : k

- Prueba de hipótesis a una cola superior

H0 : = k ó H0 : k

H1 : >k ó H1 : > k

- Prueba de hipótesis a una cola inferior

H0 : = k ó H0 : k

H1 : < k ó H1 : < k

En las distribuciones en el muestreo se vió que para el caso de la media, hay tres situaciones, por consiguiente la estadística de trabajo a utilizar depende de los supuestos de la población y del tamaño de la muestra.

3.2.1 Prueba de hipótesis para la media si la población de donde se obtiene la

muestra tiene distribución normal con conocida.

Page 69: CURSO ESTADISTICA 2

La estadística de trabajo a usar corresponde a la expresión (1.6):

(3.1)

Donde: es el valor que se está suponiendo en la hipótesis nula (H0).

REGLA DE DECISION

- Si se ha planteado la hipótesis alternativa como: H1 : k se tiene una prueba de hipótesis

a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.1

Figura 3.1 Regla de decisión para una prueba de hipótesis a dos colas.

y pertenecen a una distribución normal estándar. Si el valor de la estadística de

trabajo (Zx) está entre y no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir:

- Si se ha planteado la hipótesis alternativa como:

H1 : > k, se tiene una prueba de hipótesis a una cola superior, quedando el nivel de

significancia ( ) en la parte superior de la distribución, como se aprecia en la figura 3.2

Page 70: CURSO ESTADISTICA 2

Figura 3.2 Regla de decisión para una prueba de hipótesis a una cola superior.

pertenece a una distribución normal estándar. Si el valor de la estadística de trabajo

(Zx) es menor que no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir,

Si se ha planteado la hipótesis alternativa como:

H1 : < k, se tiene una prueba de hipótesis a una cola inferior, quedando el nivel de

significancia ( ) en la parte inferior de la distribución, como se aprecia en la figura 3.3

Figura 3.3 Regla de decisión para una prueba de hipótesis a una cola inferior.

Z pertenece a una distribución normal estándar. Si el valor de la estadística de trabajo (Zx) es mayor que Z no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir,

EJEMPLO

Un proceso manufacturero usado por una fábrica durante los últimos años da una producción

media de 100 unidades por hora con una desviación estándar de 8 unidades. Se acaba de

introducir en el mercado una nueva máquina para realizar ese tipo de producto. Aunque es muy cara comparada con la que está ahora en uso, si la media de producción de la nueva máquina es de más de 150 unidades por hora, su adopción daría bastantes beneficios.

Para decidir si se debiera comprar la nueva máquina, a la gerencia de la fábrica se le permite hacer un ensayo durante 35 horas, hallándose un promedio de 160 unidades por hora. Con ésta información qué decisión se debe tomar si se asume un nivel de confianza del 99 por ciento.

Solución .

Según el enunciado, solo se compra la máquina si la producción es de mas de 150 unidades por hora, por lo tanto las hipótesis son:

H0 : = 150

H1 : > 150

Page 71: CURSO ESTADISTICA 2

Para elegir la estadística de trabajo se tiene en cuenta que se conoce la varianza poblacional,

por lo tanto se usa la expresión 3.1

por el planteamiento de la hipótesis alternativa se trabaja a una cola superior. En la distribución normal, con una confiabilidad del 99 por ciento el valor de Z es 2,33. como puede observarse en la figura 3.4, la estadística de trabajo está en la zona de rechazo de la hipótesis nula, por lo tanto, se acepta que la producción promedio por hora es superior a las 150 unidades y asumiendo un riesgo del 1 por ciento se puede comprar la nueva máquina.

Figura 3.4 Regla de desición para una prueba de hipótesis a una cola inferior.

3.2.2 Prueba de hipótesis para la media si se selecciona una muestra aleatoria de

tamaño n 30 de una población con cualquier distribución.

La estadística de trabajo a usar es la expresión (1.7):

REGLA DE DECISION

Es la misma que en el caso anterior y depende en todo caso de la hipótesis alternativa.

EJEMPLO

La duración promedio de las llantas producidas por una fábrica de llantas, según experiencias registradas es de 46.050 kms. Se desea probar si el promedio poblacional ha cambiado; para tal efecto se toma una muestra aleatoria de 60 llantas y se obtiene una duración promedio de 45.050 kms. con una desviación estándar de 3.070 kms.

Solución

H 0 : = 46.050

H1 : 46.050

Page 72: CURSO ESTADISTICA 2

Teniendo en cuenta que el tamaño de la muestra es grande, como estadística de trabajo se

utiliza la expresión 3.2

Por la hipótesis alternativa, la regla de decisión es a dos colas. La tabla a utilizar es la de la distribución normal. Asumiendo un nivel de confianza del 95 por ciento, los correspondientes valores de Z son -1,96 y 1,96. Como puede observarse en la figura 3.5, el valor de la estadística de trabajo está en la zona de rechazo de la hipótesis nula, por consiguiente, con una confiabilidad del 95 por ciento se acepta que la duración promedio de las llantas ha cambiado.

Figura 3.5 Regla de decisión para una prueba de hipótesis a dos colas

3.2.3 Prueba de hipótesis para la media si se selecciona una muestra aleatoria de tamaño n<30 .

En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir o corregida.

• Si se utiliza la varianza sin corregir ( ) la estadística de trabajo es la expresión (1.8):

(3.3)

• Si se utiliza la varianza corregida la estadística de trabajo es la expresión (1.9):

(3.4)

EJEMPLO

En su calidad de comprador comercial para un supermercado, se toma una muestra aleatoria

de doce (12) sobres de café de una empacadora. Se encuentra que el peso promedio del

contenido de café de cada sobre es 15,97 grs. con una desviación estándar de 0,15. La

Page 73: CURSO ESTADISTICA 2

compañía empacadora afirma que el peso promedio mínimo del café es de 16 grs. por sobre.

Puede aceptarse ésta afirmación si se asume un nivel de confianza del 90 por ciento?

Solución

Se desea probar si el peso mínimo es de 16 grs., es decir mayor o igual a 16 grs., así que las hiipótesis adecuadas son:

H0 : 16

H1 : < 16

Teniendo en cuenta que el tamaño de la muestra es pequeño, como estadística de trabajo se utiliza la expresión 3.3

Teniendo en cuenta que el tamaño de la muestra es pequeño, como estadística de trabajo se utiliza la expresión 3.3

Como lo indica la hipótesis alternativa, se trabaja a una cola inferior en la tabla de la distribución t con 11 grados de libertad y una confiabilidad del 90 por ciento, el valor de Z es - 1,363

Como puede observarse (figura 3.6), la estadística de trabajo (-0,663) está ubicada en la zona de no rechazo de la hipótesis nula, por lo tanto, con un nivel de confianza del 90 por ciento no se rechaza que los empacadores de café tienen la razón, por lo tanto se concluye que el peso promedio de los sobres de café es mayor o igual a 16 grs.

Figura 3.6 Regla de decisión para una prueba de hipótesis a una cola inferior

PRUEBA DE HIPOTESIS DE LA PROPORCION

Frecuentemente se desea estimar la proporción de elementos que tienen una característica determinada, en tal caso, las observaciones son de naturaleza cualitativa. Cuando se analiza información cualitativa y se está interesado en verificar un supuesto acerca de la proporción

Page 74: CURSO ESTADISTICA 2

poblacional de elementos que tienen determinada característica, es útil trabajar con la

prueba de hipótesis para la proporción.

HIPÓTESIS

Como en el caso de la media, se puede plantear uno de los siguientes tres tipos de hipótesis:

- Prueba de hipótesis a dos colas

H0 : = k

H1 : k

- Prueba de hipótesis a una cola superior

H0 : = k ó H0 : k

H1 : > k ó H1 : > k

- Prueba de hipótesis a una cola inferior

H0 : = k ó H0 : k

H1: < k ó H1 : < k

Cuando se va a estimar una proporción el tamaño de la muestra (n) siempre debe ser mayor a 30, por lo tanto se tiene un solo caso.

La estadística de trabajo a utilizar es la expresión (1.13):

(3.5)

REGLA DE DECISION

Si se ha planteado la hipótesis alternativa como:

H1: k se tiene una prueba de hipótesis a dos colas, por lo tanto, el nivel de significancia (

) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.1

y pertenecen a una distribución normal estándar. Si el valor de la estadística de

trabajo (Zp) está entre y no se rechaza la hipótesis nula, en caso contrario se

rechaza H0 lo cual implica aceptar H1 . Es decir, si < Zp < no se rechaza H0 .

- Si se ha planteado la hipótesis alternativa como:

H1 : > k, se tiene una prueba de hipótesis a una cola superior, quedando el nivel de

significancia ( ) en la parte superior de la distribución, vease figura 3.2

Page 75: CURSO ESTADISTICA 2

pertenece a una distribución normal estándar. Si el valor de la estadística de trabajo (Zp )

es menor que no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual

implica aceptar H1 . Es decir, si Zp < no se rechaza H0 .

- Si se ha planteado la hipótesis alternativa como:

H1 : < k, se tiene una prueba de hipótesis a una cola inferior, quedando el nivel de

significancia ( ) en la parte inferior de la distribución, vease figura 3.3

Z pertenece a una distribución normal estándar. Si el valor de la estadística de trabajo (Zp )

es mayor que Z no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual

implica aceptar H1 . Es decir, si Zp > Z no se rechaza H0 .

EJEMPLO

Un fabricante afirma que por lo menos el 90 por ciento de las piezas de una maquinaria que suministra a una fábrica guardan las formas especificadas. Un exámen de 200 de esas piezas reveló que 160 de ellas no eran defectuosas. Pruebe si lo que afirma el fabricante es cierto.

Solución

H0 : 0,9

H1 : < 0,9

Para realizar una prueba de hipótesis para la proporción se utiliza la expresión 3.5

Asumiendo una confiabilidad del 95 por ciento, el valor correspondiente a Z en la distribución normal es -1,64

Como puede observarse en la figura 3.7, el valor de la estadística de trabajo se encuentra en la zona de rechazo de la hipótesis nula, por consiguiente, con una confiabilidad del 95 por ciento se concluye que la afirmación del fabricante no es cierta.

Page 76: CURSO ESTADISTICA 2

Figura 3.7 Regla de decisión para una prueba de hipótesis a una cola inferior

PRUEBA DE HIPOTSIS DE LA VARIANZA

Es frecuente que se desee comprobar si la variación o dispersión de una variable ha tenido alguna modificación, lo cual se hace con la prueba de hipótesis para la varianza.

Hipótesis

Se puede plantear uno de los siguientes tres tipos de hipótesis:

- Prueba de hipótesis a dos colas

H0 : = k

H1 : k

- Prueba de hipótesis a una cola superior

H0 : = k ó H0 : k

H1 : > k ó H1 : > k

- Prueba de hipótesis a una cola inferior

H0 : = k ó H1 : k

H1 : < k ó H1 : < k

En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir o corregida.

• Si se utiliza la varianza sin corregir ( ) la estadística de trabajo es la expresión (1.4):

Page 77: CURSO ESTADISTICA 2

(3.6)

• Si se utiliza la varianza corregida, la estadística de trabajo es la expresión (1.5):

(3.7)

REGLA DE DECISION

- Si se ha planteado la hipótesis alternativa como:

H1 : k se tiene una prueba de hipótesis a dos colas, por lo tanto, el nivel de significancia

( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.8

Figura 3.8 Regla de decisión para una prueba de hipótesis a dos colas

y pertenecen a una distribución X2 con (n-1) grado de libertad. Si el valor de la

estadística de trabajo (T) está entre y no se rechaza la hipótesis nula, en caso

contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si < T < no se rechaza H0.

- Si se ha planteado la hipótesis alternativa como:

H1 : > k, se tiene una prueba de hipótesis a una cola superior, quedando el nivel de

significancia ( ) en la parte superior de la distribución, vease figura 3.9

Page 78: CURSO ESTADISTICA 2

Figura 3.9 Regla de decisión para una prueba de hipótesis a una cola superior

Z1- pertenece a una distribución X2 con (n-1) grado de libertad. Si el valor de la estadística

de trabajo (T) es menor que no se rechaza la hipótesis nula, en caso contrario se

rechaza H0 lo cual implica aceptar H1 . Es decir, si T < no se rechaza H0 .

- Si se ha planteado la hipótesis alternativa como:

H1 : < k, se tiene una prueba de hipótesis a una cola inferior, quedando el nivel de

significancia ( ) en la parte inferior de la distribución, vease figura 3.10

Figura 3.10 Regla de decisión para una prueba de hipótesis a una cola inferior

Z pertenece a una distribución X2 con (n-1) grado de libertad. Si el valor de la estadística

de trabajo (T) es mayor que Z no se rechaza la hipótesis nula, en caso contrario se rechaza

H0 lo cual implica aceptar H1 . Es decir, si T >Z no se rechaza H0.

EJEMPLO

Se supone que los diámetros de cierta marca de válvulas están distribuídos normalmente con una varianza poblacional de 0,2 pulgadas² , pero se cree que últimamente ha aumentado.

Se toma una muestra aleatoria de válvulas a las que se les mide su diámetro, obteniéndose los siguientes resultados en pulgadas: 5,5 5,4 5,4 5,6 5,8 5,4 5,5 5,4 5,6 5,7

Con ésta información pruebe si lo que se cree es cierto.

Solución

Se cree que la varianza poblacional ha aumentado, es decir es superior a 0,2; por lo tanto:

H0 : = 0,2

H1 : > 0,2

Para realizar esta prueba de hipótesis se utiliza la expresión 3.6

Page 79: CURSO ESTADISTICA 2

Asumiendo un nivel de confianza del 95 por ciento, en la tabla de la distribución chi-cuadrado

con 9 grados de libertad, se obtiene un valor para Z de 16,919. Como puede observarse en la figura 3.11, el valor de la estadística de trabajo se ubica en la zona de no rechazo de la hipótesis nula, por consiguiente con una confiabilidad del 95 por ciento se puede afirmar que la varianza poblacional no ha aumentado.

Figura 3.11 Regla de decisión para una prueba de hipótesis a una cola superior

PRUEBA DE HIPOTESIS COCIENTE DE VARIANZAS

Si de dos poblaciones con distribución normal se seleccionan dos muestras aleatorias

independientes de tamaños n1 y n2 , se puede comparar la homogeneidad o variabilidad de dichas poblaciones a través de una prueba de hipótesis para el cociente de varianzas.

Cuando se planteen las hipótesis debe quedar en el numerador la población cuya muestra tenga mayor varianza. Es decir que la población 1 será la que tenga mayor varianza muestral.

Hipótesis

Se puede plantear uno de los siguientes tres tipos de hipótesis:

- Prueba de hipótesis a dos colas

H0 : = ó H0 : / = 1

H1 : ó H1 : / 1

- Prueba de hipótesis a una cola superior

H0 : = ó H0 : / 1

H1 : > ó H1 : / > 1

- Prueba de hipótesis a una cola inferior

H0 : = ó H0 : / 1

H1 : < ó H1 : / < 1

La estadística de trabajo es la expresión (1.15)

Page 80: CURSO ESTADISTICA 2

(3.8)

REGLA DE DECISION

Si se ha planteado la hipótesis alternativa como:

H1 : ó H1 : / 1 se tiene una prueba de hipótesis a dos colas, por lo tanto, el

nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.8

y pertenecen a una distribución F con (n1 -1) grado de libertad en el numerador y

(n2-1) grado de libertad en el denominador. Si el valor de la estadística de trabajo (T) está

entre y no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual

implica aceptar H1 . Es decir, si < T < no se rechaza H0 .

- Si se ha planteado la hipótesis alternativa como:

H1 : > ó H1 : / > 1 , se tiene una prueba de hipótesis a una cola superior,

quedando el nivel de significancia ( ) en la parte superior de la distribución, como se aprecia en la figura 3.9

Z 1- a pertenece a una distribución F con (n 1 -1) grado de libertad en el numerador y (n 2 -1) grado de libertad en el denominador. Si el valor de la estadística de trabajo (T) es menor que Z 1- a no se rechaza la hipótesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir, si T < Z 1- a no se rechaza H o .

- Si se ha planteado la hipótesis alternativa como:

H1 : < ó H1 : / < 1 , se tiene una prueba de hipótesis a una cola inferior,

quedando el nivel de significancia ( ) en la parte inferior de la distribución, como se aprecia en la figura 3.10

Z a pertenece a una distribución F con (n1 -1) grado de libertad en el numerador y (n2 -1) grado de libertad en el denominador. Si el valor de la estadística de trabajo (T) es mayor que Z a no se rechaza la hipótesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir, si T > Z a no se rechaza H0 .

EJEMPLO

Dos fuentes de materias primas están siendo consideradas. Ambas fuentes parecen tener características similares, pero no se está seguro de su homogeneidad. Una muestra de 10

grupos de la fuente A produce una varianza de 250 y una muestra de 11 grupos de la fuente B produce una varianza de 195. Con base en ésta información se puede concluir que la varianza de la fuente A es significativamente mayor que la de la fuente B?. Asuma un nivel de confianza del 99 por ciento.

Solución

H 0 : A = B

H1 : A > B

Page 81: CURSO ESTADISTICA 2

Con un nivel de confianza del 99 por ciento, en la tabla de la distribución F con 9 grados de libertad en el numerador y 10 grados de libertad en el denominador, se obtiene un valor para Z de 4,94. Como puede observarse en la figura 3.12, el valor de la estadística de trabajo está en la zona de no rechazo de la hipótesis nula, por lo tanto, con una confiabilidad del 99 por ciento, no se puede rechazar que la variabilidad de las dos fuentes de materia prima es igual.

Figura 3.12 Regla de decisión para una prueba de Hipótesis a una cola superior

PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE MEDIAS

Se tienen dos poblaciones y se toman muestras aleatorias independientes de tamaños n 1 y n 2 , se puede comparar el comportamiento de dichas poblaciones a través de los promedios.

Hipótesis

Como en los casos anteriores se puede plantear uno de los siguientes tres tipos de hipótesis:

- Prueba de hipótesis a dos colas

H0 : = ó H0 : - = k

H1 : ó H1 : - k

- Prueba de hipótesis a una cola superior

H0 : = ó H0 : - k

H1 : > ó H1 : - > k

- Prueba de hipótesis a una cola inferior

H0 : = ó H0 : - k

H1 : < ó H1 : - < k

Page 82: CURSO ESTADISTICA 2

La estadística de trabajo depende de las características de las poblaciones y del tamaño de

las muestras.

3.6.1 . Prueba de hipótesis para la diferencia de medias, si las

muestras se obtienen de poblaciones con distribución normal, con varianzas poblacionales conocidas , la estadística de trabajo es la expresión

(1.10):

(3.9)

REGLA DE DECISION

- Si se ha planteado la hipótesis alternativa como:

H1 : > ó H1 : - > k se tiene una prueba de hipótesis a dos colas, por lo tanto, el

nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.1

y pertenecen a una distribución Normal estándar. Si el valor de la estadística de

trabajo está entre y no se rechaza la hipótesis nula, en caso contrario se rechaza H o lo cual implica aceptar H 1 . Es decir,

- Si se ha planteado la hipótesis alternativa como:

H1 : > ó H1 : - > k, se tiene una prueba de hipótesis a una cola superior, quedando

el nivel de significancia ( ) en la parte superior de la distribución, como se aprecia en la figura 3.2

pertenece a una distribución Normal estándar. Si el valor de la estadística de trabajo es

menor que se acepta la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H<sub>1 . Es decir,

- Si se ha planteado la hipótesis alternativa como:

H1 : < ó H1 : - < k, se tiene una prueba de hipótesis a una cola inferior, quedando

el nivel de significancia ( ) en la parte inferior de la distribución, como se aprecia en la figura 3.3

Z pertenece a una distribución Normal estándar. Si el valor de la estadística de trabajo es

mayor que Z no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir,

Page 83: CURSO ESTADISTICA 2

EJEMPLO

Un constructor está considerando dos lugares alternativos para construir un centro

comercial. Como los ingresos de los hogares de la comunidad son una consideración importante en ésta selección, desea probar que el ingreso promedio de la primera comunidad excede al promedio de la segunda comunidad en cuando menos $1.500 diarios. Con la información de un censo realizado el año anterior sabe que la desviación estándar del ingreso diario de la primera comunidad es de $1.800 y la de la segunda es de $2.400

Para una muestra aleatoria de 30 hogares de la primera comunidad, encuentra que el ingreso diario promedio es de $35.500 y con una muestra de 40 hogares de la segunda comunidad el ingreso promedio diario es de $34.600. Pruebe la hipótesis con un nivel de confianza del 95 por ciento.

Solución

Se desea probar si la diferencia entre los ingresos de la comunidad 1 y la 2 es de $1.500 o más, por lo tanto:

H0 : - 1.500

H1 : - < 1.500

El tamaño de las muestras es grande y las varianzas poblacionales son conocidas, por consiguiente la estadística de trabajo a utilizar es la expresión 3.9

Para un nivel de confianza del 95 por ciento, en la tabla de la distribución normal se tiene un valor de Z de -1,64. Como puede observarse en la figura 3.13, la estadística de trabajo se ubica en la zona de aceptación de la hipótesis nula; por lo tanto, con una confiabilidad del 95 por ciento, la diferencia entre el ingreso promedio por hogar en las dos comunidades es mayor a $1.500 diarios.

Figura 3.13 Regla de decisión para una prueba de hipótesis a una cola inferior

Page 84: CURSO ESTADISTICA 2

3.6.2 Prueba de hipótesis para la diferencia de medias si las

muestras se obtienen de poblaciones con distribuciones diferentes a la normal, pero n1 30 y n2 30 y varianzas poblacionales

desconocidas , la estadística de trabajo es igual al caso anterior, solo que se reemplaza

la varianza poblacional por la muestral:

(3.10)

REGLA DE DECISIÓN

La regla de decisión es la misma que en caso anterior y en todo caso, depende de la hipótesis alternativa.

EJEMPLO

Una muestra de 80 alambres de acero producidos por la fábrica A presenta una resistencia promedio a la ruptura de 1.230 lbs . con una desviación estándar de 120 lbs .. Una muestra

de 100 alambres de acero producidos por la fábrica B presenta una resistencia promedio a la ruptura de 1.110 lbs . con una desviación estándar de 90 lbs .. Con base en ésta información pruebe si la resistencia promedio a la rotura de los alambres de acero de la marca A es significativamente mayor que la de los alambres de acero de la marca B. Asuma un nivel de confianza del 99 por ciento.

Solución

H0 : A = B

H1 : A > B

El tamaño de las muestras es grande, las varianzas poblacionales son desconocidas, por la tanto la estadística de trabajo a utilizar es la expresión 3.10

Con un nivel del confianza del 99 por ciento, en la tabla de la distribución normal el valor de Z es 2,33. como puede observarse en la figura 3.14, la estadística de trabajo está en la zona

de rechazo de la hipótesis nula, por consiguiente, con una confiabilidad del 99 por ciento se acepta que la resistencia promedio de los alambres de la marca A es significativamente mayor que la resistencia promedio de los alambres de la marca B.

Page 85: CURSO ESTADISTICA 2

Figura 3.14 Regla de decisión para una prueba de hipótesis a una cola superior

3.6.3 Prueba de hipótesis para la diferencia de medias si las

muestras se obtienen de poblaciones con distribución normal, con varianzas poblacionales iguales pero desconocidas y n1 <30 y n2 <30 , la estadística de trabajo es la expresión (1.11):

(3.11)

REGLA DE DECISIÓN

La regla de decisión es la misma que en los casos anteriores, pero los valores de la tabla se hallan en una distribución t con (n1 +n2-2) grados de libertad.

Nota . Cuando se tienen muestras pequeñas y se va a realizar una prueba de hipótesis para

la diferencia de medias, primero se debe probar si las varianzas poblacionales son iguales o diferentes, lo cual se hace con la prueba de hipótesis para el cociente de varianzas. Si las varianzas son iguales se aplica el caso 3.6.3 y si son diferentes se aplica el caso 3.6.4.

EJEMPLO

Se desea probar si la cantidad promedio de cera superficial en el lado interno (I) de las bolsas de papel encerado es mayor que la cantidad promedio en el lado externo (E). Para tal efecto se tomó una muestra aleatoria de 25 bolsas, midiéndose la cantidad de cera en cada lado de esas bolsas, obteniéndose los siguientes resultados:

Con base en esta información cuál es su conclusión?. Asuma un nivel de confianza del 90 por ciento.

Solución

Page 86: CURSO ESTADISTICA 2

Con la información suministrada se obtienen los estimadores necesarios:

En consideración a que el tamaño de las muestras es pequeño, antes de realizar la prueba de

hipótesis para la diferencia de medias, se debe probar si las varianzas poblacionales son iguales o diferentes.

H0 : / = 1

H1 : / 1

Para la estadística de trabajo se utiliza la expresión 3.8:

Con una confiabilidad del 90 por ciento, en la tabla de la distribución F con 24 grados de libertad en el numerador y 24 grados de libertad en el denominador, el valor de Z 0,05 es

0,505 y el valor de Z 0,95 es 1,98. como puede observarse en la figura 3.15, la estadística de trabajo cae en la zona de no rechazo de la hipótesis nula, por consiguiente las varianzas poblacionales son iguales.

Como las varianzas poblacionales son iguales, para realizar la prueba de hipótesis para la diferencia de medias se usa la expresión 3.11

H0 : I E

H1 : I > E

Page 87: CURSO ESTADISTICA 2

Con una confiabilidad del 90 por ciento, en la tabla de la distribución t con 48 grados de

libertad, el valor de Z es 1,3. Como puede observarse en la figura 3.16, la estadística de trabajo se encuentra en la zona de no rechazo de la hipótesis nula, por lo tanto, con una confiabilidad del 90 por ciento se concluye que la cantidad promedio de cera en el lado interno no es mayor que la cantidad promedio de cera en el lado externo.

Figura 3.16 Regla de decisión para una prueba de hipótesis a una cola superior

3.6.4 Prueba de hipótesis para la diferencia de medias si las muestras se obtienen de poblaciones con distribución normal, con varianzas poblacionales diferentes pero desconocidas y n1 <30 y n2

<30 , la estadística de trabajo es la expresión (1.12):

(3.12)

REGLA DE DECISIÓN

La regla de decisión es la misma que en los casos anteriores pero los valores de la tabla se hallan en una distribución t con k grados de libertad, siendo:

(3.13)

EJEMPLO

Un fabricante de bombillos sospecha que una de sus líneas de producción está produciendo bombillos con una duración promedio menor que la de otra línea. Para probar su sospecha

toma una muestra aleatoria de 16 bombillos de la línea sospechosa (s) y 18 de la otra línea (c), obteniendo los siguientes resultados:

Page 88: CURSO ESTADISTICA 2

Con ésta información cuál es su conclusión si se asume un nivel de confianza del 90 por ciento.

Solución

Como el tamaño de las muestras es pequeño, para decidir cuál es la estadística de trabajo

adecuada para la prueba de hipótesis de la diferencia de medias, primero se debe probar si las varianzas poblacionales son iguales o no.

H0 : / = 1

H1 : / 1

La estadística de trabajo es:

Con una confiabilidad del 90 por ciento, en la tabla de la distribución F con 15 grados de libertad en el numerador y 17 grados de libertad en el denominador, el valor de Z 0,05 es

0,43 y el valor de Z 0,95 es 2,31. como puede observarse en la figura 3.17, la estadística de

trabajo cae en la zona de rechazo de la hipótesis nula, por consiguiente las varianzas poblacionales son diferentes.

Figura 3.17 Regla de decisión para una prueba de hipótesis a dos colas

Considerando que las varianzas poblacionales son diferentes, la estadística de trabajo a utilizar para la prueba de hipótesis para la diferencia de medias es la expresión 3.12

H0 : S = C

H1 : S < C

La estadística de trabajo es:

Page 89: CURSO ESTADISTICA 2

Con la expresión 3.13 se calculan los grados de libertad de la distribución t

En la tabla de la distribución t, con 26 grados de libertad y una confiabilidad del 90 por ciento, el valor de Z es -1,315. Como se observa en la figura 3.18, la estadística de trabajo cae en la zona de no rechazo de la hipótesis nula, por lo tanto, con una confiabilidad del 90 por ciento se concluye que no hay diferencia en el promedio de producción de las dos líneas.

Figura 3.18 Regla de decisión para una prueba de hipótesis a una cola inferior

PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE PROPORCIONES

Cuando se tienen dos poblaciones y se han tomado muestras aleatorias de tamaños n 1 y n

2, para observar una característica o cualidad, se puede comparar el comportamiento de dicha característica en las poblaciones a través de la diferencia de proporciones.

Hipótesis

Como en los casos anteriores se puede plantear uno de los siguientes tres tipos de hipótesis:

Page 90: CURSO ESTADISTICA 2

- Prueba de hipótesis a dos colas

H0 : 1 = 2 ó H0 : 1 - 2 = k

H1 : 1 2 H1 : 1 - 2 k

- Prueba de hipótesis a una cola superior

H0 : 1 = 2 ó H0 : 1 - 2 k

H1 : 1 > 2 H1 : 1 - 2 > k

- Prueba de hipótesis a una cola inferior

H0 : 1 = 2 ó H0 : 1 - 2 k

H1 : 1 < 2 H1 : 1 - 2 < k

La estadística de trabajo es la expresión 1.14:

(3.14)

REGLA DE DECISION

Como en los casos anteriores depende del tipo de hipótesis que se haya planteado.

- Si se ha planteado la hipótesis alternativa como:

H1 : 1 2 ó H1 : p 1 - p 2 ¹ k se tiene una prueba de hipótesis a dos colas, por lo tanto, el

nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia en la figura 3.1

y pertenecen a una distribución Normal estándar. Si el valor de la estadística de

trabajo (Zp1-p2 ) está entre y no se rechaza la hipótesis nula, en caso contrario se

rechaza H0 lo cual implica aceptar H1 . Es decir, si < Zp1-p2 < no se rechaza H0 .

- Si se ha planteado la hipótesis alternativa como:

H1 : 1 > 2 ó H1 : 1 - 2 > k, se tiene una prueba de hipótesis a una cola superior,

quedando el nivel de significancia ( ) en la parte superior de la distribución, como se aprecia en la figura 3.2

pertenece a una distribución Normal estándar. Si el valor de la estadística de trabajo es

menor que no se rechaza la hipótesis nula, en caso contrario se rechaza H0 lo cual

implica aceptar H1 . Es decir, si Zp1-p2 < no se rechaza H0 .

- Si se ha planteado la hipótesis alternativa como:

Page 91: CURSO ESTADISTICA 2

H1 : 1 < 2 ó H1 : 1 - 2 < k, se tiene una prueba de hipótesis a una cola inferior,

quedando el nivel de significancia ( ) en la parte inferior de la distribución, como se aprecia en la figura 3.3

Z pertenece a una distribución Normal estándar. Si el valor de la estadística de trabajo

(Zp1-p2) es mayor que Z no se rechaza la hipótesis nula, en caso contrario se rechaza H o lo

cual implica aceptar H1 . Es decir, si Zp1-p2 > Z no se rechaza H0 .

EJEMPLO

Se seleccionó una muestra aleatoria de 100 hombres y 100 mujeres de un departamento de Colombia; se halló que de los hombres 60 estaban a favor de una ley de divorcio y de las

mujeres 55 estaban a favor de dicha ley. Con base en ésta información, pruebe que la proporción de hombres que favorece ésta ley es mayor que la proporción de mujeres. Asuma un nivel de confianza del 99 por ciento.

Solución

H0 : H = M

H1 : H > M

Se utiliza la expresión 3.14

Por la hipótesis alternativa se trabaja a una cola superior. En la tabla de la distribución normal con una confiabilidad del 99 por ciento, el valor de Z es 2,33. La estadística de trabajo está en la zona de no rechazo de la hipótesis nula (figura 3.19), es decir, con una

seguridad del 99 por ciento se concluye que no hay diferencia en la proporción de hombres y mujeres que favorecen la ley de divorcio.

Figura 3.19 Regla de decisión para una prueba de hipótesis a una cola superior

Page 92: CURSO ESTADISTICA 2

REGRESION Y CORRELACION

Cuando se posee información acerca de dos o más variables relacionadas, es natural buscar un modo de expresar la forma de la relación funcional entre ellas. Además, es deseable conocer la consistencia de la relación. Es decir, no se busca solamente una relación matemática que nos diga de qué manera están relacionadas las variables, sino que se desea saber también con qué precisión se puede predecir o pronosticar el valor de una variable, si se conocen o suponen valores para las otras variables. Las técnicas usadas para lograr estos dos objetivos se conocen como método de regresión y correlación.

Los métodos de regresión se usan para elegir la "mejor" relación funcional entre las variables, es decir, la función o ecuación que mejor se ajuste a los datos. Mientras que los

métodos de correlación se utilizan para medir el grado de asociación o de relación entre las distintas variables.

Se debe tener en cuenta que la única persona que puede decir con seguridad, que las variables básicas son las que se están utilizando y que el mecanismo básico opera de acuerdo con la función matemática elegida, es una persona bien entrenada en el asunto o campo en el cual se está investigando. El análisis estadístico es solamente un instrumento que ayuda en el análisis e interpretación de los datos.

METODOLOGIA

Para dar un ejemplo de la metodología, consideramos la teoría Keynesiana del consumo1: los

hombres están dispuestos, por regla general y en promedio, a aumentar su consumo a

medida que su ingreso crece, aunque no tanto como el crecimiento de dicho ingreso.

Especificación del modelo . Aunque Keynes postula una relación positiva entre consumo e

ingreso, no especifica la forma precisa de la relación funcional entre las dos variables,

entonces se puede sugerir la siguiente forma para la función de consumo de Keynes:

Y = + X

donde:

Y: son los gastos de consumo

X: ingreso

y parámetros, siendo la pendiente o propensión marginal a consumir.

Estimación : especificado el modelo, se hacen las estimaciones de los parámetros del

modelo a partir de los datos disponibles.

Verificación : Una vez obtenidas las estimaciones de los parámetros, se establece si las

estimaciones obtenidas están de acuerdo con lo que se espera de la teoría que se está

verificando.

Predicciones : La ecuación obtenida se utiliza para predecir el valor futuro de la variable

dependiente con base en valores supuestos para la variable independiente.

MODELO LINEAL SIMPLE

4.2.1 Función de regresión poblacional

Una función de regresión poblacional es la unión de los promedios condicionales de la variable dependiente (Y) para los valores fijos de la variable independiente o explicativa (X), así que:

Page 93: CURSO ESTADISTICA 2

E(Y/Xi ) = f(Xi )

Si E(Y/Xi ) es una función lineal de Xi , se tiene:

E(Y/Xi ) = + Xi

Lo cual nos indica que el valor promedio de Y varía con X. y se denominan coeficientes

de regresión y específicamente, coeficiente de intersección y la pendiente. La ecuación anterior se conoce como función de regresión poblacional.

Para un valor dado de Xi , los valores de Y se concentran alrededor del promedio de Y, lo cual indica que se van a presentar algunas diferencias o desviaciones de un valor individual de Yi alrededor de su valor esperado, por lo tanto:

Y i = E(Y/Xi ) + ui

Donde ui es una variable aleatoria que toma valores positivos o negativos. Esta ui se puede considerar como una variable sustitutiva de todas las variables omitidas que pueden afectar a Y, pero que por una u otra razón no pudieron incluirse en el modelo de regresión.

Reemplazando el E(Y/Xi ) se tiene:

Y i = + Xi + ui

que es la función de regresión poblacional.

4.2.2 Función de regresión muestral

Generalmente es necesario trabajar con información muestral y no poblacional, por lo tanto, se plantea una ecuación que nos permita estimar los valores de E(Y/X i ), b 0 , b 1 y u i ; así que el objetivo es estimar la función de regresión poblacional con base en la función de regresión muestral:

El caso más simple de regresión es cuando se tienen dos variables (una dependiente y una independiente o explicativa), es decir, n parejas de datos.

Una vez especificadas las variables es necesario determinar la relación entre ellas, de la cual se puede tener una idea general, graficando las variables en un sistema de coordenadas, en donde, en el eje de las abcisas se ubica la variable independiente y en el de las ordenadas la variable dependiente; esta gráfica se llama nube de puntos .

La relación más sencilla es la lineal, la función de regresión poblacional es:

Yi = + Xi + ui

Page 94: CURSO ESTADISTICA 2

La cual no se puede observar directamente, por lo tanto, la estimamos a partir de la función

de regresión muestral:

Donde:

El significado gráfico de estos coeficientes aparece en la figura 4.1.

Debido a que los valores observados no forman exactamente una línea recta, es necesario

elegir un método para estimar los coeficientes de regresión que haga mínima la diferencia entre los valores observados y los estimados o ajustados, este método es el de los mínimos cuadrados, (el procedimiento para obtener estos coeficientes se halla en el anexo A) el cual proporciona las ecuaciones 4.2 y 4.3:

Figura 4.1 Representación gráfica de los coeficientes de regresión y

Interpretación de los coeficientes de regresión:

Es el valor promedio de la variable dependiente cuando la independiente vale cero. También se interpreta como el efecto promedio sobre la variable dependiente de todas las variables omitidas en el modelo de regresión.

Page 95: CURSO ESTADISTICA 2

Cuando el valor del coeficiente de intersección sea negativo y su interpretación no sea lógica, se interpreta como cero, pero para efectos de proyección se deja el valor obtenido.

Si la relación entre las variables es directa y mide el incremento de la variable

dependiente por cada aumento de una unidad en la variable independiente. Si la

relación entre las variables es inversa y mide el decremento de la variable dependiente por cada aumento de una unidad en la variable independiente o viceversa.

4.2.3 Supuestos teóricos del método de los mínimos cuadrados

Los supuestos teóricos generales bajo los cuales se ha desarrollado la teoría de la regresión se presentan a continuación:

1. El valor promedio de los errores es igual a cero; E(ei /Xi ) = 0

2. No existe autocorrelación entre los errores; por lo tanto la covarianza (Cov) de los errores es igual a cero, Cov (ei , ej ) = 0 , lo cual implica que no existe autocorrelación en la variable dependiente, es decir, Cov (Yi , Yj ) = 0.

3. La varianza de los errores es constante, es decir existe la homocedasticidad V(ei /Xi ) =

, lo cual implica que V(Yi /Xi ) =

4. No existe correlación entre los errores (ei ) y la variable independiente X, por lo tanto:

Cov (ei , Xi ) = 0

5. El modelo de regresión está correctamente especificado tanto en la forma funcional como en las variables que están en el modelo.

La explicación sobre estos supuestos y sus implicaciones, se trata en el apartado 4.5.

4.2.4 Coeficiente de determinación

El objetivo principal del análisis de regresión es proyectar el valor de la variable dependiente

conociendo o suponiendo valores para la variable independiente. La confiabilidad de las

proyecciones está dada por la confiabilidad de la ecuación, la cual se mide a través del

coeficiente de determinación y de los errores de los coeficientes de regresión. El coeficiente

de determinación (R2 ) nos dice qué tanto se ajusta la línea de regresión a los datos.

Figura 4.2 Descomposición de la variación de Y

Page 96: CURSO ESTADISTICA 2

Para deducir este coeficiente se tiene en cuenta la figura 4.2 en donde se tiene la ecuación

ajustada a unos datos. Para un valor dado de X se ha tomado el correspondiente valor de Y.

La distancia que hay entre el valor observado y la media , puede descomponerse en dos partes que son: la distancia entre el valor observado y el estimado con la ecuación de

regresión y la distancia entre el valor estimado y el promedio , es decir:

Siendo:

: Distancia Total.

: Distancia de una observación a la regresión o residuo

: Distancia de la línea de regresión a la media o distancia de la regresión

Como se tienen n observaciones, para cada caso se presenta la misma situación, por lo tanto

se toma la suma de estas distancias al cuadrado:

En el anexo B se presenta la demostración de que:

Es decir: SCT = SCR + SCE (4.4)

Lo cual indica que la SCT puede descomponerse en dos partes, una describe la variación de

los residuos (SCR) y representa aquella parte de la SCT que no ha sido explicada por la

ayuda de X y la otra parte describe los valores ajustados de Y, es decir, representa aquella

porción de la SCT que ha sido explicada por la regresión de Y sobre X.

Dividiendo la ecuación 4.4 por SCT se obtiene:

El segundo término es el coeficiente de determinación, así que:

Page 97: CURSO ESTADISTICA 2

Donde:

Como puede observarse, el coeficiente de determinación es la proporción de la variable

dependiente explicada por la variable independiente y por lo tanto está entre 0 y 1. Es decir:

0 £ R 2 £ 1.

A medida que el R 2 se acerca a 1, la ecuación de regresión es más confiable, ya que de la

expresión 4.5 se deduce que la SCR tiende a cero y entre más cercano esté el R 2 de cero, la

ecuación es menos confiable ya que la SCE tiende a cero.

Una medida estrechamente relacionada a R 2 pero conceptualmente diferente es el

coeficiente de correlación (R) que es una medida del grado de asociación entre dos

variables. Puede calcularse como:

Donde: Sx y Sy son las desviaciones estándar de X y Y respectivamente.

A continuación se presentan algunas propiedades del coeficiente de correlación (R):

- -1 R 1

- El signo de R depende del signo de la covarianza o de la pendiente ( )

- R es de naturaleza simétrica; lo anterior implica que el coeficiente de correlación entre X y

Y (Rxy ) es igual al coeficiente de correlación entre Y y X (Rxy ).

- Si X y Y son estadísticamente independientes, el coeficiente de correlación entre ellos es

cero, pero si R=0, no se puede inferir que las dos variables sean independientes. En otras

palabras, una correlación igual a cero no implica necesariamente independencia.

- Es una medida de asociación lineal o dependencia lineal únicamente; por consiguiente

no tiene sentido, utilizarlo para describir relaciones no lineales.

En el contexto del análisis de regresión, R2 es una medida más significativa que R, debido a

que el primero muestra la proporción de la varianza en la variable dependiente explicada por

la(s) variable(s) explicativa(s) y, por tanto, proporciona una medida global de la magnitud

del efecto que ejerce la variación existente en una variable sobre la variabilidad de la otra.

De otro lado R no nos permite realizar inferencias de este género. Además, la interpretación

de R en un modelo de regresión múltiple es de un valor dudoso"1

Page 98: CURSO ESTADISTICA 2

El coeficiente de determinación (R2) es útil para evaluar la ecuación de regresión

integralmente, pero es necesario evaluar la confiabilidad de cada uno de los coeficientes de

regresión, lo cual se hace con los errores de estos coeficientes y más específicamente con las

pruebas de hipótesis para cada uno de ellos.

4.2.6 Prueba de hipótesis para los coeficientes de regresion regresion

Como en toda prueba de hipótesis, lo primero que se hace es plantear las hipótesis:

H0 : = 0 (equivalente a decir que la variable Xi no se necesita en el modelo)

H1 : 0 (equivalente a decir que la variable Xi se necesita en el modelo)

Estadística de trabajo:

Regla de decisión (figura 4.3): si < T < se acepta la hipótesis nula, en caso contrario

se rechaza la hipótesis nula. Si el tamaño de la muestra es grande (n 30) los valores de Z se hallan en una tabla de la distribución normal. Si el tamaño de la muestra es pequeño (n < 30) los valores de Z se hallan en una tabla de la distribución t con n-2 grados de libertad.

NOTA : Si la prueba de hipótesis es para , en la hipótesis nula se está planteando que no

es necesario el coeficiente de intersección en el modelo.

Una vez evaluado el modelo de regresión a través del coeficiente de determinación y de las

pruebas de hipótesis, es útil construir un intervalo de confianza para la pendiente ( ), ya

que el valor que se obtiene en el modelo de regresión para , es un estimador puntual

El intervalo de confianza para es:

Como en la prueba de hipótesis, el valor de Z se halla en la distribución normal si n ³ 30 y si n < 30 en la distribución t con n-2 grados de libertad.

Este intervalo se interpreta como los valores dentro de los cuales aumentará (si o

disminuirá si la variable dependiente (Y) por cada aumento de una unidad en la

variable independiente (X), con un nivel de confianza del (1- ) por ciento.

4.2.7 Proyección media

El principal objetivo del análisis de regresión es el proyectar o estimar el valor de la variable dependiente (Y) cuando se conoce o se supone un valor para la variable independiente (X). Este objetivo se logra cuando se reemplaza en la ecuación de regresión 4.1 el valor supuesto

para X. El valor obtenido, es una estimación puntual, por lo tanto se puede construir una

estimación por intervalo, ya sea para el valor individual de Y dado un valor de X o para el valor promedio de Y.

Page 99: CURSO ESTADISTICA 2

4.2.7.1 Proyección individual. Si se desea el intervalo de confianza para el valor individual

de Yi dado un valor de X como Xi , es necesario obtener la desviación estándar para esta estimación, la cual es:

El intervalo de confianza para el valor de Yi es:

4.2.7.2 Proyeccion media. Como en el caso anterior, para obtener el valor promedio de Y dado un valor de X como Xi , se debe obtener la desviación estándar para esta estimación:

El intervalo de confianza para el valor promedio de Y es:

Cuando se utiliza la ecuación de regresión para hacer proyecciones, se debe tener muy presente que a medida de que nos alejemos del rango dentro del cual se observó X, la

proyección pierde confiabilidad y además estos valores proyectados tienen sentido en la medida que se conserven las condiciones bajo las cuales se observaron las variables.

4.2.8 Evaluación de resultados

Después de realizado el análisis de regresión, se deben tener algunos criterios para saber

¿qué tan "buenos" son los resultados?. Ante todo, los signos de los coeficientes estimados

deben estar de acuerdo con las expectativas teóricas o previas.... Segundo, si la teoría o la

experiencia previa nos lleva a creer que un coeficiente determinado es, en términos

estadísticos, significativamente diferente de cero, ... ,entonces si los resultados reales son de

hecho significativos, nuevamente se puede decir que éstos son consistentes con la teoría.

Tercero, puesto que el R2 mide la bondad global del ajuste del modelo de regresión

estimado, se puede decir que el modelo es satisfactorio si el valor de R2 es razonablemente

alto, digamos, alrededor de 0,8. Pero este criterio no se debe ponderar demasiado ,

puesto que siempre se puede aumentar el R 2 agregando al modelo variables explicativas

adicionales. Por tanto, si los dos primeros criterios se cumplen y R2 es razonablemente alto,

todo está bien. Pero si se satisfacen los dos primeros criterios y el valor de R2 es bajo, por

ejemplo, menor que 0.6, no debemos desanimarnos." 1

EJEMPLO

Con la información sobre el consumo anual de agua y el número de suscriptores al servicio

de acueducto en Manizales entre 1977 y 1988 (cuadro 4.1) se aplica toda la teoría vista

anteriormente.

Page 100: CURSO ESTADISTICA 2

Primero se debe identificar cuál es la variable dependiente y cuál la independiente; en éste

caso, el consumo de agua depende del número de suscriptores.

Para tener una idea general sobre el modelo o ecuación que se puede ajustar a éstos datos

se grafica la información en un sistema de coordenadas (Figura 4.4). En ésta gráfica se

puede observar que los datos siguen un comportamiento aproximadamente lineal; por lo

tanto se trabaja con la ecuación 4.1.

Cuadro 4.1. Manizales: consumo anual facturado (en miles de metros cúbicos) y número de

suscriptores al servicio de acueducto en el sector residencial. 1977-1988

AÑOS CONSUMO (Y) SUSCRIPTORES (X)

1977 9.775 22.192

1978 11.028 23.256

1979 11.120 24.747

1980 13.267 27.869

1981 12.045 29.636

1982 12.879 32.458

1983 13.740 36.230

1984 13.673 39.074

1985 13.593 40.729

1986 13.940 41.823

1987 14.990 43.380

1988 15.163 44.684

Fuente: DANE. Monografía de Manizales, 1988. Cuadro 20.1.3, Pág.283

Fuente: cuadro 4.1

Figura 4.4 Manizales: Consumo anual (en miles de metros cúbicos) y número de suscriptores

al servicio de acueducto en el sector residencial. 1977-1988

Con la información del cuadro 4.1 se obtienen los siguientes resultados:

Page 101: CURSO ESTADISTICA 2

n=12 M(X) = 33.839,833 M(X2 ) = 1.206'677.103 V(X) = 61'542.783,3

M(Y) = 12.934,4167 V(Y) = 2'470.383,077 M(X,Y) = 449'151.787

Para obtener se utiliza la ecuación 4.2:

El coeficiente de intersección ( ) indica que el consumo promedio anual de agua, debido a

otras variables no consideradas en el modelo, es de 6'636.730 (6.636,73 * 1000) metros

cúbicos.

La pendiente por ser positiva, indica que hay una relación directa entre el número de

suscriptores y el consumo de agua. El valor de 0,1861 indica que por cada suscriptor más, el

consumo anual de agua se incrementa en 186,1 (0,1861 * 1000) metros cúbicos.

El coeficiente de determinación (R2 ) se obtiene con la ecuación 4.5, para lo cual es necesario

hallar la Suma de Cuadrados Explicada (SCE) y la Suma de Cuadrados Total (SCT), con las

ecuaciones 4.6 y 4.7 respectivamente.

La Suma de Cuadrados de los Residuos (SCR) se obtiene con la ecuación 4.8:

Por lo tanto, el coeficiente de determinación (R2 ) es:

Este resultado indica que la ecuación es confiable, ya que tenemos un valor cercano a 1.

Además, quiere decir que el 86,26% del consumo de agua se debe o está explicado por el

número de suscriptores.

Page 102: CURSO ESTADISTICA 2

Para hacerle la prueba de hipótesis a cada uno de los coeficientes de regresión ( b 0 y b 1 ),

es necesario hallar los errores de los coeficientes, los cuales se obtienen con las ecuaciones

4.10 y 4.11:

Prueba de hipótesis para

H0 : = 0 (no es necesario el coeficiente de intersección en el modelo)

H1 : 0 (es necesario el coeficiente de intersección en el modelo)

Regla de decisión: Para una confiabilidad del 95%, el valor en la distribución t con 10 grados

de libertad es: 2,228. El valor de la estadística de trabajo (T) está en la zona de rechazo

para H 0 (figura 4.5), por lo tanto se acepta que b 0 es diferente de cero, es decir que el

coeficiente de intersección es necesario en el modelo.

Page 103: CURSO ESTADISTICA 2

Figura 4.5 Regla de decisión: prueba de hipótesis para y

Prueba de hipótesis para :

H0 : = 0 (no hay relación entre consumo de agua y No. de suscriptores)

H1 : 0 (sí hay relación entre consumo de agua y No. de suscriptores)

El valor de la estadística de trabajo (T) está en la zona de rechazo para H0 (figura 4.5), por

lo tanto se acepta H1 , lo cual indica que sí hay relación entre el consumo de agua y el

número de suscriptores.

Con el valor obtenido en el coeficiente de determinación, los signos de los coeficientes de

regresión y el resultado de las pruebas de hipótesis se puede concluir que el modelo es

confiable y por lo tanto, lo son las proyecciones o pronósticos que se hagan con dicho

modelo.

Intervalo de confianza para : El valor que se obtuvo para b 1 es una estimación

puntual. La estimación por intervalo se obtiene con la ecuación 4.13:

Indicando que con una confiabilidad del 95%, por cada suscriptor más, el consumo anual de

agua se incrementa entre 129 y 234 metros cúbicos.

Proyección media . Se desea estimar o proyectar el consumo promedio anual de agua, si

se tienen 52.900 suscriptores.

Se reemplaza el valor de X en la ecuación de regresión obtenida, así que:

Por lo tanto, si se tienen 52.900 suscriptores, el consumo promedio anual de agua, es de

16'508.420 metros cúbicos.

La desviación estándar para éste valor proyectado, se obtiene con la ecuación 4.16:

Page 104: CURSO ESTADISTICA 2

El intervalo de confianza para el consumo promedio anual, se obtiene con la ecuación 4.17:

Por lo tanto, con una confiabilidad del 95%, si el número de suscriptores es de 52.900, el

consumo promedio anual de agua, estará entre 15'430.270 y 17' 585.730 metros cúbicos .

Page 105: CURSO ESTADISTICA 2

Intervalo de confianza para la diferencia de medias en dos

poblaciones

MUESTRAS RELACIONADAS o MUESTRAS PAREADAS

Page 106: CURSO ESTADISTICA 2

En general, supóngase que los datos consisten de pares

Las variables aleatorias y

tienen medias y , respectivamente. Sea la diferencia entre las

variables aleatorias en el j-ésimo para, esto es, .

Supóngase que las diferencias están distribuidas de manera normal con

media y varianza . Las variables aleatorias dentro de los

son independientes. Sin embargo, dado que existen dos

mediciones de la misma unidad experimental, es posible las dos

mediciones par no sean independientes. Considérese las

diferencias .

Puede demostrarse con facilidad que la media de la variable

aleatoria es:

debido a que el valor esperado de es la diferencia en los

valores esperados, sin importar si y son independientes. La

varianza de la diferencia es:

Por lo tanto, la media de las diferencias se estima con , el

promedio muestral de las mientras que se estima con , la

varianza muestral de las diferencias .

Para construir el intervalo de confianza nótese que:

sigue una distribución con grados de libertad. Entonces,

Por lo tanto, un intervalo de confianza para se obtiene:

Page 107: CURSO ESTADISTICA 2

Con el anterior intervalo se puede también probar la hipótesis nula

versus la alternativa ,

donde se rechaza la hipótesis nula si el valor cae fuera de este

intervalo de confianza. Además, para probar esta hipótesis se puede

hacer uso del estadístico:

el cual rechaza si

EJEMPLOS

Considerénse el siguiente conjunto de datos:

los cuales tienen que ver con el tiempo que requieren 14 sujetos que

estacionan dos automóviles sustancialmente distintos en cuanto al

Page 108: CURSO ESTADISTICA 2

tamaño de la llanta y la relación de vueltas del volante. Construya un

intervalo de confianza del 90% e interprete el resultado obtenido.

Solución.

El interés es la diferencia entre el automóvil 1 el 2 :

Un intervalo de confianza del 90% para esta diferencia es:

Nótese que el intervalo de confianza para incluye el cero. Esto

implica que, con un nivel de confianza del 90%, los datos no apoyan la

afirmación de que los automóviles tienen diferentes tiempos promedio

de estacionamiento.

Si se utiliza el estadístico, se encuentra:

No rechazandose tambien la hipótesis nula.

Ejercicio 5

El administrador de un lote de automóviles prueba dos marcas de

llantas radiales. Para ello asigna al azar una llanta de cada marca a

las dos ruedas posteriores de ocho automóviles, y luego corre los

automóviles hasta que las llantas se desgastan. Los datos obtenidos

(en kilómetros) aparecen en la siguiente tabla:

Page 109: CURSO ESTADISTICA 2

Encuentre un intervalo de confianza del 99% para la diferencia en el

tiempo promedio de duración y con base en estos resultados, ¿qué

llanta es la que usted preferiría?

Ejercicio 6

Un científico de la computación esta investigando la utilidad de dos

lenguajes de diseño para mejorar las tareas de programación. Se pide a

doce programadores expertos, familiarizados con los dos lenguajes, que

codifiquen una función estándar en ambos lenguajes, anotando el

tiempo, en minutos, que requieren para hacer esta tarea. Los datos

obtenidos son los siguientes:

Page 110: CURSO ESTADISTICA 2

Encuentre un intervalo de confianza del 95% para la diferencia entre

los tiempos de codificación promedio. ¿Existe algo que indique una

preferencia por alguno de los dos lenguajes?

MUESTRAS INDEPENDIENTES Y VARIANZAS CONOCIDAS

Supóngase que se tiene dos poblaciones independientes con medias

desconocidas y , y varianzas conocidas y , respectivamente.

Se desea encontrar un intervalo de confianza del para la

diferencia de las medias

Sean una muestra aleatoria de observaciones tomadas

de la primera población y una muestra aleatoria de

observaciones tomadas de la segunda población. Si y son las

medias muestrales, la estadística es un estimador puntual de

. La variable aleatoria

tiene una distribución normal estándar si las dos poblaciones son

normales, o es aproximadamente normal estándar si se cumplen las

condiciones del teorema del límite central, respectivamente.

Esto implica que:

Page 111: CURSO ESTADISTICA 2

La anterior expresión se puede expresar como:

Por lo tanto, un intervalo de confianza para la diferencia entre

se obtiene:

Con el anterior intervalo se puede también probar la hipótesis nula

versus la alternativa , donde se

rechaza la hipótesis nula si el valor cae fuera de este intervalo de

confianza. Además, para probar esta hipótesis se puede hacer uso del

estadístico:

el cual rechaza si

MUESTRAS INDEPENDIENTES Y VARIANZAS DESCONOCIDAS PERO

IGUALES

Tanto las medias y como las varianzas y son desconocidas.

Sin embargo, considérese que es razonable suponer que las dos

varianzas son iguales; esto es, Se desea encontrar un

intervalo de confianza del para la diferencia de las

medias

Se toman muestras aleatorias de tamaño y de las dos poblaciones

representadas por y , respectivamente; sean y las medias

muestrales, y y las varianzas muestrales. Puesto que y son

estimadores de la varianza común , entonces puede obtenerse un

estimador combinado de , mejor que o por separado. Este

estimador es:

Page 112: CURSO ESTADISTICA 2

Para desarrollar el intervalo de confianza para nótese que la

distribución de la estadística:

es la distribución con grados de libertad. Por lo tanto,

La anterior expresión se puede expresar como:

Por lo tanto, un intervalo de confianza para la diferencia entre

se obtiene:

Con el anterior intervalo se puede también probar la hipótesis nula

versus la alternativa , donde se

rechaza la hipótesis nula si el valor cae fuera de este intervalo de

confianza. Además, para probar esta hipótesis se puede hacer uso del

estadístico:

Page 113: CURSO ESTADISTICA 2

el cual rechaza si

EJEMPLOS

Un artículo publicado en el Hazardous Waste and Hazardous Materials

(Vol. 6, 1989) dio a conocer los resultados de un análisis del peso de

calcio en cemento estándar y en cemento contaminado con plomo. Los

niveles bajos de calcio indican que el mecanismo de hidratación del

cemento queda bloqueado y esto permite que el agua ataque varias

partes de una estructura de cemento. Al tomar diez muestras de cemento

estándar, se encontró que el peso promedio de calcio es 90.0, con una

desviación estándar muestral 5.0; los resultados obtenidos con 15

muestras de cemento contaminado con plomo fueron que el peso promedio

es de 87.0 y una desviación estándar de 4.0.

Supóngase que el porcentaje de peso de calcio está distribuido de

manera normal. Encuéntrese un intervalo de confianza del 95% para la

diferencia entre medias de los dos tipos de cemento. Por otra parte,

supóngase que las dos poblaciones normales tienen la misma desviación

estándar.

Solución

El interés es la diferencia entre el promedio del peso de los cementos

:

Un intervalo de confianza del 95% para la diferencia en los pesos

promedio de los cementos es:

donde,

Por lo tanto, la estimación combinada de la desviación estándar es

El intervalo de confianza del 95% se obtiene como:

Page 114: CURSO ESTADISTICA 2

Nótese que el intervalo de confianza incluye el cero; por

consiguiente, para este nivel de confianza, no puede concluirse la

existencia de una diferencia entre las medias. Dicho de otra manera,

no hay evidencia alguna de que la contaminación del cemento por plomo

tenga efecto sobre el peso promedio de calcio; en consecuencia, con un

nivel de confianza del 95%, no es posible afirmar que la presencia de

plomo afecte este aspecto del mecanismo de hidratación

Si se utiliza el estadístico presentado en (2), se encuentra:

No rechazandose la hipótesis nula.

Si se utiliza el valor p para una prueba de hipótesis bilateral, este

valor resulta igual a 2P(T >T

=2P(T >1.67). Por lo tanto el valor p es tal que 0.1<p-valor<0.2, no

rechazándose la hipótesis nula. Si se decidiera rechazar H , se podría

cometer un error mayor del 10% en el caso que H fuese verdadera.

Nótese que al usar las tres metodologías de decisión, los resultados

concuerdan.

Ejercicio 1

Un fabricante produce anillos para los pistones de un motor de

automóvil. Se sabe que el diámetro del anillo está distribuido

aproximadamente de manera normal, y que tiene una desviación estándar

mm. Una muestra aleatoria de 15 anillos tiene un diametro

promedio de mm.

a. Construya un intervalo de confianza bilateral del 99% para el

diámetro promedio del anillo. b. Construya un límite inferior de

confianza del 95% para el diámetro promedio del anillo.

Ejercicio 2

Un experimento para comparar la resistencia de cohesión a la tensión

del mortero modificado de látex de polímeros (mortero de cemento

portland al que se han agregado emulsiones de látex de polímeros

durante el mezclado), con la resistencia de mortero no modificado

resulto en kgf/cm para el mortero modificado y

kgf/cm para el mortero sin modificaciones . Sean

y las verdaderas resistencias de cohesión a la tensión para los

morteros modificado y no modificado, respectivamente.

Page 115: CURSO ESTADISTICA 2

a. Si se supone que y , pruebe vs

al nivel de significancia del 1%.

b.Mediante un intervalo de confianza pruebe la hipótesis planteada en

el inciso a.