materialestadsticaii-090802234246-phpapp01

70
  UNIDAD 2. ESTIMACIÓN PUNTUAL Objetivo: Calcular los intervalos de confianza de los estimadores para la toma de decisión  Población y muestra  Métodos de muestreo Muestro aleatorio simple Muestreo aleatorio sistemático Muestreo aleatorio estratificado Muestreo por conglomerados  Estimadores  Características de los estimadores  Intervalos de confianza para la media y la proporción  Determinación del tamaño de la muestra UNIDAD 3. PRUEBA DE HIPÓTESIS  Objetivo: Aplicar con propiedad y de forma pertinente a situaciones administrativas la prueba de hipótesis  Qué es una hipótesis  Qué es una prueba de hipótesis  Contraste de hipótesis Paramétricas (Media aritmética y proporción) Para una población Para dos poblaciones UNIDAD 4. REGRESIÓN Y CORRELACIÒN  Objetivo: Aplicar e interpretar el coeficiente de correlación y determinación con el propósito de obtener la relación o variación entre dos variables  Variables dependiente e independientes  Gráfico de dispersión  Coeficiente de correlación Correlación lineal  Coeficiente de determinación  Modelo de análisis de regresión lineal Recta de mínimos cuadrados Error estándar de estimación

Transcript of materialestadsticaii-090802234246-phpapp01

Page 1: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 1/70

 

UNIDAD 2. ESTIMACIÓN PUNTUAL

Objetivo: Calcular los intervalos de confianza de los estimadores para la toma dedecisión

  Población y muestra

  Métodos de muestreo Muestro aleatorio simple Muestreo aleatorio sistemático Muestreo aleatorio estratificado Muestreo por conglomerados

  Estimadores  Características de los estimadores  Intervalos de confianza para la media y la proporción  Determinación del tamaño de la muestra

UNIDAD 3. PRUEBA DE HIPÓTESIS 

Objetivo: Aplicar con propiedad y de forma pertinente a situaciones administrativas laprueba de hipótesis

  Qué es una hipótesis  Qué es una prueba de hipótesis  Contraste de hipótesis

Paramétricas (Media aritmética y proporción) Para una población Para dos poblaciones

UNIDAD 4. REGRESIÓN Y CORRELACIÒN 

Objetivo: Aplicar e interpretar el coeficiente de correlación y determinación con elpropósito de obtener la relación o variación entre dos variables

  Variables dependiente e independientes  Gráfico de dispersión  Coeficiente de correlación

Correlación lineal  Coeficiente de determinación

  Modelo de análisis de regresión lineal Recta de mínimos cuadrados Error estándar de estimación

Page 2: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 2/70

  2

La Estadística es la ciencia que se preocupa de la recolección de datos, suorganización y análisis, así como de las predicciones que, a partir de estos datos,pueden hacerse. Esas predicciones se realizan a través de la estadística inferencialcuyo objetivo es sacar conclusiones generales para toda la población a partir delestudio de una muestra.

La Inferencia Estadística es la parte de la estadística matemática que se encarga delestudio de los métodos para la obtención del modelo de probabilidad (forma funcional yparámetros que determinan la función de distribución) que sigue una variable aleatoria

de una determinada población, a través de una muestra (parte de la población) obtenidade la misma.

Los dos problemas fundamentales que estudia la inferencia estadística  son el"Problema de la estimación"  y el "Problema del contraste de hipótesis"  Cuando seconoce la forma funcional de la función de distribución que sigue la variable aleatoriaobjeto de estudio y sólo tenemos que estimar los parámetros que la determinan,estamos en un problema de inferencia estadística paramétrica , este tipo de problemasson las que abordaremos en este material, el cual está conformado por cuatro unidadessobre: Probabilidad, estimación puntual, prueba de hipótesis y por último correlación yregresión.

Page 3: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 3/70

  3

Uniones, Intersecciones y Relaciones entre Eventos  Un conjunto es toda reunión de objetos. Con frecuencia es de utilidad identificar cómopueden relacionarse los conjuntos entre sí. Con frecuencia es de utilidad identificar

cómo pueden relacionarse los conjuntos entre sí. Se asume que se han identificado dosconjuntos A y B. Cada uno contiene numerosos elementos. Es completamente posibleque algunos elementos. Es completamente posible que algunos elementos estén enambos conjuntos. Por ejemplo, se asume que el conjunto A consta de todos losestudiantes de la clase de estadística, y el conjunto B consta de todos los estudiantesde la universidad que están especializándose en economía. Aquellos elementos(estudiantes) que están en ambos conjuntos son los especialistas en economía de laclase de estadística. Tales estudiantes constituyen la intersección entre A y B, que seescribe  B A   y se lee como “A intersección B”, consta de los elementos que soncomunes tanto a A como a B. Un diagrama de Venn es una herramienta útil paramostrar la relación entre conjuntos, observemos:

Notación

Por lo regular se usan letras mayúsculas para representar a los conjuntos, y letrasminúsculas para representar a los elementos de un conjunto dado. Si es un

conjunto, y todos sus elementos, es común escribir:

para definir a tal conjunto . La notación empleada para definir al conjunto sellama notación por extensión . Para representar que un elemento pertenece a un

conjunto , escribimos (léase en ). La negación de se escribe.

Si todos los elementos de un conjunto satisfacen alguna propiedad, misma que

pueda ser expresada como una proposición , con la indeterminada , usamos lanotación por comprensión , y se puede definir

ATodos los

estudiantes la

clase

BTodos los

especialistas en

economía

“A intersección de B” 

Especialistas en economía en la clase

Page 4: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 4/70

  4

donde el símbolo se lee "tal que", y puede ser remplazado por una barra . Por

ejemplo, el conjunto puede definirse por

.

El símbolo representa al conjunto de los números naturales. 

Complemento de un conjunto

Dado un conjunto , se representa por al complemento de , el cual es un

conjunto que verifica la proposición para cualquiera quesea el elemento . Así pues, está formado por todos los elementos que no son delconjunto .

Igualdad entre conjuntos. Subconjuntos y Superconjuntos

Igualdad de conjuntos

Dos conjuntos y se dicen iguales , lo que se escribe si constan de losmismos elementos. Es decir, siempre que para cualquiera que sea el elemento , severifique

Subconjuntos y Superconjuntos

Un conjunto se dice subconjunto  de otro , si todo elemento de es también

elemento de , es decir, cuando se verifique

,

sea cual sea el elemento . En tal caso, se escribe .

Cabe señalar que, por definición, no se excluye la posibilidad de que si , secumpla A = B . Si tiene por lo menos un elemento que no pertenezca al conjunto ,pero si todo elemento de es elemento de , entonces decimos que es unsubconjunto propio de , lo que se representa por .Si es un subconjunto de , decimos también que es un superconjunto de ,

lo que se escribe . Así pues

,

y también

,significando que es superconjunto propio de .

Page 5: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 5/70

  5

Por el principio de identidad, es siempre cierto , para todoelemento , por lo que todo conjunto es subconjunto (y también superconjunto) de símismo.Vemos que es una relación de orden sobre un conjunto de conjuntos, pues

para todo , y es reflexiva .

, y es antisimétrica  

, y es transitiva  

Operaciones con conjuntos: Unión, Intersección, Diferencia y Diferencia Simétrica.Sean y dos conjuntos.UniónLos elementos que pertenecen a o a o a ambos y , forman otro conjunto,llamado unión de y , escrito . Así pues, se tiene

.

Intersección

Los elementos comunes entre y forman un conjunto denominado intersección dey , representado por :

.

Si dos conjuntos y son tales que , entonces y se dicenconjuntos disjuntos .

Ejemplos: si tenemos los conjuntos

Entonces:

Diferencia

Los elementos de un conjunto que no se encuentran en otro conjunto , formanotro conjunto llamado diferencia de  y , representado por, :

.

Vemos que

,de manera que

Page 6: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 6/70

  6

. Pero también

,de modo que

Diferencia simétrica

Se define la diferencia simétrica de dos conjuntos por

CuantificadoresLos cuantificadores sirven para indicar cuantos elementos de un conjunto dado cumplen

con cierta propiedad. Tales cuantificadores son:

El cuantificador universal , representado por . Este cuantificador se emplea paraafirmar que todos  los elementos de un conjunto cumplen con determinada propiedad.Se escribe

.

La proposición anterior suele usarse como la equivalente de

El cuantificador existencial se usa para indicar que al menos un elemento de unconjunto cumple con una propiedad. Se escribe:

La proposición del cuantificador existencial suele interpretarse como la equivalente de la

proposición

Se definen

AplicacionesSean y dos conjuntos. Un subconjunto , se dice aplicación deen , lo que se representa por

siempre que se verifiquen

Page 7: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 7/70

  7

Si , el elemento se dice imagen de por , y el elemento se llama

antecedente de por .

Sea una aplicación . Se emplea la notación para representar a la

imagen de por , y por tanto .

Sean las aplicaciones y . Se define

,

y se dice que es el producto de composición de las aplicaciones y .

Vemos que

y por lo que

Page 8: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 8/70

  8

Unidad I

Probabilidad

Objetivo:Conocer los conceptos de probabilidad a fin de establecer las posibles relaciones entreeventos que permitirán reducir riesgos en a toma de decisiones en a practicaprofesional

Contenidos:

Probabilidad normalConceptos BásicosProbabilidadesExperimentos, resultados y eventoEspacio muestralPunto muestralSucesos y sus probabilidades

Distribuciones de probabilidadVariable aleatoria

Valor esperadoProbabilidad binomialProbabilidad normal

Page 9: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 9/70

  9

Probabilidad 

Probabilidad es un concepto que en administración nos permite trabajar en función denuestras expectativas con la ocurrencia algún resultado, esto significa que hacemosproyecciones sobre la posibilidad de éxito o fracaso de un suceso, lo que a su vez

genera una reducción de riesgos y de incertidumbre en la toma de decisiones.

Probabilidad es una palabra que empleamos de forma cotidiana, y, efectivamentecuando preguntamos ¿Qué probabilidad hay de que esté listo para hoy? Suponemosque la persona que va a contestar nos dará una respuesta que nos permitiráproyectarnos y predecir eventos a futuro; si la respuesta es “no creo por que tienesvarias personas por delante” eso nos va programando para dos acciones que impediránque ese evento interrumpa nuestro accionar. Así mismo pasa en administración, puesun administrador debe considerar todos los escenarios posibles a la hora de decidir lasacciones que debe emprender una organización, a fin de minimizar la incertidumbre yreducir riesgos.

El propósito de esta unidad es ofrecer en una primera parte los conceptos básicossobre probabilidad y luego la aplicación de dichos conceptos en la construcción de lasdistribuciones de probabilidad, que es una lista que contiene todos los resultados de unexperimento y la probabilidad de ocurrencia de cada uno de ellos.

“No sé cuandopodrá realizarse elsueño de Bolívarpero nosotrosiremos poniendo laspiedras” 

AugustoSandino

Page 10: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 10/70

  10

UNIDAD I. PROBABILIDAD 

Probabilidad

Es la posibilidad de que algo va a ocurrir, es medida entre 1 y 0. Mientras mayor sea laprobabilidad de que el evento ocurra, la probabilidad asignada estará más cerca deuno, si hay certeza del que el evento va a ocurrir la probabilidad es de 1, y por elcontrario la posibilidad de que no ocurra es de 0.

Existen tres formas de enfocar la probabilidad: el modelo de frecuencia relativa, elmodelo subjetivo y el modelo clásico. El modelo de frecuencia relativa utiliza datos quese han observado empíricamente, registra la frecuencia con que ha ocurrido algúnevento en el pasado y estima la probabilidad de que el evento ocurra nuevamente conbase en estos datos históricos. La probabilidad de un evento con base en el modelo defrecuencia relativa se determina mediante:

P (E)=

Si por ejemplo durante el año pasado hubo 200 nacimientos en un hospital local, de loscuales 122 fueron varones el modelo de frecuencia relativa revela que la probabilidadde que el próximo nacimiento o un nacimiento seleccionado al azar sea una niña seobtiene dividiendo el número de niñas que nació el año anterior dividido entre le númerototal de nacimientos:

39,0200

78

)( niñaP  

Si consideramos en el concepto anterior de probabilidad, en el cual es establece que lasi la probabilidad es cercana a uno es tiene mayores oportunidades de ocurrencia, ennacimiento de una niña en ese hospital es un evento poco probable.

El modelo subjetivo se utiliza cuando se desea asignar probabilidad a un evento quenunca ha ocurrido, por ejemplo la probabilidad de que una mujer sea elegida comoPresidente de Venezuela, como no hay datos confiables se analizan las opiniones y lastendencias para obtener una estimación subjetiva.

El último y tercer modelo de probabilidad es el clásico relacionado con mayorfrecuencia a las apuestas y juegos de azar. La probabilidad clásica se basa en lasuposición de que los resultados de un experimento sean igualmente probables. Laprobabilidad de un evento por medio de este modelo se determina mediante.

P(E)=

Para ejemplificar observemos la aplicación de la ecuación

Número de veces que ha ocurrido el evento en el pasado

Número total de observaciones

Número de formas en las que puede ocurrir un evento

Número total de resultados posibles

Page 11: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 11/70

  11

P(cara)= Número de formas en las que el evento puede ocurrir / Número total deposibles resultados

5,02

1)( caraP  

En este ejemplo sólo hay una posibilidad de que salga cara, y dos posibles resultados,

que salga cara o que salga sello. Según el resultado de la ecuación existen igualesposibilidades de que salga cara o sello, pues la probabilidad se halla en medio de 0 y 1.

Aun sin conocer a fondo la probabilidad clásica, se puede estar consciente de que laprobabilidad de obtener una cara en el lanzamiento de una moneda es de la mitad.

ExperimentoSeguramente asocias la palabra experimento a las ciencias físicas donde nosimaginamos a alguien mezclando químicos y manipulando tubos de ensayos, sinembargo, en administración se realizan experimentos para conocer los posiblesresultados de una acción. Se dice que experimento es toda acción definida que conllevaa un resultado único bien definido que tiene dos o más posibles resultados y no se sabecuál va a ocurrir.

ResultadoUna consecuencia particular de un experimento.

EventoUna colección de uno o más resultados. De acuerdo a como se relacionan los eventosde un experimento se pueden clasificar en: mutuamente excluyentes, colectivamenteexhaustivos, independientes o complementarios.Mutuamente excluyente : la ocurrencia de cualquiera de los eventos implica queninguno de los otros eventos puede ocurrir al mismo tiempo. Como ejemplo tenemos ellanzamiento de una moneda en la cual si sale cara garantiza que no puede salir sello.

Tipos de

Probabilidad

Probabilidad

Objetiva

Modelo Clásico

Modelo de

Frecuencia

Relativa

Probabilidad

Modelo

Subjetivo

Page 12: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 12/70

  12

Colectivamente exhaustivo : por lo menos uno de los eventos tiene que ocurrir, unejemplo es el lanzamiento de un dado, los resultados posibles son 1,2,3,4,5 y 6 y existela certeza que uno de ellos va a ocurrir.Independientes: son eventos en los que la ocurrencia de uno no tiene nada que ver conla ocurrencia del otro, por ejemplo lanzar un dado y una moneda a la vez, el resultadodel lanzamiento del dado no afecta al de la moneda.

Complementarios:  son los eventos en los que si un evento no ocurre debe ocurrir elotro. Una buena representación de estos eventos la podemos apreciar al lanzar un dadopodemos decir que un evento A es sacar un número par, pero si esto no ocurre, elcomplemento es sacar un número impar. En estos casos los eventos se denominan “A”y “no A”. 

Existe una última categoría que son los eventos compuestos  consiste en la co-ocurrencia de dos o más eventos aislados. Las operaciones de conjuntos deintersección y unión implican eventos compuestos. De esta manera si se lanza unamoneda y un dado a la vez el resultado es un evento compuesto y se puede calcular laprobabilidad de tal evento. Los eventos compuestos son más interesantes e incluso

más útiles en la administración ya que por medio de ellos pueden estudiarse lasrelaciones entre dos sucesos que ocurren de forma paralela.

Para que visualicemos mejor las definiciones de experimento, resultado y evento,observemos el siguiente cuadro:

Experimento:Tirar un dado

Todos los resultados 

posibles

Obtener un 1Obtener un 2Obtener un 3

Obtener un 4Obtener un 5Obtener un 6

Algunos eventos posiblesObtener un número parObtener un número mayor que 4Obtener el número 3 o uno menor

En el experimento del lanzamiento de un dado hay seis posibles resultados, pero haymuchos eventos posibles.

Ejercicio 1:

Clasifica los siguientes eventos:El lanzamiento de dos monedas a la vez ___________________________________ Que un vuelo de avión salga retrasado ____________________________________ Que un bebé sea varón ________________________________________________ Que la comida de hoy no quede salada ____________________________________ Que en la próxima temporada de béisbol Magallanes sea el campeón____________ 

Page 13: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 13/70

  13

Espacio de Muestras y Eventos

Los elementos de básicos de la teoría de probabilidades son los resultados del procesoo fenómenos bajo estudio. Cada tipo posible de ocurrencia se denomina un evento. Unevento simple puede describirse mediante una característica sencilla. La complicaciónde todos los eventos posibles se llama espacio muestral. Un evento conjunto es un

evento que tiene dos o más características.Para calcular la probabilidad de cualquier resultado es necesario primero determinar elnúmero total de resultados posibles; en un dado, por ejemplo, los resultados posiblesson 1,2,3,4,5,6. Llamemos a este conjunto U, ya que es el espacio muestral o universode posibles resultados. El espacio muestral incluye todos los posibles resultados en un“experimento” que son de interés para el experimentador. Los elementos primarios de Uson llamados elementos o puntos muéstrales. Se escribe, entonces, U = {1,2,3,4,5,6}Veámoslo representado en un diagrama de Venn:

Aclarando la imagen anterior decimos que un evento es un subconjunto de U; cualquierelemento de un conjunto es también un subconjunto del conjunto. Algunas vecespuede ser complicado determinar un espacio muestral, sin embargo para ello nosapoyamos en la teoría de conjuntos. Los conjuntos pueden definirse listando todos losmiembros de conjunto y estableciendo una regla de inclusión de los elementos en él.

Distribuciones de Probabilidad

Una distribución de probabilidad aporta el rango completo de valores susceptibles deocurrir con base en un experimento. Una distribución de probabilidad es similar a unadistribución de frecuencia, con la diferencia que no describe el pasado sino muestra quetan probable es que ocurra un evento. Dado que esta clase de distribuciones se ocupande las expectativas son modelos de gran utilidad para hacer inferencias y tomar

decisiones en condiciones de incertidumbre.Variable Aleatoria.

Una variable aleatoria es aquella que asume diferentes valores, a consecuencia de losresultados de un experimento aleatorio, cada uno de los cuales tiene una determinadaprobabilidad. Por ejemplo si contamos la cantidad de alumnos inasistentes a las clasesde estadística II durante un mes, el número de ausencias es la variable aleatoria. Si esavariable toma sólo valores enteros, se dice que es de tipo discreto, tal es el caso delejemplo anterior, sería imposible decir que faltaron 3,5 estudiantes. Pero si por el

1 23

4

5 6

El conjunto de losnúmeros del 1 al 6, es el

espacio muestral

U = {1,2,3,4,5,6}

Cadaelemento

dentro del

conjunto esun punto

muestral

Page 14: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 14/70

  14

contrario la variable puede tomar valores fraccionarios se dice que es de tipo continuo.Un ejemplo de una variable aleatoria discreta es el peso de los perros que recibe unveterinario en su consulta, 50.5 Kg, 25.6 Kg, etc.

Supongamos que tenemos una variable aleatoria x , y que esta puede tomar los valores

n x x x x ..., 32,1 que pueden ser discretos o continuos; cada uno de estos valores tiene

cierta probabilidad que en la práctica se desconoce; sin embargo, a través deplanteamientos teóricos podemos obtener dichas probabilidades, a las cualesdesignamos por f(x); al desarrollo que toman estos valores de f(x), es lo que se llamadistribuciones de probabilidad de la variable aleatoria x. Estas distribuciones deprobabilidad toman diferentes formas o tipos, sin embargo, las más importantes son ladistribución binomial y la distribución normal.

Valor Esperado.

El valor esperado es un concepto fundamental en el estudio de las distribuciones deprobabilidad. Desde hace muchos años este concepto ha sido aplicado ampliamente enel negocio de seguros y en los últimos veinte años ha sido aplicado por otrosprofesionales que casi siempre toman decisiones en condiciones de incertidumbre. Paraobtener el valor esperado de una variable aleatoria discreta, multiplicamos cada valorque ésta puede asumir por la probabilidad de ocurrencia de ese valor y luego sumamoslos productos. Es un promedio ponderado de los resultados que se esperan en el futuro.

Probabilidad Binomial

Es una distribución de probabilidad que emplea las variables aleatorias discretas, suprincipal característica es que sólo existen dos resultados posibles para cadaexperimento, gracias a ello su nombre bi nomial; además posee las siguientespropiedades:

1. Sólo debe haber dos resultados posibles. Uno se identifica como éxito y el otro comofracaso, pero este resultado no trae una connotación de bueno o malo, es decir, unéxito no significa que el resultado sea deseable.

2. La probabilidad de que una observación se clasifique como éxito, p, es constante deobservación a observación. Por tanto, la probabilidad de que una observación seclasifique como fracaso, q= 1-p, es constante sobre todas las observaciones.

3. Cada observación puede clasificarse en una o dos categorías mutuamenteexcluyentes y colectivamente exhaustivas. El resultado de cualquier observación esindependiente del resultado de cualquier observación.

4. El experimento puede repetirse muchas veces, pues un experimento no afecta alotro.

Una variable aleatoria es una variable cuyovalor es el resultado de un evento aleatorio.

Page 15: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 15/70

  15

Como ya se mencionó el símbolo p representa la probabilidad de un éxito y el símboloq ( 1- p ) representa la probabilidad de un fracaso. Para representar cierto número deéxitos, utilizaremos el símbolo r y para simbolizar el número total de ensayosemplearemos el símbolo n.

Entonces tenemos que: 

P Probabilidad de éxito.Q Probabilidad de fracaso.r Número de éxitos deseados.n Número de ensayos efectuados.

Calcular la probabilidad de r éxitos en n ensayos según la formula binomial se calculaasí:

r nr q pr nr 

nP

)!(!

!

 

Cómo se construye una Distribución de Probabilidad Binomial 

Para elaborar una distribución de probabilidad binomial es necesario conocer el númerode ensayos y la probabilidad éxito de cada ensayo, por ejemplo si un estudiantepresenta una prueba de selección conformada por 20 preguntas y cada una tiene 5opciones de respuestas, se dice que habrán 20 ensayos (las preguntas); y si dentro delas 5 opciones de respuesta sólo una es la correcta, podemos decir que del 100% deposibilidades cada estudiante tiene 20% de posibilidad de responder sin saber, es decir,una persona sin conocimientos tiene una probabilidad de 0,20 de aprobar la pruebaacertando las respuestas.

Recordemos que el símbolo factorial! Significa, por

ejemplo que es 3! = 3*2*1 = 6

Los matemáticos definen 0! = 1.

Es necesario saber que las observaciones o experimentos pueden ser con o sin reemplazo , para comprender mejor estas definiciones leamos el siguienteejemplo: Queremos conocer la probabilidad de que salga una esfera roja deuna bolsa que contiene 4 esferas, 3 azules y 1 roja. Si el experimento es con

reemplazamiento, al meter la mano en la bolsa y extraer la pelota se observael color y se vuelve a depositar en la misma; por el contrario, si el experimentoes sin reemplazamiento se extrae la bola, se observa el color y se deja afuerapara continuar con los siguientes resultados. Es importante resaltar que losexperimentos con reemplazo se convierten en infinitos.

Page 16: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 16/70

  16

Ejemplo:La Línea área Conviasa tiene 5 vuelos diarios a Barquisimeto. Supongamos que laprobabilidad de que alguno de los vuelos salga retrasado es de 0.20 ¿Cuál es laprobabilidad de que ninguno de los vuelos hoy salga retrasado?

Utilicemos la fórmula r nr q p

r nr 

nP

)!(!

! , considerando que n=5 vuelos, y p=0,20

3277,0)3277,0(1)3277,0(1)120(1

12080,020,0

)!05(!0

!5

)!(!

! 50

r nr q p

r nr 

nP  

La probabilidad de que ninguno de los vuelos salga retrasado es de 0,32; si retomamosque el concepto de probabilidad, el cual se mide dentro del rango 0-1 podemos afirmarque es baja la probabilidad de que ningún vuelo salga retrasado. Ahora bien siqueremos tener una estimación de cuantos vuelos saldrán retrasados entonces

construimos la distribución de probabilidad binomial, para ello sustituiremos r por losvalores 1,2,3,4,y 5. Como ya sustituimos la ecuación con el valor r=0, a continuación semuestra el desarrollo del ejercicio con r=1 y r=5.

4096,0)08,0(5)4096,0(2,0)24(1

12080,020,0

)!15(!1

!5

)!(!

! 41

r nr q p

r nr 

nP  

0032,0)0032,0(1)1(0032,0)1(120

12080,020,0

)!55(!5

!5

)!(!

! 05

r nr q p

r nr 

nP  

Ejercicio 2:Ahora realiza tú la ecuación sustituyendo r por los valores 2, 3 y 4. En la tabla de laDistribución Binomial, que se te presenta a continuación, se muestran los resultadospara que verifiques tu ejercicio:

Distribución Binomial para n=5, p=0,20

Número de Vuelos conRetraso Probabilidad

0 0.32771 0.40962 0.20483 0.05124 0.00645 0.0003

Total 1.0000

No olvides que q =1-p  

Page 17: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 17/70

  17

La distribución binomial también se puede expresar de forma gráfica

Ejercicio 3:Imaginemos una escuela primaria donde los alumnos llegan tarde a menudo. Cincoalumnos están en el jardín de niños. La directora lleva tiempo estudiando el problema,habiendo llegado a la conclusión de que hay una probabilidad de 0.4 de que un alumnollegue tarde y de que los alumnos lleguen independientemente uno de otro ¿Cómotrazamos una distribución binomial de probabilidad que ilustre las probabilidades de que0,1,2,3,4 ó 5 estudiantes lleguen tarde simultáneamente?

Medidas de tendencia central y de dispersión para la distribución binomial.La distribución binomial tiene un valor esperado o media ( ) y una desviación estándarque nos permite determinar que tan alejados están los datos de la media o promedio(). Podemos representar la media de una distribución binomial de la siguiente forma:

= n p

donde :n= número de ensayos.p= probabilidad de éxitos.

Y la desviación estándar de la siguiente forma:q pn ..   

donde :n= número de ensayos.p= probabilidad de éxito.q= probabilidad de fracaso.

Distribución de Probabilidad Binomial

0,3277

0,4096

0,2048

0,0512

0,0064 0,0003

0

0,05

0,1

0,15

0,2

0,25

0,3

0,350,4

0,45

Vuelos retrasados

       P     r     o       b     a       b       i       l       i       d     a       d

Recuerda que la Desviación

Estandar se determina

calculándole la raíz cuadrada

de la Varianza or lo ue

Recuerdas los gráficos de

barras estudiados enEstadística I, ahora también

los puedes utilizar paragraficar la Distribución de

Probabilidad Binomial.

Page 18: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 18/70

  18

Ejemplo:Una máquina empaquetadora que produce 20% de paquetes defectuosos. Si se extraeuna muestra aleatoria de 10 paquetes, podremos calcular la media y la desviaciónestándar de la distribución binomial de ese proceso en la forma que sigue: = np = 10*0.2 = 2 Media. 

= npq = (10) (0.2) (0.8) = 1.6 = 1.265 Desviación estándar.

Probabilidad normal

De todas las distribuciones de probabilidad la normal es la más importante. Estadistribución es frecuentemente utilizada en las aplicaciones estadísticas; su propionombre indica su extendida utilización, justificada por la frecuencia o normalidad con laque ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución.Muchas variables aleatorias continuas presentan una función de densidad cuya gráficatiene forma de campana. En otras ocasiones, al considerar distribuciones binomiales,

tipo B(n,p), para un mismo valor de p  y valores de n  cada vez mayores, se ve que suspolígonos de frecuencias se aproximan a una curva en "forma de campana".

La distribución normal de probabilidad es una distribución de probabilidad continuatanto simétrica como mesocúrtica. La curva de probabilidad de probabilidad querepresenta a la distribución normal de probabilidad tiene forma de campana

La distribución normal de probabilidad es importante para la inferencia estadísticaporque:

▪ Se sabe que las medidas obtenidas en muchos procesos aleatorios siguenesta distribución.

▪ Las probabilidades normales suelen servir para aproximar otrasdistribuciones como la binomial.

▪ Las distribuciones estadísticas como la media muestral y la proporciónmuestral tienen distribución normal cuando el tamaño de muestra esgrande, independientemente de la población de origen.

Ambas mitades de la

campana son idénticas

Platicúrtica

Leptocúrtica

Mesocúrtica

Media, mediana y moda son iguales

Page 19: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 19/70

  19

Propiedades de la Distribución Normal

La distribución normal tiene varias propiedades teóricas importantes, entre las cualesestán:1. Tiene forma de campana, es simétrica en apariencia y posee un solo pico en el

centro de la distribución.

2. Sus mediciones de tendencia central (media, mediana, moda) son iguales y seubican en el pico.3. Su dispersión media es igual a 1.33 desviaciones estándar. El valor de su alcance

intercuartil puede diferir ligeramente de 1.33 desviaciones estándar.4. La curva normal desciende suavemente en ambas direcciones a partir del valor

central. Es asintótica, lo que significa que la curva se acerca cada vez más al eje delas X pero jamás llega a tocarlo. Es decir, las colas de la curva se extienden demanera indefinida en ambas direcciones.

Para saber si una distribución es simétrica, hay que precisar con respecto a qué. Unbuen candidato es la mediana, ya que para variables continuas, divide al histograma defrecuencias en dos partes de igual área. Podemos basarnos en ella para, de formanatural, decir que una distribución es simétrica si el lado derecho de la gráfica (apartir de la mediana) es la imagen por un espejo del lado izquierdo

Cuando la variable es discreta, decimos que es simétrica, si lo es con respecto a lamedia. Se podría pensar que definir la simetría con usando la mediana para variablescontinuas y usando la media para variables discretas es una elección arbitraria. Enrealidad esto no es así, pues si una variable es continua, coinciden los ambos criteriosde simetría (con respecto a la media y a la mediana). Es más, se tiene que media ymediana coinciden para distribuciones continuas simétricas. Por otro lado, en el caso devariables discretas, la distribución es simétrica si el lado derecho del diagrama seobtiene por imagen especular desde la media. En este caso coincide la media con lamediana si el número de observaciones es impar.

Pero… ¿Qué es Simetría y Asimetría? 

Page 20: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 20/70

  20

Si la variable es continua simétrica y unimodal, coinciden la media, la mediana y lamoda.Dentro de los tipos de asimetría posible, vamos a destacar los dos fundamentalesAsimetría positiva: Si las frecuencias más altas se encuentran en el lado izquierdo de la media, mientrasque en derecho hay frecuencias más pequeñas (cola ).

Asimetría negativa: Cuando la cola está en el lado izquierdo.

Simetría y Asimetría en la Curva Normal

La importancia de la distribución normal viene dada por tres razones:1. Numerosos fenómenos continuos parecen seguirla o pueden aproximarse mediante

ésta.2. podemos usarla para aproximar diversas distribuciones de probabilidad discreta y

evitar así pesados cálculos3. Proporciona la base de la inferencia estadística clásica debido a su relación con el

teorema del límite central.

Page 21: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 21/70

  21

Cómo se construye una Distribución de Probabilidad Normal

Construir una distribución de probabilidad, tal y como lo hicimos con la binomial seríaimposible debido a que la probabilidad normal está determinada por la media ( ) y ladesviación estándar (  ). Lo bueno es que podemos utilizar un solo dato de la familia dedistribuciones normales para dar respuestas a todos los problemas que decidamos

resolver con este tipo de distribución. La que tiene una media de 0 y una desviaciónestándar de 1 se le conoce como distribución normal estándar. Todas las distribucionesnormales pueden convertirse a “distribución normal estándar” restando la media de cadaobservación y dividiendo por la desviación estándar, utilizando un valor z.

Áreas bajo la curva normal.

La primera aplicación de la distribución normal supone encontrar el área bajo la curvanormal entre una media y un valor seleccionado designado como x. No importa cuáles

sean los valores de   y   para una distribución de probabilidad normal, el área bajo lacurva es 1,00; de manera que podemos pensar en áreas bajo la curva como si fueranprobabilidades. Matemáticamente:

Aproximadamente el 68% de todos los valores de una población normalmentedistribuida se encuentran dentro + 1 desviación estándar de la media.Aproximadamente 95,5% de todos los valores de una población normalmentedistribuida se encuentran dentro de + 2 desviaciones estándar de la media.Aproximadamente 99,7% de todos los valores de una población normalmentedistribuida se encuentran dentro de + 3 desviaciones estándar de la media.

Las tablas estadísticas indican porciones del área bajo la curva normal que estáncontenidas dentro de cualquier número de desviaciones estándar (más, menos) a partirde la media.

No es posible ni necesario tener una tabla distinta para cada curva normal posible. Enlugar de ello, podemos utilizar una distribución de probabilidad normal estándar  paraencontrar áreas bajo cualquier curva normal. Con esta tabla podemos determinar elárea o la probabilidad de que la variable aleatoria distribuida normalmente esté dentro

Valor Z: La distancia entre un valor seleccionado, designado X, y la media ,dividida por la desviación estándar.

Donde:X: es el valor de cualquier observación o medición específica.: es la media de la distribución.: es la desviación estándar de la distribución

Page 22: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 22/70

  22

de ciertas distancias a partir de la media. Estas distancias están definidas en términosde desviaciones estándar.

Para cualquier distribución normal de probabilidad, todos los intervalos que contienen elmismo número de desviaciones estándar a partir de la media contendrán la mismafracción del área total bajo la curva para cualquier distribución de probabilidad normal.

Ejemplo (Tomado de http://www.monografias.com/trabajos26/distribucion-continua/distribucion-continua.shtml)

El Instituto Especializado Materno Perinatal desea conocer la probabilidad de que alhacer una prueba de hemoglobina en gestantes adolescentes que acuden a lainstitución en el tercer trimestre del embarazo, se obtenga un resultado menor a 11mg/dl; para lo cual toma una muestra al azar de 30 gestantes menores de 19 años,cuya edad gestacional este comprendida entre 28 – 40 semanas.

Datos:n = 30 x =10.547   = 0.718

Base de datos: Nivel de Hemoglobina en gestaciones de adolescentes en el 3er.Trimestre del embarazo. n = 30

10.9 11.2 9.8  11.6 9.9  10.0 11.2 10.2 10.8 9.5  10.0 10.9 11.5 10.4 10.9 

10.3 11.7 11.2 9.8  10.4 11.4 11.3 10.5 10.2 11.1 10.6 9.9  8.9  10.8 9.5 

Prueba estadística : Distribución Normal Estándar o ZSi sabemos que:Media: 10.55Desviación Estándar: 0.71Cálculo del estadístico z :X - m 11- 10.55 0.45 = 3.75z = Sx = 0,71/Ö 30 = 0.12

P(X<11) confirmado en la tabla de la función normalizada z =3.75

La Función de Normalización, z = 0.64 

Tenemos los siguientes datos:

Distribución  Distribución 

Normal Estándar  Normal 

X 11

Media  10.55 0

Desviacion Estandar  0.71 1

Z  0.64

Page 23: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 23/70

  23

De estos datos podemos hacer la siguiente tabla de distribuciones

X  f(X)  Z  f(Z) 

8.42 0.0013 -3 0.0013

9.13 0.0227 -2 0.0227

9.84 0.1591 -1 0.1591

10.55 0.5019 0 0.5019

11.26 0.8432 1 0.8432

11.97 0.9778 2 0.9778

11.26 0.8432 1 0.8432

Curva de la distribución normal estándar en comparación con la Normal:

Interpretación:La probabilidad de que el valor de hemoglobina en una gestante adolescente que curseel tercer trimestre del embarazo sea menor a 11 mg/dl es de 0.64. Es decir, el 64% delas gestantes adolescentes que acuden a maternidad de Lima sufren de anemiaasociada a la gestación.

Ejercicio 4:El costo de una chupetas de diferentes marcas tiene una distribución aproximadamentenormal con una media de 500 y una desviación estándar de 10¿Cuál es el valor z paraun valor x de 520 y otro de 490?

Uso de la tabla de distribución de probabilidad normal estándar.

En esta tabla, el valor z está derivado de la fórmula:

z = (x - m ) / s

Page 24: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 24/70

  24

en la que:

x = valor de la variable aleatoria que nos preocupam = media de la distribución de la variable aleatorias = desviación estándar de la distribución

z = número de desviaciones estándar que hay desde x a la media de la distribución.¿Por qué utilizamos z en lugar del número de desviaciones estándar? Las variablesaleatorias distribuidas normalmente tienen unidades diferentes de medición: bolívares,dólares, pulgadas, kilogramos, segundos, etc. Como vamos a utilizar una tabla,hablamos en términos de unidades estándar (que en realidad significa desviacionesestándar), y denotamos a éstas con el símbolo z.

La tabla de distribución de probabilidad normal estándar da los valores de únicamentela mitad del área bajo la curva normal, empezando con 0,0 en la media. Como ladistribución normal de probabilidad es simétrica, los valores verdaderos para una mitad

de la curva son verdaderos para la otra.

Defectos de la distribución normal de probabilidad.

Los extremos de la distribución normal se acercan al eje horizontal, pero nunca llegan atocarlo. Esto implica que existe algo de probabilidad (aunque puede ser muy pequeña)de que la variable aleatoria pueda tomar valores demasiado grandes. No perderemosmucha precisión al ignorar valores tan alejados de la media. Pero a cambio de laconveniencia del uso de este modelo teórico, debemos aceptar el hecho de que puedeasignar valores empíricos imposibles.

La Distribución Normal como una Aproximación de la Distribución Binomial.

Aunque la distribución normal es continua, resulta interesante hacer notar que algunasveces puede utilizarse para aproximar a distribuciones discretas, debido a que generaruna distribución binomial para muestras grandes puede llevar mucho tiempo es máseficiente hacer una aproximación de la distribución normal a la binomial

Una distribución binomial B(n,p) se puede aproximar por una distribución normal,siempre que n sea grande y p no esté muy próxima a 0 o a 1. La aproximación consisteen utilizar una distribución normal con la misma media y desviación típica que ladistribución binomial. En la práctica se utiliza la aproximación cuando:

En cuyo caso:

Y tipificando se obtiene la normal estándar correspondiente:

Page 25: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 25/70

  25

Unidad II

Estimación Puntual

Objetivo: Calcular los intervalos de confianza de los estimadores para la toma de decisión.

Contenidos: Población y muestraMétodos de muestreo

Muestro aleatorio simpleMuestreo aleatorio sistemático

Muestreo aleatorio estratificadoMuestreo por conglomeradosEstimadoresIntervalos de confianza para la media y la proporciónDeterminación del tamaño de la muestra

Page 26: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 26/70

  26

Estimación Puntual 

En administración es usual realizar estudios en los que se aborden diversaspoblaciones, sin embargo acceder a cada miembro de esas poblaciones es un trabajoimposible de realizar, por ello se seleccionan muestras que nos den una evidencia de loque gusta, opina, etc. una población, no obstante el hecho de no poseer los datos

reales nos obliga a estimarlos, para ello existen los estimadores. En esta unidadencontrarás algunos aspectos relacionados con los estimadores puntuales y susintervalos de confianza.

“Vive como sifueras a morirmañana.

Aprende como sifueras a vivir 

siempre.” Mohandas Gandhi 

Page 27: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 27/70

  27

UNIDAD II. ESTIMACIÓN PUNTUAL

Población y Muestra

La población es el grupo total de individuos u objetos que se consideran, y la muestraes una parte o subconjunto de dicha población.

Métodos de Muestreo

El muestreo es una herramienta para inferir algo respecto a una población mediante laselección de una muestra de esa población. En muchas oportunidades el muestreo esla única herramienta para determinar algo con respecto a la población por:

1. Es costoso abordar a todos los integrantes de la población2. La idoneidad de los resultados de la muestra, es decir, para muchos estudios no

es esencial indagar sobre la totalidad de la población pues con una muestra seobtiene los datos necesarios sin afectar significativamente los resultados

3. Es dificultoso poner se en contacto con todos los miembros de una población.

4. La naturaleza destructivas de ciertas pruebas, como lo es el caso de las pruebasde control de calidad, si se toma un objeto para determinar su punto máximo deflexión, el cual al pasarlo se rompe, si tomamos a toda una población (produccióne un día, por ejemplo) eliminaríamos por completo todos los elementos de lapoblación.

En repetidas ocasiones se ha enfatizado la necesidad de seleccionar una muestrarepresentativa de la población. Una muestra que tergiverse la población representará unerror de muestreo y producirá estimados imprecisos de loa parámetros de la población.Hay dos fuentes básicas de muestreo. La primera es sencillamente mala suerte. Debidoa la cuestión de suerte, la muestra puede contener elementos que no sean

característicos de la población. El destino puede que dictar ciertas selecciones en lamuestra sea atípicamente más grandes que la mayoría de los de la población y en talcaso resultarían una sobreestimación del parámetro. O quizás muchos de los elementosmuestrales tienden a ser más pequeños de lo que típicamente se encuentra en lapoblación y en tal caso resultaría una subestimación.

Un asegunda fuente de error de muestreo es el sesgo muestral. El sesgo resulta de latendencia a favorecer la selección de ciertas muestras sobre otras en la recolección delos datos de la muestra. La selección de la muestra puede terminar en error. Por tanto,es sabio garantizar que la recolección de los datos de la muestra siga un método quehaya comprobado su capacidad para minimizar dicho error.

Métodos de Muestreo Probabilística

Existen dos tipos de muestras: Las probabilísticas y las no probabilísticas.

Qué es una muestra probabilística: Muestra seleccionada de tal forma que cada artículoo persona de la población tienen la misma probabilidad de ser incluida en la muestra. Sipor el contrario se utilizan métodos no probabilísticas no todos los artículos tienen lamisma probabilidad de ser incluidos por lo tanto se corre el riesgo de que los resultados

Page 28: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 28/70

  28

estén sesgados, lo que significa que los resultados no sean representativos a lapoblación.

Muestreo Aleatorio Simple

Una muestra aleatoria simple puede obtenerse simplemente enumerando lasobservaciones sobre pedazos idénticos de papel, colocándolos en un sombrero ysacando el número deseado de modo que cada uno de los elementos o personas en lapoblación tenga las mismas probabilidades de ser incluidos. Además, también puedehablarse de la tabla de números aleatorios.

Muestreo Sistemático

Una muestra sistemática se forma seleccionando cada i- ésimo ítem de la población. Sise determina que i  es igual a 10, una muestra sistemática consta de cada décimaobservación en la población. La población debe ordenarse o enumerarse en forma

aleatoria. La primera selección debe determinarse aleatoriamente, y si i = 10, entoncesestará en alguna de las primeras 10 observaciones. El punto inicial exacto puedeidentificarse bien sea seleccionando un número entre 1 y 10 sacado de un sombrero, outilizando una tabla de números aleatorios. En cualquiera de los casos se selecciona deallí en adelante cada décima observación.

Este muestreo es ventajoso porque no requiere de un experto altamente calificado paracontar hasta 10 y registrar el resultado. Además el método permite flexibilidad ya quepuede establecerse que i  sea 10, 100, 1000 o cualquier otro número deseado. Ladeterminación del valor apropiado para i también es muy fácil. Si se desea seleccionaruna muestra de tamaño 100 de una población de 1000. El peligro principal que debeevitarse es la ocurrencia de un patrón en el ordenamiento de la población. Por ejemploenumerar a la población alfabéticamente.

Muestreo Estratificado

Una muestra estratificada se divide una población en subgrupos llamados estratos, y seselecciona una muestra para cada uno de ellos, forzando las proporciones de lamuestra de cada estrato para que esté conforme al patrón poblacional. Se empleacomúnmente cuando la población es heterogénea, o disímil, aunque ciertos gruposhomogéneos puedan aislarse. De esta forma el investigador puede incrementar laprecisión más allá del obtenido por una muestra aleatoria simple de tamaño similar.

Muestreo por Conglomerados

El muestreo por conglomerados ofrece ciertas ventajas sobre otros métodos. Consisteen dividir toda la población en conglomerados o grupos y luego seleccionar una muestrade estos conglomerados. Todas las observaciones en estos conglomeradosseleccionados están incluidas en la muestra. Este procedimiento con frecuencia es

Page 29: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 29/70

  29

más fácil y rápido que el muestreo aleatorio simple o estratificado. También es posiblecombinar el muestreo estratificado con el muestreo por conglomerados.

Error en el muestreo: Es la diferencia de un estadístico de la muestra y un parámetro dela población.

Teorema del Límite Central

El Teorema del Límite Central dice que si tenemos un grupo numeroso de variablesindependientes y todas ellas siguen el mismo modelo de distribución (cualquiera queéste sea), la suma de ellas se distribuye según una distribución normal. Por ejemplo:la variable "tirar una moneda al aire" sigue la distribución de Binomial. Si lanzamos lamoneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entresi) se distribuye según una distribución normal. Este teorema se aplica tanto a suma devariables discretas como de variables continuas.

Los parámetros de la distribución normal son:

Media: n * m (media de la variable individual multiplicada por el número de variablesindependientes)Varianza: n * s2 (varianza de la variable individual multiplicada por el número devariables individuales)

Veamos ahora dos ejemplos:Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz elvalor 0. Cada lanzamiento es una variable independiente, con media 0,5 y varianza0,25. Calcular la probabilidad de que en estos 100 lanzamientos salga más de 60 caras.La variable suma de estas 100 variables independientes se distribuye, por tanto, segúnuna distribución normal.Media = 100 * 0,5 = 50Varianza = 100 * 0,25 = 25Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normaltipificada equivalente:

Teorema del Límite Central:No importa el tipo de distribución de la población. Si las muestras sonsuficientemente grandes (n 30), la distribución en el muestreo sepuede aproximar a la distribución normal. Aplicando las propiedades dela distribución normal ase puede obtener la probabilidad de que lamedia muestral esté entre ciertos valores o el intervalo centro del cual

caería una proporción fija de la muestra. Para esto se procede de igualmanera que una distribución normal utilizando la fórmula de Z para ladistribución muestral:

Page 30: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 30/70

  30

25

5060

 x

 x X 

 Z  

  

(*) 5 es la raíz cuadrada de 25, o sea la desviación típica de esta distribuciónPor lo tanto:P (X > 60) = P (Y > 2,0) = 1- P (Y < 2,0) = 1 - 0,9772 = 0,0228

Es decir, la probabilidad de que al tirar 100 veces la moneda salga más de 60 caras estan sólo del 2,28%.

La renta media de los habitantes de un país se distribuye uniformemente entre 4,0millones de bolívares. y 10,0 millones bolívares. Calcular la probabilidad de que alseleccionar al azar a 100 personas la suma de sus rentas supere los 725 millones Bs..Cada renta personal es una variable independiente que se distribuye según una funciónuniforme. Por ello, a la suma de las rentas de 100 personas se le puede aplicar el Teorema del Límite Central. La media y varianza de cada variable individual es:m = (4 + 10 ) / 2 = 7s2 = (10 - 4)2 / 12 = 3Por tanto, la suma de las 100 variables se distribuye según una normal cuya media yvarianza son:Media: n * m = 100 * 7 = 700Varianza : n * s2 = 100 * 3 = 300Para calcular la probabilidad de que la suma de las rentas sea superior a 725 millonesptas, comenzamos por calcular el valor equivalente de la variable normal tipificada:

44,13,17

700725

 x

 x X 

 Z  

  

Luego:P (X > 725) = P (Y > 1,44) = 1 - P (Y < 1,44) = 1 - 0,9251 = 0,0749Es decir, la probabilidad de que la suma de las rentas de 100 personas seleccionadas alazar supere los 725 millones de bolívares es tan sólo del 7,49%

Ejercicio 5En una asignatura del colegio la probabilidad de que te saquen a la pizarra en cadaclase es del 10%. A lo largo del año tienes 100 clases de esa asignatura. ¿Cuál es laprobabilidad de tener que salir a la pizarra más de 15 veces?

Estimadores

Estimador puntual:

Es un valor que se calcula a partir de la información de la muestra, y que se usa paraestimar el parámetro de la población. Cuando no poseemos los datos de una poblaciónes necesario estimar la media de la población, para ello utilizamos un número único. Aese número se le conoce como estimador puntual. No obstante un estimador puntualsólo se refiere a una parte de la historia. Si bien no se espera que es estimador puntual

Page 31: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 31/70

  31

esté próximo al parámetro de la población, se desearía expresar que tan cerca está,para ello sirve el intervalo de confianza.

Un estimador puntual es el valor numérico de una estadística muestral empleado paraestimar el valor de un parámetro de la población o proceso. Una de las característicasmás importante de un estimador es que sea insesgado. Un estimador insesgado es

una estadística muestral cuyo valor esperado es igual al parámetro por estimar. Acontinuación se presentan algunos de los estimadores puntales de uso más frecuente:

Parámetro de la Población Estimador

Media,   Diferencia entre las medias de dos poblaciones,

21     Proporción,    Diferencia entre las poblaciones de dospoblaciones, 21     

Varianza, 2   

Desviación estándar,    

 X   

1 X  - 2 X   

 p̂  

21 ˆˆ p p  2

s  s  

Estimación por Intervalos, un intervalo es un rango de valores dentro del cual se estimaestá el parámetro de la población.

Intervalo de Confianza: 

EL intervalo de confianza es un rango de valores que se construyen a partir de datos dela muestra de modo que el parámetro ocurre dentro de dicho rango con unaprobabilidad específica. La probabilidad específica se conoce como nivel de confianza.

La media de la muestra es un estimador puntual de la media de la población, por lo quesi una tienda desean estimar la edad promedio de las personas que compran equiposde computación, con tan solo tomar una muestra aleatoria de los compradores recientes

pueden determinar la edad de la población, por lo tanto la media de la muestra estima lamedia de la población.

Cuando el tamaño de la muestra, n, es por lo menos de 30, generalmente se aceptaque el teorema del límite central asegurará una distribución normal de las medias de lasmuestras. Esta consideración es importante. Si las medias de las muestras tienen unadistribución normal, es posible usar la distribución normal estándar, es decir, z, ennuestros cálculos. Los intervalos de confianza de 95 y 99 por ciento se calculan de lasiguiente forma cuando n es igual o mayor que 30.

El estimador puntual utiliza un valor de la muestra para estimar el parámetrode la población. Este valor variará de una muestra a otra porque en cadamuestra sólo se selecciona una parte de la población. La utilidad delestimador puntual está condicionada a la compañía de un estimador del error.

Page 32: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 32/70

  32

Intervalo de confianza de 95 % para una median

s x 96,1  

Intervalo de confieanza de 99 % para una median

s x 58,2  

1,96 y 2,58 son valores z que corresponden al 95 y 99% de las observacionesrespectivamente, pero si lo que se desea es calcular un intervalo de confianza para unamedia la fórmula es:

n

s z x  

Intervalo de Confianza para una Proporción de la Población

La determinación de un estimador puntual y de un de intervalo para una proporción dela población es similar a los métodos que se describieron en la sección anterior. Un

estimador puntual para la proporción de la población se encuentra al dividir el númerode éxitos en la muestra entre el número que se muestreo. Por ejemplo, supongamosque 100 personas de las 400 que se muestrearon dijeron que les gustaba más unnuevo refresco que otro, la mejor estimación de la proporción de la población quefavorece el nuevo refresco es 0.25 o 25% que resulta de dividir 100/400. La proporciónes la fracción del número de “éxitos” con relación al número muestreado. Veamos sufórmula:

P (X éxitos)=n

 X , donde:

X= número de éxitos

N= tamaño de la muestraCómo se calcula el intervalo de confianza para proporción de la población

 p zP    

Donde  p  es el error estándar estimado de la proporción

Estudios para determinar parámetros

Con estos estudios pretendemos hacer inferencias a valores poblacionales(proporciones, medias) a partir de una muestra.

Estimar una proporción:

Si deseamos estimar una proporción, debemos saber:a) El nivel de confianza o seguridad (1-a ). El nivel de confianza prefijado da lugar a uncoeficiente (Za ). Para una seguridad del 95% = 1.96, para una seguridad del 99% =2.58.b) La precisión que deseamos para nuestro estudio.

Page 33: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 33/70

  33

c) Una idea del valor aproximado del parámetro que queremos medir (en este caso unaproporción). Esta idea se puede obtener revisando la literatura, por estudio pilotosprevios. En caso de no tener dicha información utilizaremos el valor p = 0.5 (50%).Ejemplo: ¿A cuantas personas tendríamos que estudiar para conocer la prevalencia dediabetes?Seguridad = 95%; Precisión = 3%: Proporción esperada = asumamos que puede ser

próxima al 5%; si no tuviésemos ninguna idea de dicha proporción utilizaríamos el valorp = 0,5 (50%) que maximiza el tamaño muestral:

donde:Za

2 = 1.962 (ya que la seguridad es del 95%)p = proporción esperada (en este caso 5% = 0.05)q = 1 – p (en este caso 1 – 0.05 = 0.95)d = precisión (en este caso deseamos un 3%)

Si la población es finita, es decir conocemos el total de la población y deseásemossaber cuántos del total tendremos que estudiar la respuesta seria:

donde:N = Total de la poblaciónZa

2 = 1.962 (si la seguridad es del 95%)p = proporción esperada (en este caso 5% = 0.05)q = 1 – p (en este caso 1-0.05 = 0.95)d = precisión (en este caso deseamos un 3%).

¿A cuántas personas tendría que estudiar de una población de 15.000 habitantes paraconocer la prevalencia de diabetes?Seguridad = 95%; Precisión = 3%; proporción esperada = asumamos que puede serpróxima al 5% ; si no tuviese ninguna idea de dicha proporción utilizaríamos el valor p =0.5 (50%) que maximiza el tamaño muestral.

Según diferentes seguridades el coeficiente de Za varía, así:Si la seguridad Za fuese del 90% el coeficiente sería 1.645Si la seguridad Za fuese del 95% el coeficiente sería 1.96Si la seguridad Za fuese del 97.5% el coeficiente sería 2.24Si la seguridad Za fuese del 99% el coeficiente sería 2.576

Estimar una media:

Si deseamos estimar una media: debemos saber:El nivel de confianza o seguridad (1-a ). El nivel de confianza prefijado da lugar a uncoeficiente (Za ). Para una seguridad del 95% = 1.96; para una seguridad del 99% =2.58.

Page 34: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 34/70

  34

La precisión con que se desea estimar el parámetro (2 * d es la amplitud del intervalo deconfianza).Una idea de la varianza S2 de la distribución de la variable cuantitativa que se suponeexiste en la población.

Ejemplo: Si deseamos conocer la media de la glucemia basal de una población, conuna seguridad del 95 % y una precisión de ± 3 mg/dl y tenemos información por unestudio piloto o revisión bibliográfica que la varianza es de 250 mg/dl

Si la población es finita, como previamente se señaló, es decir conocemos el total de lapoblación y desearíamos saber cuantos del total tendíamos que estudiar la respuestasería:

(Tomado de http://www.fisterra.com/material/investiga/8muestras/8muestras.htm) 

Error estándar la proporción de la muestra

Es una medición de la variabilidad de la distribución muestral de las medias muestras.Se calcula por:

Error estándar de la media con desviación estándar de la población conocida 

n x

    

Donde:

 x   = es el error de la media llamado también desviación estándar de la distribuciónmuestra de medias  = es la desviación estándar de la poblaciónn = es el tamaño de la muestra

En la mayoría de los casos se desconoce la desviación estándar de la población, por loque se le estima por la desviación estándar de la muestra, ello implica que en la fórmulapresentada anteriormente se reemplaza   (desviación estándar de la muestra) por s(desviación estándar de la muestra). Vale la pena acotar que mientras más mayor seael valor de n el error en el muestreo es menor

Características de un buen estimador

Cuando se tiene una fórmula para estimar y se aplica a una muestra aleatoria, elresultado es aleatorio, es decir los estimadores son variables aleatorias.

Por ejemplo si se recibe un embarque de objetos que pueden:

Page 35: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 35/70

  35

  estar listos para usarse ó

  defectuosos.

Podemos seleccionar al azar algunos de ellos para darnos una idea de la proporción dedefectuosos en el embarque. El parámetro de interés es la proporción de defectuosos

en toda la población, pero lo que observamos es la proporción de defectuosos en lamuestra. El valor de la proporción en la muestra es una variable aleatoria cuyadistribución está emparentada directamente con la binomial (si se tratara del número dedefectuosos, sería binomial).

Como cualquier variable aleatoria, el estimador tiene

  Distribución de probabilidad. 

  Valor esperado.

  Desviación estándar / varianza.

Valor esperado de un estimador y sesgo 

El valor esperado de un estimador nos da un valor alrededor del cual es muy probableque se encuentre el valor del estimador. Para poner un ejemplo, si supiéramos que elvalor esperado de una estadística es 4, esto significaría que al tomar una muestra:

  No creemos que el valor de la estadística vaya a ser 4.

  Pero tampoco creemos que el valor de la estadística vaya a estar lejos de 4.

Ya que es muy probable que el valor del estimador esté cerca de su valor esperado,una propiedad muy deseable es que ese valor esperado del estimador coincida con eldel parámetro que se pretende estimar. Al menos, quisiéramos que el valor esperado nodifiera mucho del parámetro estimado. Por esa razón es importante la cantidad que,técnicamente llamamos sesgo. El sesgo es la diferencia entre el valor esperado delestimador y el parámetro que estima.

Si el sesgo 0, se dice que el estimador es instigado y ésta es una característica buena

para un estimador. Un estimador que es instigado tiene una alta probabilidad de tomarun valor cercano al valor del parámetro.

Varianza de un estimador 

Otra propiedad importante de un estimador es su varianza (o su raíz cuadrada, ladesviación estándar). La importancia de la desviación estándar es que nos permitedarle un sentido numérico a la cercanía del valor del estimador a su valor esperado.

Page 36: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 36/70

  36

Entre menor sea la desviación estándar (o la varianza) de un estimador, será másprobable que su valor en una muestra específica se encuentre mas cerca del valoresperado. Para aclarar esto, considere dos estimadores T1 y T2, suponga que ambosson instigados y suponga que la varianza de T1 es menor que la de T2 ¿Qué quieredecir esto? Simplemente que en un entorno fijo del valor del parámetro, los valores deT1 son más probables que los de T2. O sea que vamos a encontrar a T1 más cerca del

valor del parámetro que a T2. Esto hace que nuestras preferencias estén con T1.Cuando un estimador tiene una varianza menor que otro decimos que el estimador esmás eficiente.

Cálculo del tamaño de la muestra A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar encuenta varios factores: el tipo de muestreo, el parámetro a estimar, el error muestraladmisible, la varianza poblacional y el nivel de confianza. Por ello antes de presentar uncaso sencillo de cálculo del tamaño muestral delimitemos estos factores.

Para la Media

La diferencia entre la media de la muestra y la media de la población es un errormuestral. Por lo tanto,

muestralerror e X  _)(    n

 Z  X donde

n

 X  z

  

 

 

)(

)( 

Por lo tanto,n

 Z e

  de allí se despeja n para calcular el tamaño de la muestra

El mejor estimador es el que se acerca al parámetro poblacional, suscaracterísticas son:

No debe tener sesgo: cuando el valor esperado del estadístico usado comoestimador es igual al parámetro de la población que se desea estimar, se diceque ese estimador es insesgado.

Eficiencia: la eficiencia tiene relación directa con el dato obtenido del error, amenor error mayor es la eficiencia del estimador. Si las distribuciones demuestreo de dos estadísticos tienen la misma media(o esperanza), el demenor varianza se llama un estimador eficiente de la media, mientras que elotro se llama un estimador ineficiente, respectivamente. De tal forma que sipodemos hallar un estimador con una varianza que resulte menor que lavarianza de cualquier otro estimador, tomaremos aquel como base para unamedida de eficiencia y diremos que ese es un estimador eficiente.

Consistencia: Un estimador tiene consistencia en la medida en que el tamañode la muestra aumenta, ello nos acerca al parámetro de la población.

Suficiencia: Si un estimador utiliza toda la información contenida en la

muestra acerca del parámetro que va a estimar, se dice que es un estimador

Page 37: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 37/70

  37

Para una población infinita2

22

e

 zn

   

Para una población finita2

22

0e

 Z n

   

Para determinar el tamaño de la muestra a partir de la distribución muestral de la mediase requiere conocer:El nivel de confianza deseado, zEl error muestral permitido, eLa desviación estándar,    

Para la Proporción

Para población infinita, partiendo de la fórmula z

n

 pq

e

n

 pq

 p p z s

. Se llega a: 2

2

e

 pq zn  

Para población finita hay que tomar en cuenta el factor de corrección,2

2

0e

 pq Z n  

En resumen:

Parámetro. Son las medidas o datos que se obtienen sobre la población.

Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto unaestimación de los parámetros.

Error Muestral, de Estimación o Standard. Es la diferencia entre un estadístico y suparámetro correspondiente. Es una medida de la variabilidad de las estimaciones demuestras repetidas en torno al valor de la población, nos da una noción clara de hastadónde y con qué probabilidad una estimación basada en una muestra se aleja del valorque se hubiera obtenido por medio de un censo completo. Siempre se comete un error,pero la naturaleza de la investigación nos indicará hasta qué medida podemoscometerlo (los resultados se someten a error muestral e intervalos de confianza quevarían muestra a muestra). Varía según se calcule al principio o al final. Un estadísticoserá más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es ladesviación de la distribución muestral de un estadístico y su fiabilidad.

Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a larealidad. Cualquier información que queremos recoger está distribuida según una ley deprobabilidad (Gauss o t de Student), así llamamos nivel de confianza a la probabilidadde que el intervalo construido en torno a un estadístico capte el verdadero valor delparámetro.

Page 38: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 38/70

  38

Varianza Poblacional. Cuando una población es más homogénea la varianza es menory el número de entrevistas necesarias para construir un modelo reducido del universo, ode la población, será más pequeño. Generalmente es un valor desconocido y hay queestimarlo a partir de datos de estudios previos.

Page 39: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 39/70

  39

Unidad III

Prueba de Hipótesis

Objetivo: Aplicar con propiedad y de forma pertinente a situaciones administrativas laprueba de hipótesis

Contenidos:   Qué es una hipótesis  Qué es una prueba de hipótesis

  Contraste de hipótesis  Paramétricas (Media aritmética y proporción)

  Para una población  Para dos poblaciones

Page 40: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 40/70

  40

Prueba de Hipótesis Siempre las personas, en diversas oportunidades y circunstancias, hemos realizadoafirmaciones considerando experiencias previas, conocimientos superficiales de algo,etc. Esas afirmaciones las llamamos hipótesis , y esas hipótesis pueden ser aceptadas orechazadas; sin embargo en estadística para poder aceptar o rechazar una hipótesis sedeben realizar una serie de cálculos que sustenten la veracidad o no de ese supuesto,para ello existe la prueba de hipótesis .

La prueba de hipótesis es un procedimiento mediante el cual se pruebaestadísticamente si una hipótesis es verdadera o no. En esta unidad encontrarás los

pasos para realizar una prueba de hipótesis en función de la media aritmética y laproporción para una y dos poblaciones

“El que aprende y aprende yno practica lo que aprende escomo el que ara y ara y nunca

siembra.” Platón 

Page 41: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 41/70

  41

UNIDAD III. PRUEBA DE HIPÓTESIS 

¿Qué es una hipótesis?

Una hipótesis es una afirmación acerca de un parámetro de la población. Luego, seutilizan los datos para verificar que tan razonable es una afirmación, en otras palabras,

la hipótesis es el establecimiento de una tesis a la que con elementos estadísticos se leprueba la veracidad Las hipótesis estadísticas se pueden contrastar con la informaciónextraída de las muestras y tanto si se aceptan como si se rechazan se puede cometerun error.

¿Qué es una Prueba de Hipótesis?

La prueba de hipótesis es un procedimiento en el cual se dan evidencias para afirmar onegar una hipótesis. El primer paso para realizar una prueba de hipótesis esestableciendo la afirmación o suposición sobre un parámetro de una población, comopor ejemplo la media. Una hipótesis podría ser que los estudiantes de una aldea deMisión Sucre invierten en promedio Bs. 2000 diarios en pasaje. Para comprobar la

validez de la hipótesis 000.2 Bs  , es preciso elegir una muestra de la población(algunos estudiantes de la aldea planteada en la hipótesis) y preguntarles cuanto dineroinvierten diariamente en pasaje, calcularle la media y aceptar o rechazar la hipótesis;supongamos que la media resulta ser de Bs. 1990, al ser una cifra tan cercana a2.000se considera como válida la hipótesis, ya que la diferencia de Bs. 10 puede deverse aun error de muestreo.

Procedimiento para probar una hipótesis

Existen cinco pasos que sistematiza una prueba de hipótesis, y cuando se llega al paso5 se está listo para rechazar o aceptar la hipótesis. Veamos los pasos representados enel siguiente diagrama:

Hipótesis estadística

Asunción relativa a una o varias poblaciones, que puede ser cierta o no.

Enunciado acerca de un parámetro de la población que se desarrolla con elpropósito de realizar pruebas.

Prueba de Hipótesis:

Procedimiento que se basa en la evidencia de las muestras y en la teoría deprobabilidad para determinar si la hipótesis es un enunciado razonable.

Paso 1Establecer las

hipótesis nula yalternativa

Paso 2Seleccionar un

nivel designificancia

Paso 3Identificar la

estadística deprueba

Paso 4Formular la regla

de decisión

Page 42: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 42/70

  42

Paso 1: Plantear la hipótesis nula (H0) y la hipótesis alternativa (H1)

El primer paso consiste en plantear la hipótesis que se prueba, a la cual llamamos

hipótesis nula, y se denomina H0, la letra mayúscula H significa hipótesis, y el subíndicecero supone “sin diferencia”. Por lo general, la hipótesis nula incluye un termino “no”  que significa que no hay cambio. La hipótesis nula se rechaza o acepta, pero lahipótesis nula no se rechaza a menos que los datos de prueba proporcionen evidenciasconvincentes que es falsa.

Se debe recalcar además que si no se rechaza la hipótesis nula, con base en los datosde la muestra, no es posible decir que la hipótesis nula sea cierta. En otras palabras, laimposibilidad de rechazar la hipótesis nula no demuestra que H0 sea verdadera;significa que no fue posible de rechazar H0. Para demostrar la hipótesis nula seríanecesario conocer el parámetro de la población y recabar los datos con la población enpleno; como eso es prácticamente imposible, la única alternativa es tomar una muestrade la población.

La hipótesis alternativa describe una conclusión a la que se llegará si se rechaza lahipótesis nula. Se escribe H1, el H sub1 también se le conoce como hipótesis deinvestigación. La hipótesis alternativa se acepta si los datos de la muestra proporcionansuficiente evidencia estadística de que la hipótesis nula es falsa.

Paso 5Tomar unamuestra, llegar a

una decisión

No rechazar H0

Rechazar H0 y

Aceptar H1

Hipótesis nulaUna afirmación respecto del valor de un parámetro de la población

Hipótesis alternativaUna afirmación que se acepta si los datos de la muestraevidencian suficientemente que la hipótesis nula es falsa.

Page 43: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 43/70

  43

Paso 2: Seleccionar el nivel de significancia

El nivel de significancia es designado con la letra alfa (  ) del alfabeto griego, tambiénse le conoce como nivel de riesgo, y éste quizás sea un termina más apropiado, pueses este nivel es el riesgo que se asume al rechazar la hipótesis nula cuando de hechoes verdadera. No hay un nivel de significancia que se aplique a todas las pruebas, el

investigador toma la decisión de utilizar cualquier valor entre 1 y 0, es decir, entre 0 y10 por ciento.

Por que se comentó al inicio que el nivel de significancia se podía llamar también deriesgo, porque de acuerdo al nivel de significancia que se establezca se puede cometerel error de rechazar una hipótesis verdadera, observemos este ejemplo planteado porLind, Mason y Marchal (2003):

Suponga que una firma que fabrica computadoras personales utiliza

una gran cantidad de tarjetas de circuitos impresos. Los

proveedores concursan para abastecer las tarjetas y, a quien

presenta la cotización más baja, se le otorga un contrato

considerable. Suponga también que el contrato especifica que el

departamento de control de calidad del fabricante de las

computadoras hará un muestreo de todos los embarques de tarjetas

de circuitos que reciba. Si más del 6 por ciento de las tarjetas

de la muestra están por debajo de la norma, el embarque será

rechazado. La hipótesis nula es que los embarques de las tarjetas

que se reciben contienen 6 por ciento o menos de tarjetas por

debajo de la norma. La hipótesis alternativa es que está

defectuoso más del 6% de las tarjetas.

El embarque de 50 tarjetas del lote que se recibió rebeló que

cuatro de ellas, es decir, un 8%, estaban por debajo de la norma,

entonces la decisión de regresar las tarjetas al proveedor escorrecta. Suponga que las 4 tarjetas seleccionadas en la muestra

de 50 eran las únicas defectuosas en todo el embarque de 4.000

tarjetas. Entonces, sólo 1/10 de 1 por ciento estaban defectuosas

(4/4000=0,001). En ese caso, menos del 6% de todo el embarque

estaba por debajo de la norma y el rechazo del mismo fue un

error.

En la prueba de hipótesis anterior se rechazó la hipótesis nula cuando debió haberseaceptado, este error se denomina de tipo I y se le designa por la letra alfa (  ). La

probabilidad de cometer otro de error llamado tipo II es designado con la letra beta (   ).

AcciónH0

Es verdaderaH0 

Es falsa

AceptoH0

Decisióncorrecta

Error tipo II    

RechazoH0

Error tipo I    Decisióncorrecta

Page 44: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 44/70

  44

Error tipo I: Rechazar una hipótesis verdadera.Error tipo II: No rechazar una hipótesis nula que es falsa

Paso 3: Calcular el estadístico de pruebaPara la prueba de hipótesis se utiliza Z como estadística de prueba, a pesar de queexisten muchas otras pruebas estadísticas. En la prueba de hipótesis para la media )( 

, la estadística de prueba z se calcula por:

n

 X  Z  x

 

   

El valor z se basa en la distribución de muestreo de  X   , que tiene una distribución normal cuando la muestra es razonablemente grande con

una media X 

  igual a   y una desviación estándar X 

  , que es igual an

 . Así es

posible determinar la diferencia entre  X  y   es importante desde el punto de vista

estadístico, al encontrar cuantas desviaciones estándar separan a  X  de  , utilizandola formula de z.

Paso 4: Formular la regla de decisión

Una regla de decisión es una afirmación de las condiciones bajos las que se rechaza lahipótesis la y bajo las que no se rechaza. El área de rechazo define la ubicación de

todos aquellos valores que son tan grandes o tan pequeños que la probabilidad de queocurran bajo una hipótesis nula verdadera es bastante remota. En el gráfico que semuestra a continuación el valor crítico es 1,65 es divide la zona de rechazo oaceptación de la hipótesis

Región de rechazo

Probabilidad de 0 05Probabilidad de 0 95

Valor Crítico

Valor CríticoPunto de división entre la región en que se rechaza la hipótesis nula

y la región en la que no se rechaza

Page 45: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 45/70

  45

Los valores críticos determinan la zona de rechazo. Para hallarlos se divide entre dos

el 95%. En la tabla z (revisar anexos), el área de 0,95/2=0,4750 lo que indica un valorde 1.96. El 5% restante está distribuido entre las dos colas, son 2,5% en cada zona derechazo. Es posible encontrar los valores críticos al otro lado de la cola:

Paso 5: Tomar una decisión

Este último paso consiste en decidir si rechazar o no la hipótesis nula. La regla dedecisión es: No se rechaza la hipótesis nula si los valores z están entre 96,1 . Serechaza si el valor z es menor que -1,96 o mayor que +1,96.

Prueba de una o dos colas

Una prueba es de una cola cuando la hipótesis alterna, H1, establece una dirección,como:H0 : el ingreso medio de las mujeres es menor o igual al ingreso medio de los hombres.H1 : el ingreso medio de las mujeres es mayor que el de los hombres.Distribución de muestreo para el valor estadístico z, prueba de una cola, nivel designificancia de .05

Page 46: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 46/70

  46

Una prueba es de dos colas cuando no se establece una dirección específica de lahipótesis alterna H1, como:H0: el ingreso medio de las mujeres es igual al ingreso medio de los hombres.H1: el ingreso medio de las mujeres no es igual al ingreso medio de los hombres.Distribución de muestreo para el valor estadístico z, prueba de dos colas, nivel designificancia de 0.05

Prueba para la media poblacional: muestra grande, desviación estándarpoblacional conocida

Cuando se hace una prueba para la media poblacional de una muestra grande y seconoce la desviación estándar, el estadístico de prueba está dado por:

n

 X  Z 

 

   

Ejemplo:Una cooperativa fabricante de salsa de tomate indican en su etiqueta que el contenidode la botella es de 16 onzas. Cada hora se toma una muestra de 36 botellas y se pesael contenido. La muestra de la última hora tiene un peso medio de 16.12 onzas con unadesviación estándar de .5 onzas. ¿Está el proceso fuera de control para un nivel designificancia de .05?

Paso 1: establezca la hipótesis nula y alternaPaso 2: establezca la regla de decisión:

Paso 3: calcule el valor del estadístico de prueba: H0 se rechaza si z <- 1.96 o z > 1.96

Paso 4: decisión sobre H0: no se rechaza H0 porque 1.44 es menor que el valor crítico1.96

Page 47: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 47/70

  47

Si se desconoce la desviación estándar de la población y el tamaño de la muestra es n30  

n

 X  Z 

 

   

Ejemplo en la cual se indica el procedimiento para la prueba de hipótesis (Tomado demonografías.com)

El jefe de la Biblioteca Especializada de la Facultad de Ingeniería Eléctrica y Electrónicade la UNAC manifiesta que el número promedio de lectores por día es de 350. Paraconfirmar o no este supuesto se controla la cantidad de lectores que utilizaron labiblioteca durante 30 días. Se considera el nivel de significancia de 0.05

Datos:

Día Usuarios Día Usuarios Día Usuario

1 356 11 305 21 4292 427 12 413 22 376

3 387 13 391 23 328

4 510 14 380 24 411

5 288 15 382 25 397

6 290 16 389 26 365

7 320 17 405 27 405

8 350 18 293 28 3699 403 19 276 29 429

Se trata de un problema con una media poblacional: muestra grande y desviaciónestándar poblacional desconocida.

Paso 01: Seleccionamos la hipótesis nula y la hipótesis alternativaHo: μ═350 Ha: μ≠ 350 

Paso 02: Nivel de confianza o significancia 95%α═0.05

Paso 03: Calculamos o determinamos el valor estadístico de pruebaDe los datos determinamos: que el estadístico de prueba es t, debido a que el numerode muestras es igual a 30, conocemos la media de la población, pero la desviaciónestándar de la población es desconocida, en este caso determinamos la desviaciónestándar de la muestra y la utilizamos en la formula reemplazando a la desviaciónestándar de la población.

Page 48: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 48/70

  48

ns

 x Z 

   

Calculamos la desviación estándar muestral y la media de la muestra empleando

8,372 x  414,52    

Paso 04: Formulación de la regla de decisión.La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de doscolas, la mitad de 0.05, es decir 0.025, esta en cada cola. el área en la que no serechaza Ho esta entre las dos colas, es por consiguiente 0.95. El valor critico para 0.05da un valor de Zc = 1.96.Por consiguiente la regla de decisión: es rechazar la hipótesis nula y aceptar lahipótesis alternativa, si el valor Z calculado no queda en la región comprendida entre -1.96 y +1.96. En caso contrario no se rechaza la hipótesis nula si Z queda entre -1.96 y+1.96.

Paso 05: Toma de decisión.En este ultimo paso comparamos el estadístico de prueba calculado Z = 2.38 y locomparamos con el valor critico de Zc = 1.96. Como el estadístico de prueba calculadocae a la derecha del valor critico de Z, se rechaza Ho. Por tanto no se confirma elsupuesto del Jefe de la Biblioteca.

Si el tamaño de la muestra es n 30 se utiliza la distribución t de Student:

ns

 x xt 

 x

n

 

 

 

Prueba para dos medias de población

En este caso se trabaja con las medias de poblaciones. El objetivo es probar si es

razonable llegar a la conclusión de que las dos medias de la población son iguales (ypor lo tanto que las dos poblaciones tienen una media común), o que la diferencia entreambas medias de muestra es tan grande que se debería concluir que las medias de lapoblación no son iguales. Esto tiene muchas utilidades, por ejemplo sirve para un jefede planta conocer el rendimiento promedio de los trabajadores del turno de la mañanadifiere al del los trabajadores del turno de la noche.

En estos casos es necesario seleccionar muestras aleatorias de las dos poblaciones,calcular las medias de cada muestra y determinar si es razonable que ambas sean

Es importante que sepas que en el

programa Excel de Microsoft Office puedes

calcular diversos estadísticos como la

media, la desviación estándar entreotros, de forma muy fácil y rápida.

Page 49: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 49/70

  49

iguales. Para este caso se siguen igualmente los cinco pasos planteados pero habráuna diferencia en la fórmula para la estadística z:

2

2

2

1

2

1

21

n

s

n

s

 X  X  Z 

 

Ejemplo Prueba de hipótesis con dos poblaciones(tomado de www.monografías.com)

En el HMI Ramos Larrea, se realizó un estudio para comparar la efectividad de dostratamientos diferentes para la diarrea aguda, se seleccionaron 15 niños de 1 a 2 añosde edad con diarrea aguda, fueron divididos en dos subgrupos, al subgrupo A se le diocomo tratamiento SRO y al subgrupo B se le dio como tratamiento SRO+Cocimiento dearroz. Después de tres días de tratamiento, se registró la frecuencia de evacuacionesde los niños. Los resultados fueron los siguientes:

GRUPOA 3 4 3 4 4 4 5

GRUPOB 4 1 2 3 1 3 2 3

¿Proporcionan los datos evidencias suficientes que indique que la efectividad de los dostratamientos no es la misma? Utilice un nivel de significación de 0.05.Solución:1. Planteamiento de hipótesis:Ho: μ1 = μ2 H1: μ1 ≠ μ2 

2. Nivel de significancia de: α = 0.05 

3. Prueba estadística:

3

14,1

02,9

14,1

86,716,1

14,1

7

42,7

7

85,2

71,285,3

22

2

2

2

1

2

1

21

n

s

n

s

 X  X  Z  0,38

El valor 0,38 se busca en la tabla de valores z dentro de la columna de valor designificación de 0.05, ello nos da 0,6736, valor muy por encima de   . Ahora con estedato revisamos la zona de rechazo para tomar la decisión.Con los supuestos:Las poblaciones se distribuyen normalmenteLas muestras han sido seleccionadas al azar.

Page 50: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 50/70

  50

Criterios de decisión:

Se rechaza la hipótesis nula (Ho), se acepta la hipótesis alterna (H1) a un nivel designificancia de α = 0.05. La prueba resulto ser significativa. La evidencia estadística nopermite aceptar la hipótesis nula. La evidencia estadística disponible permite concluirque probablemente existe diferencia entre los dos tratamientos empleados en casos dediarrea aguda.

Pruebas respecto de las proporciones

Como lo hemos venido trabajando para probar una hipótesis calculamos un valor z y locomparamos con un valor crítico de Z con base al nivel de significancia seleccionado. Elvalor p para probar hipótesis es un método alternativo en caso de variables discretas. Elvalor p también es aplicado a hipótesis de una cola o de dos colas.

Un ejemplo de las hipótesis que podemos manejar con la prueba de proporción son:

  Los miembros de la Comisión Académica Nacional del plan deformaciónAdministración informa que el 80% de los estudiantes certificados como AsistentesAdministrativos entran al mercado laboral desempeñándose en actividades afinescon su acreditación.

  El representante de una importante cadena de farmacias afirma que la mitad de susventas se realizan por los autoservicios. 

Estas preguntas abarcan los datos de una escala nominal de mediación, si recordamosEstadística I esta escala se caracteriza por tener categorías sin un orden valor de

 jerarquización, por ejemplo la raza, la religión, etc.

Proporción (p)

Una fracción, relación o porcentaje que indica la parte de lapoblación o muestra que tiene una característica de interésparticular.

Page 51: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 51/70

  51

Un ejemplo de proporción es que 87 personas de 100 afirmaron tener mascotas en sucasa. La proporción de la muestra es 87/100=0,87 o 87%. Para probar una hipótesissobre una proporción de una población se elige una muestra aleatoria de la poblaciónque cumpla con las suposiciones binomiales explicadas. Esta prueba es apropiadacuando tanto np  como n(1-p) son al menos de 5.n  (n=tamaño de la muestra,p=proporción de la población)

Se establece el nivel de significancia y se procede a calcular el valor z

Prueba de hipótesis para una proporción poblacional 

 

P p z

, donde:

P es la proporción de la poblaciónp es la proporción de la muestran tamaño de la muestra

 p  es el error estándar de la proporción de la población. Se calcula por n p p / )1(  

Prueba de hipótesis para una proporción  

n

P p

P p z

)1(

 

Por último se toma la decisión.

Ejemplo:Una encuesta aplicada en Caracas a 2.000 personas reveló que 1550 de ellas realizascompras en los megamercados realizados quincenalmente a la Av. Bolívar. Laproporción de 0,775 (1550/2000=0.775) está bastante cerca de 0,80 para llegar a laconclusión de la mayoría de la población de Caracas compra sus alimentos en los

megamercados con regularidad.Z es una estadística de prueba normalmente distribuida cuando la hipótesis es verdad ylas demás suposiciones también son verdaderas.

P es 0,775, la proporción de la muestraN es 2000, el número de encuestadosP es 0,80, la proporción hipotética de la población

80,2

2000)80,01(80,0

80,02000

1550

)1(

nP p

P p z  

El valor z -2,80 está en la zona de rechazo, de modo que la hipótesis nula quedarechazada en el nivel 0,05.

Page 52: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 52/70

  52

Ejercicio:Se dan las siguientes hipótesisH0= p 70.0  H1=p>0.70

Una muestra de 100 observaciones reveló que p=0.75. En el nivel de significancia de

0,05¿Es posible rechazar la hipótesis nula?Prueba para la Diferencia entre dos Proporciones Poblacionales

En este tipo de pruebas interesa saber si dos proporciones de la población son iguales.A continuación se presentan algunos ejemplos:  Una cooperativa de ropa casual elaboró un nuevo diseño de camisas para

caballeros, el nuevo modelo se le mostró a un grupo de posibles compradoresmenores de 30 años y a otros mayores de 60 años. La cooperativa desea saber siexiste diferencia en la proporción de personas de ambos grupos a quienes les gustael nuevo diseño.

  Una aerolínea está investigando sobre el miedo a volar entre adultos, de formaespecífica quieren saber si existe alguna diferencia significativa entre la proporciónde hombres y de mujeres.

Prueba de proporciones de dos muestras

21

21

)1(1(

n

 p p

n

 p p

 p p z

cccc

 

Donde:n1 es el número en la primera muestran2 es el número en la segunda muestra

p1 es la proporción en la primera muestra que posee la característicap2 es la proporción en la segunda muestra que posee la característicapc es la proporción conjunta que posee la característica en la muestra combinada, secalcula con la siguiente fórmula:

Proporción conjunta21

21

____

___

nn

 X  X 

muestraslasdetotal Número

éxitosdetotal Número pc

 

Donde:X1 es el número que posee la característica en la primera muestraX2 es el número que posee la característica en la segunda muestra

Ejemplo

Una fábrica de perfumes desarrollo una nueva fragancia llamada Rojo. Varias pruebasindican que tiene una muy buena aceptación en el mercado, sin embargo interesa sabersi el perfume lo prefieren mujeres jóvenes o maduras. Se tomará una muestra aleatoriade mujeres jóvenes y maduras y se les realizará una prueba dándoles a oler variosperfumes entre ellos Rojo y se les piden que indiquen el que más les guste.H0 no hay diferencia entre la proporción de mujeres jóvenes y maduras que prefierenRojo. La hipótesis alterna es que ambas proporciones no son iguales.

Page 53: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 53/70

  53

Ho: 21 p p  

H1: 21 p p  

Seleccionemos el nivel de significancia, utilizaremos el 0.05

n1: mujeres jóvenes=100

X1: las que prefirieron Rojo=20

n2: mujeres maduras=200X2: las que prefirieron rojo=100

20.0100

20

1

1

1

n

 X  p   50.0

200

100

2

2

2 n

 X  p  

La proporción conjunta o ponderada

40.0

300

120

200100

100200

21

21

nn

 X  X  pc  

Observemos que la proporción conjunta de 0.40 está más cerca de 0.50 que de 0.20.Esto se debe a que el muestreo incluyó más mujeres maduras.

0.506.0

3.0

200

)4.01(40.0

100

)4.01(4.0

50.020.0

)1(1(

21

21

n

 p p

n

 p p

 p p z

cccc

 

El valor z calculado de -5 está en el área de rechazo, es decir, que la hipótesis de quees igual la proporción de mujeres jóvenes y maduras que prefieren Rojo se rechaza, porlo que se acepta la hipótesis alternativa.

Ejercicios: Realízalos y compártelos con tu grupo de estudio y tu profesor asesor.

1. De 150 adultos que probaron unos caramelos nuevos de sabor a durazno, 87 lesparecieron muy buenos. De 200 niños a 123 les gustaron muchísimo. Utilizando unnivel de significancia de 0.10 se puede concluir que existe una diferenciasignificativa en la proporción de adultos contra la de niños que consideran el nuevosabor como excelente.

a. Cuál es la hipótesis nula y la alternativab. Cual es la probabilidad de un error tipo Ic. Es una prueba de una o dos colas, por qué

d. Cual es el valor críticoe. Debería rechazarse la hipótesis nula

2. Las hipótesis son: H0: 21 p p y H1: 21 p p . Una muestra de 200 observaciones dela primera población indicó que X1 es 170. Una muestra de 150 observaciones de lasegunda población reveló que X2 es de 110. Use el nivel de significancia de 0.05para probar la hipótesis.

Page 54: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 54/70

  54

Unidad IV

Regresión y

Correlación 

Objetivo: Interpretar el coeficiente de correlación y determinación con el propósito deobtener la relación o variación entre dos variables.

Contenidos:  Variables dependiente e independientes Gráfico de dispersión Coeficiente de correlación

  Correlación lineal Coeficiente de determinación Modelo de análisis de regresión lineal

  Recta de mínimos cuadrados  Error estándar de estimación 

Page 55: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 55/70

  55

Regresión y Correlación 

La regresión y la correlación son las dos herramientas estadísticas más eficaces que sepueden utilizar para solucionar problemas comunes en la administración por el hechode que se emplean para identificar y cuantificar la relación entre dos o más variables.

El análisis de regresión consiste en estimar el valor de la variable dependiente a partir  de un valor conocido, el cual denominamos variable independiente  a través de laecuación de regresión. Existen dos tipos de análisis de regresión el simple y el múltiple.El análisis de regresión simple indica el valor de una variable dependiente estimado apartir de una variable independiente. Mientras que el análisis de regresión múltiple seocupa de la estimación del valor de una variable dependiente con base a dos o másvariables independientes.

El análisis de correlación  mide la magnitud de la relación entre las variables . Asípodemos precisar que la regresión establece la relación y la correlación la amplitud deesa relación.

“Lo maravilloso deaprender algo es que nadiepuede arrebatárnoslo.” 

B.B.King 

Page 56: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 56/70

  56

UNIDAD IV. REGRESIÓN Y CORRELACIÓN 

Variable Dependiente e Independiente

La palabra variable la asociamos con cambio, en estadística denominamos variable aun dato que puede asumir cualquier valor, es decir, cambiante. Si seguimos utilizando la

semántica, el significado de las palabra dependiente es algo que sucede comoconsecuencia de otro evento, e independiente por su parte es el antónimo, lo contrario adependiente.

Considerando la exposición previa, la variable independiente es aquella que ocurre sincontrol y la dependiente es un resultado de la independiente, la variable dependientese mide, la independiente se manipula o controla. En regresión y correlación como loque se desea es conocer la relación entre variables, la variable dependiente es la quese desea explicar mientras que la independiente es la variable explicativa. Se dice queuna variable depende de la otra. Se puede decir que Y depende de X en donde Y y Xson dos variables cualquiera. Esto se puede escribir así:

Y es una función de X => )( X  f Y   

Debido a que Y depende de X, Y es la variable dependiente y X la variableindependiente. Es importante identificar cual es la variable dependiente y cuál es lavariable independiente en el modelo de regresión. Esto depende de la lógica y de lo queel estadístico intente medir. Por ejemplo, si el coordinador de una aldea de Misión Sucredecide analizar la relación entre las calificaciones de los estudiantes de estadística II yel tiempo que pasan estudiando para dicha materia, al recolectar la información sepuede presumir que las notas dependen de la cantidad y calidad del tiempo que losparticipantes dedican a estudiar; por lo tanto las notas son la variable dependiente y eltiempo de estudio la variable independiente.

Ejercicio:A continuación escribe cuatro casos en los cuales reflejes las variables dependiente eindependiente:

CasoVariable

dependienteVariable

independiente

Cuando hayas hecho la actividad compártela con tu grupo de estudio

Page 57: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 57/70

  57

Diagrama de Dispersión

Un diagrama de dispersión es una gráfica en la que cada punto trazado representa unpar de valores observados de las variables independiente y dependiente. El valor de lavariable independiente X se identifica respecto del eje horizontal, mientras que el valorde la variable dependiente Y se identifica respecto del eje vertical.

Correlación Lineal

En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entredos variables aleatorias. Por ejemplo, podemos preguntarnos si hay alguna relaciónentre las notas de la asignatura Estadística I y las de Matemáticas I. Una primeraaproximación al problema consistiría en dibujar en el plano un punto por cada alumno:la primera coordenada de cada punto sería su nota en estadística, mientras que lasegunda sería su nota en matemáticas. Así, obtendríamos una nube de puntos la cualpodría indicarnos visualmente la existencia o no de algún tipo de relación (lineal,parabólica, exponencial, etc.) entre ambas notas.

Otro ejemplo, consistiría en analizar la facturación de una empresa en un periodo detiempo dado y de cómo influyen los gastos de promoción y publicidad en dichafacturación. Si consideramos un periodo de tiempo de 10 años, una posiblerepresentación sería situar un punto por cada año de forma que la primera coordenadade cada punto sería la cantidad en euros invertidos en publicidad, mientras que lasegunda sería la cantidad en euros obtenidos de su facturación. De esta manera,obtendríamos una nube de puntos que nos indicaría el tipo de relación existente entre

Para recordar… 

Las medidas de tendencia central (estudiadas en Estadística I)carecen de significado si a la par no se realiza el cálculo de lasmedidas de dispersión para poder observar cuanto difieren unosvalores de otros.

Un diagrama de dispersión refleja la

relación entre dos variables.

La variable dependiente o también llamada variable

de respuesta es aquella que se va a predecir.

La variable independiente o de predicción es la que

da la base de estimación.

Page 58: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 58/70

  58

ambas variables. En particular, nos interesa cuantificar la intensidad de la relación linealentre dos variables.El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal dePearson r, cuyo valor oscila entre –1 y +1 : 

Correlación de Pearson

Definición. Creado por Kart Pearson en el siglo XIX, es una técnica estadística quepermite evaluar el grado o nivel de relación entre dos variables, en otras palabras, esuna herramienta que permite evaluar en que medida el comportamiento de una variabledependiente se ve afectada por la acción directa de una variable independiente. Porejemplo, si queremos establecer la razón del incremento de las ventas al detal en elmes de diciembre (variable dependiente), es muy probable que encontremos unacorrelación elevada si la cruzamos con la variable independiente ingreso familiar. Lacorrelación lineal adquiere valores entre -1 y 1.

0= correlación nula.+1= Correlación directamente proporcional perfecta-1= Correlación inversamente proporcional perfecta

Correlación directamente proporcional.

La CDP se traduce en afirmar que a medida que aumenta la magnitud de la variableindependiente, lo hace igualmente la magnitud de la variable dependiente, un ejemplosencillo de ello lo encontramos si revisamos la correlación entre las variables ingresofamiliar y gasto en alimentación, así, a medida que aumente el ingreso familiar, seespera un incremento en los gastos de alimentación de una familia promedio. Se hablade una correlación directamente proporcional perfecta cuando la formula de productomomento de Pearson da un resultado de 1, esto en la realidad nunca ocurre, (vercorrelaciones espurias y variables extrañas), ya que es muy difícil que elcomportamiento de una variable se vea únicamente afectada por el comportamiento deotra, de allí el auge que actualmente tiene la estadística multivariada que estudia lacorrelación entre una Vd y varias Vi.Grafico. Diagrama de Dispersión. r= +1

Page 59: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 59/70

  59

Correlación inversamente proporcional.La CIP indica, que a medida que el valor de una variable aumente, el valor de la otradisminuye, un ejemplo de esto lo encontramos si correlacionamos las variables altitud yconcentración de oxigeno, vemos así como a medida que aumenta la altitud, disminuyela concentración de oxigeno en el aire, de allí por ejemplo la dificultad con la que serespira en el pico Bolívar. Se habla de una correlación inversamente proporcionalperfecta cuando la formula de producto momento de Pearson da un resultado de -1,esto en la realidad nunca ocurre, (ver correlaciones espurias y variables extrañas), yaque como en el caso de la correlación directamente proporcional perfecta es muy difícilque una variable se vea únicamente influenciada por otra.

Grafico. Diagrama de dispersión. r= -1

Interpretación de la Correlación

El coeficiente de correlación como previamente se indicó oscila entre  –1 y +1encontrándose en medio el valor 0 que indica que no existe asociación lineal entre lasdos variables a estudio. Un coeficiente de valor reducido no indica necesariamente queno exista correlación ya que las variables pueden presentar una relación no lineal como

 Variables extrañas o correlaciones espurias. Cuando se

estudia la correlación entre dos variables hay que tener

presente la influencia de muchas otras variables conocidas y

desconocidas y controlables o no controlables, llamadas

variables extrañas; por ejemplo, una variable dependiente

como las reservas internacionales de un país puede verse

afectada en gran parte por el control de las divisas que un

estado ejecuta; sin embargo hay otras variables como el

gasto público, las tragedias naturales, el nivel de

inflación, etc., que también pueden incidir en mayor o menormedida sobre dicha variable dependiente.

Page 60: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 60/70

  60

puede ser el peso del recién nacido y el tiempo de gestación. En este caso el rinfraestima la asociación al medirse linealmente. Los métodos no paramétrico estaríanmejor utilizados en este caso para mostrar si las variables tienden a elevarseconjuntamente o a moverse en direcciones diferentes.

La significancia estadística de un coeficiente debe tenerse en cuenta conjuntamente

con la relevancia clínica del fenómeno que estudiamos ya que coeficientes de 0.5 a 0.7tienden ya a ser significativos como muestras pequeñas. Es por ello muy útil calcular elintervalo de confianza del r ya que en muestras pequeñas tenderá a ser amplio. Laestimación del coeficiente de determinación (r2) nos muestra el porcentaje de lavariabilidad de los datos que se explica por la asociación entre las dos variables.

La correlación elevada y estadísticamente significativa no tiene que asociarse acausalidad. Cuando objetivamos que dos variables están correlacionadas diversasrazones pueden ser la causa de dicha correlación: a) pude que X influencie o cause Y,b) puede que influencie o cause X, c) X e Y pueden estar influenciadas por tercerasvariables que hace que se modifiquen ambas a la vez. El coeficiente de correlación no

debe utilizarse para comparar dos métodos que intentan medir el mismo evento, comopor ejemplo dos instrumentos que miden la tensión arterial. El coeficiente de correlaciónmide el grado de asociación entre dos cantidades pero no mira el nivel de acuerdo oconcordancia. Si los instrumentos de medida miden sistemáticamente cantidadesdiferentes uno del otro, la correlación puede ser 1 y su concordancia ser nula.

Coeficiente de Correlación

El coeficiente de correlación es un grupo de técnicas para medir la magnitud de larelación entre dos variables, para ello se suele graficar todos los datos en un diagramade dispersión

Para determinar el valor numérico del coeficiente de correlación usamos la fórmulasiguiente

Un coeficiente de Correlación es una

medida de la magnitud de la relaciónlineal entre dos variables.

 Valores que asume y como interpretarlos.

0= correlación nula, no existe relación entre A y B

+1= Correlación directamente proporcional perfecta,

a medida que aumenta A, aumenta B

-1= Correlación inversamente proporcional perfecta,a medida que aumenta A, disminuye B

Page 61: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 61/70

  61

2222)()()()(

))(()(

Y Y n X  X n

Y  X  XY nr   

Donde:n: es el número de pares de observaciones

 X : es la suma de las variables X

Y  : es la suma de las variables Y

( 2

 X  ): es la suma de los cuadrados de la variable X

(  X )2 : es la suma de las variables X elevadas al cuadrado

( 2

Y  ) : es la suma de los cuadrados de la variable Y

(Y  )2: es la suma de las variables Y elevada al cuadrado

 XY : es la suma de los productos de X y Y

Sin embargo la correlación que se halle entre dos variables puede deberse a unacasualidad o un error de muestreo para verificar que esto no sea así se aplica unaprueba de significancía del coeficiente de correlación, esto se realiza calculando unvalor t y aplicando la prueba de hipótesis, sólo que en esta oportunidad utilizaremos latabla de valores t (ver anexos) para verificar si la hipótesis plantead queda dentro ofuera del área de rechazo.

Prueba t para el coeficiente de correlación

21

2

nr t 

con n-2 grados de libertad

La regla de decisión para la prueba de hipótesis con un nivel de significancia de 0,05:

Región de rechazo Región de rechazo

-2,306 0 +2,306

Page 62: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 62/70

  62

El Coeficiente de Determinación

El coeficiente de determinación es una medida más precisa, se obtiene elevando alcuadrado el coeficiente de correlación. Es una proporción de la variación total de lavariable dependiente Y que se explica por, o se debe a, la variación en la variableindependiente X.

Modelo de Análisis de Regresión Lineal

Análisis de Regresión

Es un modelo matemático para expresar la relación entre dos variables y estima el valorde la variable dependiente Y basándonos en el valor de la variable independiente X.

Principio de los mínimos cuadrados 

Este método proporciona un mejor ajuste y consiste en determinar la ubicación de lalínea de regresión. Este principio es el mejor porque la suma de los cuadrados de lasdesviaciones verticales respecto de ella es la mínima. La forma general de la ecuaciónde regresión es:

bX aY  '  

Donde:Y’: se lee Y prima, es el valor predictorio de la variable Y para un valor de Xseleccionado.a: es la intersección con el eje Y. Es el valor estimado de Y cuando X=0. Otra manerade expresar este es: a es valor estimado de Y donde la línea de regresión cruza el eje Ycuando X es cero.b: es la pendiente de la línea, o el cambio de la línea de regresión en Y’ por cadacambio en una unidad (ya sea aumentando o disminuyendo) de la variableindependiente X.X: es el valor que se escoge para la variable independiente.

A los valores a y b de la ecuación de regresión se les conoce como coeficientesestimados de regresión o coeficientes de regresión.

Pendiente de la línea de regresión

22)()(

))(()(

 X  X n

Y  X  XY nb  

Análisis de RegresiónEs una ecuación que define la relación entre dos variables.

Page 63: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 63/70

  63

Intersección con el eje Yn

 X b

n

Y a

 

Donde:

X: es un valor de la variable independiente

Y: es un valor de la variable dependienten: es el número de elementos de la muestra

Error estándar de Estimación 

Es una medida que describe que tan precisa es la predicción de Y con la base en X o,inversamente, que tan inexacta puede ser la estimación. El error estándar de estimaciónse denota con la letra s x.y . La desviación estándar mide la dispersión alrededor de lamedia; el error estándar de estimación mide dispersión alrededor de la línea deregresión.

El error estándar se calcula mediante la ecuación que presentaremos a continuación.Sin embargo observemos que la ecuación es muy parecida a la de desviación estándarde la muestra, con la diferencia que Y   es sustituida por Y’ 

Error estándar de estimación2

)'(2

.

n

Y Y S  y x

 

O también podemos emplear la siguiente fórmula:

2

()(2

.

n

 XY bY aY S  y x

 

Suposiciones la emplear el Análisis de Regresión Lineal

a. Para cada valor X hay un grupo de valores Y, y estos valores Y están distribuidosnormalmente.

b. Todas las medias de estas distribuciones normales de Y están sobre la línea deregresión.

c. Las desviaciones estándar de estas distribuciones normales son iguales.d. Los valores de Y son estadísticamente independientes. Este significa que al

seleccionar una muestra, el valor Y escogido para una X determinada nodepende del valor de Y para ningún otra X.

Error Estándar de EstimaciónUna medida de dispersión de los valores observados alrededor de la líneade regresión.

Page 64: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 64/70

  64

Respuestas

Ejercicio 1:Clasifica los siguientes eventos:

a. El lanzamiento de dos monedas a la vez

 ________Independiente______________ b. Que un vuelo de avión salga retrasado __ Mutuamente excluyente yComplementario

c. Que un bebé sea varón __Mutuamente excluyente y colectivamente exhaustivod. Que la comida de hoy no quede salada __Mutuamente excluyente y

Complementarioe. Que en la próxima temporada de béisbol Magallanes sea el campeón

Colectivamente exhaustivo

Ejercicio 2

2048,0)0204,0(10)512,0(04,0

)6(2

12080,020,0

)!25(!2

!5

)!(!

! 32

r nr 

q p

r nr 

nP  

0512,0)0051,0(10)64,0(008,0)2(6

12080,020,0

)!35(!3

!5

)!(!

! 23

r nr q p

r nr 

nP  

0064,0)0012,0(5)080(0016,0)1(24

12080,020,0

)!45(!4

!5

)!(!

! 14

r nr q p

r nr 

nP  

Ejercicio 3P= 0.4

Q= 0.6N= 5

Realicemos el cálculo de cada valor de R:

Para R= 0 obtenemos que: P(0) = 5!/ 0!(5-0)! (0.4 )0 (0.6)5, P(0) = 0.07776

Para R= 1 obtenemos que: P(1) = 5!/ 1!(5-1)! (0.4 )1 (0.6)4, P(1) = 0.2592

Para R=2 obtenemos que: P(2) = 5!/ 2!(5-2)! (0.4 )2 (0.6)3, P(2) = 0.3456

Para R= 3 obtenemos que: P(3) = 5!/ 3!(5-3)! (0.4 )3

(0.6)2

P(3) = 0.2304

Para R= 4 obtenemos que: P(4) = 5!/ 4!(5-4)! (0.4 )4 (0.6)1 P(4) = 0.0768

Para R= 5 obtenemos que: P(5) = 5!/ 5!(5-5)! (0.4 )5 (0.6)0, P(5) = 0.01024

Page 65: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 65/70

  65

Ejercicio 4:

110

500510

 

  X  Z   

110

500490

 

  X  Z   

Ejercicio 5"Salir a la pizarra", le damos el valor 1 y tiene una probabilidad del 0,10"No salir a la pizarra", le damos el valor 0 y tiene una probabilidad del 0,9La media y la varianza de cada variable independiente es:m = 0,10s2 = 0,10 * 0,90 = 0,09Por tanto, la suma de las 100 variables se distribuye según una normal cuya media yvarianza son:Media : n * m = 100 * 0,10 = 10

Varianza : n * s2 = 100 * 0,09 = 9Para calcular la probabilidad de salir a la pizarra más de 15 veces, calculamos el valorequivalente de la variable normal tipificada:

Luego:P (X > 15) = P (Y > 1,67) = 1 - P (Y < 1,67) = 1 - 0,9525 = 0,0475Es decir, la probabilidad de tener que salir más de 15 veces a la pizarra a lo largo delcurso es tan sólo del 4,75%.

Page 66: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 66/70

  66

Bibliografía

Berenson, M. y Levine, D (1996) Estadística Básica en Administración. PretinceHall:México. México DF.

Gonzalez, E. (2000) Estadística General. Ediciones de la biblioteca UCV: Carcas,

Venezuela.Kazmier, L. (1998) Estadística aplicada a la Administración y a la Economía. Mc Graw

Hill: México DF, México.

Lind, D., Mason, R. y Marchal, W. (2001) Estadística para Administración y Economía.Mc Graw Hill Interamericana: México D.F. México

Salama, D. (2002) Estadística. Metodología y aplicaciones. Editorial Torino: Caracas,Venezuela.

Webster, A. (2000) Estadística Aplicada a los Negocios y a la Economía. Irwin-Mc GrawHill: Santa fé de Bogotá, Colombia.

Page 67: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 67/70

  67

ANEXOS

Page 68: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 68/70

  68

TABLA DE DISTRIBUCIÓN NORMAL TIPIFICADA N(0,1) 

Page 69: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 69/70

  69

Manejo de Tablas. Casos Más Frecuentes (Zonas de aceptación o rechazo)

Page 70: materialestadsticaii-090802234246-phpapp01

5/10/2018 materialestadsticaii-090802234246-phpapp01 - slidepdf.com

http://slidepdf.com/reader/full/materialestadsticaii-090802234246-phpapp01 70/70

  70

Distribución t de Student