Apuntes de Metodos Estadisticos Unprg 2014 II

107
Apuntes de clase METODOS ESTADISTICOS CICLO2014 II 1 PRUEBA DE HIPOTESIS HIPÓTESIS a PRUEBA DE HIPÓTESIS PROCEDIMIENTO PARA PROBAR UNA HIPÓTESIS: 1.- Plantear la hipótesis nula y la hipótesis alternativa ó . Hipótesis nula .- Hipótesis planteada con el objetivo de ser probada. Podemos aceptarla o rechazarla. Tal hipótesis es una afirmación que se aceptará si los datos muestrales no pueden proporcionar evidencia convincente que es falsa. Hipótesis alternativa .- Denominada también hipótesis de investigación. Afirmación que se aceptará si los datos muestrales proporcionaron amplia evidencia de que es falsa 2.- Seleccionar el nivel de significancia.- Nivel de significancia es la probabilidad de rechazar la hipótesis nula cuando es verdadera. Al nivel de significación se le denomina , también se le conoce con el nombre de nivel de riesgo. También se le conoce como nivel de significación. Generalmente se usa el nivel del 5% para proyectos de investigación, 1% para el aseguramiento de calidades y 10% para encuestas políticas. En el proceso de probar una hipótesis podemos cometer dos tipos de errores: error del tipo I usualmente denotado por la letra griega alfa (α) mientras que la probabilidad de cometer el error tipo II está representada por la letra griega beta ( ) Error tipo I (α) es rechazar la hipótesis nula ( cuando en realidad es verdadera. Error tipo II ( es aceptar la hipótesis nula ( cuando en realidad es falsa Es el enunciado acerca de una población, elaborado con el propósito de ponerlo a aprueba Procedimiento basado en la evidencia muestral y la teoría de probabilidad que se emplea para determinar si la hipótesis es un enunciado razonable.

description

ANAVA

Transcript of Apuntes de Metodos Estadisticos Unprg 2014 II

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    1

    PRUEBA DE HIPOTESIS

    HIPTESIS

    a

    PRUEBA DE HIPTESIS

    PROCEDIMIENTO PARA PROBAR UNA HIPTESIS:

    1.- Plantear la hiptesis nula y la hiptesis alternativa .

    Hiptesis nula .- Hiptesis planteada con el objetivo de ser probada. Podemos

    aceptarla o rechazarla. Tal hiptesis es una afirmacin que se aceptar si los datos

    muestrales no pueden proporcionar evidencia convincente que es falsa.

    Hiptesis alternativa .- Denominada tambin hiptesis de investigacin.

    Afirmacin que se aceptar si los datos muestrales proporcionaron amplia

    evidencia de que es falsa

    2.- Seleccionar el nivel de significancia.- Nivel de significancia es la probabilidad de

    rechazar la hiptesis nula cuando es verdadera. Al nivel de significacin se le

    denomina , tambin se le conoce con el nombre de nivel de riesgo. Tambin se le

    conoce como nivel de significacin.

    Generalmente se usa el nivel del 5% para proyectos de investigacin, 1% para el

    aseguramiento de calidades y 10% para encuestas polticas.

    En el proceso de probar una hiptesis podemos cometer dos tipos de errores: error

    del tipo I usualmente denotado por la letra griega alfa () mientras que la

    probabilidad de cometer el error tipo II est representada por la letra griega beta (

    )

    Error tipo I () es rechazar la hiptesis nula ( cuando en realidad es verdadera.

    Error tipo II ( es aceptar la hiptesis nula ( cuando en realidad es falsa

    Es el enunciado acerca de una poblacin, elaborado con el propsito de ponerlo a aprueba

    Procedimiento basado en la evidencia muestral y la teora de probabilidad que se emplea para determinar

    si la hiptesis es un enunciado razonable.

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    2

    Poblacin

    es verdadera

    rechaza Ho

    Ho

    es falsa

    Ho Muestra Se acepta Decisin Correcta

    Error Tipo II

    Se rechaza Error Tipo I Decisin correcta

    3.-Calcular el valor estadstico de prueba.- Existen muchos valores estadsticos de

    prueba: z, t, chi cuadrado, F, etc.

    Es el valor obtenido a partir de la informacin muestral que se utiliza para

    determinar si se rechaza la hiptesis nula.

    Valor estadstico de la prueba.- Valor obtenido a partir de la informacin muestral

    que se utiliza para determinar si se rechaza la hiptesis nula. En la prueba de

    hiptesis para la media () el valor estadstico de prueba Z t se determinan a

    partir de:

    Z

    o t

    4.- Formular la regla de decisin.- Es un enunciado de las condiciones segn las que se

    acepta o se rechaza la hiptesis nula.

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    3

    Valor crtico es el valor que es el punto divisorio entre la regin de aceptacin y la

    regin de rechazo de la hiptesis nula

    5.-Toma de decisin.- Es aceptar o rechazar la hiptesis nula.

    POTENCIA DE UNA PRUEBA.- Es la probabilidad de tomar la decisin acertada de

    rechazar cuando esta es falsa o de aceptar cuando esta es verdadera. La

    potencia de una prueba se calcula mediante 1 .

    PRUEBA PARA LA MEDIA DE LA POBLACIN: MUESTRA GRANDE

    PRUEBA DE HIPTESIS CON MUESTRAS GRANDES ( n30) RESPECTO A UNA MEDIA

    DE POBLACIN PARA UNA PRUEBA DE DOS COLAS (BILATERAL) DE LA FORMA:

    Ho: =

    Ha:

    Estadstico de prueba: conocida

    Z=

    Estadstico de prueba: desconocida:

    Z

    Regla de rechazo a un nivel de significancia :

    Rechazar si Z Z Z Z

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    4

    Ejemplo

    Se desea probar si una nueva tcnica de siembra en vivero produce diferencias en la

    longitud de plantines de algarrobo, luego de tres meses de realizada la siembra. Bajo la

    tcnica tradicional, las plantas alcanzan una altura promedio de 15 cm, con una

    desviacin estndar de 3 cm. El ensayo consisti en evaluar 16 plantines de algarrobo

    al cabo de tres meses de sembrado con la nueva tcnica, obtenindose un promedio

    de altura de 17 cm. Con =0,05 realizar la prueba de hiptesis correspondiente.

    Solucin

    Ho: = 15

    Ha: 15

    El valor estadstico de la prueba es:

    Z=

    Z=

    =

    = 2,66

    Como el valor de la prueba est en la regin de rechazo, se rechaza y, por lo tanto,

    se acepta

    Ejemplo

    La tasa anual de resurtido de botellas de aspirinas es 6.0 (esto indica que las

    existencias del medicamento tienen que renovarse en promedio 6 veces al ao en un

    establecimiento). La desviacin estndar es 0,50. Se sospecha que el volumen de

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    5

    ventas promedio ha cambiado y no es 0,60. Se utilizar el nivel de significancia de 0.05

    para probar esta hiptesis.

    a.- Plantee la hiptesis nula y alternativa

    b.- Cul es la probabilidad de un error tipo I?

    c.- Proporcione la frmula para el valor estadstico de la prueba.

    d.- Enuncie la regla de decisin

    e.- Se selecciona una muestra aleatoria de 64 frascos de tal producto, con una media

    de 5.84, Debe rechazarse la hiptesis de que la media poblacional es 0.60?

    Interprete los resultados.

    Solucin:

    a. Ho: = 6

    Ha: 6

    b.- = 0,05

    c.- El valor estadstico de la prueba es: Z =

    d.- El valor crtico de 1.96

    Si el valor del estadstico de prueba resulta mayor a 1.96 o menor a -1.96 se rechaza

    la hiptesis nula

    Z =

    2.56

    Como el valor de la prueba est en la regin de rechazo, se rechaza y, por lo tanto,

    se acepta (la tasa media no es igual a 6).

    Ejemplo

    El supermercado local gast en una remodelacin miles de nuevos soles durante

    muchas semanas. Aunque la interrupcin espant a los clientes temporalmente, el

    gerente espera que los clientes vuelvan a disfrutar de las nuevas comodidades. Antes

    de remodelar, los recibos de la tienda promediaban $ 32 533 por semana. Ahora que

    se ha terminado la remodelacin, el gerente toma una muestra de 36 semanas para

    ver si la construccin afect de alguna manera el negocio. Se report una media de

    $34 166 y una desviacin estndar de $12 955 Qu puede decir el gerente a un nivel

    de significancia del 1%?

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    6

    Solucin Ho: = 32 533

    Ha:

    Rechazar Ho si: Z - 2.576 Z 2.576

    El estadstico de la prueba: Z =

    0.756

    El valor de prueba est dentro de la zona de aceptacin, entonces se acepta Ho Es

    decir la media es 32 533

    Ejemplo

    Una operacin en lnea de montaje automotriz tiene una media del tiempo de

    terminacin de 2,2 minutos. Debido al efecto del tiempo de terminacin sobre las

    operaciones anteriores y siguientes de ensamblaje, es importante mantener esta

    norma de 2,2 minutos. Una muestra aleatoria de 45 tiempos da como resultado una

    media del tiempo de 2,39 minutos con una desviacin estndar de 0,20 minutos.

    Emplee un nivel de significacin de 0,02 y pruebe si la operacin cumple con la norma

    de 2,2 minutos.

    PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n 30) RESPECTO A UNA MEDIA

    POBLACIONAL PARA PRUEBAS DE UNA COLA (UNILATERAL) DE LA FORMA

    Ho:

    Ha: o

    Estadstico de prueba: conocida

    Z =

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    7

    Estadstico de prueba: desconocida:

    Z =

    Regla de rechazo a un nivel de significacin

    Rechazar si Z Z

    Ejemplo

    La produccin media de trigo por hectrea en una regin es de 2200 Kg con una

    desviacin estndar 450Kg Se desea establecer si la aplicacin de fertilizantes

    modifica el rendimiento medio de trigo. Para lo cual se elige 20 has (una en cada

    chacra de la regin) y se encontr que el rendimiento promedio fue de 2650 Kg .Con

    = 0,05 que se puede concluir.

    Ho: 2200 Kg

    Ha: 2200 Kg

    Z =

    =

    = 4,47

    En la tablas el valor de Z= 1,645

    Como 4,47 es mayor que 1,645 se rechaza Ho.

    Luego se concluye que la produccin media de trigo por Ha con fertilizacin, en la

    regin, es significativamente mayor que 2200 Kg.

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    8

    PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n 30) RESPECTO A UNA MEDIA

    POBLACIONAL PARA PRUEBAS DE UNA COLA (UNILATERAL) DE LA FORMA

    H0: o

    Ha: o

    Estadstico de prueba: conocida

    Z =

    Estadstico de prueba: desconocida:

    Z=

    Regla de rechazo a un nivel de significacin

    Rechazar si Z - Z

    Ejemplo.-

    Una encuesta nacional reciente, encontr que estudiantes de la Universidad miraban

    un promedio de 6.8 DVD por mes. Una muestra aleatoria de 36 estudiantes

    universitarios de la facultad de Agronoma, revel que el nmero medio de DVD

    observado el mes pasado fue de 6.2, con una desviacin estndar de 0.5. En el nivel de

    significancia de 0.05. Puede concluirse que los estudiantes de la facultad de

    Agronoma ven menos DVD al mes que los de la Universidad?

    H0: 6.8

    Ha: 6.8

    Regla de la decisin

    Rechazar si Z - 1.645

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    9

    Valor de la prueba

    Z =

    7.2

    Como el valor de la prueba est en la zona de rechazo se concluye rechazando la

    hiptesis nula, esto es, que los estudiantes de la facultad de Agronoma ven menos

    DVD, en promedio, que los estudiantes de la Universidad.

    Ejemplo

    El gerente de una compaa manufacturera grande estima que la edad media de sus

    empleados es 22,8. El tesorero de la firma necesita una cifra de la edad media de los

    empleados ms exacta a fin de estimar el costo de una prestacin por antigedad que

    se considera para los empleados. El tesorero toma una muestra de 70 trabajadores y

    observa que la edad media de los empleados muestreados es 26,2 aos con una

    desviacin estndar de 4,6 aos. En el nivel de significacin de 0,01 Qu puede

    concluir el tesorero acerca de la exactitud de la estimacin del gerente de produccin?

    Ejemplo

    La oficina de anlisis econmico, del Departamento de Comercio inform que la media

    del ingreso anual de un residente de la ciudad de Piura es de $ 18 688 nuevos soles.

    Un investigador de la ciudad de Piura desea probar = $18 688 y $ 18 688,

    siendo la media del ingreso anual de un residente de la ciudad de Piura Cul es la

    conclusin de la prueba de hiptesis si en una muestra de 400 residentes de la ciudad

    de Piura se obtiene una media del ingreso anual de 16 860 nuevos soles y una

    desviacin estndar de 14 624 nuevos soles? Emplee un nivel de significacin de 0,05.

    PRUEBAS RESPECTO A LA PROPORCIN POBLACIONAL.

    La prueba de hiptesis sobre proporciones se usa cuando queremos determinar si la

    proporcin de los elementos en una poblacin, que tiene cierta caracterstica, es

    mayor, igual o menor que algn valor especifico.

    Relacin proporcional:

    Es la relacin por cociente, o porcin relativa, que tiene un atributo particular de

    inters.

    Antes de probar una relacin proporcional debemos considerar algunos supuestos y

    cumplirse algunas condiciones:

    - Los datos muestrales recopilados son el resultado de conteo

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    10

    - El resultado de un experimento se clasifica como xito o fracaso

    - La probabilidad de xito se mantiene igual en cada ensayo

    - Los ensayos son independientes

    - La prueba es adecuada cuando n y n( 1- ) valen al menos 5

    El valor estadstico de prueba Z viene dado por:

    Z =

    Donde:

    = Relacin proporcional poblacional

    = Relacin proporcional muestral

    n = Tamao de muestra

    PRUEBA PARA LA PROPORCIN POBLACIONAL

    PRUEBA DE HIPTESIS RESPECTO A UNA PROPORCIN POBLACIONAL PARA

    PRUEBAS DE UNA COLA (UNILATERAL) DE LA FORMA:

    El estadstico de la prueba

    Z

    Regla de rechazo a un nivel de significacin

    Ejemplo

    Una investigacin en la Universidad de Toledo indica que el 50% de los estudiantes

    cambian su rea principal de especializacin despus del primer ao en el programa de

    estudios. Una muestra de 100 alumnos en la escuela de Administracin revel que 48

    de ellos cambi de dicha rea despus del lapso mencionado. Ha habido un

    decremento significativo en la proporcin de estudiantes que cambian su rea de

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    11

    especializacin despus del primer ao en el programa? Realice la prueba al nivel de

    significancia de 0.05.

    n 100 0.48 0.05

    Regla de decisin

    Rechazar si Z - 1.645

    El estadstico de la prueba

    Z

    - 0.4

    Como Z - 0.4, entonces se acepta , es decir, la proporcin de estudiantes que

    cambian de carrera despus del primer ao no ha tenido un decremento significativo.

    Ejemplo

    El servicio de Inmigracin y Naturalizacin inform que el 79% de los extranjeros que

    visitaron los Estados Unidos en el 2005 dijeron que el objetivo principal de su visita era

    disfrutar de sus vacaciones. Suponga que, como estudio de seguimiento en el 2012, se

    selecciona una muestra de 500 visitantes extranjeros, y que 390 de ellos dijeron que el

    motivo principal de su visita a Estados Unidos era disfrutar sus vacaciones. Es menor

    la poblacin de visitantes extranjeros en el 2012? Respalde su conclusin con una

    prueba estadstica que use el nivel de significacin de 0,05.

    PRUEBA DE HIPTESIS RESPECTO A UNA PROPORCIN POBLACIONAL PARA PRUEBA

    DE UNA COLA (UNILATERAL) DE LA FORMA:

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    12

    Estadstico de prueba

    Z

    Rechazar si Z Z

    Ejemplo

    Un artculo en la publicacin Piura 21 report que solo hay un empleo disponible para

    uno de cada tres egresados de la Universidad. Las principales razones aportadas fueron

    que existe una sobrepoblacin de estos ltimos y una economa dbil. Suponga que

    una encuesta de 200 egresados recientes de la Universidad de Jan revel que 80

    tenan empleo. Al nivel de significancia de 0.02, Se puede concluir que tienen trabajo

    una proporcin mayor de egresados de la Universidad de Jan?

    n 200 0,02

    Regla de la decisin.

    Rechazar si Z 2,054

    Valor de la prueba:

    Z 2

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    13

    Se acepta por lo tanto, la proporcin de egresados que tienen trabajo es menor o

    igual a

    Ejemplo

    Un restaurante de comida rpida planea una oferta especial que permita a sus clientes

    comprar vasos de diseo especial con conocidos personajes de caricaturas. Si ms del

    15% de los clientes compran estos vasos, se implementar la promocin. En una

    prueba preliminar en varios locales, 88 de 500 clientes los compraron. Se debe

    implantar la promocin especial? Lleve a cabo una prueba de hiptesis que apoye su

    decisin. Use un nivel de significacin de 0,01 Cul es su recomendacin?

    PRUEBA DE HIPTESIS RESPECTO A UNA POBLACIN POBLACIONAL PARA PRUEBAS

    DE DOS COLAS (BILATERAL) DE LA FORMA:

    Ho: P = Po

    Ha: P Po

    Estadstico de prueba

    Z =

    Regla de rechazo a un nivel de significancia

    Rechazar si

    Ejemplo

    Se establece la siguiente hiptesis:

    : P = 0.4

    : P

    Una muestra de 120 observaciones revel al nivel de significacin de 0.05

    Puede rechazarse la hiptesis nula?

    a,. Establezca la regla de decisin.

    b.- Calcule el valor estadstico de la prueba.

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    14

    c.- Cul es su decisin respecto a la hiptesis nula?

    Solucin

    a.- Regla de decisin

    Rechazar si Z -1,96 Z 1.96

    b.- Valor de prueba

    Z = -2.24

    c.- Se rechaza , pues el estadstico de prueba cae en la zona de rechazo.

    PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n 30) RESPECTO A DOS MEDIAS

    POBLACIONALES

    PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n 30) RESPECTO A DOS MEDIAS

    POBLACIONALES PARA UNA PRUEBA DE DOS COLAS (BILATERAL) DE LA FORMA

    :

    :

    Estadstico de prueba

    Conocida desconocida

    Z=

    Z=

    Donde:

    Tamao de muestra

    Media muestral

    Variancia poblacional

    Poblacin 1

    Poblacin 2

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    15

    Regla de rechazo a nivel de significancia Z

    Z

    Ejemplo

    Una importante compaa de transporte pblico de Chiclayo debe decidir entre dos

    marcas de llantas para su parque automotor, con un nivel de confianza del 95%. Para

    tomar una decisin seleccion una muestra aleatoria de 100 llantas de cada marca y

    encontr que la marca 1 tiene una vida til de 98 000 Km, en promedio, con una

    desviacin estndar de 8 000 Km.

    Por otro lado, las estadsticas calculadas para la marca 2 son, en promedio, de 101 000

    Km y desviacin estndar de 12 000 Km

    Qu marca de llantas debera adquirir la compaa de transporte si la diferencia de

    precios es mnima?

    Solucin

    :

    = 98 000 = 8 000 =100

    = 101 000 = 12 000 = 100

    Regla de decisin

    Rechazar si: Z Z

    Valor de la prueba

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    16

    Z =

    =

    = - 2.08

    Como -2.08 est en la zona de rechazo, se rechaza a un nivel de significancia del

    5%. Esto es, existe diferencia significativa entre la vida til promedio de ambas marcas.

    Sin embargo, no hemos contestado a nuestra pregunta inicial de qu marca de llantas

    se debe adquirir. Realizamos una nueva prueba de hiptesis suponiendo que la vida

    til media de la marca 2 es mayor que la de la marca 1. Para lo cual establecemos la

    prueba de hiptesis para una cola

    PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n RESPECTO A DOS MEDIAS

    POBLACIONALES PARA UNA PRUEBA DE 1 COLA DE LA FORMA:

    Pruebas de hiptesis:

    : : 0

    : : 0

    Estadstico de prueba

    Conocida desconocida

    Z= -

    Z -

    Regla de rechazo a un nivel de significancia

    Rechazar si Z -

    PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n RESPECTO A DOS MEDIAS

    POBLACIONALES PARA UNA PRUEBA DE 1 COLA DE LA FORMA:

    : : 0

    : : 0

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    17

    Estadstico de prueba

    Conocida desconocida

    Z

    Z

    Regla de rechazo a un nivel de significacin

    Rechazar si Z

    Del ejercicio anterior, para decidir qu marca comprar, realizamos una nueva prueba

    de hiptesis suponiendo que la vida til promedio de la llanta de marca 2 es mayor

    que la vida til promedio de la marca 1, esto es:

    :

    :

    Usando los mismos datos anteriores tenemos

    Con los datos mostrados se calcula Z

    Z -

    =

    = - 2.08

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    18

    Como 2.08 est en la zona de rechazo tenemos que la marca 2 tiene mayor vida til

    promedio que la marca 1.Por lo tanto, la compaa de transporte debe abastecerse de

    la marca 2

    PRUEBA DE HIPTESIS CON MUESTRAS GRANDES (n PARA LA DIFERENCIA

    ENTRE DOS PROPORCIONES:

    La prueba de hiptesis para la diferencia entre dos proporciones se realiza cuando

    queremos determinar si las proporciones de dos poblaciones son o no iguales. La

    lgica del procedimiento es idntica para la diferencia de las medias poblacionales.

    Tomamos una muestra aleatoria de cada poblacin y calculamos las proporciones

    muestrales; si la diferencia entre estas proporciones se puede atribuir al azar,

    aceptamos la hiptesis de que las dos poblaciones tienen igual proporciones.

    Valor estadstico de prueba.

    Z=

    Tamao de muestra

    Proporcin muestral

    Proporcin ponderada

    Poblacin 1

    Poblacin 2

    =

    =

    Alternativamente

    Ejemplo

    El departamento de investigacin en la casa Matriz de una compaa aseguradora,

    realiza una investigacin acera de las causas de accidentes automovilsticos, las

    caractersticas de los conductores, etc. Se seleccion una muestra aleatoria de 400

    plizas de seguros expedidas a personas solteras. Se descubri que en el periodo

    anterior de tres aos, 120 sufrieron al menos un accidente automovilstico. En forma

    semejante, una muestra de 600 plizas expedidas a personas casadas revel que 150

    haban tenido al menos un accidente. Al nivel de significancia de 0.05, Hay diferencia

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    19

    significativa en las personas solteras y casadas que sufrieron un accidente durante un lapso de

    tres aos?

    Solucin

    400 600

    = 0.30

    = 0.25

    :

    :

    Regla de decisin

    Rechazar si: Z Z

    Valor de la prueba

    Z=

    =

    =

    = 0.27

    Z=

    = 1.74

    Como 1.74 est en la regin de aceptacin se acepta , no hay

    diferencia significativa entre las proporciones de personas solteras y casadas que

    sufrieron un accidente durante un lapso de tres aos.

    PRUEBA DE HIPTESIS PARA MUESTRAS PEQUEAS

    En los casos en los que se desconoce y el nmero de observaciones en la muestra es

    menor a 30, se puede utilizar la desviacin estndar muestral, s, como una estimacin

    de , pero no puede utilizar la distribucin de Z como valor estadstico de prueba. La t

    de Student o distribucin t, sirve como valor estadstico de prueba.

    PRUEBA PARA LA MEDIA POBLACIONAL

    Se utiliza el mismo procedimiento que en el caso de la muestra grande pero el valor

    estadstico de prueba es el siguiente:

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    20

    =

    Ejemplo

    Por registros pasados se sabe que la vida til promedio de una pila elctrica que se

    utiliza en un reloj digital es de 305 das. La vida til de las pilas se distribuye

    normalmente. Tal elemento elctrico fue modificado recientemente para que tenga

    mayor duracin. Se prob una muestra de 20 pilas modificadas y se encontr que la

    vida media era de 311 das con una desviacin estndar de la muestra de 12 das. Al

    nivel de significancia de 0.05. La modificacin increment la duracin promedio de la

    pila?

    a.- Plantear la hiptesis nula y alternativa.

    b.- Ilustrar grficamente la regla de decisin.

    c.- Calcular t y llegar a una decisin. Resuma la manera breve el resultado.

    Solucin:

    Grados de libertad (g.l.): 20 1 = 19

    Regla de decisin:

    Rechazar si t

    Valor de prueba:

    t =

    = 2.24

    Por lo tanto se rechaza porque 2.24 est en la zona de rechazo.

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    21

    PRUEBA DE DOS MEDIAS POBLACIONALES: MUESTRAS ALEATORIAS

    INDEPENDIENTES

    Caso I

    Cuando y son ambas pequeas y se desconoce las varianza poblacionales se

    tiene:

    Valor de prueba

    t

    t con grados de libertad:

    Donde:

    Grados de libertad: 2

    Observacin

    Las varianzas son desconocidas, pero iguales:

    Donde es un estimador insesgado de

    Ejemplo:

    Una muestra de calificaciones en un examen presentado en un curso de Estadstica (en

    escala 100) es:

    Hombres 72 69 98 66 85 76 79 80 77 Mujeres 87 90 78 81 80 76

    Al nivel de significancia de 0.01, La calificacin de las mujeres es ms alta que la

    calificacin de los hombres?

    Solucin:

    :

    :

    Tamao de muestra

    Media muestral

    Variancia ponderada

    Poblacin 1

    Poblacin 2

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    22

    H M

    78 82 S 9,49 5,40

    n 9 6

    Regla de decisin:

    Rechazar si t

    Valor de la prueba

    t

    = 66.6153

    t

    = 0.10

    Se acepta porque 0.42 est en la zona de aceptacin. Por lo tanto, no se puede

    afirmar que la calificacin de las mujeres es ms alta que la calificacin de los

    hombres.

    b.. Caso II:

    Cuando

    Variancias poblacionales desconocidas pero diferentes

    Las hiptesis son las mismas, pero la prueba estadstica ser:

    Los grados de libertad se calculan de la siguiente manera:

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    23

    g.l. [

    ]

    [

    ]

    [

    ]

    Los dems pasos son los mismos

    PRUEBA PARA LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES: UNA PRUEBA DE

    DIFERENCIA PAREADA

    < 30

    Variancias poblacionales desconocidas pero iguales

    1.-Hiptesis nula: Ho: (12) = d = 0

    2.- Hiptesis alternativa:

    Prueba de una cola Prueba de dos colas

    Ha: d> 0 Ha: d 0

    Ha: d < 0 3.- Estadstico de prueba:

    t =

    =

    = 1 2

    4.- Regin de rechazo: Rechazar Ho cuando

    Prueba de una cola Prueba de dos colas

    t > t t> t t

    Ejemplo.-

    Antes de contratar la instalacin de un sistema que trasmita msica a las oficinas de

    una empresa, el gerente selecciona al azar 7 oficinas para instalarles el nuevo sistema.

    El tiempo promedio en minutos que pasaban los empleados fuera de esas oficinas, fue

    registrado antes y despus de instalarse el sistema de msica, obtenindose los

    siguientes resultados

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    24

    Sugerira Ud. que el ejecutivo proceda con la instalacin? = 0.05

    Solucin

    Ho: d = 0

    Ha: d > 0

    No msica

    Con msica

    d 8 5 3

    9 6 3

    5 7 2 6 5 1 5 6 1

    10 7 3

    7 8 1

    =7,14 =6,28 =0,85 =2,6457

    t =

    =

    =

    = 1,025

    En las tablas 1,943

    Conclusin: No hay una evidencia estadstica para afirmar que con la instalacin de la

    msica en las oficinas, los empleados pasaran ms tiempo en estas.

    PRUEBA DE HIPTESIS PARA LA VARIANZA

    Hay casos que se tiene el problema de desconocer la varianza, o desviacin estndar

    de la poblacin, en donde las distribuciones son normales. Si se desea probar una

    hiptesis acerca de la varianza se puede hacer utilizando la distribucin de Ji cuadrada

    (Chi cuadrada). As mismo, supngase que se tiene inters en dos poblaciones

    normales independientes, donde las medias y las varianzas de la poblacin son

    desconocidas. Se desea probar la igualdad de las dos varianzas, ya que para poder

    comparar las medias de estas dos poblaciones se ha utilizado la distribucin de t de

    Student, en la cual podemos tener varianzas iguales o diferentes en la poblacin.

    Nmero de oficina 1 2 3 4 5 6 7

    No msica 8 9 5 6 5 10 7

    Con msica 5 6 7 5 6 7 8

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    25

    Par conocer esto ltimo se requiere de la distribucin F de Fisher, y despus de

    utilizarla se tomar la decisin de tener o no varianzas iguales en la poblacin, dando

    pie a realizar la comparacin de las dos medias segn sea el caso. En un primer caso en

    el que las varianzas de la poblacin son desconocidas, pero iguales, o en un segundo

    caso, donde se tiene varianzas desconocidas, pero diferentes

    DISTRIBUCION CHI CUADRADO

    La distribucin de Chi cuadrado tiene muchas aplicaciones especialmente en las

    ciencias sociales y biolgicas, en donde se estudia una conducta (lo esperado) en

    funcin de una respuesta (lo observado). Si el conjunto de valores observados sigue el

    mismo comportamiento de lo esperado entonces, estadsticamente, se acepta la

    hiptesis que lo observado sigue el comportamiento de lo esperado.

    Esta metodologa puede ser utilizada para una prueba de :

    - Frecuencia y bondad de ajuste

    - Independencia entre variable

    - Homogeneidad de muestras

    - Homogeneidad de variancia.

    Casos de frecuencia y bondad de ajuste, probar estadsticamente:

    - La relacin de ingresantes a la UNPRG de colegios particulares a nacionales es

    de 2 a 1

    - El nmero de accidentes que ocurre en un determinado lugar sigue una ley de

    Poisson

    - El nmero de tubrculos daados en planta siguen una ley de Poisson

    - El nmero de artculos defectuosos en caja de 10 , sigue una ley Binomial

    - El nmero de plantas germinadas de paquetes de 10 semillas sigue una ley

    Binomial

    Casos de independencia

    - Preferencias a ciertos productos y localidades

    - Procedencia de colegio nacional y privado y el rendimiento en la universidad

    - El nivel de pobreza y estudio en la zona rural y urbana

    Casos de homogeneidad de muestra

    - La distribucin de consumo de tipo de carne en distritos de la provincia de

    Chiclayo

    - La preferencia o popularidad de candidatos por distritos

    - La distribucin de estudiantes por lugar de procedencia en las universidades del

    Depto. De Lambayeque.

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    26

    La distribucin Chi Cuadrado permite resolver tal inferencia, bajo el supuesto que la

    variable aleatoria w est definida:

    Donde:

    - Frecuencia observada en una clase o categora

    - Frecuencia esperada en la misma clase o categora

    - Distribucin de chi cuadrado, con cierto grado de libertad

    Cuando el nmero de grados de libertad es igual a 1, se utiliza la correccin de Yates

    (correccin por continuidad)

    | |

    Pero cuando los datos son mayores de 50 se puede, obviar la correccin.

    Prueba de frecuencias

    Es til en el estudio de la distribucin de frecuencias de una variable. El nmero de

    clases o categoras debe ser al menos 2, lo suficiente como para no tener frecuencias

    menores de 5%. Muchas o pocas categoras, dispersan o concentran la frecuencia en

    las categoras.

    Para la prueba estadstica de frecuencia se requiere hallar los grados de libertad.

    Para el caso de frecuencias, los grados de libertad es igual a K 1, donde K es el

    nmero de clases o categoras.

    Ejemplo

    4 candidatos, postulan a la Presidencia de la Republica. Segn los sondeos se tiene la

    siguiente distribucin:

    - Candidato A = 34%

    - Candidato B = 28%

    - Candidato C = 14%

    - Candidato D =8 %

    - Otros = 16%

    El estudio se realiz encuestando a 120 personas, donde el resultado de las

    preferencias fue:

    A = 45 B = 30 C =18 D= 6 y otros =21

    Se pregunta si la preferencia de los candidatos ser igual para todos. = 0,10

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    27

    Solucin:

    Ho: La preferencia de los candidatos se mantiene

    Ha: No hay cambios en la preferencia

    = 0.10

    Candidato Datos observados

    Datos esperados

    % Terico

    A 45 120x0,34=40,8 34

    B 30 120x0,28=33,6 28

    C 18 120x0,14=16,8 14

    D 6 120x0,08=9,6 8

    Otros 21 120=0,16=19,2 16

    Total 120 12,0 100

    =

    = 2,4225

    El valor critico se busca en la tabla de Chi cuadrado, con k- 1 grados de libertad y con

    un nivel de significancia

    En las tablas con 4 g.l. y = 0,10 es igual 7,77

    El valor calculado es inferior al tabular, por lo tanto se acepta la hiptesis que las

    frecuencias se mantienen (Hiptesis nula).

    Ejemplo en proporciones

    Las frecuencias esperadas de un cruce gentico entre la prole estn en una proporcin

    fenotipo de 3:1 de normal a mutante. Las frecuencias observadas fueron:

    Fenotipo Datos Observados

    Normal 80

    Mutante 10

    Total 90

    Realice la prueba estadstica para la prueba de la proporcin planteada.

    Solucin

    Ho. La proporcin fenotipo normal y mutuante es de 3:1

    Ha: La proporcin no es 3:1

    = 0.10

    Calculemos las frecuencias esperadas

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    28

    Fenotipo Datos observados

    Datos esperados

    Normal 80 90x 67,5

    Mutante 10 90x 22,5

    Total 90 90

    Los grados de libertad es igual a 1, no es necesario la correccin de Yates porque la

    muestra es mayor a 50.

    El valor de Chi cuadrado ser:

    El valor crtico para se busca con gl= 1 y = 0,10 ser 2,705

    Se observa que el valor calculado es mayor que el tabular, entonces se rechaza la

    hiptesis nula o planteada, por lo cual se concluye que no hay suficiente razn

    estadstica para tal afirmacin sobre la proporcin planteada.

    Aplicacin de Yates (caso de dos categoras y total de observaciones menor a 50).

    Una moneda supuestamente balanceada, se somete a una prueba para certificar si es

    correcta para ser utilizada en una determinada investigacin, razn por la cual se lanza

    25 veces, obtenindose como resultado: Cara 10 veces, sello 15 sello. Con estos

    resultados Podemos aceptar la hiptesis?

    Ho: Moneda correctamente balanceada

    Ha: Moneda no es balanceada

    = 0,10

    Resultado Datos observado

    Datos esperados

    Cara 10 25 x 0,50 = 12,5

    Sello 15 25 x 0,50 = 12,5

    25

    | |

    | |

    | |

    El valor de en las tablas para 1 g.l. y = 0,10 es igual a 2,7055

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    29

    Por lo tanto se acepta la hiptesis Ho, que dice que la moneda es balanceada.

    PRUEBA DE INDEPENDENCIA TABLAS DE CONTIGENCIA

    Las pruebas aplicadas a cuadros de contingencia, algunos la denominan tambin como

    dcimas de independencia. Sin embargo, permiten la realizacin de pruebas de

    homogeneidad. Un cuadro de contingencia, es un arreglo en el cual un conjunto de

    observaciones se dispone conforme a dos criterios de clasificacin, uno de los cuales se

    expresa en columnas y el otro en renglones. Si cada uno de los criterios admite dos

    clasificaciones, se obtiene una tabla de contingencia de 2 x 2. Si el primer admite tres

    clasificaciones y el segundo criterio 4, se denominar como tabla 3 x 4. Si

    designamos las columnas por K y los renglones por J, se tendr una tabla de K x J

    Los grados de libertad sern iguales a v=(K 1)(J 1), as en una tabla de 2 x 2, el

    valor de v ser igual a 1, o sea v= (2 1)(2 -1); y en la tabla de 3x 4 ser: v= (3 - 1)(4-

    )=6.

    Cuando el nmero de grados de libertad es igual a 1, se utiliza la correccin de Yates

    (correccin por continuidad)

    | |

    Pero cuando los datos son mayores de 50 se puede, obviar la correccin.

    Ejemplo:

    En un consultorio se trat a un grupo de personas que se quejaban de insomnio,

    dndole a unas pastillas para dormir y a otras pastillas de azcar (que hacan creer que

    eran para dormir). Despus de someterlos a observacin, se obtuvo el siguiente

    resultado.

    Tratamiento Durmieron No durmieron

    Total

    Pastillas para dormir 35 5 40

    Pastillas de azcar 45 15 60

    Total 80 20 100

    Pruebe a nivel del 5% que no existe diferencia

    Solucin:

    Ho: No existe diferencia entre los tipos de pastillas

    Ha: Si existe diferencia entre los dos tipos de pastillas

    Calcular los datos esperados

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    30

    Tratamiento Durmieron No durmieron Total

    Pastillas para dormir

    = 32

    = 8 40

    Pastillas de azcar

    = 48

    = 12 60

    Total 80 20 100

    =

    = 2,3437

    Buscamos en las tablas , con (2 1) (2 1)= 1

    Se acepta la hiptesis nula, la diferencia no es significativa.

    Ejemplo

    Una asociacin de profesores universitarios quiere determinar si la clasificacin en el

    trabajo es independiente de la categora acadmica. Para ello se realiz un estudio

    nacional entre los acadmicos universitarios y encontr los resultados que se

    muestran a continuacin, Con al 0.05 haga una prueba para saber si son

    dependientes la satisfaccin en el trabajo y la categora acadmica

    Categora Profesor

    Asistente

    Profesor

    auxiliar

    Profesor

    asociado

    Profesor

    principal

    Satisfaccin Mucha 40 60 52 63

    En el Regular 78 87 82 88

    trabajo Poca 57 63 66 64 .

    Solucin

    Planteamiento de las hiptesis

    La satisfaccin en el trabajo y la categora acadmica son independientes

    La satisfaccin en el trabajo y la categora acadmica no son independientes

    Grados de libertad: (r 1) (c 1) = (3 -1) (4 -1) = 6

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    31

    Regla de decisin

    Rechazar 12.59

    Se procede a calcular los valores esperados de cada celda:

    Donde: i= fila j = columna

    Se toma en cuenta los totales del rengln y la columna

    categora

    Profesor

    asistente

    Profesor

    auxiliar

    Profesor

    asociado

    Profesor

    principal

    Total

    Satisfaccin

    En el

    trabajo

    Mucha 40 60 52 63 215

    Regular 78 87 82 88 335

    Poca 57 63 66 64 250

    Total 175 210 200 215 800

    Valor de la prueba:

    +

    = 2.75

    Como 2.75 es menor que el valor critico 12.59, por lo tanto, no se rechaza y se

    concluye con un = 0.05, que la satisfaccin en el trabajo y la categora acadmica son

    independes

    =

    = 47.03

    =

    = 56.44

    =

    = 53.75

    =

    = 57.78

    =

    = 73.28

    =

    = 87.94

    =

    = 83.75

    =

    = 90.03

    =

    = 54.69

    =

    = 65.62

    =

    = 62.50

    =

    = 62.50

    CATEGORA

    Profesor

    asistente

    Profesor

    auxiliar

    Profesor

    asociado

    Profesor

    principal

    Total

    Satisfaccin Mucha 47.03 56.44 53.75 57.78 215

    En el Regular 73.28 87.94 83.75 90.03 335

    trabajo Poca 54.69 65.62 62.50 67.19 250

    Total 175 210 200 215 800

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    32

    PRUEBA DE HIPTESIS PARA LA VARIANZA DE UN DISTRIBUCIN NORMAL

    A continuacin se desarrollar el procedimiento para contrastar hiptesis sobre la

    varianza poblacional , a partir de una muestra aleatoria de n observaciones de una

    poblacin normal.

    PRUEBA BILATERAL DE LA VARIANZA DE UNA POBLACIN

    Estadstico de prueba:

    =

    Regla de decisin a un nivel de significancia

    Rechazar si:

    Ejemplo

    Una manera de evaluar la eficacia de un profesor ayudante es analizar las calificaciones

    obtenidas por sus estudiantes en un examen al final del curso. Evidentemente, es

    interesante la puntuacin media, sin embargo, la varianza tambin contiene

    informacin til; algunos profesores tienen un estilo que funciona muy bien con los

    estudiantes ms sobresalientes, pero es ineficiente con los estudiantes con menos

    capacidad o menos motivados. Un profesor realiza un examen al final de cada

    semestre para todas las secciones del curso, la varianza de las calificaciones de este

    examen suelen estar muy prximos a 300 : Un nuevo ayudante tiene una clase de 30

    estudiantes, cuyas calificaciones en el examen tuvieron una varianza de 480;

    considerando estas calificaciones como una muestra aleatoria de una poblacin

    normal, contrastar la hiptesis nula de que la varianza poblacional de sus calificaciones

    es 300 frente a una alternativa bilateral con 0.05

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    33

    Regla de decisin

    Rechazar si:

    Valor de prueba

    =

    = 46.40

    Entonces dado que 45.72, se rechaza , lo cual significa que la varianza es

    diferente de 300

    PRUEBA UNILATERAL DERECHA DE LA VARIANZA DE UNA POBLACIN

    Estadstico de prueba

    =

    Regla de decisin a un nivel de significancia

    Rechazar si:

    Ejemplo

    Un producto, se debe maquinar determinada parte con tolerancias muy estrechas,

    para que los clientes la puedan aceptar. Las especificaciones del producto piden que la

    varianza mxima de las longitudes de las partes sea 0.0004. Suponga que en 30 partes,

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    34

    la varianza de la muestra result ser 0.0005. Pruebe con un 0.05 si se ha

    violado la especificacin de varianza de la poblacin

    Estadstico de prueba

    =

    =

    = 36.25

    Regla de decisin a un nivel de significancia

    Regla de decisin

    Rechazar si:

    Entonces dado que , se acepta la Ho, lo cual significa que las

    especificaciones del producto no han sido violadas.

    PRUEBA UNILATERAL IZQUIERDA DE LA VARIANZA DE UNA POBLACIN

    Estadstico de prueba

    Regla de decisin a un nivel de significancia

    Rechazar si:

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    35

    INFERENCIA ACERCA DE LA VARIANZA DE DOS POBLACIONES NORMALES

    DISTRIBUCIN DE F

    Denominada as por sir Ronald Fisher, uno de los fundadores de la ciencia estadstica

    moderna. Esta distribucin se utiliza como la entidad estadstica de prueba en varios

    casos, sirve para probar si dos muestras proceden de poblaciones con varianzas

    iguales. Asimismo, tambin sirve cuando se desea comparar simultneamente varias

    medias poblacionales, esta comparacin simultanea de varias de tales medias se

    denomina anlisis de varianza (ANAVA) (ANOVA), en estos dos casos las poblaciones

    deben ser normales.

    PRUEBA DE HIPTESIS BILATERAL RESPECTO A LA VARIANZA DE DOS POBLACIONES

    Estadstico de prueba

    F

    Regla de decisin a un nivel de significacin

    Rechaza s: F F

    PRUEBA UNILATERAL DERECHA ACERCA DE LA VARIANZA DE DOS POBLACIONES

    NORMALES.

    Estadstico de prueba

    F

    Regla de decisin a un nivel de significacin

    Rechaza si: F

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    36

    Observacin.- La varianza muestral ms grande se coloca en el numerador, en

    consecuencia, la razn F siempre es mayor a 1. Por lo tanto, el valor crtico de la cola

    de valores superiores es el nico que se necesita

    ( )

    ( )

    Ejemplo:

    La compaa Piura Com. realiz un estudio acerca de los hbitos de escuchar radio

    por parte de los hombres y las mujeres. Un aspecto del estudio comprendi el tiempo

    promedio de audicin. Se descubri que tal tiempo para los varones es de 35 minutos

    al da. La desviacin estndar de la muestra de 11 personas de sexo masculino que se

    estudiaron fue de 10 minutos diarios. El tiempo promedio de audicin para las 13

    mujeres en el estudio fue tambin de 35 minutos, pero la desviacin estndar de la

    muestra, result 12 minutos. Al nivel de significancia de 0.10, es posible concluir que

    existe diferencia en la variacin del nmero de minutos que los hombres y las mujeres

    escuchan la radio?

    Recuerde que

    0.36

    Rechaza s: F F

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    37

    Estadstico de prueba

    F

    1.44

    Por lo tanto, al ser F 1.44 se acepta , lo cual significa que la variacin del nmero

    de minutos que escuchan radio los hombres es igual al de las mujeres.

    Ejemplo

    En su incansable bsqueda de un sistema de llenado adecuado, cierta empresa prueba

    dos mquinas. Robot Fill se usa para llenar 16 tarros y resulta una desviacin estndar

    de 1.9 onzas en el llenado. Con Automatic Fill se llenan 21 frascos que dan desviacin

    estndar de 2.1 onzas. Si la empresa tiene que elegir uno de estos sistemas en funcin

    de la uniformidad de llenado, Cul deber seleccionar? Use un 0.05

    Solucin

    Robot Fill Automatic Fill

    De acuerdo a la tabla de F:

    Regla de decisin a un nivel de significacin

    Rechaza s: F

    Estadstico de prueba

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    38

    F

    Dado que el valor de F es 1.22 se acepta Ho. Por lo tanto, se elige el proceso Automatic

    Fill porque es el que presenta mejor uniformidad de llenado.

    ANLISIS DE REGRESIN Y CORRELACIN

    ANLISIS DE CORRELACIN

    Conjunto tcnicas estadsticas empleadas para medir la intensidad y el sentido de la

    asociacin de dos ms variables. El concepto de correlacin est estrechamente

    vinculado al concepto de regresin, pues para que una ecuacin de regresin sea

    razonable los puntos muestrales deben estar ceidos a la ecuacin de regresin,

    adems el coeficiente de correlacin debe ser:

    - Grande cuando el grado de asociacin es alto (cerca de y pequeo

    cuando es bajo, cerca de cero

    - Independiente de las unidades en que se miden las variables.

    DIAGRAMA DE DISPERSIN

    Grfica que presenta la relacin entre dos variables.

    VARIABLE DEPENDIENTE

    Variable que se predice o estima. Se muestra en el eje Y.

    VARIABLE INDEPENDIENTE

    Variable que proporciona la base para la estimacin. Es la variable de pronstico. Se

    muestra en el eje X.

    Ejemplo

    La empresa Rzuri Hnos. un negocio familiar que ha vendido al menudeo en Piura

    durante muchos aos, se anuncia ampliamente por radio y televisin, destacando sus

    bajos precios y accesibles condiciones de crdito. Al dueo le gustara analizar la

    relacin entre las ventas y lo que gasta en publicidad. A continuacin se muestra la

    informacin acerca de las ventas y lso gastos de publicidad durante los ltimos cuatro

    meses.

    Mes Gastos de publicidad

    (miles de dlares)

    Ingreso por ventas

    (miles de dlares)

    Julio 2 7

    Agosto 1 3

    Setiembre 3 8

    Octubre 4 10

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    39

    Se plantea la hiptesis de que a medida que aumentan los gastos de publicidad,

    aumentan los ingresos por ventas.

    Debemos comenzar por el diagrama de dispersin, que nos permite tener una idea

    sobre el grado (intensidad) y la naturaleza (forma) de la relacin entre las dos

    variables. Entonces podemos dar cuenta si la relacin es lineal o no lineal, positiva o

    negativa, o simplemente no existe una relacin aparente.

    Observando el diagrama podremos establecer lo siguiente:

    1.- Existe una relacin lineal entre los gastos de publicidad y el ingreso por ventas en

    ese periodo de 4 meses. Por lo tanto, es posible trazar una lnea recta que se ajuste

    a los puntos graficados en el diagrama de dispersin

    2.- La relacin no es determinstica; vale decir, cualquiera que sea la lnea recta que se

    trace, la mayora de los puntos estarn por encima o por debajo de dicha recta.

    COEFICIENTE DE CORRELACIN LINEAL SIMPLE (r)

    Creado por Karl Pearson alrededor de 1900, describe la fuerza de la relacin entre dos

    conjuntos de variables en escala de intervalo o de razn.

    Se designa con la letra r, para calcular el valor numrico del coeficiente de correlacin

    se utiliza la siguiente expresin:

    r=

    r =

    [ ][ ]

    Donde:

    n = Nmero de pares de observaciones

    x = Suma de los valores de la variable x

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    40

    y = Suma de los valores de la variable y

    = Suma de los valores de x elevados al cuadrado

    Cuadrado de la suma de los valores de x

    = Suma de los valores de y elevados al cuadrado

    = Cuadrado de la suma de los valores de y

    xy = Suma del producto de x e y

    CARACTERSTICAS DEL COEFICIENTE DE CORRELACIN

    1.- El coeficiente de correlacin de la muestra se identifica con la letra minscula r

    2.- Muestra la direccin y la fuerza de la direccin lineal (recta) entre dos variables en

    escala de intervalo o en escala de razn

    3.- Vara de -1 hasta +1

    4.- Un valor cercano a 0 indica que hay poca asociacin entre las variables

    5.- Un valor cercano a 1 indica una asociacin directa o positiva entre las variables; es

    decir a valores altos de una variable le corresponde valores altos a la otra variable

    6.- Un valor cercano a -1 indica una asociacin inversa o negativa entre las variables; es

    decir a valores altos de una variable le corresponde valores bajos a la otra variable

    y viceversa

    COEFICIENTE DE DETERMINACIN ( )

    Es el estadstico que mide la proporcin de la variacin total en y que puede ser

    explicada por la variacin en x.

    El coeficiente de determinacin se calcula elevando al cuadrado el coeficiente de

    correlacin

    Con los datos del problema tenemos:

    Total

    r=

    [ ][ ]

    r =

    [ ][ ] = 0,96

    = 92,16%

    x y xy 2 7 14 4 49

    1 3 3 1 9

    3 8 24 9 64

    4 10 40 16 100

    10 28 81 30 222

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    41

    1 - = 7,84%

    PRUEBA DE SIGNIFICANCIA DEL COEFICIENTE DE CORRELACIN

    Es importante estudiar si r es significativo (distinto de cero) ya que ello implica que el

    modelo de regresin lineal es significativo.

    Planteamiento de hiptesis:

    0 (la correlacin en la poblacin es cero)

    (La correlacin en la poblacin es distinta de cero)

    Estadstico de prueba:

    t

    , con n 2 grados de libertad

    Rechazar si: t ( ) t

    (

    )

    t

    =

    = 4,84

    Comparamos con el valor de las tablas , es decir =4,303

    Como el valor calculado es mayor que el valor de la tabla, existe una fuerte correlacin

    entre el gasto en publicidad y el ingreso por ventas. (Aceptamos hiptesis alternativa)

    ANLISIS DE REGRESIN

    A travs del anlisis de regresin buscamos que la lnea de ajuste se aproxime lo mejor

    posible a todos los puntos del diagrama de dispersin. La ecuacin para la lnea recta

    empleada para calcular y con base en x se conoce como ecuacin de regresin.

    ECUACIN DE REGRESIN

    Expresin matemtica que define la relacin entre dos variables.

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    42

    PRINCIPIO DE MNIMOS CUADRADO

    Tcnica empleada para obtener la ecuacin de la regresin, minimizando la suma de

    los cuadrados de las distancias verticales entre los valores y verdaderos y los valores

    pronosticados .

    Dicha recta se define como:

    y = a +bx

    Par determinar la calidad estimadora de esta recta necesitamos alguna medida de la

    distancia de los puntos ( a esta recta. El siguiente grafico muestra, para un solo

    punto, como se mide esta distancia.

    Para el valor el correspondiente valor y en nuestra recta es a + bx mientras que el

    valor realmente observado para la variable dependiente es .La diferencia entre los

    dos es:

    Ahora bien, cualquier

    estimador razonable de la recta de regresin verdadera dejar algunos de los datos

    observados por debajo y otros por encima de la recta estimada. Por lo tanto, algunos

    de los sern positivos y otros negativos

    REGRESIN LINEAL SIMPLE

    El anlisis de regresin lineal simple trata el problema de predecir o estimar una

    variable, llamada respuesta, a partir de otra variable llamada predictora o explicativa.

    A la primera se le conoce tambin como variable dependiente y se le representa

    generalmente con la letra Y, mientras que a la segunda se le conoce como variable

    independientemente y se representa generalmente con la letra X

    Cuando la relacin funcional entre las variables dependiente (Y) e independiente (X) es

    una lnea recta, se tiene una regresin lineal simple, dada por la ecuacin

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    43

    Donde

    - : Es el valor de la ordenada donde la lnea de regresin se inserta al eje Y

    - : El coeficiente de regresin poblacional (pendiente de la recta)

    - : Error

    SUPOSICIONES DE LA REGRESION LINEAL

    1. Los valores de la variable independientes son fijos

    2. La variable X se mide sin error (se desprecia el error de medicin en X)

    3. Existe una subpoblacin de valores Y normalmente distribuido para cada valor

    de X

    4. La variancias de las sub poblaciones de Y son todas iguales

    5. Todas las medias de las subpoblaciones de Y estn sobre la misma recta

    6. Los valores de Y estn normalmente distribuidos y son estadsticamente

    independientes

    Los supuestos el 3 al 6 equivalen a decir que los errores son aleatorios, que se

    distribuyen normalmente con media cero y variancia

    Con los datos muestrales se tomar la siguiente ecuacin:

    =

    =

    =

    ( )

    =

    El coeficiente de regresin ( ).- pendiente de la recta de la regresin, represente la

    tasa de cambio de respuesta Y al cambio de una unidad en X

    Si 0, se dice que no existe relacin lineal entre las dos variables

    Ejemplo

    Los datos siguientes muestran las ventas (en millones) de cajas y los gastos de

    publicidad (en millones de dlares) para 7 marcas principales de refrescos:

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    44

    Marca Gastos de

    publicidad

    Ventas

    de cajas

    Coca cola 131.3 1929.2

    Pepsi 92.4 1384.6

    Kola real 60.4 811.4

    Sprite 55.7 541.5

    Inca cola 40.2 536.9

    Concordia 29.0 535.6

    7 up 11.6 219.5

    a.- Trace un diagrama de dispersin para estos datos, con los gastos de publicidad

    como variable independiente.

    b.- Qu parece indicar este diagrama acerca de la relacin entre las dos variables?

    trace una recta que pase por los datos, para aproximar una relacin lineal entre los

    gastos de publicidad y las ventas.

    c.- Aplique el mtodo de mnimos cuadrados para plantear la ecuacin estimada de

    regresin

    d.- Presente una interpretacin de la pendiente de esta ecuacin

    Solucin:

    Variable independiente: Gastos de publicidad

    Variable dependiente: Ventas de cajas

    Diagrama de dispersin.

    El diagrama parece indicar que la relacin entre las variables es linealmente positiva.

    Ahora encontraremos los valores de r,

    Gastos de

    Publicidad

    Ventas de

    cajas

    x y xy 131.3 17 239.69 1929.2 3 721 812.64 253 303.96

    92.4 8 537.76 1 384.6 1 917 117.16 127 937.04

    60.4 3 648.16 811.4 658 369.96 49 008.56

    55.7 3 102.49 541.5 293 222.25 30 161.55

    40.2 1 616.04 536.9 288 261.61 21 583.38

    29 841 535.6 286 867.36 15 532.4

    11.6 134.56 219.5 48 180.25 2 546.2

    Sumas 420.6 35 119.7 5 958.7 7 213 831.23 500 073.09

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    45

    r =

    [ ][ ]

    r =

    [ ][ ] = 0.97810014

    Como r se aproxima a uno, entonces diremos que la relacin que hay entre las dos

    variables es bastante fuerte o intensa.

    La ecuacin que mejor se ajusta a los datos es una recta, como se aprecia en el

    siguiente grfico.

    =

    =

    = 14.42378282

    =

    = = - 15.42

    Por lo tanto la ecuacin de la regresin lineal seria:

    = - 15.42 + 14.424x

    La interpretacin que tiene es solo matemtica, esto es el punto de corte con el

    eje y

    El valor que toma se interpreta como: por cada incremento en la variable

    dependiente se espera una variacin de 14.424 en la variable dependiente

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    46

    COEFICIENTE DE DETERMINACIN ( ).

    En el ejemplo anterior r = 0.9781, el coeficiente de determinacin ser 0.9567,

    luego pude decirse que 95.67% de la variacin en el nmero de cajas vendidas se

    explica por la variacin en los gastos de publicidad.

    PRUEBA DE SIGNIFICANCIA DEL COEFICIENTE DE CORRELACIN

    Del ejemplo anterior, pruebe la hiptesis de que no existe correlacin en la poblacin.

    Emplee 0.02 de nivel de significancia

    Solucin

    Planteamiento de hiptesis

    0 (la correlacin en la poblacin es nula)

    (la correlacin en la poblacin no es nula)

    Regla de la decisin

    Rechazar si: t t

    Estadstico de prueba

    t

    =

    = 10.5093

    Se acepta la hiptesis alternativa, es decir existe relacin entre las variables en estudio

    ERROR ESTNDAR DE LA ESTIMACIN:

    Mide la dispersin de los valores observados, con respecto a la recta de regresin.

    =

    =

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    47

    =

    =

    = 136.21

    ESTIMACIN DE LOS INTERVALOS DE CONFIANZA

    El error estndar de la estimacin es una medida vlida para utilizarla al fijar los

    intervalos de confianza cuando el tamao de muestra es grande y de alguna forma la

    dispersin con respeto a la recta de la regresin est distribuida de manera normal.

    Un intervalo de confianza se determinar para:

    1.- El valor medio de Y para un valor dado de X

    2.- Un valor individual de Y para un valor dado de X

    t (Syx)

    ( )

    Donde

    Y' = es el valor pronosticado para cualquier valor X seleccionado

    X = es cualquier valor seleccionado de X

    = es la media de X

    n = en el nmero de observaciones

    Syx = es el error estndar de la estimacin

    t = es el valor de t tomado para n 2

    Ejemplo

    De acuerdo a los datos anteriores. Calcular los intervalos de confianza para la venta de

    cajas de gaseosas cuando la inversin en publicidad es 100.00 (millones de dlares)

    = es 1426.98 para un X igual a 100

    = 60.0857 n = 7 Syx = 136.21 t (n 2) = t (7 -2) (0,05)= 2.571

    1426.98

    Marca

    Gastos de

    Publicidad

    X

    Ventas

    de

    Cajas

    y

    Rendimiento

    Pronosticado

    Desviaciones

    y -

    Desviaciones al

    cuadrado

    Coca cola 131.3 1929.2 1878.45 50.75 2575.56

    Pepsi 92.4 1384.6 1317.35 67.25 4522.56

    Kola real 60.4 811.4 855.78 - 44.38 1969.58

    Sprite 55.7 541.5 787.99 - 246.49 60757.32

    Inca cola 40.2 536.9 564.42 - 27.52 757.35

    Concordia 29.0 535.6 402.87 132.73 17617.25

    7 up 11.6 219.5 151.89 67.61 4571.11

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    48

    1426.98 195.1291 = 1622.1091 y 1231.8509

    Interpretacin.-

    Cuando se invierte 100 millones de dlares en publicidad, se espera que la venta de

    gaseosas est comprendida entre1622.1091 y 1231.8509 miles de cajas

    Pero cuando a se trata de un valor individual la frmula es:

    t(Syx)

    ( )

    Ejemplo.

    - Cuanto ser la venta de cajas de Inca cola, cuando esta compaa invierta 100

    millones en publicidad:

    1426.98

    1426.98 1972.305y 881.655

    Interpretacin.-

    Con una probabilidad del 0,95 se puede afirmar que cuando la Inca Cola invierta 100

    millones en publicidad sus ventas estarn comprendidas entre 1972.305 y 881.655

    cajas.

    RELACIN ENTRE COEFICIENTE DE CORRELACIN, COEFICIENTE DE DETERMINACIN

    Y ERROR ESTANDAR DE ESTIMACIN

    Un medio conveniente para mostrar la relacin entre estas tres medidas es la ANAVA,

    recordemos que:

    El error estndar de la estimacin mide cun cerca de la recta de regresin se

    encuentra los valores reales. Cuando el valor es pequeo indica que las dos variables

    estn relacionadas muy de cerca.

    El coeficiente de correlacin mide la fuerza de la asociacin entre dos variables.

    Cundo los puntos del diagrama de dispersin parecen cercanos a la lnea recta, se

    observa que el coeficiente de correlacin tiende a ser grande. Luego el error estndar

    de la estimacin y coeficiente de correlacin indican la misma informacin, pero

    utilizan escalas diferentes.

    El coeficiente de determinacin mide el porcentaje de la variacin de Y que se explica

    por la variacin de X

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    49

    ANLISIS DE VARIANCIA PARA LA REGRESIN LINEAL SIMPLE:

    Cuando cada particin se asocia a una porcin correspondiente del total de grados de

    libertad, la tcnica es conocida como anlisis de variancia (ANAVA), que generalmente

    se presenta en un cuadro de la siguiente manera

    A N A V A

    Fuentes de

    Variacin

    Suma de

    Cuadrados

    Grados de

    Libertad

    Cuadrado

    Medio

    Prueba de

    significacin

    Significacin

    estadstica

    Regresin SC r =

    1

    Error SC e = ( ) = SC t SC r

    n 2

    Total SC t = ( )

    n 1

    La prueba de F evalua las hiptesis

    Ho: 0 No existe una regresin lineal entre X e Y

    Ha: Existe regresin lineal de Y en funcin de X

    SUMA DE CUADRADOS DEL TOTAL (SCT)

    Mide la dispersin (variacin total) en los valores observables de Y. Este trmino se

    utiliza para el clculo de la variancia de la muestra.

    SUMA DE CUADRADOS EXPLICADA (SUMA DE CUADRADOS DEBIDO A LA REGRESIN

    (SCR)

    Mide la variabilidad total en los valores observados de y en consideracin a la relacin

    lineal entre X e Y

    SUMA DE CUADRADOS RESIDUAL (Inexplicada, suma de cuadrados del error, SCE)

    Mide la dispersin de los valores de Y observados respecto a la recta de la regresin Y

    (es la cantidad que minimiza cuando se obtiene la recta de la regresin)

    Fuentes de

    Variacin

    Suma de

    Cuadrados

    Grados de

    Libertad

    Cuadrado

    Medio

    Prueba de

    significacin

    Significacin

    estadstica

    Regresin 1

    Error

    (Residual)

    Diferencia

    n 2

    Total SCY

    n 1

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    50

    Con los datos de nuestro ejemplo:

    A N A V A

    Fuentes de

    Variacin

    SC GL CM F Sign.

    Estad.

    Regresin 2048831.882 1 2048831.882 110.4244 **

    Error 92770.7449 5 18554.1489

    Total 2141530.417 6

    F (1,5)= 6.61 (

    16.26 (

    Interpretacin: Realizado el anlisis de variancia (ANAVA) para la regresin se

    encontr una alta significacin estadstica para la regresin, por lo tanto podemos

    decir que existe asociacin entre ambas variables en estudio

    =

    = 1

    =

    = 1

    = 0,9567 = 95.67%

    El 95.67% de las variaciones de la venta de cajas de gaseosas (Y) es explicado por la

    inversin que se hizo en publicidad (X)

    r = = 0.9781 (Coeficiente de correlacin)

    1 = 4.33% (Coeficiente de no determinacin)

    El error estndar de la estimacin tambin puede ser calculado de la siguiente forma

    S yx=

    =

    = 136.2136

    Por ltimo como se observa conforme la Suma de Cuadrado del error disminuye esta

    y por el contrario, conforme disminuye el error estndar se incrementa

    El ANAVA de una regresin lineal puede ser calculado de la siguiente manera

    y ( ) ( )

    ( ) ( )

    1929,2 1878,5 851,2428 1077,9572 1161991,725 50,75 2575,5625 1027,2072 1055154,632

    1384,6 1317,35 851,2428 533,3572 284469,9028 67,25 4522,5625 466,1072 217255,9219

    811,4 855,78 851,2428 - 39,8428 1587,4487 - 44,38 1969,5844 4,5372 20,5861

    541,5 787,99 851,2428 -309,7428 95940,6021 - 246,49 60757,3201 - 63,2528 4000,9167

    536,9 564,42 851,2428 -314,3428 98811,3959 - 27,52 757,3504 - 286,8228 82267,3186

    535,6 402,87 851,2428 -315,6428 99630,3771 132,73 17617,2529 - 448,3728 201038,1678

    219,5 151,89 851,2428 -631,7428 399098,9654 67,61 4571,1121 - 699,3528 489094,3389

    2141530,417

    SC Total 92770,7449

    SC Error 2048831,882

    SC Regresin

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    51

    A N A V A

    Fuentes de variacin

    Suma de cuadrados

    Grados de libertad

    Cuadrados medios

    F

    Regresin Debido a

    [

    ]

    1

    Error Residual

    (no explicada)

    SC total

    n

    Total (corregida)

    (

    )

    n

    INTERVALOS DE CONFIANZA PARA

    En muchos casos es de inters conocer entre que valores se encuentra el coeficiente

    de regresin de la poblacin para un cierto grado de confianza fijada, este

    procedimiento permite hallas los valores llamados lmites de confianza, as:

    { } 1

    Donde

    es el valor t tabular a nivel de significancia y n 2 grados de libertad

    REGRESION PARABOLICA SIMPLE

    La regresin parablica simple, se aplica a aquellos fenmenos que se observan que

    presentan una concentracin de puntos inicialmente ascendentes y en seguida

    descendentes (puede darse lo contrario). Esta regresin parablica es utilizada en gran

    parte, por los economistas, en las funciones de utilidad, ingresos, etc.

    La ecuacin ser

    Ejemplo

    Con los siguientes datos, haga un estudio de regresin parablica

    29 23 841 24389 707281 667 19343 529 35 34 1225 42875 1500625 1190 41650 1156

    29 26 841 24389 707281 754 21866 676

    38 30 1444 54872 2085136 1140 43320 900

    40 35 1600 64000 2560000 1400 56000 1225 Total 171 148 5951 210525 7560323 5151 182179 4486

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    52

    Ecuaciones normales

    Calcular:

    148 = 5 . (1)

    5151 = 171 (2)

    182179 = 5951 . (3)

    Trabajamos con ecuacin (1) y (2), multiplicando (1) por 34,2

    148 = 5 . (1)

    5151 = 171 (2)

    Tendremos:

    5061,6 = -171

    5151 171

    89,4 0 (4)

    Trabajamos con la ecuacin (1) y (3) multiplicando la ecuacin (1) por 1190,2

    148 = 5 . (1)

    182179 = 5951 . (3)

    Tendremos:

    = - 5951

    182179 5951

    6029,4 0 (5)

    Trabajamos con ecuacin (4) y (5)

    89,4 (4)

    6029,4 (5)

    Tendremos:

    619822,32

    0 69919,2

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    53

    Reemplazamos en ecuacin (4) y encontramos

    89,4 (4)

    89,4

    89,4

    102,8

    102,8

    Reemplazamos en ecuacin (1) y encontramos

    148 = 5

    148 = 5

    148 = 5

    148 = 5

    5

    5

    5

    Cul ser el valor esperado si X = 29

    Ahora encontramos la varianza residual no explicada

    ( )

    23 24,65 2,7225 34 32,0 2,00 4,0000 26 24,65 1,35 1,8225

    30 33,34 11,1556 35 33,36 1,64 2,6896

    Total 148 148,00 0,00 22,3902

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    54

    = 4,4780

    7,464 (corregida)

    Tambin se puede cualcular usando la siguiente formula:

    Reemplazando tenemos:

    4,4703

    Error estndar de la estimacin

    2,1143

    (Corregido)

    Lmites de confianza para

    ( )

    Cules sern los lmites de confianza, cuando el valor de X

    24,65 (3,182)(2,7320)

    ( )

    1

    r =

    r 0,9109

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    55

    REGRESION Y CORRELACION EXPONENCIAL Y LOGARITMICA

    Cuando las variables estudiadas presentan un crecimiento o decrecimiento aritmtico,

    la regresin lineal es la ms adecuada, pero si hay un crecimiento o decrecimiento

    geomtrico, se debe adoptar la regresin exponencial.

    La funcin exponencial:

    Se puede convertir en un funcin lineal cuando trabajamos con logaritmos, ya sean

    neperianos o con base 10, dando una funcin logartmica

    Log

    Para la representacin grfica se debe utilizar papel semilogaritmico, cuando la

    variable X, localizada en el eje horizontal o abscisa, se presenta en forma de progresin

    aritmtica, mientras que en la ordenada, donde se ubica la variable Y, se expresa en

    forma logaritmica, Si ambas variables tienen crecimiento geomtrico, la

    representacin grfica se hace en papel logartmico.

    Ejemplo:

    Con los siguientes datos, calcule la regresin exponencial

    Clculos para una regresin exponencial

    log

    log

    2 3 4 0,47712 0,95424 0,22764 0,60768 4,05

    4 6 16 0,77815 3,11261 0,60552 0,84063 6,93

    5 12 25 1,07918 5,39591 1,16463 0,95710 9,06

    7 24 49 1,38021 9,66147 1,90498 1,19005 15,50

    12 45 144 1,65321 19,83855 2,73312 1,77241 59,21

    Total 30 90 238 5,36787 38,96278 6,63588 5,36787 94,75

    Nota: debe tenerse en cuenta que:

    Las ecuaciones normales son:

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    56

    Reemplazando tenemos:

    5,36787 = 5 log . (1)

    38,96278 (2)

    Eliminamos log multiplicando la ecuacin (1) por 6 y lo restamos de la segunda

    ecuacin

    - 32,20722 = - 30 log . (1)

    38,96278 (2)

    6,75556 = 58 log

    58 log = 6,75556

    log =

    log 47

    antilog 0,11647

    Ahora reemplazamos en la ecuacin (1) luego tenemos:

    5,36787 = 5 log

    5,36787 = 5 log

    5 log = 5,36787

    5 log = 5,36787

    5 log = 5,36787 3,4941

    5 log = 1,87377

    log =

    log

    antilog 0,11647

    Reemplazamos en la ecuacin general

    log

    log

    Estimar cuando X = 10, tendremos

    log

    log

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    57

    Log

    = antilog 1,53947

    = 34,63

    Tambin podemos calcular y de la siguiente manera:

    log

    log

    log 0,11647

    antilog de 0,11647

    1,3075

    log

    log =

    log = 0,37475

    2,37

    Varianza residual y el error estndar de la estimacin

    ( )

    log log log log ( )

    0,47712 0,60768 0,13056 0,0170459

    0,77815 0,84063 0,06248 0,0039038

    1,07918 0,95710 0,12208 0,0161493

    1,38021 1,19005 0,19016 0,0361608

    1,65321 1,77241 0,13056 0,0142086

    Total 5,36787 5,36787 0,0000 0,0874684

    0,01749368

    Este valor tambin se puede calcular de la siguiente manera

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    58

    Coeficiente de correlacin al cuadrado

    Donde

    Luego:

    0,9012

    Tambin:

    r

    [ ][ ]

    r

    [ ][ ]

    r

    ANLISIS DE REGRESIN MLTIPLE

    Estudia la influencia de dos o ms variables independientes sobre la dependencia de

    otra variable dependiente.

    La ecuacin ser:

    = bo + b1X1 +b2X2

    X 1, X2 = son las dos variables independientes

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    59

    bo = es la interseccin en Y, es decir, la ordenada con el eje del punto de

    interseccin con el eje Y

    b1= es el cambio neto en Y por cada cambio unitario de X1 manteniendo x2

    constante (o sea sin cambios). Se denomina coeficiente de regresin

    parcial, coeficiente de regresin neta, ms brevemente, coeficiente

    de regresin.

    b2 = Es el cambio neto en Y por unidad de cambio en X2, manteniendo X1

    constante (sin cambios). Tambin se denomina coeficiente de

    regresin parcial o simplemente coeficiente de regresin.

    La ecuacin de la regresin mltiple se puede ampliar a ms variables independientes.

    Y' = bo +b1X1 + b2X2 +b3X3 ++bkXk

    El mtodo de mnimos cuadrados, minimiza la suma de cuadrados de las desviaciones

    verticales con respecto a la lnea de la regresin, principios que se cumple para la

    regresin lineal como para la regresin mltiple.

    En el caso de dos variables independientes es necesario resolver las siguientes

    ecuaciones: Y = na + b1X1 +b2X2

    X1Y = boX1 + b1 + b2X1X2

    X2Y = boX2 + b1X1X2 + b2

    Este sistema de ecuaciones se puede resolver de diferentes maneras, una de ellas es

    empleando matrices

    Ejemplo.-

    El director de personal de una empresa que tiene un importante grupo de

    vendedores, debe entrevistar y seleccionar nuevo personal. Ha diseado una prueba

    que ayuda a seleccionar los mejores aspirantes para su personal de ventas A fin de

    verificar la validez de una prueba como instrumento de prediccin de las ventas

    semanales. Eligi al azar a cinco vendedores y aplic la prueba a cada uno. Los

    importes de ventas semanales se aparearon con el puntaje obtenido en la prueba y

    con la calificacin que se les hizo a su desempeo

    1.- Cul ser la ecuacin de regresin mltiple?

    2. Supngase que un solicitante de empleo en el departamento de ventas tuvo un

    puntaje de 6,0 en la prueba y una calificacin de desempeo de 3,8. Cules son las

    ventas semanales estimadas del solicitante?

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    60

    Vendedor Ventas semanales

    (en miles de soles) Y

    Puntaje de la

    Prueba Calificacin de

    Desempeo Juan 5 4 2

    Andrea 12 7 5

    Ral 4 3 1

    Steffany 8 6 4

    Eduardo 11 10 6

    Solucin:

    1.- La ecuacin podr ser calculada de la siguiente forma:

    [

    ]

    [

    ] =[

    ]

    Total

    Reemplazamos en el arreglo matricial

    [

    ]

    [

    ] =[

    ]

    Encontramos determinante de la matriz 3x3

    [

    ] | |

    Procedemos a invertir la matriz cuadrada 3x3

    *

    + = 320

    *

    + = 120

    *

    + = 120

    *

    + =120

    *

    + = 86

    *

    + = 110

    *

    + = 120

    *

    + = 110

    *

    + = 150

    [

    ]

    Y

    5 4 2 16 4 8 20 10

    12 7 5 49 25 35 84 60

    4 3 1 9 1 3 12 4

    8 6 4 36 16 24 48 32

    11 10 6 100 36 60 110 66

    40 30 18 210 82 130 274 172

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    61

    Luego

    [

    ] [

    ]

    =[

    ]

    Calculamos los coeficientes de la regresin mltiple

    [ ( ) ]

    = 3,5

    = [( ) ]

    = 0,975

    = [ ( ) ]

    = 2,875

    Luego la ecuacin ser igual a:

    = bo + b1X1 + b2X2

    = 3, 5 + ( 0,975) X1 + 2,875X2

    Y' = 3,5 + (0,975)6,0 + 2,875(3,8)

    Y' = 8,575 miles de nuevos soles.

    ERROR ESTNDAR MLTIPLE DE LA ESTIMACIN:

    El error estndar de la estimacin en el anlisis de la regresin mltiple mide el error

    para valores de Y con respecto al plano de regresin si es que intervienen dos variables

    independientes.

    Sy.12 =

    Puntaje

    de

    Prueba

    Calificacin

    de

    Desempeo

    Ventas

    semanales

    (miles de

    soles)

    Ventas

    semanales

    Pronosticadas

    (miles de soles)

    ( )

    Juan 4 2 5 5,35 0,35 0,1225

    Andrea 7 5 12 11,05 0,95 0,9025

    Ral 3 1 4 3,45 0,55 0,3025

    Steffany 6 4 8 9,15 1,15 1,3225

    Eduardo 10 6 11 11,00 0,00 0,0000

    Total 0,00 2,6500

    Sy.12 =

    = 1,151 miles de soles

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    62

    COEFICIENTE DE CORRELACIN MULTIPLE. (r)

    Es la medida de la fuerza de la asociacin entre la variable dependiente y dos o ms

    variables independientes

    Este coeficiente toma valores entre 0 y a 1 inclusive, siempre es positiva Ejemplo Un

    coeficiente de 0,94 indica una asociacin muy fuerte entre las variables dependiente e

    independiente. Un coeficiente de 0,09 revela una relacin muy dbil

    Correlacin Correlacin Correlacin pequea moderada grande

    0 0,50 1,00

    sin correlacin correlacin perfecta

    COEFICIENTE DE DETERMINACIN MLTIPLE (r2).-- Proporcin (porcentaje) de la

    variacin total en la variable dependiente Y que se explica por medio del conjunto de

    variables independientes

    COEFICIENTE DE NO DETERMINACIN MLTIPLE (1 r2).- mide la proporcin de la

    variacin total en la variable dependiente Y, que no se debe a las variables

    independiente. A N A V A

    Fuentes

    de

    Variacin

    Suma de

    Cuadrados

    Grados de

    Libertad

    Cuadrado

    Medio

    Prueba de

    significacin

    Significacin

    estadstica

    Regresin K Error n Total n 1

    El coeficiente de determinacin se puede calcular de la siguiente manera:

    Error estndar de la estimacin mltiple ser igual a:

    Sy.12 =

    Total

    y ( ) ( )

    ( ) ( )

    5 5,39 8 3 9 0,35 0,1225 2,65 7,0225 12 11,05 8 4 16 0,95 0,9025 3,05 9,3025

    4 3,45 8 4 16 0,55 0,3025 4,55 20,7025 8 9,15 8 0 0 1,15 1,3225 1,15 1,3225 11 11 8 3 9 0 0 3 9

    40 40 0 50 0 2,65 0 47,35

  • Apuntes de clase METODOS ESTADISTICOS CICLO2014 II

    63

    A N A V A

    Fuentes de variacin SC GL CM F SIG

    Regresin 47.35 2 23.675 17.87 N.S.

    Error 2.65 2 1.325

    Total 50 4

    F(2,2)= 19,00 ( 99,50 (

    Coeficiente de determinacin:

    =

    %