Estadistica 2 Unas

63
   A li s i s d e R e gr e s i ó n y Co r r e la ció n

description

estadistica datos agrupados

Transcript of Estadistica 2 Unas

  • Anlisis de Regresin y Correlacin

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    139

    Regresin Lineal Simple Y Correlacin

    El objetivo de este manual es analizar el grado de la relacin existente entre variables

    utilizando modelos matemticos y representaciones grficas. As pues, para representar la

    relacin entre dos o ms variables desarrollaremos una ecuacin que permitir estimar una

    variable en funcin de la otra.

    Por ejemplo, en qu medida, un aumento de los gastos en publicidad hace aumentar las

    ventas de un determinado producto?, Cmo representamos que la bajada de temperaturas

    implica un aumento del consumo de la calefaccin?,...

    A continuacin, estudiaremos dicho grado de relacin entre dos variables en lo que

    llamaremos anlisis de correlacin. Para representar esta relacin utilizaremos una

    representacin grfica llamada diagrama de dispersin y, finalmente, estudiaremos un

    modelo matemtico para estimar el valor de una variable basndonos en el valor de otra, en

    lo que llamaremos anlisis de regresin.

    Objetivos

    Aprender a calcular la correlacin entre dos variables

    Saber dibujar un diagrama de dispersin

    Representar la recta que define la relacin lineal entre dos variables

    Saber estimar la recta de regresin por el mtodo de mnimos cuadrados e

    interpretar su ajuste.

    Realizar inferencia sobre los parmetros de la recta de regresin

    Construir e interpretar intervalos de confianza e intervalos de prediccin para la

    variable dependiente

    Realizar una prueba de hiptesis para determinar si el coeficiente de correlacin es

    distinto de cero.

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    140

    DEFINICIN: Consideremos una variable dependiente Y con una sola variable independiente

    X. Representemos una muestra aleatoria de tamao n de (X, Y) por el conjunto de

    observaciones formadas por pares de variables: {(Xi, Yi) / i = 1,2,,n}

    A travs de esta muestra, se desea estudiar la relacin existente entre las dos variables X e Y.

    Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresin Simple.

    Y es una funcin de X Y = f(X)

    Como Y depende de X,

    Y: Es la variable dependiente, y

    X: Es la variable independiente.

    En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y cul es la variable independiente.

    La variable dependiente es la variable que se desea explicar, predecir. Tambin se le llama REGRESANDO VARIABLE DE RESPUESTA.

    La variable Independiente X se le denomina VARIABLE EXPLICATIVA REGRESORA y se le utiliza para EXPLICAR a Y.

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    141

    Variable dependiente Variable independiente

    Variable explicada variable explicativa Predicha Predictora

    Regresada Regresora

    Respuesta Estmulo

    Endgena Exgena

    Resultado Covariante

    Variable controlada Variable control

    Regresin lineal: Consideraciones sobre los datos

    Datos. Las variables dependientes e independientes deben ser cuantitativas. Las variables categricas, como la religin, estudios principales o el lugar de residencia, han de decodificarse como variables binarias (dummy) o como otros tipos de variables de contraste. Los supuestos para el modelo de regresin lineal simple son: a) Igualdad de varianzas (homoscedasticidad).

    Para cada valor xi de la variable independiente X, la distribucin de la variable aleatoria dependiente Yi tiene media

    , y varianza 2

    . Se supone que cada una de estas

    varianzas son iguales a la varianza comn 2, denominado varianza de la regresin. Es decir las distribuciones de Yi tienen medias diferentes, pero tienen la misma varianza 2.

    b) Independencia Se supone que las Yi son variables aleatorias estadsticamente independientes.

    c) Linealidad. Se supone que la relacin de Y con X es lineal, es decir todas las medias

    deben estar

    en una lnea recta denominada lnea de regresin poblacional, cuya ecuacin es: (Y/Xi) =

    = + Funcin de regresin Poblacional.

    En la ecuacin de regresin Poblacional los coeficientes de regresin son parmetros que se estiman a partir de los datos de la muestra.

    Interpretacin de los parmetros de un modelo de regresin lineal.

    El valor de es la ordenada en el origen e indica el valor de Y cuando X = 0. El valor de es la pendiente de la ecuacin de regresin poblacional e indica el cambio promedio en Y correspondiente a un incremento unitario en X. El signo de , indica el tipo de tendencia (positivo o negativo) de Y con respecto a X.

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    142

    d) Normalidad. Se supone que cada variable aleatoria dependiente Yi tiene distribucin normal con media

    y varianza 2. En consecuencia la distribucin de cada variable es normal

    con media 0 y varianza 2.

    1. Diagrama de dispersin: grfica que describe la relacin entre las dos variables de inters. Variable dependiente: la variable que se pronostica o estima.

    Variable independiente: la variable que proporciona la base para la estimacin. Es la

    variable predictora.

    2. Modelo de regresin lineal simple Propsito: determinar la ecuacin de regresin; se usa para predecir el valor de la variable dependiente (Y) basado en la variable independiente (X). El modelo es:

    = 0 + 1 +

    3. Estimacin de los parmetros del modelo de regresin Procedimiento: seleccionar una muestra de la poblacin y enumerar los datos por pares para cada observacin; dibujar un diagrama de dispersin para visualizar la relacin;

    determinar los estimadores de los parmetros 10 , y del modelo de regresin. La

    ecuacin de regresin estimada es:

    = 0 + 1

    Donde:

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    143

    Y Es el valor promedio pronosticado de Y para cualquier valor de X.

    0: Es el estimador de ,0 es la intercepcin en Y, o el valor estimado de Y cuando X = 0

    1: Es el estimador de ,1 es la pendiente de la recta, o cambio promedio en Y por

    cada cambio de una unidad en X

    ESTIMACIN DE LOS PARMETROS

    Y

    DE LA ECUACIN DE REGRESIN POBLACIONAL, A

    TRAVS DEL MTODO DE MNIMOS CUADRADOS ORDINARIOS:

    Xdecuadradosdesuma

    XYproductosdeSuma

    XSC

    XYSP

    n

    xx

    n

    yxxy

    b

    .

    .

    )( 22

    1

    n

    xb

    n

    yb

    10

    4. Pruebas de significacin del modelo

    Anlisis de varianza. Prueba global de significacin del modelo (Prueba F) Descomposicin de la suma de cuadrados del total El anlisis de varianza es un mtodo que utiliza la estadstica F para probar la significacin de la ecuacin de regresin muestral o la existencia de regresin en la poblacin. Es una prueba F de alternativa bilateral. La hiptesis nula y alternativa para esta prueba es respectivamente:

    Hiptesis y nivel de significacin:

    insignificacdeNivel

    YeXentrelinealregresinExisteH

    YeXentrelinealregresinexisteNoH

    i

    i

    :

    )(0:

    )(0:

    1

    0

    ( )2

    =1

    = ( )2

    =1

    + ( )2

    =1

    SCT = SCE + SCR Grficamente.

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    144

    CLCULO DE LA SUMAS DE CUADRADOS

    SCRSCTSCE

    n

    xxSCR

    n

    yxxySCR

    n

    yySCT

    2

    22

    11

    2

    2

    )(()(

    )(

    CUADRO ANVA o ANOVA

    Fuente de variacin

    Suma de cuadrados

    Grados de libertad

    Cuadrados medios

    F calculado (Fc)

    Debido a la regresin Debido al error

    SCR

    SCE

    P-1

    n-P

    CMR=SCR/1

    CME=SCE/(n-2)

    CMR/CME

    Total SCT n-1

    Decisin y conclusin: ),1(0Re pnpc FSiFchazarH

    Error estndar de la estimacin

    El error estndar de la estimacin mide la dispersin de los valores observados alrededor de la recta de regresin. Frmulas usadas para calcular el error estndar:

    22

    )( 1022

    .

    n

    xybyby

    n

    YYS xy CME

    n

    SCES xy

    2.

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    145

    PRECISION DE LOS ERRORES ESTANDAR DE LOS ESTIMADORES DE j

    nSCX

    CMExs

    nSCX

    CMExbVar

    SCX

    CMEs

    SCX

    CMEbVar

    b

    b

    )()()(

    )(

    22

    0

    1

    1

    1

    INTERVALO DE CONFIANZA PARA LOS ESTIMADORES DE j

    11

    00

    ;211;21

    ;200;20

    bnbn

    bnbn

    stbstb

    stbstb

    Prueba individual de significacin de los estimadores de j del modelo (Prueba t-student)

    PARA 0

    derechaunilateralpruebattsi

    izquierdaunilateralpruebattsi

    bilateralpruebattsiHchazarDecisn

    ts

    btpruebadeaEstadistic

    insignificacdeNivel

    H

    HHiptesis

    nc

    nc

    nc

    n

    b

    c

    ;2

    ;2

    ;20

    ;2

    0

    01

    00

    Re:

    :

    :

    0:

    0:

    0

    PARA 1

    derechaunilateralpruebattsi

    izquierdaunilateralpruebattsi

    bilateralpruebattsiHchazarDecisn

    ts

    btpruebadeaEstadistic

    insignificacdeNivel

    H

    HHiptesis

    nc

    nc

    nc

    n

    b

    c

    ;2

    ;2

    ;20

    ;21

    11

    10

    Re:

    :

    :

    0:

    0:

    1

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    146

    5. Anlisis de correlacin

    Anlisis de correlacin: se usa un grupo de tcnicas estadsticas para medir la fuerza de la relacin

    (correlacin) entre dos variables.

    Coeficiente de correlacin, r: El coeficiente de correlacin (r) es una medida de la intensidad de la relacin entre dos variables. Requiere datos con escala de intervalo o de razn (variables). Puede tomar valores entre -1.00 y 1.00. Valores de -1.00 o 1.00 indican correlacin fuerte y perfecta. Valores cercanos a 0.0 indican correlacin dbil. Valores negativos indican una relacin inversa y valores positivos indican una relacin directa.

    Correlacin negativa perfecta Correlacin positiva perfecta

    Correlacin cero Correlacin positiva fuerte

    Frmula para r

    SCT

    SCE

    SCT

    SCRr

    n

    yy

    n

    xx

    n

    yxxy

    r

    1

    ))(

    )()(

    (

    2

    2

    2

    2

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    147

    Coeficiente de determinacin

    El coeficiente de determinacin, r2 es la proporcin de la variacin total en la variable dependiente Y que est explicada por o se debe a la variacin en la variable independiente X.

    El coeficiente de determinacin es el cuadrado del coeficiente de correlacin, y toma valores de 0 a 1.

    Ms sobre el coeficiente de determinacin

    Prueba individual de significacin del coeficiente de correlacin (Prueba t-student)

    derechaunilateralpruebattsi

    izquierdaunilateralpruebattsi

    bilateralpruebattsiHchazarDecisn

    tr

    nrtpruebadeaEstadistic

    insignificacdeNivel

    H

    HHiptesis

    nc

    nc

    nc

    nc

    ;2

    ;2

    ;20

    ;22

    1

    0

    Re:

    1

    2:

    :

    0:

    0:

    6. Prediccin.

    El intervalo de confianza (de prediccin) de 100(1-)% para la media de Y dado un valor de X est definido por:

    SCX

    XX

    nCMEtyY

    SCX

    XX

    nCMEty

    nn

    2

    21;2

    2

    21;2

    )(1(

    )(1(

    El intervalo de prediccin (de prediccin) de 100(1-)% para un valor individual de Y dado un valor de X se define por:

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    148

    SCX

    XX

    nCMEtyY

    SCX

    XX

    nCMEty

    nn

    2

    21;2

    2

    21;2

    )(11(

    )(11(

    Variables cualitativas y regresiones escalonadas. Las variables cualitativas son no numricas y tambin se llaman variables ficticias. Para una variable cualitativa, slo existen dos condiciones posibles. La regresin escalonada conduce a la ecuacin de regresin ms eficiente. Slo las variables independientes con coeficientes de regresin significativos entran en el anlisis, las variables se introducen en el orden en que hacen que R2 aumente ms rpido

    Anlisis de residuos. Un residuo (o residual) es la diferencia entre el valor real de Y y el valor pronosticado Y (Y estimado). Los residuos deben tener una distribucin normal aproximada. Los histogramas y los diagramas de tallo y hoja sirven para verificar estos requisitos. Una grfica de residuos y los valores de Y correspondientes se usan para mostrar que no hay tendencias ni patrones en los residuos.

    Ejemplo: El representante de alumnos de la Universidad, est preocupado por el costo de los libros. Para tener un panorama del problema elige una muestra de 8 libros de venta en la librera. Decide estudiar la relacin entre el nmero de pginas del libro y el costo.

    Libro N de pginas Costo ($)

    1 500 28

    2 700 25

    3 800 33

    4 600 24

    5 400 23

    6 500 27

    7 600 21

    8 800 31

    i) Desarrollar una ecuacin de regresin para la informacin dada en el EJEMPLO de coeficiente de regresin que puede usarse para estimar el precio de venta basado en el nmero de pginas. Por el mtodo de mnimos cuadrados:

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    149

    b = .01714

    a = 16.00175

    Y = 16.00175 + .01714X

    ii) Realice la prueba de significacin global e individual del modelo estimado. iii) r =0.614 (verifique) iv) Pruebe la hiptesis de que no existe correlacin en la poblacin. Use .02 de nivel de

    significancia. H0: La correlacin en la poblacin es cero. H1: La correlacin en la poblacin es distinta de cero.

    El estadstico de prueba es calculado por

    ,con (n - 2) grados de libertad

    t = 1.9055,

    Se rechaza H0 si t > 3.143 o si t< -3.143, gl = 6, =0.02. No se rechaza H0

    v) Use la informacin del primer ejemplo: calcule el error estndar de la estimacin:

    a) desarrolle un intervalo de confianza de 95% para los libros de 650 pginas: [24.03, 30.25]. Verifique

    b) desarrolle un intervalo de prediccin de 95% para un libro de 650 pginas: [18.09, 36.19] Verifique

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    150

    EJERCICIOS RESUELTOS (Regresin Lineal, Correlacin, ANVA)

    Ejemplo.

    Tabla 01: Datos hipotticos sobre el gasto de consumo familiar semanal (Y) y el ingreso familiar semanal (X)

    Obs. 1 2 3 4 5 6 7 8 9 10

    Y ($) 70 65 90 95 110 115 120 140 155 150

    X ($) 80 100 120 140 160 180 200 220 240 260

    Solucin.

    Resumen

    Estadsticas de la regresin

    Coeficiente de correlacin mltiple 0.98084737 Coeficiente de determinacin R^2 0.96206156 R^2 ajustado 0.95731926

    Error tpico 6.49300323

    Observaciones 10

    ANLISIS DE VARIANZA

    Fuente de Grados de Suma de Cuadrados F Valor crtico de

    y = 0.5091x + 24.455R = 0.9621

    0

    20

    40

    60

    80

    100

    120

    140

    160

    180

    0 50 100 150 200 250 300

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    151

    variacin libertad cuadrados Medios F

    Regresin 1 8552.7272

    7 8552.72727

    202.867925

    5.7527E-07

    Residuos 8 337.27272

    7 42.1590909

    Total 9 8890

    Modelo de regresin lineal

    Coeficientes Error tpico Estadstico t Probabilidad

    Intercepcin 24.4545455 6.4138173 3.81279109 0.00514217

    Variable X 1 0.50909091 0.03574281 14.2431712 5.7527E-07

    Anlisis de los residuales Observacin Pronstico para Y Residuos

    1 65.1818182 4.81818182 2 75.3636364 -10.3636364

    3 85.5454545 4.45454545 4 95.7272727 -0.72727273

    5 105.909091 4.09090909 6 116.090909 -1.09090909

    7 126.272727 -6.27272727

    8 136.454545 3.54545455

    9 146.636364 8.36363636

    10 156.818182 -6.81818182

    1. Se efectu un experimento para evaluar el efecto el zinc en el peso de las cacatas.

    En el experimento, a 7 grupos de cacatas adultas se les dio diferentes dosis de zinc y sus prdidas de peso tras la primera semana fueron registradas. Los datos de los pesos medios por grupo al final de la semana estn expresados como porcentajes sobre los pesos iniciales.

    X(Ingesta

    de zinc)

    Y(Peso

    medio %) X2 Y2 XY

    1 0 100 0 10000 0

    2 2 92 4 8464 184

    3 4 95 16 9025 380

    4 8 90 64 8100 720

    5 12 98 144 9604 1176

    6 16 85 256 7225 1360

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    152

    7 30 67 900 4489 2010

    SUMA 72 627 1384 56907 5830

    REGRESIN LINEAL:

    7

    721384

    7

    627725830

    22

    2

    1

    n

    XX

    n

    YXXY

    7-0.96225571

    7

    7296225577.0

    7

    62710

    n

    X

    n

    Y

    99.46891650

    Ecuacin

    XYXY 0.96225577-99.468916510

    Comportamiento:

    CORRELACIN:

    7

    62756907

    7

    721384

    7

    627725830

    222

    2

    2

    2

    n

    YY

    n

    XX

    n

    YXXY

    5-0.8938290

    Coeficiente de determinacin:

    0.798930370.89382905- 222

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    153

    Nota : El 80% de Y depende de X

    ANLISIS DE VARIANZA:

    745.7142867

    62756907

    22

    2 n

    YYSCTOTAL

    7-619.142857

    7213847-0.9622557

    22

    2

    1

    n

    XXSC

    REGRESIN

    126.571429619.142857-745.714286 REGRESIONTOTALERROR SCSCSC

    Hiptesis

    H0 : No existe regresin lineal entre x e y

    Ha : Si existe regresin lineal entre x e y

    Cuadro ANVA:

    F.V. S.C. G.L. C.M. F.C. Sig.

    Regresin 619.14 1 619.14 24.4582

    **

    Error 126.57 5 25.31

    TOTAL 745.714

    2 6

    124.28

    Ft = F(1,619) 0.05 = 3.84

    Decisin:

    Como Fc > Ft entonces se rechaza H0.

    Conclusin:

    Existe suficiente evidencia estadstica de que existe regresin lineal entre x e y.

    2. Se desea investigar el efecto de la temperatura sobre el ritmo cardiaco de una especie de lagarto. Los lagartos fueron colocados en un recinto cerrado de modo que la temperatura dentro del recinto pudo ser controlada. Los resultados obtenidos son los siguientes:

    X(Temperatura-

    C) Y(Latidos/minuto) X2 Y2 XY

    1 22 20.8 484 432.64 457.6

    2 22 22.3 484 497.29 490.6

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    154

    3 24 24.1 576 580.81 578.4

    4 24 25.6 576 655.36 614.4

    5 26 25.7 676 660.49 668.2

    6 26 27.2 676 739.84 707.2

    7 28 27.3 784 745.29 764.4

    8 28 28.8 784 829.44 806.4

    9 30 29.4 900 864.36 882

    10 30 31.9 900 1017.61 957

    11 32 32.4 1024 1049.76 1036.8

    12 32 33.8 1024 1142.44 1081.6

    13 34 32.8 1156 1075.84 1115.2

    14 34 34.1 1156 1162.81 1159.4

    15 36 32.4 1296 1049.76 1166.4

    16 36 37.9 1296 1436.41 1364.4

    17 38 38 1444 1444 1444

    18 38 36.5 1444 1332.25 1387

    19 40 39 1600 1521 1560

    20 40 41 1600 1681 1640

    SUMA 620 621 19880 19918.4 19881

    REGRESIN LINEAL:

    20

    62019880

    20

    62162019881

    22

    2

    1

    n

    XX

    n

    YXXY

    0.954545451

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    155

    20

    6200.95454545

    20

    62110

    n

    X

    n

    Y

    1.459090910

    Ecuacin

    XYXY 0.954545451.4590909110

    Comportamiento:

    CORRELACIN:

    20

    62119918.4

    20

    62019880

    20

    62162019881

    222

    2

    2

    2

    n

    YY

    n

    XX

    n

    YXXY

    0.97212152

    Coeficiente de determinacin:

    0.945020250.97212152 222

    Nota : El 95% de Y depende de X

    ANLISIS DE VARIANZA:

    636.3520

    62119918.4

    22

    2 n

    YYSCTOTAL

    63020

    620198800.95454545

    22

    2

    1

    n

    XXSC

    REGRESIN

    6.35630-636.35 REGRESIONTOTALERROR SCSCSC

    Hiptesis

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    156

    H0 : No existe regresin lineal entre x e y Ha : Si existe regresin lineal entre x e y

    Cuadro ANVA:

    F.V. S.C. G.L. C.M. F.C. Sig.

    Regresin 630 1 630 1785.8268 **

    Error 6.35 18 0.3528

    TOTAL 636.35 19

    Ft = F(1,630) 0.05 = 3.84 Decisin:

    Como Fc > Ft entonces se rechaza H0. Conclusin:

    Existe suficiente evidencia estadstica de que existe regresin lineal entre x e y.

    REGRESION LINEAL MULTIPLE

    En los trabajos de Investigacin es necesario emplear tcnicas estadsticas que permitan

    interpretar los resultados y de estas forma poder llegar a conclusiones valederas que

    permitan al investigador aceptar o rechazar Hiptesis planteadas inicialmente e inclusive

    formular nuevas hiptesis, una de esas tcnicas de gran utilidad es el anlisis de regresin

    que permite estudiar la asociacin entre dos o ms variables.

    REGRESIN: Consiste en determinar una relacin funcional entre las variables con el fin de

    que se pueda predecir el valor de una variable (dependiente) en base a otra(s) variables

    (independientes).

    CORRELACIN: Consiste en determinar la variacin conjunta de las variables, su grado de

    relacin y su sentido (positivo o negativo).

    Los modelos para un anlisis de regresin mltiple son similares a los de regresin lineal

    simple, excepto que contienen ms trminos y pueden servir para proponer relaciones ms

    complejas que una lnea recta en lugar de usar un modelo de lnea recta E(y) =0 + 1 X ,

    para modelar el componente determinstico podramos emplear el modelo cuadrtico E(y)

    =0 + 1X + 2X2 , Tambin conocido como modelo de segundo orden se representa

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    157

    grficamente como una parbola en contraste con los modelos de lnea recta o modelos de

    primer orden.

    Si por aadidura pensamos incluir en el modelo otra variable una grfica de E(y) como

    funcin de X1, X2 describe una superficie de respuesta en el plano (X1,X2) y el modelo de

    primer orden es: E(y) =0 + 1 X1 + 1X2 (describe una superficie plana) sin embargo en la

    mayor parte de las aplicaciones de la vida real esperaramos una curvatura en la superficie de

    respuesta y utilizaramos un modelo de tercer orden:

    3

    25

    2

    142132211 0 E(y) XXXXXX para modelar la relacin.

    Estos modelos e denominan modelos lineales generales porque E(y) es funcin lineal de

    los PARMETROS desconocidos 0, 1, 2...

    El modelo X

    yE 10)( no es un modelo lineal porque E(y) no es funcin lineal de los

    parmetros 0 + 1 Podemos incluir variables cuantitativas y cualitativas en el modelo, stas variables son denominadas ficticias, dicotomas o de ndice. Ejemplo: Si E(y): Tiempo medio para ejecutar un trabajo X : Da de la semana en que se ejecuta en trabajo

    X1= 1 Si la observacin se hace en domingo 0 Si no es as. X2= 1 Si la observacin se hace en lunes 0 Si no es as. X3= 1 Si la observacin se hace en martes 0 Si no es as. X4= 1 Si la observacin se hace en mircoles 0 Si no es as. X5= 1 Si la observacin se hace en jueves 0 Si no es as. X6= 1 Si la observacin se hace en viernes 0 Si no es as.

    Podemos escribir el modelo:

    665544332211 0 E(y) XXXXXX

    Las variables ficticias introducen al parmetro apropiado ( de que puede ser positivo o negativo) dependiendo del da de la semana. As: En domingo X1= 1, X2 = X3, ...., = X6 = 0 y el valor medio de Y es:

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    158

    E(y) =0 + 1(1) E(y) =0 + 1 En lunes E(y) =0 + 2 En martes E(y) =0 + 3 En mircoles E(y) =0 + 4 En jueves E(y) =0 + 5 En viernes E(y) =0 + 6 En sbado se asigna 0 a todas las variables ficticias y el valor medio de Y es: E(y) =0 Se recomienda seleccionar el modelo de regresin apropiado para una situacin en particular. Ningn mtodo estadstico puede compensar una mala seleccin del modelo. Propondremos un anlisis ms profundo al respecto en una prxima sesin. En el presente su pondremos que se ha seleccionado un modelo razonable para la situacin y nos concentraremos en el procedimiento de ajuste del modelo a un conjunto de datos y en los mtodos asociados de inferencia estadstica. Despus de haber seleccionado una porcin determinstica de un modelo de regresin, esto es para E(y) agregamos un componente a fin de compensar el error aleatorio, de modo que se tiene:

    Y = E(y) +

    Componente

    aleatorio

    Componente Deterministico

    El componente aleatorio debe obedecer los supuestos del modelo de regresin lineal:

    Tenga distribucin normal con media 0 y varianza 2. Esto implica que la media de Y equivale al componente deterministico

    kk XX ... E(y) 11 0

    Para todos los valores de las variables independientes X1, X2, X3,..., Xk la varianza de es constante.

    La distribucin de probabilidad de es normal.

    Los errores aleatorios asociados a cualquier par de Y son independientes (en sentido probabilstico).

    DESCRIPCIN DE LOS DATOS Y DEL MODELO: Los datos consisten de n observaciones sobre una variable independiente o respuesta Y y

    de K variables independientes:

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    159

    X1, X2, X3, ..., Xk. Si kn y Xij es la ij-sima observacin o nivel de la variable Xj , donde

    i=1,2,3,...,n; j=1,2,3,..,k.

    Las observaciones usualmente son presentadas de la siguiente manera:

    Observaciones Y X1 X2 X3 ... Xk

    1 Y1 X11 X12 X13 ... X1K

    2 Y2 X21 X22 X23 ... X2K

    3 Y3 X31 X32 X33 ... X3K

    . . . . . ... .

    . . . . . ... .

    . . . . . ... .

    n Yn Xn1 Xn2 Xn3 Xnk

    Las relaciones entre la variable Y con las variables X1, X2, X3, ..., Xk, donde cada observacin (Xi1 Xi2 Xi3 ... Xik , Y) satisface el modelo lineal general de regresin siguiente:

    iikkiii XXXX ...Y 332211 0i

    Cada modelo describe un hiperplano en el espacio k-dimensional formado por {Xi }

    Donde:

    Yi: Variable dependiente ( respuesta)

    X1, X2, X3, ..., Xk: variables independientes. Podran en realidad representar los

    cuadrados cubos productos cruzados u otras funciones

    (sen, log. Etc.) de las variables de prediccin. Lo esencial

    es que se pueden medir sin error cuando se observe un

    valor de Y y que no intervengan parmetros

    desconocidos.

    j: Parmetros de la regresin . constantes

    desconocidas. Expresan el incremento en la variable

    respuesta Y que se corresponde a una unidad de

    incremento en Xj cuando otras variables Xi ji se

    mantienen constantes.

    i: Vector aleatorio de errores supuestos.

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    160

    Los coeficientes j : 0,k son estimados por el mtodo de mnimos cuadrados, as:

    El modelo:

    iikkiii XXXX ...Y 332211 0i

    Despejando i y elevando al cuadrado ambos miembros:

    (i)2=2

    332211 0i ))...((Y ikkiii XXXX

    Aplicando el operador de sumatoria en ambos miembros de la igualdad:

    2332211 0i

    11

    2 ))...((Y ikkiii

    n

    i

    n

    ii XXXX

    Derivando parcialmente con respecto a j e igualando a cero buscamos

    minimizar la suma de los cuadrados del error aleatorio:

    SSEYi

    n

    i

    n

    ii

    2i

    11

    2 )(Y

    Obtenindose un sistema de ecuaciones lineales simultaneas llamadas

    ecuaciones normales de mnimos cuadrados del modelo:

    00

    SSE

    01

    SSE

    02

    SSE

    .

    .

    .

    0

    k

    SSE

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    161

    Examinemos la primera ecuacin:

    Si tomamos la primera derivada parcial de SSE con respecto a 0

    obtenemos:

    Introduciendo el operador SUMATORIA e Igualando a cero, queda:

    0)...(Y 332211 0i ikkiii XXXXn

    Osea: (despejando e intercambiado miembros):

    iikkiii YXXXXn ...332211 0

    Esta es una ecuacin lineal en los parmetros. Las ecuaciones de

    mnimos cuadrados restantes todas lineales en los parmetros son:

    iiikikiiii YXXXXXXX 1121221110 ...

    iiikikiiii YXXXXXXX 2222212120 ...

    .

    .

    .

    iikikkiikiikik YXXXXXXX 2

    22110 ...

    Luego el sistema es:

    iikkiii YXXXXn ...332211 0

    iiikikiiii YXXXXXXX 1121221110 ...

    )1))(...((Y2 332211 0i10

    ikkiii

    n

    i

    XXXXSSE

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    162

    iiikikiiii YXXXXXXX 2222212120 ...

    .

    .

    .

    iikikkiikiikik YXXXXXXX 2

    22110 ...

    El sistema tiene p = k +1 ecuaciones e incgnitas

    Como puede verse, escribir k+1 ecuaciones lineales de mnimos cuadrados

    ya cuesta trabajo, resolverlos simultneamente a mano es todava ms

    difcil. Una forma fcil de expresar las ecuaciones y resolverlos es

    mediante el lgebra de Matrices y obtener frmulas para las

    estimaciones de los coeficientes de regresin lineal de mnimos cuadrados,

    SSE, estadsticas de prueba, intervalos de confianza y de prediccin.

    ECUACIONES DE MINIMOS CUADRADOS Y SU RESOLUCION: ENFOQUE MATRICIAL.

    Es preciso acomodar los datos en matrices siguiendo un patrn especfico:

    Supondremos que el modelo es:

    Y = o + 1X1 + 2X2 + 3 X3 ++k Xk + Donde:

    X1 X2 X3 Xk: Variables de prediccin

    : error aleatorio p = k +1: nmero de parmetros del modelo

    k: Nmero de variables de prediccin

    Supongamos que se tiene una muestra de tamao n ( kn ) que se

    denota as:

    Valor Variables explicatorias Error

    de aleatorio

    Datos Y X1 X2 X3... Xk

    1 Y1 X11 X12 X13...X1K 1

    2 Y2 X21 X22 X23...X2K 2

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    163

    3 Y3 X31 X32 X33...X3K 3

    . . . . . ....

    . . . . . ....

    . . . . . ....

    n Yn Xn1 Xn2 Xn3 Xnk k

    En notacin matricial:

    En forma desarrollada puede verse as:

    1

    3

    2

    1

    1

    2

    1

    0

    npn3n2n1

    3p333231

    2p232221

    1p131211

    1n

    3

    2

    1

    .

    .

    .

    .

    .

    ..

    X X X X 1

    . . . . . .

    . . . . . .

    . . . . . .

    X ... X X X 1

    X ... X X X 1

    X ... X X X 1

    Y

    .

    .

    .

    Y

    Y

    Y

    nxnpxknxp

    nx

    Ynx1 = Xnxp . px1 + nx1 Matriz de error

    Matriz de parmetros coeficientes De regresin

    k: nde variables Xs

    p= k +1 n de parmetros

    Matriz de datos xs Matriz de los datos Ys

    OBSERVACIONES: La primera columna de X es una columna de unos, es decir estamos

    insertando un valor de X, especficamente X0 como coeficiente de o donde X0 es una variable que siempre toma valores iguales a 1.

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    164

    Hay una columna en la matriz X para cada parmetro Un punto de datos en particular se identifica mediante filas

    especficas de las matrices Y y X. Ejemplo: el Valor de Y para el punto de datos 3, osea y3 est en la tercera fila de la matriz Y y sus

    valores correspondientes de X1 X2 X3 Xk aparecen en la tercera fila de la matriz X.

    Con sta notacin el modelo lineal general se pude expresar en la forma de matriz como: Y = X +

    La matriz contiene a los parmetros o, 1, 2, 3,,p de modo que resolver el sistema nos dar como resultado, las estimaciones

    de mnimos cuadrados de cada uno de ellos, denotados por:

    '

    3210 )( y el modelo de estimacin es

    YydondeXy ,

    Ahora bien:

    ESTIMACIN DE LOS PARMETROS

    Utilizamos las matrices de datos Y y X, sus transpuestas y la matriz

    '3210 )( , podemos escribir las ecuaciones de mnimos

    cuadrados, as:

    * El modelo: Xy Despejando

    Xy

    Elevando al cuadrado en ambos miembros , en notacin matricial es

    multiplicar por la izquierda en cada miembro por su transpuesta

    correspondiente:

    )()'(' XyXy

    ))'(')((' XyXy

    )'()'()(''' XXyXXyyy

    yXXy )'()('

    )'()(')(''' XXXyXyyy

    Se obtiene:

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    165

    '')('2'' XXXyyy

    Derivando con respecto a para minimizar ' que es la suma de cuadrados del error:

    '2'2

    'XXyX

    Igualando a cero:

    0'2'2 XXyX

    Obtenemos:

    yXXX ''

    Para despejar multiplicamos en ambos miembros de la igualdad

    por (XX)-1 que es la inversa de la matriz XX:

    (XX)-1 XX = (XX)-1Xy

    Por tanto:

    PARA EL CLCULO, A PARTIR DE:

    = (XX)1XY

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    166

    1

    3

    2

    1

    1

    2

    1

    0

    npn3n2n1

    3p333231

    2p232221

    1p131211

    1n

    3

    2

    1

    .

    .

    .

    .

    .

    ..

    X X X X 1

    . . . . . .

    . . . . . .

    . . . . . .

    X ... X X X 1

    X ... X X X 1

    X ... X X X 1

    Y

    .

    .

    .

    Y

    Y

    Y

    nxnpxknxp

    nx

    SE ESCRIBE:

    nxppxn

    XX

    nkn3n2n1

    3k333231

    2k232221

    1k131211

    nk3k 2k1k

    n333 13

    n2322212

    n1312111

    X X X X 1

    . . . . . .

    . . . . . .

    . . . . . .

    X ... X X X 1

    X ... X X X 1

    X ... X X X 1

    X X X X

    .

    X X X X

    X X X X

    X X X X

    1 1 1 1

    '23

    El producto resulta:

    pxpikiXX

    XX

    ikiniki32iki1ik

    iki32i3i3i2i3i1i3

    iki2i3i22i2i2i1i2

    iki1i3i1i2i12i1i1

    iki3i2i1

    XX XX XX X

    XX X XX XX X

    X X ... X X X XX X

    X X ... X X X X X X

    X ... X X X n

    '

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    167

    XX: Es una matriz no singular, es matriz cuadrada. El clculo de su

    inversa se realiza mediante:

    (XX)-1 = (1/|XX|)adjunta(XX)

    1

    33

    22

    11

    1

    1n

    3

    2

    1

    nk3k 2k1k

    n333 13

    n2322212

    n1312111

    Y

    .

    .

    .

    Y

    Y

    Y

    X X X X

    .

    X X X X

    X X X X

    X X X X

    1 1 1 1

    '23

    pxnik

    i

    i

    i

    i

    nxpxnYX

    YX

    YX

    YX

    Y

    YX

    Luego el vector de parmetros es:

    K

    YXXX

    2

    1

    0

    1 ')'(

    Y el modelo de regresin estimado es:

    ,1,1;1

    0

    XY

    kjniXY ij

    k

    jji

    CARACTERSTICAS DE LOS ESTIMADORES DE MINIMOS

    CUADRADOS

    a. ESPERANZA MATEMTICA DE

    E( ) =

    Demostracin:

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    168

    E( )= )(')'()')'( 11 XXXXEYXXXE

    E( )= )')'(')'(( 11 XXXXXXXE

    E( )= )(')'()( 1 EXXXE

    E( ) =

    b. VARIANZA Y COVARIANZA DE

    Var-cov( )= 12 )'( XX

    Demostracin:

    Var-cov( )=E( -E( ))( -E( ))

    Var-cov( )=E( - )( - )

    Observe que:

    ')'(

    ')'(

    ')'(')'(

    )(')'(

    ')'(

    1

    1

    11

    1

    1

    XXX

    XXX

    XXXXXXX

    XXXX

    XYdondeYXXX

    Var-cov( )=E[( ')'( 1 XXX )( ')'( 1 XXX )]

    Var-cov( )=E[ 11 )'('')'( XXXXXX ]

    Var-cov( )= 11 )'()'(')'( XXXEXXX

    Observe: nIE2)'( (Demostracin para el lector)

    Var-cov( )= 121 )'(')'( XXXIXXX n

    Var-cov( )= 121 )'(')'( XXIXXXX n

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    169

    Var-cov( )= 12 )'( XX

    c. Los errores estndar y la covarianza de los estimadores j se

    determinan mediante los elementos de la matriz (XX)-1 cuya

    notacin es:

    ij

    pxpkkkkkk

    k

    k

    k

    c

    ccccc

    ccccc

    ccccc

    ccccc

    XX

    3210

    223222120

    113121110

    003020100

    1)'(

    Los elementos de la diagonal proporcionan los valores que se necesitan

    para calcular los errores estndar de los estimadores. De modo que:

    Var-cov( j )= jjc2

    Luego: Los errores estndar de los estimadores de j son:

    aleatorioerrordeldesviacilaesDondecSE jjj ,)(

    Los elementos que estn fuera de la diagonal proporcionan valores

    necesarios para calcular las covarianzas de los parmetros, digamos

    j , jiDondei

    cov( ji )= jiij cc22

    Estas covarianzas son necesarias para determinar la varianza de la

    ecuacin de prediccin, o cualquier otra funcin lineal de parmetros.

    Desempean un papel el el establecimiento de un intervalo dre confianza

    para E(y) y un intervalo de prediccin para Y

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    170

    ESTIMADOR DE 2 . VARIANZA DE EN EL MODELO DE REGRESIN

    MLTIPLE

    Las varianzas de los estimadores de los parmetros y de Y dependen del

    valor de 2 (varianza del error aleatorio ) que aparece en el modelo y

    casi nunca se se le conoce por adelantado, debemos usar los datos de la

    muestra para estimar su valor

    pn

    SSE

    pn

    YXYY

    '''2

    COMPONENTES DE LA SUMA DE CUADRADOS DEL TOTAL DE Y

    SCT = SCR + SCE

    Suma de cuadrados del total de Y.

    2' YnYYSCT

    Suma de cuadrados de la regresin

    2' YnYXSCR

    Suma de cuadrados del error (residual)

    YXYYSCT ''

    Varianza explicada SCR/n Varianza no explicada SCE/n-p

    PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL MLTIPLE

    a. Prueba para la significacin de la regresin

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    171

    Hiptesis

    H0: 1= 2= 3==K=0

    H1: Por lo menos uno de los parmetros es distinto de cero

    Anlisis de varianza (ANVA o ANOVA)

    Fuente de variacin

    Suma de cuadrados

    Grados de libertad

    Cuadrados medios

    F calculado (Fc)

    Debido a la regresin Debido al error

    SCR

    SCE

    P-1

    n-P

    CMR=SCR/1

    CME=SCE/(n-2)

    CMR/CME

    Total SCT n-1

    Donde: n es tamao de la muestral o nmero de datos

    k nmero de variables independiente

    p nmero de parmetros

    Rechazar H0 Si Fc es mayor que F(k, n-p)

    El rechazo de H0 implica que al menos una de las variables de regresin

    tienen una contribucin significativa en el modelo.

    b. PRUEBAS SOBRE LOS COEFICIENTES INDIVIDUALES DE

    REGRESIN

    Estas pruebas son tiles para determinar el valor potencial de cada una de

    las variables de regresin del modelo, as el modelo puede ser mas eficaz

    con la inclusin de variables adicionales o quiz con la eliminacin de una

    o ms regresoras presentes en el modelo

    Hiptesis

    H0 : j =0

    H1 : j 0

    ESTADSTICA DE PRUEBA

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    172

    jj

    j

    O

    cT

    2

    DECISIN:

    Rechazar H0 si |To|> tn-p para un % de significacin

    CONCLUSIN

    Si no se rechaza la hiptesis H0 indica que el regresor Xj puede

    eliminarse del modelo

    MEDIDAS DE ADECUACION DEL MODELO

    a. Coeficiente de determinacin mltiple

    Es una medida de la magnitud de la reduccin en la variabilidad de Y,

    obtenida mediante el empleo de variables de regresin X1 X2 X3 Xk.

    10,1 22 RSCT

    SSE

    SCT

    SSRR

    R2 grande no necesariamente implica que el modelo de regresin sea

    bueno, pues la adicin de una variable al modelo siempre aumenta R2 sin

    importar si la variable es o no estadsticamente significativa.

    RR 2 Es el coeficiente de correlacin mltiple entre Y y el conjunto

    de variables de regresin X1 X2 X3 Xk

    R es una mediad de asociacin lineal que existe entre Y y X1 X2 X3 Xk.

    Cuando k=1 tenemos el coeficiente de correlacin simple entre Y y X

    Ejercicio resuelto:

    El consumo de un producto x de la empresa Agraroindustrial Naranjillo Ltda. de la

    ciudad de Tingo Mara, se ha venido observando que a travs del tiempo ha tenido

    una demanda permanente que se muestra en el siguiente cuadro :

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    173

    AO

    CONSUMO/VENTAS

    PRECIO

    INGRESO FAMILIAR

    2002 45 7 2

    2003 50 8 3

    2004 60 9 4

    2005 55 9 3

    2006 64 11 5

    2007 68 10 5

    2008 70 12 6

    2009 72 11 5

    2010 75 15 7

    2011 80 14 6

    Se pide hallar lo siguiente:

    Realice la regresin y estime los parmetros ( )

    Identifique otras variables independientes que puedan estar influenciando en

    Y

    Analizar los efectos de las variables independencias de las dependientes

    Determine y analice el coeficiente de determinacin (R2)

    Determine y analice el coeficiente de determinacin ajustado (2)

    El anlisis de varianza (ANVA)

    Prueba de relevancia global

    Determine la varianza de la variable aleatoria ()

    Determine la Var-Cov de los parmetros

    Determine la prueba de relevancia individual

    Pronostico para 2 aos

    Solucin:

    Para determinar cada uno de los incisos primero identificamos las variables

    correspondientes:

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    174

    CONSUMO/VENTAS= F (PRECIO, INGRESO FAMILIAR)

    Como se trata de un estudio a travs del tiempo y se utilizan datos histricos, se

    utiliza el siguiente modelo econmico.

    = 0 + 11 + 22 +

    Dado que:

    = variable dependiente (Consumo/Ventas)

    1=Variable independiente 1 (precio)

    2 = Variable independiente 2 (Ingreso familiar)

    Otras variables independientes () - Nivel de ahorro de las familias

    - Edad, sexo

    - Precio de los bienes sustitutos

    - Supuesto de insaciabilidad

    - Precio de los bienes complementarios

    Reemplazando en la frmula:

    AO

    CONSUMO/ VENTAS

    Yt

    PRECIO

    X1t

    INGRESO FAMILIAR

    X2t Yt2 X1t2 X1t*X2t X2t2 X1t*Yt X2t*Yt

    2002 45 7 2 2025 49 14 4 315 90

    2003 50 8 3 2500 64 24 9 400 150

    2004 60 9 4 3600 81 36 16 540 240

    2005 55 9 3 3025 81 27 9 495 165

    2006 64 11 5 4096 121 55 25 704 320

    2007 68 10 5 4624 100 50 25 680 340

    2008 70 12 6 4900 144 72 36 840 420

    2009 72 11 5 5184 121 55 25 792 360

    2010 75 15 7 5625 225 105 49 1125 525

    2011 80 14 6 6400 196 84 36 1120 480

    TOTAL 639 106 46 41979 1182 522 234 7011 3090

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    175

    (

    012

    ) =

    (

    1

    =1

    2

    =1

    1

    =1

    12

    =1

    12

    =1

    2

    =1

    21

    =1

    22

    =1 )

    (

    =1

    1

    =1

    2

    =1 )

    (

    012

    ) = (10 106 46106 1182 52246 522 234

    )(63970113090

    )

    A B

    Hallamos la inversa de A-1:

    Det(A)= (10) (1182 522522 234

    ) (106)(106 52246 234

    ) + (46)(106 118246 522

    )

    Det(A)= 1248

    Cof(A):

    A11= (1)2 (1182 522522 234

    ) = 4104

    A12 = (1)3 = (106 52246 234

    ) = 792

    A13 =(1)4 = (106 118246 522

    ) = 960

    A21 = (1)3 = (106 46522 234

    ) = 792

    A22 =(1)4 = (10 4646 234

    ) = 224

    A23 =(1)5 = (10 10646 522

    ) = 344

    A31 =(1)4 = (106 461182 522

    ) = 960

    A32 =(1)5 = (10 46106 522

    ) = 344

    A33 =(1)6 = (10 106106 1182

    ) = 584

    Adjunta(A)

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    176

    Adj(A) = (4104 792 960792 224 344960 344 584

    )

    Reemplazamos los valores:

    (

    012

    ) =1

    Det() ()

    (

    012

    ) =1

    1248(

    4104 792 960792 224 344960 344 584

    )(63970113090

    )

    (

    012

    ) =

    (

    (4104)(639) (792)(7011) + (960)(3090)

    1248(792)(639) + (224)(7011) (344)(3090)

    1248(960)(639) (344)(7011) + (584)(3090)

    1248 )

    (

    012

    ) = (28.961.134.98

    )

    Reemplazamos los datos en el modelo econmico:

    Yt = 0 + 1X1t + 2X2t

    Yt = 28.96 + 1.13X1t + 4.98X2t

    Efectos:

    Yt

    1= 1.13

    Un incremento del 1% en el precio (X1t) genera una disminucin en el

    consumo/ventas (Yt) del 13%

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    177

    Yt

    2= 4.98

    Un incremento del 1% en el ingreso familiar (2) genera un efecto de un incremento

    en el consumo/ventas (Yt) del 98%

    Coeficiente de determinacin (R2)

    2 =

    =

    Y nY2

    2

    2 =

    (

    012

    ) (

    12

    ) () (

    )2

    2 () (

    )2

    2 =

    (28.961.134.98

    )(63970113090

    ) (10) ( 63910

    )2

    41979 (10) ( 63910

    )2

    2 = 0.88908228 88.91 %

    Interpretacin: El 88.91 % de la fluctuacin de las ventas viene siendo explicado por

    el precio(1) y el ingreso familiar (2), durante los aos comprendidos entre 2002 al

    2011.

    Coeficiente de determinacin ajustado ()

    2 = 1 (

    ) (

    1

    )

    2 = 1 [ Y

    2] [

    1

    ]

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    178

    2 = 1

    [ 41979 (

    28.961.134.98

    )(63970113090

    )

    41979 (10) (63910

    )2

    ]

    [10 1

    10 3]

    2 = 1 0.1426085

    2 = 0.8573915 85.74 %

    Interpretacin:

    Los precios y el ingreso familiar tienen mucha influencia en el consumo del producto

    X, por lo tanto no es necesario incorporar otra variable independiente en el modelo

    Anlisis de Varianza (ANVA)

    FUENTE DE

    VARIACION

    GRADOS DE

    LIBERTAD

    SUMA DE

    CUADRADOS

    CUADRADO

    MEDIO

    COCIENTE

    F

    DEBIDO A LA

    REGRESION (E)

    k-1=3-1=2

    SCE =1019.69 = 509.84 = 36.07

    DEBIDO AL

    ERROR DELA

    MUESTRA (R)

    n-k=10-3=7

    SCR = 127.21

    =14.13

    .

    TOTAL(T) n-1=10-1=9 SCT = 1146.90 .

    = Y nY2

    = (28.961.134.98

    ) (63970113090

    ) (10) (639

    10)2

    = 1019.69

    = 2

    = 41979 (10) (639

    10)2

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    179

    = 1146.90

    =

    = 1146.90 1019.69

    = 127.21

    =

    1=

    1019.69

    31

    = 509.84

    =

    =

    127.21

    101

    = 14.13

    =

    =

    509.84

    14.13

    = 36.07

    Prueba de relevancia global:

    1) Planteamiento de hiptesis

    : 0 = 1 = 2

    : 0 1 2

    2) Nivel de significancia

    = 5 % 0.05

    3) Punto critico

    gl1 = k-1 3-1=2

    gl2 =n-k 10-3= 7

    Fgl1;gl2; F2;7;0.05 = 4.7374

    4) Calculo del estadstico

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    180

    Fc = 36.07 (ver en el cuadro de ANVA)

    5) Conclusiones

    Fc >F2;7;0.05 (36.07 > 4.74).Entonces RHo, es decir el precio y el ingreso familiar

    explican el comportamiento del consumo/ventas del producto X de la empresa

    Agraria Industrial Naranjillo ltda .

    Determinar la varianza de la Variable aleatoria ()

    2 =

    2 =

    Y

    2 =

    2 (

    012

    )(

    12

    )

    2 =

    41979 (28.961.134.98

    )(63970113090

    )

    10 3

    2 = 18.17

    Determine la var-cov de los parmetros:

    () = 2 (Y)

    () = 2

    (

    1

    =1

    2

    =1

    1

    =1

    12

    =1

    12

    =1

    2

    =1

    21

    =1

    22

    =1 )

    1

    () = (

    (0) (

    0,

    1) (

    0,

    1)

    (1,

    0) (

    1) (

    1,

    2)

    (1,

    0) (

    2,

    1) (

    2)

    )

    () = 18.17(10 106 46106 1182 52246 522 234

    )

    1

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    181

    () =18.17

    1248(

    4104 792 960792 224 344960 344 584

    )

    (

    (0) (0, 1) (0, 1)

    (1, 0) (1) (1, 2)

    (1, 0) (2, 1) (2)

    ) = (59.76 11.53 13.98

    11.53 3.26 5.0113.98 5.01 8.50

    )

    Determine la prueba de relevancia individual:

    Para : 1) Planteamiento de hiptesis

    1 = 0 (El efecto del precio no explica significativamente en las ventas) 1 0 (El efecto del precio explica significativamente en las ventas)

    2) Nivel de significancia

    = 5 % 0.05

    3) Punto critico gl = n-k 10-3 = 7

    tgl;/2 t7;0.025 = 2.3646

    4) Calculo del estadstico

    =1 1

    (1)

    =1.13

    3.26 0.6282

    = 0.6282

    5) Conclusiones

    tc < t7;0.025 ( 0.6282 < 2.36 ).Entonces AHo, es decir el efecto del precio no explica significativamente el comportamiento del consumo/ventas del producto X de la empresa Agraroindustrial Naranjillo Ltda.

    Para :

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    182

    1) Planteamiento de hiptesis

    2 = 0 (El efecto del ingreso familiar no explica significativamente en el C/Vtas) 2 0 (El efecto del ingreso familiar explica significativamente en el C/Vtas)

    2) Nivel de significancia

    = 5 % 0.05

    3) Punto critico

    gl = n-k 10-3 = 7

    tgl;/2 t7;0.025 = 2.3646

    4) Calculo del estadstico

    =2 2

    (2)

    =4.98

    8.50= 1.7079

    5) Conclusiones

    tc

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    183

    Y2013 = 28.96 + 1.13X1t + 4.98X2t Y2013 = 28.96 + 1.13(16) + 4.98(8)

    Y2013 = 86.96 = 87

    REGRESIN LINEAL EN SPSS.

    El anlisis de regresin lineal es una tcnica estadstica utilizada para estudiar la

    relacin entre variables cuantitativas. Tanto en el caso de dos variables (regresin simple)

    como en el de ms de dos variables (regresin mltiple), el anlisis regresin lineal puede

    utilizarse para explorar y cuantificar la relacin entre una variable llamada dependiente

    o criterio(Y) y una o ms variables llamadas independientes o predictoras (X1, X2, ,

    Xp), as como para desarrollar una ecuacin lineal con fines predictivos.

    Para llevar a cabo un anlisis de regresin lineal en el SPSS 15.0 seleccionamos:

    Analizar

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    184

    Regresin Lineal

    Apareciendo el cuadro de dilogo de la figura 01:

    Figura 01

    Cuadro de dilogo regresin.

    En Dependiente se traslada la variable cuyos valores se desea predecir o resumir.

    Bloque 1 de 1. Este recuadro nos sirve para introducir las variables independientes, nos

    permite hacer varios anlisis de regresin a la vez, alternando los botones anterior y

    siguiente, y adems no deja elegir el mtodo de introduccin de las variables

    independientes.

    Independientes se trasladan las variables utilizadas para predecir el valor de la

    variable dependiente. Tambin se denominan variables predictoras o variables

    explicativas. Para poder ejecutar este procedimiento, la lista debe contener al menos una

    variable.

    Mtodo: Permite seleccionar el mtodo por el cual se introducen las variables

    independientes en el anlisis. Nos vale para elegir la mejor ecuacin de

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    185

    regresin. Permite construir una variedad de modelos de regresin a partir del

    mismo conjunto de variables:

    Introducir (Entry): Procedimiento para la seleccin de variables en el

    que todas las variables un bloque se introducen en un solo paso. Es el

    mtodo por defecto.

    Pasos sucesivos (Stepwise): En cada paso se introduce la variable

    independiente que no se encuentre ya en la ecuacin y que tenga

    la probabilidad para F ms pequea, si esa probabilidad es

    suficientemente pequea. Las variables ya introducidas en la

    ecuacin de regresin se eliminan de ella si su probabilidad para F

    llega a ser suficientemente grande. El mtodo termina cuando ya no

    hay ms variables candidatas a ser incluidas o eliminadas.

    Eliminar (Remove): Procedimiento para la seleccin de variables en el

    que las variables de un bloque se eliminan en un solo paso.

    Hacia atrs (Backward): Procedimiento de seleccin de variables en

    el que se introducen todas las variables en la ecuacin y despus se

    van excluyendo una tras otra. Aquella variable que tenga la menor

    correlacin parcial con la variable dependiente ser la primera en

    ser considerada para su exclusin. Si satisface el criterio de eliminacin,

    ser eliminada. Tras haber excluido la primera variable, se pondr a

    prueba aquella variable, de las que queden en la ecuacin, que

    presente una correlacin parcial ms pequea. El procedimiento

    termina cuando ya no quedan en la ecuacin variables que satisfagan el

    criterio de exclusin.

    Hacia delante (Forward): Procedimiento de seleccin de variables

    en el que stas son introducidas secuencialmente en el modelo. La

    primera variable que se considerar para ser introducida en la

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    186

    ecuacin ser aqulla que tenga mayor correlacin, positiva o negativa,

    con la variable dependiente. Dicha variable ser introducida en la

    ecuacin slo si satisface el criterio de entrada. Si ha entrado la

    primera variable, se considerar como prxima candidata la variable

    independiente que no est en la ecuacin y cuya correlacin parcial

    sea la mayor. El procedimiento termina cuando ya no quedan variables

    que satisfagan el criterio de entrada.

    En Variable de seleccin se traslada una variable que limite el anlisis a un subconjunto de

    casos que tengan un valor particular para esta variable. Con Regla podemos definir el

    subconjunto de casos que se emplearn para estimar el modelo de regresin.

    En Etiquetas de caso designamos una variable para identificar los puntos de los grficos.

    Para cada punto de un diagrama de dispersin podemos utilizar la herramienta de seleccin

    de puntos y mostrar el valor de la variable de etiquetas de casos correspondiente al caso

    seleccionado.

    Ponderacin MCP: Permite obtener un modelo de mnimos cuadrados ponderados. Los

    puntos de los datos se ponderan por los inversos de sus varianzas. Esto significa que las

    observaciones con varianzas grandes tienen menor impacto en el anlisis que las

    observaciones asociadas a varianzas pequeas.

    2.1.- Estadsticos

    Con el botn Estadsticos accedemos al cuadro de dilogo que muestra la figura 2 que

    nos nos vale para solicitar resultados estadsticos opcionales, incluyendo los coeficientes

    de regresin, descriptivos, estadsticos de ajuste del modelo, la prueba de Durbin-Watson y

    diagnsticos de la colinealidad.

    Figura 55.

    Cuadro de dilogo estadisticos

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    187

    Coeficientes de regresin. En este recuadro podemos obtener tanto las

    estimaciones de los coeficientes de regresin, la bondad del ajuste del modelo elegido,

    los intervalos de confianza de cada coeficiente as como la matriz de covarianzas. Podemos

    elegir una o ms de las opciones:

    Estimaciones: Nos muestra coeficientes de regresin y medidas relacionadas. Los

    coeficientes no estandarizados (no tipificados) son los coeficientes de regresin

    parcial que definen la ecuacin de regresin en puntuaciones directas. Los

    coeficientes estandarizados () son los coeficientes que definen la ecuacin de

    regresin en puntuaciones tpicas. Estos coeficientes estandarizados ayudan a

    valorar la importancia relativa de cada variable independiente dentro de la

    ecuacin. Muestra las pruebas de significacin de cada coeficiente, el

    estadstico de contrate (t) as como su nivel crtico (Sig.). Una significacin

    pequea nos permite afirmar que el coeficiente es significativo.

    Intervalos de confianza: nos muestra intervalos de confianza al 95% para los

    coeficientes de regresin.

    Matriz de covarianzas: nos muestra la matriz de varianza-covarianza de los

    coeficientes de regresin, las varianzas en la diagonal y las covarianzas por

    debajo y por encima de la diagonal.

    Ajuste del modelo. Muestra el coeficiente de correlacin mltiple (R mltiple), y su

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    188

    cuadrado (R2, coeficiente de determinacin, que expresa la proporcin de varianza de la

    variable dependiente que est explicada por la variable o variables independientes), la R

    cuadrado corregida y el error tpico de la estimacin (desviacin tpica de los residuos).

    Tambin, una tabla de ANOVA muestra las sumas de cuadrados, los grados de libertad, las

    medias cuadrticas, el valor del estadstico F y el nivel crtico (Sig.) de la F.

    Cambio en R cuadrado. Nos muestra el cambio en el estadstico R cuadrado que se produce

    al aadir o eliminar una variable independiente. Si el cambio en R cuadrado asociado a una

    variable es grande, significa que esa variable es un buen predictor de la variable dependiente.

    Descriptivos. Muestra las medias de las variables, las desviaciones tpicas y la matriz de

    correlaciones con las probabilidades unilaterales.

    Correlaciones parcial y semiparcial. Muestra las correlaciones de orden cero, semiparcial y

    parcial. Los valores del coeficiente de correlacin van de -1 a 1. El signo del coeficiente indica

    la direccin de

    la relacin y su valor absoluto indica la fuerza de la relacin. Los valores mayores indican

    que la relacin es ms estrecha.

    Diagnsticos de colinealidad. Muestra las tolerancias para las variables individuales y una

    variedad de estadsticos para diagnosticar los problemas de colinealidad. La colinealidad (o

    multicolinealidad) es una situacin no deseable en la que una de las variables

    independientes es una funcin lineal de otras variables independientes.

    Residuos. Este recuadro nos permite seleccionar una de las opciones:

    Durbin-Watson: Muestra la prueba de D-W para los residuos correlacionados

    serialmente. ste estadstico oscila entre 0 y 4 y toma el valor 2 cuando los residuos

    son completamente independientes. Los valores mayores de 2 indican

    autocorrelacin positiva y los menores de 2 autocorrelacin negativa.

    Diagnsticos por caso: Genera diagnsticos por casos, para todos los casos que

    cumplan el criterio de seleccin (los valores atpicos por encima de n desviaciones

    tpicas).

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    189

    2.2.- Grficos

    Con el botn Grficos obtenemos el cuadro de dilogo de la figura 3

    Figura 56.

    Cuadro de dilogo grficos.

    En la lista fuente tenemos la variable dependiente (DEPENDT), los valores predichos

    estandarizados (ZPRED), los residuos estandarizados (ZRESID), los residuos eliminando la

    puntuacin del sujeto (DRESID) y los valores predichos ajustados (SDRESID).

    Dispersin 1 de 1. Nos muestra los diagramas de dispersin que queramos de la lista de la

    izquierda, para cada par de variables, alternando anterior y siguiente.

    Grficos de residuos tipificados. En este recuadro podemos elegir uno de los grficos:

    Histograma: Crea un histograma de los residuos tipificados con una curva normal

    superpuesta.

    Grfico de probabilidad normal: Muestra un grfico de probabilidad normal de

    los residuos tipificados. Se usa para comprobar la normalidad. Si la variable se

    distribuye normalmente, los puntos representados forman una lnea recta

    diagonal.

    Generar todos los grficos parciales. Genera todos los diagramas de

    dispersin de la variable dependiente con cada una de las variables

    independientes.

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    190

    2.3.- Guardar

    El botn Guardar nos permite guardar los valores pronosticados, los residuos y

    medidas relacionadas como nuevas variables que se aaden al archivo de datos de trabajo.

    En los resultados una tabla muestra el nombre de cada nueva variable y su contenido.

    2.4.- Opciones

    El botn Opcionesnos permite controlar los criterios por los que se eligen las

    variables para su inclusin o exclusin del modelo de regresin, suprimir el

    trmino constante y controlar la manipulacin de los valores perdidos.

    Aplicacin.

    Vamos a realizar un anlisis de regresin lineal simple para estudiar la posible relacin

    entre

    Las ventas de un determinado producto (variable dependiente) y los gastos en publicidad

    (variable independiente) en una muestra de 15 productos. La figura muestra la matriz de

    datos q se va a analizar.

    Editor de datos SPSS vista de variables.

    Editor de datos spss.

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    191

    Descripcin del procedimiento para implementar un anlisis de regresin

    lineal

    Para realizar un anlisis de regresin lineal con SPSS seleccionamos en el men

    analizar la opcin de regresin lineal como muestra la figura 59.

    Men analizar regresin lineal.

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    192

    Figura 2. Secuencia de mens para implementar un anlisis de regresin

    lineal con SPSS.

    La secuencia mostrada en la Figura 2 nos permite acceder al cuadro de dilogo Regresin

    lineal como se muestra en la Figura 3. En dicho cuadro disponemos de de las variables que

    hemos incluido en el archivo de datos. En nuestro caso: ventas y gastos en publicidad.

    Como mnimo, para que se pueda ejecutar el anlisis, tenemos que seleccionar dos

    variables y trasladarlas respectivamente al cuadro de dependiente e independientes.

    Ventas ser la variable dependiente y gastos en publicidad la variable independiente. Slo

    con estas especificaciones podemos, al pulsar el botn Aceptar, obtener informacin

    acerca de la bondad de ajuste del modelo, de la validacin y de la ecuacin de regresin

    estimada as como de la significacin de los parmetros.

    Figura 60.

    Cuadro de dilogo regresin lineal.

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    193

    Figura 3. Cuadro de dilogo de regresin lineal.

    Los resultados que nos proporciona SPSS, con las opciones por defecto del

    cuadro de regresin lineal, son las tablas etiquetadas como Variables

    introducidas/eliminadas(b), Resumen del modelo(b), Anova y Coeficientes

    que aparecen a continuacin. De cada tabla describiremos los valores incluidos

    en las mismas, su significado y cmo se han calculado.

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    194

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    195

    Los grficos Histograma y grfico P-P normal de regresin nos permiten

    valorar el alejamiento del supuesto de normalidad. Comparando la curva

    Regresin Residuo tipificado

    210-1-2-3

    Fre

    cuen

    cia

    8

    6

    4

    2

    0

    Histograma

    Variable dependiente: VENTAS

    Media =-6,94E-16

    Desviacin tpica =0,964

    N =15

    Prob acum observada

    1,00,80,60,40,20,0

    Pro

    b a

    cu

    m e

    sp

    era

    da

    1,0

    0,8

    0,6

    0,4

    0,2

    0,0

    Grfico P-P normal de regresin Residuo tipificado

    Variable dependiente: VENTAS

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    196

    normal con la distribucin emprica en el histograma y evaluando el

    alejamiento de los puntos representados en el segundo grfico con respecto a

    la diagonal. Podemos concluir que no existen grandes desviaciones de la

    curva normal. No obstante, para ser ms precisos se puede utilizar la prueba

    de Kolmogorov del men de pruebas no paramtricas para evaluar este

    supuesto.

    Ejercicios propuestos.

    1) El gerente de personal de la empresa agroindustrial Naranjillo estudia la relacin entre los

    gastos y los salarios de su personal obrero. Una muestra aleatoria de 10 obreros revel los

    siguientes datos en dlares por semana:

    Gastos 25 20 32 37 40 40 45 30 55 60

    Salarios 28 25 35 40 45 50 50 35 70 80

    a) Trace el diagrama de dispersin e indicar si existe cierta dependencia lineal entre las

    variables.

    b) Halle la ecuacin de la recta de regresin estimada Y = f(x)

    c) Interprete y/o de su comentario sobre el valor de la pendiente.

    d) Estime el gasto que correspondera a un salario semanal de 90 dlares.

    e) Pruebe la significacin de la pendiente de la regresin muestral con nivel de confianza

    del 95%

    f) Utilice el mtodo de anlisis de varianza para probar la significacin de la ecuacin de

    regresin muestral, al nivel de significancia del 5%.

    g) Calcule el coeficiente de correlacin (r) y el coeficiente de determinacin r2, e

    interprete los resultados.

    2) Se obtuvieron los siguientes datos para determinar la relacin entre cantidad de fertilizantes

    y produccin de papa por hectrea.

    Sacos de fertilizantes por hectrea. 3 4 5 6 7 8 9 10 11 12

    Rendimiento en kg. 45 48 52 55 60 65 68 70 74 76

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    197

    a) Encuentre la ecuacin de regresin de la cosecha sobre el fertilizante, por el mtodo

    de mnimos cuadrados ordinarios.

    b) Estime la cosecha si se aplican 12 sacos de fertilizantes. Cunto es el error estndar?

    c) Determine el coeficiente de determinacin. De su comentario sobre este valor.

    d) Calcule el grado de asociacin entre ambas variables.

    3) Como analista de Coca - Cola, su trabajo es utilizar los datos proporcionados aqu para

    saber si los cambios en los precios son efectivos para promover las ventas. Estos datos se

    tomaron en los mercados de prueba seleccionados en toda la regin para el precio de cada

    botella y las respectivas ventas realizadas. Las ventas estn dadas en miles de soles.

    Precio en soles 2.10

    3.52

    2.10

    2.55

    3.50

    2 3.50

    2.99

    2.99

    2.25

    Ventas de Coca-Cola en miles de soles.

    35 25 21 19 23 31

    24 31 20 19

    a) Graficar el diagrama de dispersin e indicar si existe cierta dependencia lineal entre las

    variables.

    b) Existe correlacin?, Explique.

    c) La correlacin es positiva o negativa?

    4) A partir de los siguientes datos referentes a horas trabajadas en un taller (X), y a unidades producidas (Y).

    Determine la recta de regresin de y sobre x, el coeficiente de correlacin e interprete.

    5) Los contadores con frecuencia estiman los gastos generales basndose en el nivel de produccin. En la tabla que sigue se da la informacin recabada sobre gastos generales y las unidades producidas en 10 plantas y se desea estimar una ecuacin de regresin para estimar gastos generales futuros.

    Gastos generales ($) 300 1000 1100 1200 600 800 900 500 400 200

    Unidades producidas 15 45 55 75 30 40 45 20 18 10

    a) Determine la ecuacin de regresin y haga un anlisis de los coeficientes de regresin.

    b) Proporcionan los datos suficiente evidencia para indicar que las unidades producidas aportan informacin para predecir los gastos generales?.

    c) Realice un anlisis de bondad de ajuste de la ecuacin de regresin lineal. d) Qu puede usted concluir acerca de la correlacin poblacional entre gastos

    generales y unidades producidas? . 6) El gerente de ventas de una cadena de tiendas obtuvo informacin (ver tabla que sigue) de

    los pedidos por internet y del nmero de ventas realizadas por esa modalidad. Como parte de su presentacin en la prxima reunin de vendedores al gerente le gustara dar informacin especfica sobre la relacin ente el nmero de ventas realizadas.

    Tienda 1 2 3 4 5 6 7 8 9 10

    Nmero de pedidos 50 56 60 68 65 50 79 35 42 15

    Horas (X) 23 30 33 35 40 45

    Produccin (Y) 9 12 15 17 20 23

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    198

    Nmero de ventas 45 55 50 65 60 40 75 30 38 12

    a) Use el mtodo de mnimos cuadrados para expresar la relacin entre estas dos variables.

    b) Haga un anlisis de los coeficientes de regresin. c) Proporcionan los datos suficiente evidencia para indicar que las unidades producidas

    aportan informacin para predecir los gastos generales?. e) Realice un anlisis de bondad de ajuste de la ecuacin de regresin lineal. d) Qu puede usted concluir acerca de la correlacin poblacional entre gastos

    generales y unidades producidas? 7) Las cantidades de un compuesto qumico (y) que se disuelven en 100 ml de agua a diferentes

    temperaturas (x), se registraron en la tabla que sigue.

    X (C) Y (Gramos )

    0 15 30 45 60 75

    10 15 27 33 46 50

    8 12 23 30 40 52

    10 14 25 32 43 53

    9 16 24 35 42 54

    11 18 26 34 45 55

    a) Encuentre la ecuacin de regresin. b) Estime la varianza de la regresin poblacional. c) Calcule el error estndar de la pendiente.

    8) El gerente de recursos humanos de la empresa DAMPER S.A que tiene ms de 800 empleados realiza un estudio de los salarios de los empleados utilizando una muestra aleatoria, de cada empleado recab: X1: Edad X2: Aos de servicio X3: Genero: Hombre =1, Mujer = 0 Y: Salario Mensual en dlares. Los datos obtenidos son los siguientes:

    a) Determine la ecuacin de regresin muestral utilizando la variable salario como variable dependiente.

    Empleado X1 X2 X3 Y

    1 2 3 4 5 6 7 8 9

    10 11 12

    20 20 21 23 24 25 26 26 26 26 3

    31

    0.5 1 1 3 5 6 7 7 7 8 9

    10

    1 0 0 1 1 1 1 1 0 0 1 1

    50 80 90

    100 120 150 160 180 190 195 200 250

    Empleado X1 X2 X3 Y

    13 14 15 16 17 18 19 20 21 22 23 24

    35 36 37 38 39 40 48 50 52 56 62 64

    12 15 16 16 17 18 19 23 24 26 30 32

    1 0 1 1 1 0 1 0 0 1 1 1

    280 300 320 350 390 420 480 430 490 510 550 590

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    199

    b) Determine el valor del coeficiente de determinacin mltiple e interprete. c) Desarrolle una prueba de hiptesis global para determinar si alguno de los

    coeficientes de regresin es diferente de cero. d) Desarrolle una prueba de hiptesis individual utilizando el mtodo de intervalos de

    confianza para determinar si se puede eliminar alguna de las variables independientes.

    e) Halle la matriz de correlacin de orden cero (o simple de Pearson). Qu variables independientes tiene correlacin significativa con la variable dependiente?. Segn este criterio, Qu variables independientes se debera eliminar del modelo de regresin?

    f) Analice la multicolinealidad.

    9) El gerente de procesamientos de datos de la compaa cisco estudia el uso de la computadora en el departamento de sistemas de la compaa. En una muestra aleatoria de 60 trabajos del mes pasado se registro el tiempo de procesamiento (en segundos) para cada trabajo, con los siguientes resultados: Al nivel de significacin del 5%, pruebe la hiptesis de que la distribucin los tiempos de procesamiento es normal.

    10) Al realizar la regresin de Y en X basado en una muestra aleatoria de 10 pares de datos (Xi, Yi), se tiene que la varianza de los Yi es igual a 16.5 y que la suma de cuadrados debido a la regresin es 155. Qu porcentaje de la varianza de los Yi es explicada por la regresin?

    11) El gerente de personal de una empresa textil en gamarra utiliz a 30 operarios en un estudio para determinar la relacin entre las siguientes variables: Y: Comportamiento hacia el trabajo (prueba calificada de 0 a 20) X1: horas semanales de trabajo X2: Servicios en el hogar: Telfono, TV Cable, Internet (0=uno de los tres, 1=dos de los tres, 2=los tres). X3: Nmero de prendas que confecciona por semana. X4: aos de experiencia.

    Y X1 X2 X3 X4

    14 14 15 15 16 16 16 16 17 17 17 18 18 19 20

    70 70 72 72 73 74 74 75 75 76 77 78 78 79 80

    1 1 1 0 0 0 1 0 0 1 0 1 1 1 2

    38 39 39 40 41 42 43 44 44 45 45 46 47 48 49

    8.0 8.4 8.6 8.9 9.0 9.0 9.1 9.2 9.8

    10.0 10.2 10.8 11.0 11.5 11.6

    Y X1 X2 X3 X4

    5 5 6 6 8 9 9

    10 10 10 10 10 11 12 13

    50 53 55 58 61 62 62 63 63 65 65 69 68 69 69

    0 0 0 1 1 0 2 0 1 2 0 1 0 1 1

    30 31 31 32 32 33 34 35 35 36 36 36 37 37 38

    0.6 1.0 1.5 1.8 2.0 2.4 2.8 3.0 3.5 4.0 4.6 5.0 5.8 6.0 6.7

  • Regresin y correlacin lineal_______________________________________________________________________________________________

    200

    a) Halle la ecuacin de regresin muestral b) Determine el valor del coeficiente de determinacin mltiple e interprete. c) Desarrolle una prueba de hiptesis global para determinar si alguno de los

    coeficientes de regresin poblacional es diferente de cero. d) Calcule el coeficiente de correlacin mltiple. Es significativo este coeficiente al nivel

    de significacin 0.01? e) Halle la matriz de correlaciones de orden cero (o simple de Pearson). Qu variables

    independientes tiene correlacin significativa con la variable dependiente?. Segn este criterio, Qu variables se debera eliminar del modelo de regresin?

    12) Se realiz un estudio estadstico para determinar un modelo de regresin lineal simple con el fin de predecir el monto de las ventas semanales de un producto en funcin de la demanda. De una muestra de montos de ventas (Y en cientos de soles) y demandas semanales X (en unidades del producto) resultaron las siguientes estadsticas:

    = 50, = 300, = 4.487, = 175, (, ) = 765.6

    a) Obtenga el modelo de regresin planteado. b) Cunto fue la demanda en una semana donde el monto de venta lleg a 1060.536?.

    13) Al estudiar la relacin entre costos (X) y las utilidades (Y) en dlares de ciertos productos usando una muestra se obtuvo la siguiente informacin:

    = 5, = 4, = 100, = 50, = 26 + 0.76 a) Qu porcentaje de la variabilidad de las utilidades es explicada por la ecuacin de regresin

    dada?