ESTADÍSTICA (GRUPO 12 - personal.us.espersonal.us.es/aggonzalez/Docencia/TEMA_12.pdf · 9Obtener...

Post on 05-Nov-2018

216 views 0 download

Transcript of ESTADÍSTICA (GRUPO 12 - personal.us.espersonal.us.es/aggonzalez/Docencia/TEMA_12.pdf · 9Obtener...

CAPÍTULO V.-DISTRIBUCIONES DE FRECUENCIAS

MULTIDIMENSIONALES

ESTADÍSTICA (GRUPO 12)

TEMA 12.- REGRESIÓN YCORRELACIÓN MÚLTIPLE.

DIPLOMATURA EN CIENCIAS EMPRESARIALES

UNIVERSIDAD DE SEVILLA

2© Antonio Pajares Ruiz

1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.

X2 y X3Variables explicativas

(independientes) REGRESIÓN DE X1SOBRE X2 y X3

X1Variable a explicar

(dependiente)

PLANTEAMIENTO DE LA REGRESIÓN

SUPERFICIE DE REGRESIÓN EMPÍRICA DE X1 SOBRE X2 y X3

Regresión⇒Ajustar una superficie a este conjunto de puntos

( )2 j 3t; 1 2 2 j 3 3tx , x x / X x ,X x= =

3© Antonio Pajares Ruiz

1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.

PLANTEAMIENTO HABITUAL DE LA REGRESIÓN:

Obtener una función lineal de las variables explicativas que aproxime los valores de la variable explicada.

PLANO DE REGRESIÓN DE X1 SOBRE X2 y X3

*1 1 12 2 13 3X a b X b X= + ⋅ + ⋅

4© Antonio Pajares Ruiz

1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.

PLANO DE REGRESIÓN DE X SOBRE X2 y X3

Determinación de los parámetros del plano

( )N N

221i 1i 1 12 2i 13 3i

i 1 i 1

min e x a b x b x= =

= − − ⋅ − ⋅∑ ∑N N N

2 2 21i 1i 1i

i 1 i 1 i 1

1 12 13

e e e0; 0; 0

a b b= = =

∂ ∂ ∂= = =

∂ ∂ ∂

∑ ∑ ∑

n21i

i 1

1

e0

a=

∂=

∑ ( )N

1i 1 12 2i 13 3ii 1

2 x a b x b x 0=

− ⋅ − − ⋅ − ⋅ =∑1 1 12 2 13 3a x b x b x= − ⋅ − ⋅

5© Antonio Pajares Ruiz

1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.

PLANO DE REGRESIÓN DE X SOBRE X2 y X3

Determinación de los parámetros del plano

( )N N

221i 1i 1 12 2i 13 3i

i 1 i 1

e x a b x b x= =

= − − ⋅ − ⋅∑ ∑

( ) ( )n 2

12 13 1i 1 12 2i 2 13 3i 3i 1

b ,b x x b x x b x x =

ϕ = − − ⋅ − − ⋅ −⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦ ⎣ ⎦∑

( )12 13

12

b ,b0

b

⎡ ⎤∂ ϕ⎣ ⎦ =∂

212 12 2 13 23

213 12 23 13 3

s b s b s

s b s b s

= ⋅ + ⋅

= ⋅ + ⋅

( )12 13

13

b ,b0

b

⎡ ⎤∂ ϕ⎣ ⎦ =∂

Determinado a1, sustituimos su expresión en la función a minimizar y volvemos a determinar las correspondientes derivadas parciales:

6© Antonio Pajares Ruiz

1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.

PLANO DE REGRESIÓN DE X SOBRE X2 y X3

Determinación de los parámetros del plano

212 12 2 13 23

213 12 23 13 3

s b s b s

s b s b s

= ⋅ + ⋅

= ⋅ + ⋅

Para resolver el sistema de ecuaciones resultante, basta con aplicar la regla de Cramer:

12 232

13 312 2

2 232

23 3

s ss s

bs ss s

=

22 12

23 1313 2

2 232

23 3

s ss s

bs ss s

=

7© Antonio Pajares Ruiz

1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.

PLANO DE REGRESIÓN DE X SOBRE X2 y X3

Determinación de los parámetros del plano

21 12 13

221 2 23

231 32 3

s s sC s s s

s s s

⎛ ⎞⎜ ⎟

= ⎜ ⎟⎜ ⎟⎝ ⎠

12 232

13 312 2

2 232

23 3

s ss s

bs ss s

=

( )1 2 12 2312 2

13 3

s sC 1

s s+

= − ⋅

Una vez estimados los coeficientes de regresión del modelo, a fin de operativizar los cálculos más fácilmente, expresamos éstos en función de la matriz de varianzas y covarianzas C:

( )2

1 1 2 2311 2

23 3

s sC 1

s s+

= − ⋅ 1212

11

Cb

C−

=

8© Antonio Pajares Ruiz

1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.

PLANO DE REGRESIÓN DE X SOBRE X2 y X3

Determinación de los parámetros del plano

21 12 13

221 2 23

231 32 3

s s sC s s s

s s s

⎛ ⎞⎜ ⎟

= ⎜ ⎟⎜ ⎟⎝ ⎠

22 12

23 1313 2

2 232

23 3

s ss s

bs ss s

=

( )2

1 3 21 213

31 32

s sC 1

s s+

= − ⋅ ( )2

1 1 2 2311 2

23 3

s sC 1

s s+

= − ⋅ 1313

11

Cb

C−

=

9© Antonio Pajares Ruiz

1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.

PLANO DE REGRESIÓN DE X SOBRE X2 y X3

12

13,87 74,1C

12,7 76,2= −

2,89 13,87 12,7C 13,87 84,41 74,1

12,7 74,1 76,2

⎛ ⎞⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠

12C 115,824= −

13

13,87 84,41C

12,7 74,1=

13C 44,24= −

Ej.: Para la distribución de valores acerca de nº de zapato calzado, altura (en cm.) y peso (en kg.) para 10 alumnos, determinar el plano de regresión mínimo-cuadrático del nº de zapato sobre la altura y el peso.

8519145801844479188437317643811794262169417016741701744061166405916340X3X2X1

10© Antonio Pajares Ruiz

1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.

PLANO DE REGRESIÓN DE X SOBRE X2 y X3

11

84,41 74,1C

74,1 76,2=

2,89 13,87 12,7C 13,87 84,41 74,1

12,7 74,1 76,2

⎛ ⎞⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠

11C 941,232=

12C 115,824= − 13C 44,24= −

Ej.: Para la distribución de valores acerca de nº de zapato calzado, altura (en cm.) y peso (en kg.) para 10 alumnos, determinar el plano de regresión mínimo-cuadrático del nº de zapato sobre la altura y el peso.

( )1212

11

115,824Cb 0,1231

C 941,232− −−

= = =

( )1313

11

44,24Cb 0,0470

C 941,232− −−

= = =

11© Antonio Pajares Ruiz

1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.

PLANO DE REGRESIÓN DE X SOBRE X2 y X3

Ej.: Para la distribución de valores acerca de nº de zapato calzado, altura (en cm.) y peso (en kg.) para 10 alumnos, determinar el plano de regresión mínimo-cuadrático del nº de zapato sobre la altura y el peso.

12b 0,1231=

13b 0,0470=

Desde los valores de los parámetros b12 y b13, y como el vector de medias también es conocido, podemos concretar el valor de a1:

41,9M 175,7

72

⎛ ⎞⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠

1 11 12 2 13 3a x b x b x= − ⋅ − ⋅

1a 41,9 0,1231 175,7 0,0470 72 16,8949= − ⋅ − ⋅ =

12© Antonio Pajares Ruiz

2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

CORRESPONDIENTE AL AJUSTE.CORRELACIÓN LINEAL MÚLTIPLE

Concepto

Es aquel coeficiente que indica el grado de dependencia lineal existente entre una de las variables de la distribución y la combinación lineal del resto de los componentes.

La correlación lineal múltiple entre X1 y (X2 , X3) vendría definida por la correlación lineal entre las variables:

1Xi*1 1 12 2 13 3X a b X b X= + ⋅ + ⋅i

13© Antonio Pajares Ruiz

2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

CORRESPONDIENTE AL AJUSTE.CORRELACIÓN LINEAL MÚLTIPLE

Coeficiente de correlación múltiple entre X1 y (X2, X3)

( )( ) ( )

*1 1

1.23 *1 1

Cov X ,Xr

Var X Var X=

( )*1 1Cov X ,X

( ) ( )* *1 1 1Cov X ,X Var X=

( )( )

*1

1.23

1

Var Xr

Var X= 1.23 2

1 11

|C|r 1

s C= −

( )1 1 12 2 13 3Cov X ,a b X b X+ ⋅ + ⋅

Propiedad:

1.230 r 1≤ ≤

14© Antonio Pajares Ruiz

2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

CORRESPONDIENTE AL AJUSTE.COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

Coeficiente de determinación múltiple para la regresión lineal de X1 sobre (X2, X3)

1

N21i

2 2i 1e 1

es e

N== −∑

1

N21i

2 i 1e

es

N==∑

1

2e

11

Cs

C=

*1

2 2 21 e1

s s s= + 1

2 21 e2

1.23 21

s sR

s

−=

1

N* 2

1i 1i2 i 1e

(x x )s

N=

−=∑

1

2e2

1.23 21

sR 1

s= −

Varianza residual para la regresión lineal de X1 sobre (X2, X3):

1

1

22e

11

s Rs

R

⋅=

2 111.23 2

1

CC

R 1s

= −21.23

11

RR 1

R= −

15© Antonio Pajares Ruiz

2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

CORRESPONDIENTE AL AJUSTE.COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

Interpretación de sus valores

21.23R 0=

1

2 21 es s=

El plano de regresión no explica en ninguna medida las variaciones de la variable X1

21.23R 1= *

2 21 1

s s=Ajuste perfecto: El plano de regresión explica totalmente las variaciones de la variable X1

21.230 R 1< < *

2 21 1

s s>El plano de regresión consigue explicar un determinado porcentaje de las variaciones de la variable X1

16© Antonio Pajares Ruiz

2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

CORRESPONDIENTE AL AJUSTE.

85807973816270706159X3

44,3941914543,2971844443,7431884341,9841764342,7291794240,6051694140,7351674141,5971744040,1891664039,72616340

X1*X2X1

Ej.: Para la regresión lineal del número de zapato sobre la altura y el peso, determinada a partir de la distribución conjunta de valores de esas variables, recogida sobre 10 alumnos, calcular el correspondiente coeficiente de correlación lineal múltiple.

Comencemos determinando la varianza de los valores ajustados por la regresión, a partir de los valores previamente calculados:

*1 2 3X 16,8949 0,1231 X 0,0470 X= + ⋅ + ⋅

21s 2,89= ( )

( )N 2*

1ii 1

*

x 22 *1N1

s x=∑

= −*1 1x x 41,9= =

*2 21

17579,14s 41,9 2,3037

10= − =

17© Antonio Pajares Ruiz

2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

CORRESPONDIENTE AL AJUSTE.

85807973816270706159X3

44,3941914543,2971844443,7431884341,9841764342,7291794240,6051694140,7351674141,5971744040,1891664039,72616340

X1*X2X1

Ej.: Para la regresión lineal del número de zapato sobre la altura y el peso, determinada a partir de la distribución conjunta de valores de esas variables, recogida sobre 10 alumnos, calcular el correspondiente coeficiente de correlación lineal múltiple.

Conocidos los valores de varianza explicada y varianza total, calculamos el coeficiente de correlación múltiple:

21s 2,89=

( )( )

*1

1.23

1

Var X 2,3037r 0,8928

2,89Var X= = =

*21

s 2,3037=

18© Antonio Pajares Ruiz

2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

CORRESPONDIENTE AL AJUSTE.Ej.: Para la regresión lineal del número de zapato sobre la altura y el peso, determinada a partir de la distribución conjunta de valores de esas variables, recogida sobre 10 alumnos, calcular el correspondiente coeficiente de determinación múltiple.1. Desde los valores de varianza explicada y varianza total:

21s 2,89=

*2

2 11.23 2

1

s 2,3037R 0,7971

s 2,89= = =

*21

s 2,3037=2. Desde el valor del coeficiente de correlación múltiple:

( )221.23 1.23R r= ( )22

1.23R 0,8928 0,7971= =

3. Conocida la matriz de varianzas y covarianzas:C2

e C1 112 21 1

s21.23 s s

R 1 1= − = −551,8336941,2322 0,5863

1.23 2,89 2,89R 1 1 0,7971= − = − =

19© Antonio Pajares Ruiz

2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

CORRESPONDIENTE AL AJUSTE.Ej.: Para la regresión lineal del número de zapato sobre la altura y el peso, determinada a partir de la distribución conjunta de valores de esas variables, recogida sobre 10 alumnos, calcular el correspondiente coeficiente de determinación múltiple.

Una vez determinado el valor de este coeficiente de determinación, intentaremos valorar qué representa:

21.23R 0,7971=

El 79,71% de las variaciones en el nº de zapato calzado son explicados a través de la altura y el peso mediante el correspondiente plano de regresión.El 20,29% de las variaciones en el nº de zapato calzado no son explicadas a través de la altura y el peso mediante el correspondiente plano de regresión.

20© Antonio Pajares Ruiz

3. COEFICIENTE DE CORRELACIÓN PARCIAL.Concepto

Indicador que muestra el grado de relación lineal entre dos de las variables que conforman la distribución de frecuencias, “eliminando” la influencia que sobre ellas ejerce la tercera variable.COEFICIENTE DE CORRELACIÓN PARCIAL ENTRE X1 Y X2

***1 1 13 3X a b X= + ⋅ ***

1 1X X−Recta de regresión de X1 sobre X3

Residuo de la recta de regresión de X1 sobre X3

***2 2 23 3X a b X= + ⋅ ***

2 2X X−Recta de regresión de X2 sobre X3

Residuo de la recta de regresión de X2 sobre X3

21© Antonio Pajares Ruiz

3. COEFICIENTE DE CORRELACIÓN PARCIAL.

Fundamento para su determinación

El coeficiente de correlación entre los términos residuales de ambas regresiones cuantifican el grado de relación lineal entre X1 y X2,“eliminado” previamente la influencia de tipo lineal, que sobreambas ejerce la variable X3 .

COEFICIENTE DE CORRELACIÓN PARCIAL ENTRE X1 Y X2

( ) ( )*** ***

1 1 2 212.3 *** ***

1 1 2 2

Cov(X X ,X X )r

Var X X Var X X

− −=

− ⋅ −12

12.311 22

Cr

C C−

=⋅

12 13 2312.3 2 2

13 23

r r rr

1 r 1 r

− ⋅=

− ⋅ −

A partir de la relación existente entre la matriz C y la Matriz R:

22© Antonio Pajares Ruiz

3. COEFICIENTE DE CORRELACIÓN PARCIAL.

Sus propiedades

1. Si el coeficiente de correlación simple entre X1 y X2 es nulo, el coeficiente de correlación parcial entre estas variables no tiene porqué ser igual a cero. Ello sucederá cuando se dé alguna de estas circunstancias:

COEFICIENTE DE CORRELACIÓN PARCIAL ENTRE X1 Y X2

13r 0=

23r 0=

13 23r 0 y r 0= =2. Si el coeficiente de correlación simple entre X1 y X2 es nulo, y el

coeficiente de correlación simple entre X1 y X3 y el coeficiente de correlación simple entre X2 y X3 son ambos menores que cero o mayores que cero, el coeficiente de correlación parcial entre X1 y X2será mayor que cero.

23© Antonio Pajares Ruiz

3. COEFICIENTE DE CORRELACIÓN PARCIAL.

Sus propiedadesCOEFICIENTE DE CORRELACIÓN PARCIAL ENTRE X1 Y X2

3. Si el coeficiente de correlación simple entre X1 y X2 es nulo, y el coeficiente de correlación simple entre X1 y X3 y el coeficiente de correlación simple entre X2 y X3 tienen signos contrarios, el coeficiente de correlación parcial entre X1 y X2 será menor que cero.

4. Los coeficientes de correlación simple y parcial entre dos variables pueden tener distinto signo.

5. El coeficiente de determinación múltiple se puede expresar en función de los coeficientes de correlación simples y parciales:

( )2 2 2 21.23 12 12 13.2R r 1 r r= + − ⋅

24© Antonio Pajares Ruiz

3. COEFICIENTE DE CORRELACIÓN PARCIAL.Ej.: Para la distribución de valores acerca del nº de zapato calzado (X1), altura en cm. (X2) y peso en kg. (X3) para 10 alumnos, determinar los coeficientes de correlación simple y parcial entre las variables “Número de zapato” y “Altura”.Para ello, partimos de la información conocida acerca de la matriz de varianzas y covarianzas de esa distribución:

2,89 13,87 12,7C 13,87 84,41 74,1

12,7 74,1 76,2

⎛ ⎞⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠

12C 115,824= −

11C 941,232=

13C 44,24= −

22

2,89 12,7C

12,7 76,2=

22C 58,928=

1212.3

11 22

Cr

C C−

=⋅

( )12.3

115,824r

941,232 58,928

− −=

1212 2 2

1 2

sr

s s=

12

13,87r

2,89 84,41=

12.3r 0,4918=12r 0,8880=

25© Antonio Pajares Ruiz

4. GENERALIZACIÓN A LAS DISTRIBUCIONES MULTIDIMENSIONALES.

DISTRIBUCIÓN DE FRECUENCIAS MULTIDIMENSIONAL

xnN...x2Nx1NElemento N

...............

xns...x2sx1sElemento s

...............

xn2...x22x12Elemento 2

xn1...x21x11Elemento 1

Xn...X2X1

Valores de las variables

Generalidades:

N elementosn variables

Caracterización

1

2

n

x

x

M ... x

⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟=⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠

212 1n1

221 2n2

2n1 n2 n

s ... ss

s ... ssC

... ... ... ...s s ... s

⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠

2 2 21 2 n0 C s s ..... s≤ ≤ ⋅ ⋅ ⋅

26© Antonio Pajares Ruiz

4. GENERALIZACIÓN A LAS DISTRIBUCIONES MULTIDIMENSIONALES.

DISTRIBUCIÓN DE FRECUENCIAS MULTIDIMENSIONALCaracterización

12 1n

21 2n

n1 n2

1 r ... rr 1 ... r

R... ... ... ...r r ... 1

⎛ ⎞⎜ ⎟⎜ ⎟=⎜ ⎟⎜ ⎟⎝ ⎠

0 R 1≤ ≤

2 2 21 2 nC s s ....... s R= ⋅ ⋅ ⋅ ⋅

Distribución singular

Una distribución es singular si su rango es menor que n, esto es, cuando el determinante de C ó R de la misma es igual a cero.

R 0= C 0=

27© Antonio Pajares Ruiz

4. GENERALIZACIÓN A LAS DISTRIBUCIONES MULTIDIMENSIONALES.

PLANO DE REGRESIÓN DE X1 SOBRE X2, X3, …, Xn

*1 1 12 2 13 3 1n nX a b X b X ... b X= + ⋅ + ⋅ + + ⋅

1v1v

11

Cb

C−

=

v 2,3,....,n=

1 1 12 2 13 3 1n na x b x b x ..... b x= − ⋅ − ⋅ − − ⋅

1

212

e11 11

C s Rs

C R⋅

= =

Aplicando el método de mínimos cuadrados, se estiman los valores de los parámetros:

Coeficiente de determinación múltiple

21.2...n 2

1 11 11

C RR 1 1

s C R= − = −

28© Antonio Pajares Ruiz

4. GENERALIZACIÓN A LAS DISTRIBUCIONES MULTIDIMENSIONALES.

CORRELACIÓN

1.2...n 21 11

Cr 1

s C= −

1.2...n0 r 1≤ ≤

2 21.2...n 1.2...nr R=

Coeficiente de correlación múltiple

1212.3...n

11 22

Cr

C C−

=⋅

12.3...n1 r 1− ≤ ≤

Coeficiente de correlación parcial