Regresion Multiple

14
 Ana J Ana Justel ustel Eusebio Eusebio - 2007 2007 M Mé étodos todos Estad Estadí í sticos sticos Licenciatura Licenciatura  en en Biolog Biolog í í a a TEMA 4: TEMA 4: MODELO DE REGRESI MODELO DE REGRESIÓ ÓN LINEAL M N LINEAL MÚ ÚLTIPLE LTIPLE Ana J Ana Justel ustel Eusebio Eusebio - 2007 2007 M Mé étodos todos Estad Estadí í sticos sticos Licenciatura Licenciatura  en en Biolog Biolog í í a a REGRESI REGRESI Ó ÓN M N MÚ ÚLTIPLE LTIPLE Cuando la respuesta depende de varias variables explicativas cuantitativas cuantitativas La regresión múltiple es mejor que la simple porque se mejora la predicci mejora la predicción de la variable respuesta Cuando la respuesta depende de más de una variable, la regresión simple las considera una a una y se pueden producir fácilmente sesgos en la estimación de los efectos que tienen cada una de ellas en la respuesta Las ideas de la regresión simple se extienden casi automáticamente a la regresión múltiple

Transcript of Regresion Multiple

Page 1: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 1/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

TEMA 4:TEMA 4:

MODELO DE REGRESIMODELO DE REGRESIÓÓN LINEAL MN LINEAL MÚÚLTIPLELTIPLE

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

REGRESIREGRESI ÓÓN MN MÚÚLTIPLELTIPLE

Cuando la respuesta depende de varias variables explicativas

cuantitativascuantitativas

La regresión múltiple es mejor que la simple porque semejora la prediccimejora la prediccióónn de la variable respuesta

Cuando la respuesta depende de más de una variable, la

regresión simple las considera una a una y se pueden

producir fácilmente sesgos en la estimación de los efectos

que tienen cada una de ellas en la respuesta

Las ideas de la regresión simple se extienden casi

automáticamente a la regresión múltiple

Page 2: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 2/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

ModeloModelo

ikiki22i110i uxxxy +β++β+β+β= L

Requisitos adicionales de la regresiRequisitos adicionales de la regresióón mn múúltipleltiple

Hay al menos tantos datos como parHay al menos tantos datos como paráámetros desconocidosmetros desconocidos

 “ “ n es igual o mayor que k+2n es igual o mayor que k+2” ” 

Ninguna de las variables explicativas es combinaciNinguna de las variables explicativas es combinacióón linealn lineal

exacta de las restantesexacta de las restantes ((colinearidadcolinearidad))

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

InterpretaciInterpretacióón de los parn de los paráámetros:metros:

Representa el valor medio de la respuesta (y) cuandotodas las variable explicativas (x) valen cero

Representa el incremento de la respuesta media (y)cuando la variable explicativa (xi) aumenta en unaunidad y e l res to d e las va r iab les exp l i cat i v as  pe rmanecen cons tan tes  

ikiki22i110i uxxxy +β++β+β+β= L

iβk,...,1i =

Page 3: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 3/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

La nube de puntos estLa nube de puntos estáá enenun espacio de dimensiun espacio de dimensióónnk+1, que es dif k+1, que es dif í í cil de vercil de vercuando k es mayor que 2cuando k es mayor que 2

Los datosLos datos

⎟⎟⎟⎟⎟

 ⎠

 ⎞

⎜⎜⎜⎜⎜

⎝ 

⎛ 

+

⎟⎟⎟⎟⎟

 ⎠

 ⎞

⎜⎜⎜⎜⎜

⎝ 

⎛ 

⎟⎟⎟⎟⎟

 ⎠

 ⎞

⎜⎜⎜⎜⎜

⎝ 

⎛ 

=

⎟⎟⎟⎟⎟

 ⎠

 ⎞

⎜⎜⎜⎜⎜

⎝ 

⎛ 

nk knnn

n u

u

u

 x x x

 x x x

 x x x

 y

 y

 y

MM

L

MOMMM

L

L

M

2

1

1

0

21

22212

12111

2

1

1

1

1

 β 

 β 

 β 

)I,0(NU

UXβY2σ→

+=

NotaciNotacióón matricialn matricial

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

EstimaciEstimacióón de los parn de los paráámetrosmetros

Los cLos cáálculos son complicadoslculos son complicados

y los hacen los ordenadoresy los hacen los ordenadores

Page 4: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 4/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Coeficientesa

71,578 1,183 60,525 ,000

-,108 ,005 -,716 -21,539 ,000

-4,227 ,417 -,337 -10,131 ,000

(Constante)

fluorocitosina

radiacion

Modelo1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizad

os

t Sig.

Variable dependiente: supervivenciaa.

EstimaciEstimacióón de losn de loscoeficientescoeficientes

Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )

En cada cultivo se prueba a administrar diferentes concentracionesde fluorocitosina (5FC) y distintos niveles de radiación

Se miden los porcentajes de supervivencia de las líneas celularesde cáncer, siendo el tratamiento más efectivo el que da unporcentaje menor

adiaciónr 227,4sinafluorocito108,0578,71y −−=

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Intervalos de confianza de los coeficientesIntervalos de confianza de los coeficientes

Error típico

LosLos qqii+1,i+1+1,i+1 estestáán en lan en ladiagonal principal de ladiagonal principal de la

matrizmatriz ((XX’ ’ XX))--11

k,...,1i =

Los cLos cáálculos son complicadoslculos son complicadosy los hacen los ordenadoresy los hacen los ordenadores

Page 5: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 5/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Coeficientesa

71,578 1,183 60,525 ,000

-,108 ,005 -,716 -21,539 ,000

-4,227 ,417 -,337 -10,131 ,000

(Constante)

fluorocitosina

radiacion

Modelo1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizad

os

t Sig.

Variable dependiente: supervivenciaa.

Errores tErrores tí í picospicos

Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )

En cada cultivo se prueba a administrar diferentes concentracionesde fluorocitosina (5FC) y distintos niveles de radiación

Se miden los porcentajes de supervivencia de las líneas celularesde cáncer, siendo el tratamiento más efectivo el que da unporcentaje menor

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Rechazaremos HRechazaremos H00, al nivel de significaci, al nivel de significacióónn αα, si el cero, si el cerono estno estáá en el intervalo de confianza paraen el intervalo de confianza para ββii

Para no tener que fijarPara no tener que fijar αα, miramos el p, miramos el p--valor de unvalor de uncontraste de lacontraste de la tt para cada parpara cada paráámetrometro ββii

Contrastes de los coeficientesContrastes de los coeficientes

)iXdeelinealmentdependerespuesta(la

)iXdeelinealmentdependenorespuesta(la

 0:H

 0:H

i1

i0

≠β

Los cLos c

áá

lculos son complicadoslculos son complicados

y los hacen los ordenadoresy los hacen los ordenadores

Page 6: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 6/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Coeficientesa

71,578 1,183 60,525 ,000

-,108 ,005 -,716 -21,539 ,000

-4,227 ,417 -,337 -10,131 ,000

(Constante)

fluorocitosina

radiacion

Modelo1

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizad

os

t Sig.

Variable dependiente: supervivenciaa.

p p --valoresvalores

Influyen tanto la concentraciInfluyen tanto la concentracióón den de fluorocitosinafluorocitosina como lacomo laradiaciradiacióón. La supervivencia de las cn. La supervivencia de las céélulas cancerlulas cancerí í genasgenasdisminuye al aumentar ladisminuye al aumentar la fluorocitosinafluorocitosina y la radiaciy la radiacióónn

Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )

En cada cultivo se prueba a administrar diferentes concentracionesde fluorocitosina (5FC) y distintos niveles de radiación

Se miden los porcentajes de supervivencia de las líneas celularesde cáncer, siendo el tratamiento más efectivo el que da unporcentaje menor

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Contraste de la regresiContraste de la regresióónn

El modelo de regresión lineal NONO sirve para explicar la respuesta

El modelo de regresión lineal SISI sirve para explicar la respuesta

Tabla ANOVATabla ANOVA

Rechazaremos H0 , al nivel α, si : Los cLos cáálculos sonlculos soncomplicados y loscomplicados y loshacen los ordenadoreshacen los ordenadores

Page 7: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 7/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Coeficientesa

71,578 1,183 60,525 ,000

-,108 ,005 -,716 -21,539 ,000

-4,227 ,417 -,337 -10,131 ,000

(Constante)

fluorocitosina

radiacion

Modelo

1

B Error típ.

Coeficientes no

estandarizadosBeta

Coeficientes

estandarizad

ost Sig.

Variable dependiente: supervivenciaa.

Hay evidencia estadHay evidencia estad í í stica de que el modelo sirve parastica de que el modelo sirve paraexplicar la respuesta, al menos alguna variable influyeexplicar la respuesta, al menos alguna variable influye

Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )

Las dosLas dosinfluyeninfluyen

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Casos posiblesCasos posibles

Page 8: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 8/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Coeficiente de determinaciCoeficiente de determinacióónn –– RR22

¿Cómo evaluamos la fuerza del ajuste de un modelo deregresión?

ElEl COEFICIENTE DE DETERMINACICOEFICIENTE DE DETERMINACIÓÓNN es la proporcies la proporcióón den devariabilidad explicada por la regresivariabilidad explicada por la regresióónn

RR22 = SCE / SCT= SCE / SCT

INCONVENIENTE DE RINCONVENIENTE DE R22:: Siempre aumenta cuandoSiempre aumenta cuandointroducimos nuevas variables, aunque no sirvanintroducimos nuevas variables, aunque no sirvanpara explicar la respuestapara explicar la respuesta

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Coeficiente de determinaciCoeficiente de determinacióón CORREGIDO Rn CORREGIDO R22

Se corrige R2 por los grados de libertad

Lo usaremosLo usaremos úúnicamente para comparar modelosnicamente para comparar modeloscon distinto ncon distinto núúmero de variablesmero de variables

ElEl COEFICIENTE DE DETERMINACICOEFICIENTE DE DETERMINACIÓÓN CORREGIDON CORREGIDO eses

)1n/(SCT)1kn/(SCR1R2

− −−−=

(siempre es m(siempre es máás peques pequeñño que Ro que R22 y puede ser negativo)y puede ser negativo)

Page 9: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 9/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

EstimaciEstimacióón de la media de Yn de la media de Y

¿ Cuál es la respuesta media para valores fijos de las x ?

Como no conocemos la media, proponemos la respuesta media que

hemos estimado con el modelo – la ecuación de regresión

Los cLos cáálculos sonlculos soncomplicados y loscomplicados y los

hacen los ordenadoreshacen los ordenadores

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

PredicciPrediccióón de Yn de Y

¿ Qué respuesta predecimos para un nuevo valor de las x ?

La mejor propuesta es la media de las y. Como no conocemos lamedia, proponemos la respuesta media que hemos estimado con elmodelo – la ecuación de regresión

Los cLos cáálculos sonlculos soncomplicados y loscomplicados y loshacen los ordenadoreshacen los ordenadores

Page 10: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 10/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

El intervalo de predicción es siempre mayor que el de

estimación de la media. Para predecir, primero se

propone la media y luego se estima ésta. La estimación

de la media sólo tiene esta última incertidumbre

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

DiagnDiagnóóstico del modelo de regresistico del modelo de regresióónn

En regresión múltiple hemos desarrollado

Page 11: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 11/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Cuando las variables explicativas están muy correlacionadas

El caso extremo es cuando una variable es combinación linealexacta de otras

Intuitivamente, el problema que se presenta es que cadaIntuitivamente, el problema que se presenta es que cadavariable que incluimos en el modelo supone un parvariable que incluimos en el modelo supone un paráámetrometronuevo a estimar y necesitamos mnuevo a estimar y necesitamos máás informacis informacióón. Si los datosn. Si los datosno aportan casi nada nuevo esno aportan casi nada nuevo es ddí í ficilficil estimar los parestimar los paráámetrosmetros

Presenta algunos inconvenientes que pueden ser importantes:– Gran varianza de los estimadores β– Cambio importante en las estimaciones al eliminar o incluir

regresores en el modelo– Cambio de los contrastes al eliminar o incluir regresores en el

modelo

–– Contradicciones entre el contraste F y los contrastes individualContradicciones entre el contraste F y los contrastes individualeses

MulticolinealidadMulticolinealidad

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Eliminar regresores para reducir el número de parámetros

Sustituir las variables muy correlacionadas por unacombinación de ellas que resuma la información quecontienen (análisis de componentes principales)

MulticolinealidadMulticolinealidad -- SolucionesSoluciones

Una señal de alarma es cuando los test para los coeficientessalen NO SIGNIFICATIVOS y el contraste de la regresión saleSIGNIFICATIVO

Valores altos en la matriz de correlaciones

Relaciones lineales fuertes en la matriz de gráficos dedispersión (matrix-plot)

MulticolinealidadMulticolinealidad -- IdentificaciIdentificacióónn

Page 12: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 12/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Ejemplo:Ejemplo: Producción de residuos peligrosos en una industriadel sector de artes gráficas

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

DiagnDiagnóóstico de las hipstico de las hipóótesis del modelotesis del modelo

Tienen que estarentre -2 y 2, en

una nube depuntos sin forma

Si las hipótesis del modelo son ciertas, entonces los residuosson aproximadamente

Podemos utilizar contrastes y gráficos para ver si hay EVIDENCIA CLARAEVIDENCIA CLARA encontra de alguna de las hipótesis

Page 13: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 13/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )

Aceptamos laAceptamos lanormalidadnormalidad

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )

No aceptamos la linealidad y laNo aceptamos la linealidad y la homocedasticidadhomocedasticidad

Page 14: Regresion Multiple

5/11/2018 Regresion Multiple - slidepdf.com

http://slidepdf.com/reader/full/regresion-multiple-55a0cdaab2d04 14/14

 

Ana JAna Justelustel EusebioEusebio -- 20072007MMéétodostodos EstadEstadíísticossticosLicenciaturaLicenciatura enen BiologBiologííaa

Ejemplo:Ejemplo: Terapia génica en el tratamiento de un tipo de cáncer( Á l va rez 2004 , tes i s docto r a l )

La influencia de laLa influencia de la fluorocitosinafluorocitosina no es lineal, hay queno es lineal, hay quetransformar la variabletransformar la variable