123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

89
1 2 3 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE CURSO DE ESTADÍSTICA AVANZADA ESTADÍSTICA AVANZADA

Transcript of 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Page 1: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

1 2 3

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

CURSO DE CURSO DE ESTADÍSTICA AVANZADAESTADÍSTICA AVANZADA

Page 2: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IISESIÓN 2SESIÓN 2

REGRESIÓN LINEAL REGRESIÓN LINEAL SIMPLESIMPLE

SESIÓN 2SESIÓN 2REGRESIÓN LINEAL REGRESIÓN LINEAL

SIMPLESIMPLE

2.1 Introducción a la 2.1 Introducción a la regresiónregresión

2.2 Modelo de regresión2.2 Modelo de regresión2.3 Errores comunes de la 2.3 Errores comunes de la

regresión regresión

2.1 Introducción a la 2.1 Introducción a la regresiónregresión

2.2 Modelo de regresión2.2 Modelo de regresión2.3 Errores comunes de la 2.3 Errores comunes de la

regresión regresión

2

Page 3: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2.1 INTRODUCCIÓN A

LA REGRESIÓN2.2 MODELO DE

REGRESIÓN2.3 ERRORES COMUNES

DE LA REGRESIÓN

RECORDATORIO…RECORDATORIO…

¿PARA QUÉ SIRVE EL ANOVAANOVA?

Para comprobar si una variable con más de dos categorías (“factores”) tiene relación con una segunda variable que es cuantitativa

A esta segunda variable que supone la respuesta al factor se le llama variable dependientevariable dependiente

Pretendemos demostrar que depende de la otra variable (factor)

variable dependiente

El factor es, por lo tanto, la variable independientevariable independiente

variable independiente

2

Page 4: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IIRECORDATORIO…RECORDATORIO…

Hay dos problemas que no se pueden solucionar con el análisis de la varianza:

El ANOVA se queda corto1

Hay factores que tienen tantas categorías que realmente se parecen más a una variable cuantitativa, o puede que nos interese usar como variable independiente una variable que es cuantitativa

2

Indica si hay o no una asociación estadística entre dos variables, pero no define exactamente cuál es la magnitud de esa relación

¿Cuánto aumenta la variable dependiente por cada unidad de aumento de la independiente?

LA REGRESIÓNVIENE A RESOLVER

ESTOS DOS PROBLEMAS

22.1 INTRODUCCIÓN A

LA REGRESIÓN2.2 MODELO DE

REGRESIÓN2.3 ERRORES COMUNES

DE LA REGRESIÓN

Page 5: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II Como hemos visto, la correlación sirve para medir la fuerza con que están asociadas dos variable cuantitativas

Esa fuerza se expresa con un númeroCOEFICIENTE DECORRELACIÓN

La regresión sirve para detallar más…

Está dirigida a describir de una manera más completa cómo es la cómo es la relación entre ambas variables…relación entre ambas variables…

…de tal manera que se puede predecir (con un cierto margen de error) cuál va a ser el valor de una variable una vez que se sabe el valor de la otra

22.1 INTRODUCCIÓN A

LA REGRESIÓN2.2 MODELO DE

REGRESIÓN2.3 ERRORES COMUNES

DE LA REGRESIÓN

Page 6: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IISi la asociación entre ambas variables es débil

Pero cuando la asociación es fuerte…

La regresión nos ofrece un modelo estadístico que puede alcanzar finalidades predictivas

Esta predicción puede ser bastante imprecisa

22.1 INTRODUCCIÓN A

LA REGRESIÓN2.2 MODELO DE

REGRESIÓN2.3 ERRORES COMUNES

DE LA REGRESIÓN

Page 7: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IILa regresión supone que hay una variable fija, controlada por el investigador y otra variable que no está controladaLa regresión supone que hay una variable fija, controlada por el investigador y otra variable que no está controladaLa regresión supone que hay una variable fija, controlada por el investigador y otra variable que no está controlada

variable indepediente o predictora

variable de respuesta o depediente

La correlación supone que ninguna variabe es fijaninguna variabe es fija, las dos están fuera del control del investigador

22.1 INTRODUCCIÓN A

LA REGRESIÓN2.2 MODELO DE

REGRESIÓN2.3 ERRORES COMUNES

DE LA REGRESIÓN

Page 8: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IILa regresión en su forma más sencilla se llama regresión regresión lineal simplelineal simple

Técnica estadística que analiza la relación Técnica estadística que analiza la relación entre dos variables cuantitativas, tratando de entre dos variables cuantitativas, tratando de verificar si dicha relación es linealverificar si dicha relación es lineal

Sin embargo, a diferencia de lo que ocurría con la correlación, ahora no se puede considerar que ambas variables tengan un papel simétrico

22.1 INTRODUCCIÓN A

LA REGRESIÓN2.2 MODELO DE

REGRESIÓN2.3 ERRORES COMUNES

DE LA REGRESIÓN

Page 9: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IIEn la regresión, cada una de las dos variables desempeña una función diferente y en consecuencia tienen una consideración distinta:

A la variable respuesta se le llama variable dependiente y ocupa el eje de ordenadas (eje vertical o de la ”y”)

A la variable predictora o “causa” se le denomina variable independiente y ocupa el eje de abcisas (eje horizontal)

variable respuesta

variable predictora

Suele ser un factor previamente determinado o una característica más fácil de medir que la que se pretende explicar a partir de ella

22.1 INTRODUCCIÓN A

LA REGRESIÓN2.2 MODELO DE

REGRESIÓN2.3 ERRORES COMUNES

DE LA REGRESIÓN

Page 10: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II La correlación y la regresión tienen distintas finalidades

Es bastante raro que esté indicado aplicar simultáneamente ambas técnicas para alcanzar los objetivos de un determinado análisis estadístico

Con frecuencia se confunden ambas técnicas y se piensa que son una sola

2

ALGUNAS ACLARACIONES…ALGUNAS ACLARACIONES…

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 11: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

Medir el grado o fuerza de la asociación entre dos variables cuantitativas

OBJETIVO DE LACORRELACIÓN

A través del coeficiente de correlación

No estima la bondad del ajuste de unos datos a un modelo

Buscar la línea que mejor se ajusta a los puntos

OBJETIVO DE LAREGRESIÓN

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 12: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

EJERCICIOEJERCICIO

REACCIÓN DE UN ALÉRGENO EN FUNCIÓN DE DISTINTAS DOSIS DE UN REACCIÓN DE UN ALÉRGENO EN FUNCIÓN DE DISTINTAS DOSIS DE UN PRODUCTOPRODUCTO

Page 13: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

Los datos de nuestra muestra serían los siguientes:Los datos de nuestra muestra serían los siguientes:

Page 14: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

11erer Paso: Diagrama de Dispersión Paso: Diagrama de Dispersión

Page 15: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

11erer Paso: Diagrama de Dispersión Paso: Diagrama de Dispersión

Page 16: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II 100000800006000040000200000

Concent

39

36

33

30

27

24

21

CT

s-B

CR

AB

L

2

Obtenemos el siguiente resultado…Obtenemos el siguiente resultado…

¿Qué está pasando? ¿Cuál es el problema?

Page 17: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

Obtenemos el siguiente resultado…Obtenemos el siguiente resultado…

¿Qué está pasando? ¿Cuál es el problema?

Dispersión de los datosDispersión de los datos: los datos están muy separados

Por eso no se observa ninguna tendencia

¿QUÉHACER? Aplicamos transformaciones logarítmicas

Es una opción siempre que tengamos datos dispersos

Page 18: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

Los datos para la regresión serían por tanto:Los datos para la regresión serían por tanto:

Page 19: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

El Diagrama de Dispersión obtenido ahora es:El Diagrama de Dispersión obtenido ahora es:

4,002,00

log_Conct

39

36

33

30

27

24

21

CT

s-B

CR

AB

L

Ahora sí se intuyeuna relación

Page 20: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

2º Paso: Estudio de Correlación2º Paso: Estudio de Correlación

Page 21: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

2º Paso: Estudio de Correlación2º Paso: Estudio de Correlación

Correlaciones

¿Puedo calcular una recta de regresión lineal?

** La correlación es significativa al nivel 0,01 (bilateral).

CTs-BCRABL Concent

Coeficiente de correlación 1,000 -1,000(**)

Sig. (bilateral) . ,000

CTs-BCRABL

N 4 4

Coeficiente de correlación -1,000(**) 1,000

Sig. (bilateral) ,000 .

Rho de Spearman

Concent

N 4 4

Page 22: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

33er er Paso: Cálculo de la Recta de RegresiónPaso: Cálculo de la Recta de Regresión

Page 23: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

33er er Paso: Cálculo de la Recta de RegresiónPaso: Cálculo de la Recta de Regresión

Page 24: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IIANOVAb

136,029 1 136,029 280,059 ,004a

,971 2 ,486

137,000 3

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), log_Concta.

Variable dependiente: CTs-BCRABLb.

Resumen del modelo

,996a ,993 ,989 ,697Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), log_Concta.

2

RESULTADOS (I)RESULTADOS (I)

Page 25: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

RESULTADOS (II)RESULTADOS (II)

Coeficientesa

41,343 ,736 56,197 ,000

-3,943 ,236 -,996 -16,735 ,004

(Constante)

log_Conct

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig.

Variable dependiente: CTs-BCRABLa.

La recta de regresión sería:

CTs-BCRABL=41,343-3,943*logx

Page 26: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

EJEMPLOEJEMPLO

El ejemplo más intuitivo es cómo se relacionan la talla y la edadcómo se relacionan la talla y la edad

Por cada incremento de edad (por lo menos hasta los 25 años) se produce un incremento de altura. Es decir…

y = a + b*x

constante llamada ordenada en el origenordenada en el origen

(en nuestro caso: cuánto mediría un recién nacido)

pendientependiente: incremento de y por cada unidad de incremento de x

(en nuestro caso: cuántos centímetros crece un niño al año)

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 27: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

EJEMPLOEJEMPLO

Sin embargo, a pesar de ser este un modelo de fácil comprensión,tiene errores…

Nunca será posible hacer predicciones perfectaspredicciones perfectas de la estatura que tendrá un niño una vez que se conoce su edad

Aunque la edad tiene un efecto importante sobre la estatura, este efecto está afectado por un cierto grado de variabilidad aleatoriavariabilidad aleatoria

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 28: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

EJEMPLOEJEMPLO

Las observaciones de dos variables no suelen trazar una línea rectaperfecta sino que existe un cierto grado de dispersión entornoa una imaginaria línea recta que los atravesaría por el centro

y = a + b*x + e error residualerror residual: expresa el desajuste de los datos respecto al modelo lineal

e

es una cantidad variable de un sujeto a otro y puede ser positiva o negativa

equivale a lo que habría que añadir o quitar a la predicción que hace el modelo para que coincida exactamente con lo observado en cada sujeto

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 29: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

La ecuación anterior nos plantea una serie de preguntas…

¿Hasta qué punto es importante ese error?

¿Qué porcentaje de la variabilidad en la talla puede ser explicado por efecto de la edad y cuál no es explicado?

Para resolver estos interrogantes nos adentramos en los modelos modelos de regresiónde regresión

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 30: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

COEFICIENTE DE DETERMINACIÓN RCOEFICIENTE DE DETERMINACIÓN R22

R2Coeficiente muy importante en regresión, ya que compara lo explicado por la regresión compara lo explicado por la regresión lineal con la variabilidad totallineal con la variabilidad total

Porcentaje de la variabilidad total de la variable dependiente que es explicada por la variable independiente

INTERPRETACIÓN

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 31: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

COEFICIENTE DE DETERMINACIÓN RCOEFICIENTE DE DETERMINACIÓN R22

Los posibles valores para R2 van desde 1, que es el máximo, a 0 que es el mínimoVALORES

+1

0 La recta no explica nada, es decir, no existe asociación entre “x” e “y”

La recta daría una explicación perfecta, es decir, los valores de “y” están totalmente determinados por la “x”

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 32: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

COEFICIENTE DE DETERMINACIÓN RCOEFICIENTE DE DETERMINACIÓN R22

Los posibles valores para R2 van desde 1, que es el máximo, a 0 que es el mínimoVALORES

+1

0

Cuando más próximo a 1 sea R2 mayor es la fuerza de la asociación entre ambas variables

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 33: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

COEFICIENTE DE DETERMINACIÓN RCOEFICIENTE DE DETERMINACIÓN R22

La raíz cuadrada de R2 se llama r

Sólo se escribe con mayúscula (RR) cuando hay varias variables independientes Entonces se llama coeficiente de correlación múltiple o R coeficiente de correlación múltiple o R múltiplemúltiple

R2 = r

Esta r es precisamente el coeficiente de correlación de Pearsoncoeficiente de correlación de Pearson

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 34: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

COEFICIENTE DE DETERMINACIÓN RCOEFICIENTE DE DETERMINACIÓN R22

Salvo en los casos extremos de que R2 valga 0 o 1, la magnitud de r es siempre superior a la de R2

para R2 ≠ 0,1 r >R2

Una correlación puede parecer muy buena, por ejemplo r=0,7, y sin embargo el modelo lineal explicaría menos del 50% de lo observado

REPERCURSIONESPRÁCTICAS

R2 = 0,49

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 35: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

ECUACIÓN DE REGRESIÓNECUACIÓN DE REGRESIÓN

El objetivo más importante de un análisis de regresión lineal suele ser el cálculo del valor de la pendiente de la recta

b = pendiente de la recta o coeficiente de regresióncoeficiente de regresión

mide el cambio de la variable “y” por cada unidad de cambio de “x”

Su magnitud sirve para predecir en cuánto aumentará “y” cada vez que “x” se incremente en una unidad

Su signo puede ser positivo o negativo, y en esto la interpretación coincide con la correlación

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 36: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

SUPUESTOS DEL MODELO DE REGRESIÓNSUPUESTOS DEL MODELO DE REGRESIÓN

Para poder realizar una regresión lineal se deben asumir cuatro supuestos:

Normalidad de la distribución condicional de la variable “y”Normalidad de la distribución condicional de la variable “y”1

LinealidadLinealidad2

Homogeneidad de las varianzasHomogeneidad de las varianzas3

Independencia de las observacionesIndependencia de las observaciones 4

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 37: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

SUPUESTOS DEL MODELO DE REGRESIÓNSUPUESTOS DEL MODELO DE REGRESIÓN

Para poder realizar una regresión lineal se deben asumir cuatro supuestos:

Normalidad de la distribución condicional de la variable “y”Normalidad de la distribución condicional de la variable “y”1

Linealidad2

Homogeneidad de las varianzas3

Independencia de las observaciones 4

Se refiere no sólo a que la variable “y” siga una distribución normal, sino que además, para para cada valor de “x”, la distribución de posibles cada valor de “x”, la distribución de posibles valores de “y” también siga una normalvalores de “y” también siga una normal

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 38: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

SUPUESTOS DEL MODELO DE REGRESIÓNSUPUESTOS DEL MODELO DE REGRESIÓN

Para poder realizar una regresión lineal se deben asumir cuatro supuestos:

Normalidad de la distribución condicional de la variable “y”1

LinealidadLinealidad2

Homogeneidad de las varianzas3

Independencia de las observaciones 4

Que exista una relación lineal subyacente entre la variable “x” y la variable “y”

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 39: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

SUPUESTOS DEL MODELO DE REGRESIÓNSUPUESTOS DEL MODELO DE REGRESIÓN

Para poder realizar una regresión lineal se deben asumir cuatro supuestos:

Normalidad de la distribución condicional de la variable “y”1

Homogeneidad de las varianzasHomogeneidad de las varianzas3

Independencia de las observaciones 4

Linealidad2 Se conoce como homoscedasticidadhomoscedasticidad

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 40: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

SUPUESTOS DEL MODELO DE REGRESIÓNSUPUESTOS DEL MODELO DE REGRESIÓN

Para poder realizar una regresión lineal se deben asumir cuatro supuestos:

Normalidad de la distribución condicional de la variable “y”1

Independencia de las observaciones Independencia de las observaciones 4

Linealidad2

Homogeneidad de las varianzas3Cada observación de la variable “y” debe ser independiente de las demás

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 41: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

SUPUESTOS DEL MODELO DE REGRESIÓNSUPUESTOS DEL MODELO DE REGRESIÓN

POREJEMPLO

Un estudio en el que “y” que representa el númerode lesiones cutáneas en un brazo

Si existiesen pacientes en los que se han estudiado ambos brazos…

Hay dos observaciones por paciente que están autocorrelacionadas entre sí

¡No son independientes!

PORTANTO…

Habría que considerar como NN al número denúmero depacientespacientes y no al número de brazos

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 42: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

SUPUESTOS DEL MODELO DE REGRESIÓNSUPUESTOS DEL MODELO DE REGRESIÓN

OTROEJEMPLO

Número de casos de meningitis en la regiónen un año

Puede influir mucho en el número de casos de meningitis del año siguiente

Puede decidirse el vacunar a todos los niños porque hubo muchos casos el año anterior

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 43: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

SUPUESTOS DEL MODELO DE REGRESIÓNSUPUESTOS DEL MODELO DE REGRESIÓN

OTROEJEMPLO

Número de casos de meningitis en la regiónen un año

Es decir, el segundo valor “y” no es independiente sino que está condicionado por el primero, el tercero por el segundo y así sucesivamente

A este efecto se le llama autocorrelaciónautocorrelación

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 44: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

SUPUESTOS DEL MODELO DE REGRESIÓNSUPUESTOS DEL MODELO DE REGRESIÓN

OTROEJEMPLO

Número de casos de meningitis en la regiónen un año

La autocorrelación exige aplicar técnicas especiales que se agrupan bajo el concepto de series temporales

Estas series se utilizan mucho en economía, y cada vez van teniendo más interés para aplicaciones epidemiológicas

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 45: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

REGRESIÓN LINEAL CON SPSSREGRESIÓN LINEAL CON SPSS

PRIMERPASO Pedir a SPSS un gráfico de dispersión

OBJETIVOApreciar visualmente si se puede asumir un modelo lineal entre ambas variables

¿Cuándo ajustaremos una regresión?

Cuando la nube de puntos nos sugiera que existe una existe una relación linealrelación lineal

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 46: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

REGRESIÓN LINEAL CON SPSSREGRESIÓN LINEAL CON SPSS

Una nube de puntos puede sugerir que no existe ninguna relación

Si no existe relación… b = 0b = 0

PERO…

También puede resultar una pendiente de 0 por otro motivo: que haya relación, pero que la relación no sea lineal sino que siga una curva u otro tipo de función

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 47: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

REGRESIÓN LINEAL CON SPSSREGRESIÓN LINEAL CON SPSS

Por ejemplo, las nubes de puntos pueden tomar formas no lineales como las siguientes:

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 48: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

REGRESIÓN LINEAL CON SPSSREGRESIÓN LINEAL CON SPSS

FORMA DE LA NUBE DE PUNTOS

TIPO DE RELACIÓN

U o J CUADRÁTICA

ECUACIÓN

y = a + b*x2

REPRESENTACIÓN GRÁFICA

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 49: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

REGRESIÓN LINEAL CON SPSSREGRESIÓN LINEAL CON SPSS

FORMA DE LA NUBE DE PUNTOS

TIPO DE RELACIÓN

HIPÉRBOLA HIPERBÓLICA

ECUACIÓN

y = a + b*(1/x)

REPRESENTACIÓN GRÁFICA

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 50: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

USOS E INTERPRETACIÓN DE UNA REGRESIÓN LINEALUSOS E INTERPRETACIÓN DE UNA REGRESIÓN LINEAL

Una vez que se ha comprobado que tenemos motivos razonables para pensar que no existe una transgresión importante de los supuestos de la regresión lineal…

Hemos obtenido una línea recta que relaciona “x” e “y”

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 51: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

USOS E INTERPRETACIÓN DE UNA REGRESIÓN LINEALUSOS E INTERPRETACIÓN DE UNA REGRESIÓN LINEAL

¿Cuál es la utilidad más interesante de esta recta de regresión?

Representa lo que idealmente sería la unión de las diferentes medias que va tomando “y” para cada grupo de valores de “x”

cuál es la media de “y” a cuál es la media de “y” a medida que “x” va cambiandomedida que “x” va cambiando

ESDECIR…

Page 52: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Un error común en el análisis de regresión se presenta cuando se hacen en el mismo individuo múltiples observaciones y se tratan como si fueran independientes

POREJEMPLO

Considérese 10 pacientes de quienes se ha registrado el peso y la medida de los pliegues cutáneos antes de empezar una dieta baja en calorías

N = 10 PESOMEDIDA DE

LOS PLIEGUESCUTÁNEOS

Tamaño de la muestra Variables

Puede esperarse una moderada relación positiva entre el peso y el grosor de los pliegues de la pielRESULTADO

Page 53: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

Si las 20 observaciones se tratan como si fueran independientes se presentarían varios problemas:

Ahora supóngase que los mismos 10 sujetos se pesan y miden a las seis semanas de llevar la dieta…

1 El tamaño de la muestra parecería ser de 20 en vez de 10

2 El uso de ambas observaciones tiene el mismo efecto que usar mediciones duplicadas

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 54: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

Si las 20 observaciones se tratan como si fueran independientes se presentarían varios problemas:

Ahora supóngase que los mismos 10 sujetos se pesan y miden a las seis semanas de llevar la dieta

1 El tamaño de la muestra parecería ser de 20 en vez de 10

2 El uso de ambas observaciones tiene el mismo efecto que usar mediciones duplicadas

Podría concluirse con Podría concluirse con mayor probabilidad una significanciamayor probabilidad una significancia

(erróneamente)(erróneamente)

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 55: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

Si las 20 observaciones se tratan como si fueran independientes se presentarían varios problemas:

Ahora supóngase que los mismos 10 sujetos se pesan y miden a las seis semanas de llevar la dieta

1 El tamaño de la muestra parecería ser de 20 en vez de 10

2 El uso de ambas observaciones tiene el mismo efecto que usar mediciones duplicadas

Esto es debido a que la relación entre el peso y el grosor de los pliegues cutáneos es un tanto estable en la misma persona

Da como resultado una correlación mayor de lo que en realidad debe ser

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 56: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

Se pueden también obtener conclusiones inadecuadas si se mezclan dos poblaciones diferentes

POREJEMPLO

Considérese la relación entre estatura y peso corporal

Recogemos una muestra de 10 hombres y 10 mujeres y se calcula la correlación entre peso y estatura combinando las muestras

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 57: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

Si representamos las 10 muestras de las mujeresmujeres en una gráfica…

peso

estatura

No parece que haya relación entre peso y estatura

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 58: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

peso

estatura

Si representamos las 10 muestras de los hombreshombres en una gráfica…

Tampoco parece que haya relación entre peso y estatura

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 59: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

Sin embargo, si representamos las 20 muestras de hombres y hombres y mujeresmujeres en la misma gráfica…

MujeresHombres

peso

estatura

Nos podría llevar a interpretar que sí hay relación entre peso y estatura

2.1 INTRODUCCIÓN A LA REGRESIÓN

2.2 MODELO DE REGRESIÓN

2.3 ERRORES COMUNES DE LA REGRESIÓN

Page 60: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

EJERCICIOEJERCICIO

BLOQUEO DEL NERVIO FEMORAL EN EL PACIENTE PEDIÁTRICO: ¿ES BLOQUEO DEL NERVIO FEMORAL EN EL PACIENTE PEDIÁTRICO: ¿ES POSIBLE DETERMINAR EL PUNTO MÁS ADECUADO PARA LA PUNCIÓN?POSIBLE DETERMINAR EL PUNTO MÁS ADECUADO PARA LA PUNCIÓN?

Page 61: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

Los datos de nuestra muestra serían los siguientes:Los datos de nuestra muestra serían los siguientes:

Page 62: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

EJERCICIOEJERCICIO

BLOQUEO DEL NERVIO FEMORAL EN EL PACIENTE PEDIÁTRICO: ¿ES BLOQUEO DEL NERVIO FEMORAL EN EL PACIENTE PEDIÁTRICO: ¿ES POSIBLE DETERMINAR EL PUNTO MÁS ADECUADO PARA LA PUNCIÓN?POSIBLE DETERMINAR EL PUNTO MÁS ADECUADO PARA LA PUNCIÓN?

Lo hacemos como ejemplo para el derecho

OBJETIVOQueremos relacionar la medida del nervio inguinal con el del CUN

Si conocemos lamedida del CUN…

¿podemos calcular la medida del nervio inguinal?

Page 63: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

11erer Paso: Gráfico de Dispersión Paso: Gráfico de Dispersión

Page 64: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

11erer Paso: Gráfico de Dispersión Paso: Gráfico de Dispersión

Page 65: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

11erer Paso: Gráfico de Dispersión Paso: Gráfico de Dispersión

1,751,51,251,00,750,5

IFD-D

1,8

1,5

1,2

0,9

0,6

A/N

-D

Page 66: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

2º Paso: Estudio de Correlación2º Paso: Estudio de Correlación

Page 67: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

2º Paso: Estudio de Correlación2º Paso: Estudio de Correlación

Page 68: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

2º Paso: Estudio de Correlación2º Paso: Estudio de Correlación

Correlaciones

Vemos que podemos asumir una correlación lineal

A/N-D IFD-D

Correlación de Pearson 1 ,887(**)

Sig. (bilateral) ,000

A/N-D

N 74 74

Correlación de Pearson ,887(**) 1

Sig. (bilateral) ,000

IFD-D

N 74 74

** La correlación es significativa al nivel 0,01 (bilateral).

Page 69: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

33er er Paso: Cálculo de la Recta de RegresiónPaso: Cálculo de la Recta de Regresión

Page 70: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

33er er Paso: Cálculo de la Recta de RegresiónPaso: Cálculo de la Recta de Regresión

Page 71: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

REGRESIÓN (I)REGRESIÓN (I)

Variables introducidas/eliminadasb

A/N-Da . IntroducirModelo1

Variablesintroducidas

Variableseliminadas Método

Todas las variables solicitadas introducidasa.

Variable dependiente: IFD-Db.

Resumen del modelo

,887a ,787 ,784 ,1579Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), A/N-Da.

Page 72: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II

ANOVAb

6,635 1 6,635 266,026 ,000a

1,796 72 ,025

8,431 73

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), A/N-Da.

Variable dependiente: IFD-Db.

2

REGRESIÓN (II)REGRESIÓN (II)

Coeficientesa

,118 ,064 1,830 ,071

,901 ,055 ,887 16,310 ,000

(Constante)

A/N-D

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig.

Variable dependiente: IFD-Da.

Page 73: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IIISESIÓN 3SESIÓN 3

REGRESIÓN LINEAL REGRESIÓN LINEAL MÚLTIPLEMÚLTIPLE

SESIÓN 3SESIÓN 3REGRESIÓN LINEAL REGRESIÓN LINEAL

MÚLTIPLEMÚLTIPLE

3.1 Introducción3.1 Introducción3.2 Métodos de Regresión Lineal 3.2 Métodos de Regresión Lineal

MúltipleMúltiple

3.1 Introducción3.1 Introducción3.2 Métodos de Regresión Lineal 3.2 Métodos de Regresión Lineal

MúltipleMúltiple

3

Page 74: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

III3

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

El procedimiento de Regresión Lineal permite utilizar más de una variable independiente y permite llevar a cabo análisis de regresión múltiple

En el análisis de regresión múltiple la ecuación ya no define una recta en el plano, sino un hiperplano en un espacio hiperplano en un espacio multidimensionalmultidimensional

Page 75: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

III3

Con una variable dependiente y dos independientes…

…necesitamos tres ejes para poder representar el diagrama de dispersión

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

Page 76: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

III3

Si en lugar de dos variables independientes utilizáramos tres…

…sería necesario un espacio de cuatro dimensiones para poder construir el diagrama de dispersión

POR TANT

O

Con más de una variable independienteCon más de una variable independiente, la representación gráfica de las relaciones presentes en un modelo de regresión resulta poco intuitiva, muy complicada y nada útilpoco intuitiva, muy complicada y nada útil

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

Page 77: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

III3

Es más fácil y práctico partir de la ecuación del ecuación del modelo de regresión lineal:modelo de regresión lineal:

Y = β0 + β1*X1 + β2*X2 +……..+ βk*Xk + ε

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

La variable dependiente Y se interpreta como una combinación lineal de un conjunto de K variables independientes, cada una de las cuales va acompañada de un coeficiente β, que indica el peso relativo de esa variable en la ecuación

La variable dependiente Y se interpreta como una combinación lineal de un conjunto de K variables independientes, cada una de las cuales va acompañada de un coeficiente β, que indica el peso relativo de esa variable en la ecuación

La variable dependiente Y se interpreta como una combinación lineal de un conjunto de K variables independientes, cada una de las cuales va acompañada de un coeficiente β, que indica el peso relativo de esa variable en la ecuación La ecuación incluye un componente aleatorio (los residuos ε) que recoge todo lo que las variables independientes no son capaces de explicar

Page 78: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

III3

SELECCIÓN DE LAS VARIABLES DE REGRESIÓNSELECCIÓN DE LAS VARIABLES DE REGRESIÓN

El control sobre las variables utilizadas para construir el modelo de regresión recae sobre el propio analista

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

Es el analista quien decide qué variables independientes desea incluir en la ecuación de regresión seleccionándolas él mismo de la lista de variables independientes que tiene

v. independiente 1 v. independiente 2 v. independiente 3 …..

analistaecuación de

regresión

Page 79: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

III3

SELECCIÓN DE LAS VARIABLES DE REGRESIÓNSELECCIÓN DE LAS VARIABLES DE REGRESIÓN

Sin embargo son frecuentes situaciones en las que…

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

Para afrontar estas situaciones existen procedimientos diseñados para seleccionar, entre una gran cantidad de variables, sólo aquellas que permiten obtener el mejor ajuste posible

No existe una teoría o un trabajo previo que oriente al analista en la elección de las variables relevantes

El número de variables independientes es muy elevado

Page 80: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

III3

CRITERIOS DE SELECCIÓN DE LAS VARIABLESCRITERIOS DE SELECCIÓN DE LAS VARIABLES

Existen diferentes criterios para seleccionar variables en un modelo de regresión:

El valor del coeficiente de correlación múltiple R21

El coeficiente de correlación parcial entre cada variable independiente y la dependiente

2

El grado de reducción del error típico cada vez que se incorpora una variable

3

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

Page 81: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

III3

MÉTODOS DE SELECCIÓN DE VARIABLESMÉTODOS DE SELECCIÓN DE VARIABLES

Existen diferentes métodos para seleccionar las variables independientes que debe incluir un modelo de regresión

Los de mayor aceptación son los métodos de selección por métodos de selección por pasos (stepwise)pasos (stepwise)

En primer lugar se selecciona la mejor variable, de acuerdo a algún criterio estadístico

A continuación, la mejor de las restantes

…y así sucesivamente hasta que ya no quedan variables que cumplan los criterios de selección

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

Page 82: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

III3

MÉTODOS DE SELECCIÓN DE VARIABLESMÉTODOS DE SELECCIÓN DE VARIABLES

Los métodos de selección más utilizados son:

Método hacia delante1

Método hacia atrás2

Pasos sucesivos3

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

Page 83: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IIIMétodo hacia delante1

Método hacia atrás2

Pasos sucesivos3

3

MÉTODOS DE SELECCIÓN DE VARIABLESMÉTODOS DE SELECCIÓN DE VARIABLES

Los métodos de selección más utilizados son:

Las variables se incorporan al modelo de regresión Las variables se incorporan al modelo de regresión una a unauna a una

PRIMER PASO: se selecciona la variable PRIMER PASO: se selecciona la variable independiente que, además de superar los criterios independiente que, además de superar los criterios de entrada, más alto correlaciona (positiva o de entrada, más alto correlaciona (positiva o negativamente) con la dependientenegativamente) con la dependiente

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

Page 84: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IIIMétodo hacia delante1

Método hacia atrás2

Pasos sucesivos3

3

MÉTODOS DE SELECCIÓN DE VARIABLESMÉTODOS DE SELECCIÓN DE VARIABLES

Los métodos de selección más utilizados son:

SIGUIENTES PASOS: se utiliza como criterio de SIGUIENTES PASOS: se utiliza como criterio de selección el coeficiente de correlación parcial.selección el coeficiente de correlación parcial.

Van siendo seleccionadas una a una las variables Van siendo seleccionadas una a una las variables que poseen el coeficiente de correlación parcial más que poseen el coeficiente de correlación parcial más alto en valor absolutoalto en valor absoluto

La selección de variables se detiene cuando no La selección de variables se detiene cuando no quedan variables que superen el criterio de entradaquedan variables que superen el criterio de entrada

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

Page 85: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

III3

MÉTODOS DE SELECCIÓN DE VARIABLESMÉTODOS DE SELECCIÓN DE VARIABLES

Los métodos de selección más utilizados son:

Método hacia delante1

Método hacia atrás2

Pasos sucesivos3

Comienza incluyendo en el modelo todas las Comienza incluyendo en el modelo todas las variables independientes, para luego proceder a variables independientes, para luego proceder a eliminarlas una a unaeliminarlas una a una

PRIMER PASO: se elimina aquella variable que, PRIMER PASO: se elimina aquella variable que, además de cumplir los criterios de salida, posee el además de cumplir los criterios de salida, posee el coeficiente de regresión más bajo en valor absolutocoeficiente de regresión más bajo en valor absoluto

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

Page 86: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

III3

MÉTODOS DE SELECCIÓN DE VARIABLESMÉTODOS DE SELECCIÓN DE VARIABLES

Los métodos de selección más utilizados son:

Método hacia delante1

Método hacia atrás2

Pasos sucesivos3

SIGUIENTES PASOS: Se van eliminando las variables SIGUIENTES PASOS: Se van eliminando las variables con coeficientes de regresión no significativoscon coeficientes de regresión no significativos

La eliminación de variables se detiene cuando no La eliminación de variables se detiene cuando no quedan variables en el modelo que cumplan los quedan variables en el modelo que cumplan los criterios de salidacriterios de salida

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

Page 87: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IIIMétodo hacia delante1

Método hacia atrás2

Pasos sucesivos3

3

MÉTODOS DE SELECCIÓN DE VARIABLESMÉTODOS DE SELECCIÓN DE VARIABLES

Los métodos de selección más utilizados son:

Mezcla de los dos métodos anterioresMezcla de los dos métodos anteriores

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

Page 88: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IIIMétodo hacia delante1

Método hacia atrás2

Pasos sucesivos3

3

MÉTODOS DE SELECCIÓN DE VARIABLESMÉTODOS DE SELECCIÓN DE VARIABLES

Los métodos de selección más utilizados son:

Comienza al igual que el método hacia delante, Comienza al igual que el método hacia delante, seleccionando en el primer paso la variable independiente seleccionando en el primer paso la variable independiente que además de superar los criterios de entrada más altos que además de superar los criterios de entrada más altos correlaciona con la variable dependientecorrelaciona con la variable dependiente

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE

Page 89: 123 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE ESTADÍSTICA AVANZADA.

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IIIMétodo hacia delante1

Método hacia atrás2

Pasos sucesivos3

3

MÉTODOS DE SELECCIÓN DE VARIABLESMÉTODOS DE SELECCIÓN DE VARIABLES

Los métodos de selección más utilizados son:

A continuación se selecciona la variable independienteA continuación se selecciona la variable independiente

3.1 INTRODUCCIÓN 3.2 MÉTODOS DE REGRESIÓN LINEAL MÚLTIPLE