Clase Re Gresión Lineal

download Clase Re Gresión Lineal

of 15

description

Estadística Descriptiva, Universidad César Vallejo, Estadística tercer ciclo.Formación General, Estadística aplicada, en Diapositivas (ppt).

Transcript of Clase Re Gresión Lineal

  • REGRESION Es una forma de estudiar la asociacin o relacin, entre una variable dependiente (Y) y la variable que es la base de la prediccin a la que se le denomina variable independiente (X) El propsito del anlisis de regresin es usar los datos o valores observados de las variables, para realizar estimaciones, en base a una relacin funcional.

  • Cuando en el anlisis de regresin, se utiliza slo una variable independiente, se trata de una Regresin Simple, y cuando se considera dos o ms variables independientes se trata de una Regresin Mltiple. Tambin se clasifica en lineal y no lineal, segn el comportamiento de las variables.

    Utilizando simbologa , la relacin funcional se representa:y = f(x) y = f (x1, x2, . . . , xk).

    Donde: y es la variable dependiente, x, x1, x2, . . . , xk, son variables independientes.

  • Qu vamos a estudiarEn esta unidad estudiaremos la Regresin Lineal simple, es decir, vamos a tratar diferentes formas de describir la relacin entre dos variables cuando estas son numricas. Ejemplo:Estudiar si hay relacin entre la altura (X ) y el peso (Y ).El tiempo de estudio dedicado a un curso (X) , esta relacionado con la calificacin obtenida (Y)

    El estudio del conjunto de dos variables cualitativas lo aplazamos hasta que veamos contrastes de hiptesis (X2).Por ejemplo :Hay relacin entre fumar y padecer enfermedad de pulmn?

  • Modelo de Regresin Lineal SimpleEl modelo de regresin lineal simple, esta determinado por dos variablesY (dependiente)X (independiente, explicativa, predictora)

    Buscamos encontrar una funcin de X muy simple (lineal) que nos permita aproximar Y mediante la siguiente formula:Y = B0 + B1 XB0 (ordenada en el origen, constante)B1 (pendiente de la recta)

    Y e Y rara vez coincidirn por muy bueno que sea el modelo de regresin. A la cantidad e=Y-Y se le denomina residuo o error residual.

  • Qu hacer para realizar una regresin?Finalmente, cuando se realiza una prediccin estadstica, siempre ser til calcular una medida que indique que tan preciso es el pronstico de Y sobre X. A esta medida se le llama Error Estndar de Estimacin.El paso inicial que generalmente se realiza, es la construccin del Diagrama De Dispersin.El 2 paso es, a travs del Mtodo de los Mnimos Cuadrados, estimar los Coeficientes de Regresin( B0 y B1). Para establecer la recta de regresin.*

  • Diagrama de DispersinEs la representacin de los puntos o datos de cada una de las variables en el plano cartesiano.

    Es recomendable en todo estudio de regresin pues permite tener una idea, sobre la existencia o no de la regresin.

    Grfico3

    65

    61

    60

    78

    62

    66

    60

    54

    84

    68

    67

    57

    83

    77

    93

    50

    84

    60

    68

    56

    64

    86

    86

    37

    81

    83

    63

    78

    65

    Hoja1

    U1UF1UF2Z1Z2med1dt1N1med2dt2N2rabCerrorY

    0.76813603140.43902892560.5950575838-0.15343169580.240574607617010168605630.82-10517.216560887365

    0.39909812720.21452462770.7282081777-0.79081962630.607402779171.068965517210.33884884716262.99655172411.548410254563.60.8036134967r real68.827586206912.801047816861

    0.64088832130.05769547650.9438398223-1.57441753361.587849587115464.760

    0.57937849380.83860121620.662221620.98872528620.418533963418063.378

    0.31717057670.11387091140.8898571326-1.20619626741.225768684415864.462

    0.9631148090.53754795820.49822607190.0942581624-0.004446592917162.566

    0.56685284440.4698249680.2895794741-0.0757098542-0.554613653416961.460

    0.32804059390.3623377610.1713417684-0.3522170088-0.948876286116660.954

    0.34504419620.73047812450.95883435740.6142596661.737316701817664.884

    0.04705004050.23698741340.9235514845-0.7160267581.42937308216364.668

    0.12674541530.66471351180.41045670910.4253617621-0.226370309517462.167

    0.27159861730.36272675970.3066671094-0.3511797254-0.505319827616661.557

    0.23532588130.55083439150.98900851930.12776971562.290662149317164.983

    0.11700390370.95588578090.26399508291.704817653-0.631077020118761.377

    0.15198339620.96558168580.90703611441.81949051561.322722220618864.593

    0.20422475780.18906278910.2130066129-0.881355236-0.796032361716161.150

    0.52637252220.99697854840.14927259042.7454442625-1.03955825319760.784

    0.19975077740.53765111760.21743730330.0945178989-0.780877397917161.160

    0.98532804110.48295272630.6630831527-0.04274419080.420892345917063.368

    0.92585221470.29005181210.3509696513-0.5532333631-0.382703926816461.856

    0.30678217340.81017356710.08427214430.8785360816-1.376896373417960.464

    0.43151863030.92592929540.84805634671.44612762331.028132921318464.286

    0.33426477390.76293712660.97270838780.71578235911.922179110617764.986

    0.27245655620.01684722430.1804037537-2.1237094261-0.913827474514960.937

    0.49602130160.66791730920.95659177340.43416946971.712435436417464.881

    0.00341930240.82722099210.8991330750.94324027781.276627325417964.583

    0.12356549230.34869066750.5972566326-0.38885780790.24625255511666363

    0.05047017570.70237231980.86871606940.53123583921.120342444817564.378

    0.54101732570.20987961530.8718443876-0.80683902791.135152984216264.465

    Hoja1

    r=0,8

    Hoja2

    Hoja3

  • MODELOS DE DIAGRAMA DE DISPERSIONEstadstica General*

  • Ejemplo: Estudio del conjunto de dos variablesA la derecha tenemos una posible manera de recoger los datos obtenidos, observando dos variables en varios individuos de una muestra.

    En cada fila tenemos los datos de un individuo

    Cada columna representa los valores que toma una variable sobre los mismos.

    Las individuos no se muestran en ningn orden particular.

    Dichas observaciones pueden ser representadas en un diagrama de dispersin . En ellos, cada individuos es un punto cuyas coordenadas son los valores de las variables.

    Nuestro objetivo ser intentar reconocer a partir del mismo si hay relacin entre las variables, de qu tipo, y si es posible predecir el valor de una de ellas en funcin de la otra.

  • Diagramas de dispersin o nube de puntosMide 187 cm.Mide 161 cm.Pesa 76 kg.Pesa 50 kg.Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersin. Observar datos del cuadro anterior)Mide 197cmPesa 85 kg.

    Grfico3

    65

    61

    60

    78

    62

    66

    60

    54

    84

    68

    67

    57

    83

    77

    93

    50

    84

    60

    68

    56

    64

    86

    86

    37

    81

    83

    63

    78

    65

    Hoja1

    U1UF1UF2Z1Z2med1dt1N1med2dt2N2rabCerrorY

    0.5255325390.43902892560.5950575838-0.15343165490.240574730317010168605630.82-10517.216560887365

    0.46639267250.21452462770.7282081777-0.79081939810.607402612171.068965517210.33884884716262.99655172411.548410254563.60.8036134967r real68.827586206912.801047816861

    0.65376336770.05769547650.9438398223-1.57441758131.587849599815464.760

    0.82136138380.83860121620.662221620.98872529190.41853406418063.378

    0.8014769310.11387091140.8898571326-1.20619659021.225769024915864.462

    0.51626611650.53754795820.49822607190.0942580074-0.004446566317162.566

    0.46085752220.4698249680.2895794741-0.0757096811-0.554613554216961.460

    0.29305215780.3623377610.1713417684-0.3522171708-0.94887622916660.954

    0.27656897840.73047812450.95883435740.61425949151.737316244417664.884

    0.39526381840.23698741340.9235514845-0.71602651771.429373400616364.668

    0.0972875390.66471351180.41045670910.425361854-0.22637041217462.167

    0.67224771760.36272675970.3066671094-0.351179888-0.505319802116661.557

    0.35616126540.55083439150.98900851930.12776961942.290661080417164.983

    0.07111480810.95588578090.26399508291.7048173074-0.631076828718761.377

    0.62985761170.96558168580.90703611441.81948976781.322722601118864.593

    0.04293148840.18906278910.2130066129-0.8813550865-0.796032136316161.150

    0.84147467640.99697854840.14927259042.7454502187-1.039558342319760.784

    0.33412418990.53765111760.21743730330.0945177443-0.780877165217161.160

    0.64499558820.48295272630.6630831527-0.04274403060.420892443517063.368

    0.7129985470.29005181210.3509696513-0.5532332659-0.382704066516461.856

    0.57005731410.81017356710.08427214430.8785359286-1.376896737117960.464

    0.74420839170.92592929540.84805634671.44612792141.028132991718464.286

    0.08194205430.76293712660.97270838780.71578211881.922178021417764.986

    0.96424239270.01684722430.1804037537-2.1237079846-0.913827366714960.937

    0.03586613440.66791730920.95659177340.43416954991.712435064817464.881

    0.45263276790.82722099210.8991330750.94324021231.276627697317964.583

    0.51774011860.34869066750.5972566326-0.38885794170.24625268491666363

    0.93703140220.70237231980.86871606940.53123577421.120342661417564.378

    0.79672762430.20987961530.8718443876-0.80683880891.13515322216264.465

    Hoja1

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    r=0,8

    Hoja2

    Hoja3

  • Relacin entre las variables altura (X) y peso (Y) de los 30 individuos vistos en el ejemplo anterior.Parece que el peso aumenta con la altura, Por lo tanto existe una relacin lineal positiva

    Grfico3

    65

    61

    60

    78

    62

    66

    60

    54

    84

    68

    67

    57

    83

    77

    93

    50

    84

    60

    68

    56

    64

    86

    86

    37

    81

    83

    63

    78

    65

    Hoja1

    U1UF1UF2Z1Z2med1dt1N1med2dt2N2rabCerrorY

    0.32107709790.43902892560.5950575838-0.15343165490.240574730317010168605630.82-10517.216560887365

    0.5095050130.21452462770.7282081777-0.79081939810.607402612171.068965517210.33884884716262.99655172411.548410254563.60.8036134967r real68.827586206912.801047816861

    0.06005948070.05769547650.9438398223-1.57441758131.587849599815464.760

    0.05548652570.83860121620.662221620.98872529190.41853406418063.378

    0.14449624920.11387091140.8898571326-1.20619659021.225769024915864.462

    0.30899055740.53754795820.49822607190.0942580074-0.004446566317162.566

    0.80759120930.4698249680.2895794741-0.0757096811-0.554613554216961.460

    0.56459358020.3623377610.1713417684-0.3522171708-0.94887622916660.954

    0.08487780230.73047812450.95883435740.61425949151.737316244417664.884

    0.79622382230.23698741340.9235514845-0.71602651771.429373400616364.668

    0.92548599490.66471351180.41045670910.425361854-0.22637041217462.167

    0.40928312970.36272675970.3066671094-0.351179888-0.505319802116661.557

    0.78094424680.55083439150.98900851930.12776961942.290661080417164.983

    0.86477479320.95588578090.26399508291.7048173074-0.631076828718761.377

    0.16457131620.96558168580.90703611441.81948976781.322722601118864.593

    0.46622302180.18906278910.2130066129-0.8813550865-0.796032136316161.150

    0.98762363060.99697854840.14927259042.7454502187-1.039558342319760.784

    0.66300341160.53765111760.21743730330.0945177443-0.780877165217161.160

    0.56783209570.48295272630.6630831527-0.04274403060.420892443517063.368

    0.89033912970.29005181210.3509696513-0.5532332659-0.382704066516461.856

    0.23191944980.81017356710.08427214430.8785359286-1.376896737117960.464

    0.892243320.92592929540.84805634671.44612792141.028132991718464.286

    0.93297289510.76293712660.97270838780.71578211881.922178021417764.986

    0.93813002260.01684722430.1804037537-2.1237079846-0.913827366714960.937

    0.58627896790.66791730920.95659177340.43416954991.712435064817464.881

    0.05707053280.82722099210.8991330750.94324021231.276627697317964.583

    0.70102967010.34869066750.5972566326-0.38885794170.24625268491666363

    0.0237166550.70237231980.86871606940.53123577421.120342661417564.378

    0.13259568530.20987961530.8718443876-0.80683880891.13515322216264.465

    Hoja1

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    r=0,8

    Hoja2

    Hoja3

  • METODO DE LOS MINIMOS CUADRADOSEste mtodo consiste en hallar los valores de B0 Y B1, haciendo mnima la suma de los cuadrados de los errores. Siendo la tarea principal en el anlisis de regresin lineal simple.

    Una vez obtenidos estos valores nos permitir establecer la recta de regresin que mejor se ajuste a los datos o la recta de mnimos cuadrados :

    El coeficiente B0 es la ordenada en el origen y el coeficiente B1 es la pendiente de la rectaY = B0+B1(X)

  • Estadstica GeneralEJEMPLO:

    En un estudio de la relacin entre la publicidad por radio y las ventas de un producto, durante 10 semanas se han recopilado, los tiempos de duracin en minutos de la publicidad por semana (X), y el nmero de artculos vendidos (Y).

    Semana12345678910Publicidad X20303040506060607080Ventas Y50736987108128135132148170

  • SolucinTambin se utilizara los promedios de las variables

    XYXYX2Y2203030405060606070805073698710812813513214817010002190207034805400768081007920103601360040090090016002500360036003600490064002500532947617569116641638418225174242190428900 50011006180028400134660

  • Reemplazando en la formula de los coeficientes de regresin, se tiene lo siguiente:Por lo tanto la recta de regresin Y =B0+B1x , estar determinada de la siguiente manera Y = 10+ 2x. Interpretacin B0: El Nmero real de artculos vendidos es de 10 unidades. B1: El nmero promedio de artculos vendidos aumenta en 2 unidades a medida que aumenta cada minuto de duracin, de la publicidad en la semana.

  • Error Estndar y Error de EstimacinCuando se realiza una prediccin, es importante determinar el error estndar, el cual se representa por Sy.x y mide la dispersin de los datos observados con respecto a la lnea de regresin.

    El error de estimacin, que esta representado e = y yError de prediccin

    *******