Intermedio Curso Chile

download Intermedio Curso Chile

of 164

Transcript of Intermedio Curso Chile

Brayan Ricardo Rojas O.Instructor1Si oigo algo lo olvido.Si lo veo lo entiendo.Si lo hago lo aprendo.Confucio (551-478 A.C)2CONTENIDO DEL CURSOMANEJO BSICO1. INTRODUCCIN:-Qu es STATA?-Versiones de STATA-Ventajas y Desventajas2. MANEJO DE LA INTERFAZ-Ventanas y Mens-Tipos de Archivos-Sintaxis de los comandos3. MANEJO DE BASES DE DATOS-Abrir, importar, exportar y guardardatos-Creacin, transformacin, eliminacinde variables y observaciones-Filtros-Combinar Bases de datos-Labels (variables y observacciones)4. GRAFICAS-Linea-Torta (pie)-Puntos scatter --Histogramas-Correlaciones-Caja box plot -5. ANLISIS DE DATOS-Estadsticas bsicas-Tablas (frecuencias, cruzadas, etc.)6. INFERENCIA ESTADSTICA- Pruebas sobre la media, varianza yproporciones3CONTENIDO DEL CURSOMANEJO INTERMEDIO1. REGRESIN LINEAL-Qu es regresin?-Grficas-Correlacin-Regresin simple y mltiple:-Pruebas sobrecoeficientes y el modelo-Elasticidades-Calculo de residuales y predicciones-Evaluacin de supuestos-Normalidad-Heterocedasticidad-Multicolenalidad2. SERIES DE TIEMPO45Stataesunpaqueteestadsticooperadoporlneas de comando, por lo cual se define comoun lenguaje de programacin, aunque tambinfuncionabajoentornogrfico(por ventanas).Ofrece alta flexibilidad, mltiples herramientaspara el manejo de datos, y opciones degrficos, lo cual facilita al principiante aprendera manejarlo. Adicionalmente, desde elprograma se puede acceder a actualizaciones ybases de datos disponibles en Internet.6Small STATAVersin estudiantil de STATAIntercooled STATAVersin estndar de STATASTATA/SEVersin especial de STATApara manejo de bases de datosgrandes.STATA/MP Versin especial de STATAdiseada para trabajar enequipos con ms de unprocesador oncleo(2a 32procesadores)7VENTAJAS DESVENTAJAS1. Uso combinado de lenguaje deprogramacin y ventanas2. Manuales disponibles coninformacin especializada3. Actualizacin permanente consolo tener acceso a Internet4. Libros tcnicos especializadoscon aplicaciones en STATA5. Es usado en las principalesinstituciones de investigacin,universidades, empresaspblicas y privadas alrededordel mundo.6. Versiones para Sistemasoperativos Linux, Windows yMac.7. Mdulos especializados paraanlisis micro y macro.8. Programacin en Matrices1. Solo esta disponible en elidioma Ingls8Introduccin910BARRA DE MENSBARRA DE HERRAMIENTAS11Tipo de ArchivoExtensin Archivos de datos*.dta Archivos grficos*.gph Bitcoras de salida*.smcl Archivos de comandos*.do Archivos de programacin*.ado 121314151617181920212223Uso de comandos:-list-browse-table24NOTA:Las variables debentener EXACTAMENTElos mismos nombresen ambas bases dedatos252627281229303110203040Mileage (mpg)2,000 3,000 4,000 5,000Weight (lbs.)32330102030402000 3000 4000 5000 2000 3000 4000 5000Domestic Foreign95% CI Fitted valuesMileage (mpg)Weight (lbs.)Graphs by Car type102030402,000 3,000 4,000 5,000 2,000 3,000 4,000 5,000Domestic ForeignMileage (mpg)Weight (lbs.)Graphs by Car type3440506070801900 1920 1940 1960 1980 2000YearLife expectancy, males Life expectancy, females35Avg.annual%growthlgnppcsafewaterLifeexpectancyat birth0240 2 468106 8 100501000 50 1005060708050 60 70 8036-10123Avg. annual % growthEur & C.Asia N.A. S.A. 37051015mean of wagenot college grad college gradsingle married single marriednonSMSA SMSA3839length74187.932422.26634142233 weight743019.459777.1936 1760 4840price746165.2572949.496 329115906 Variable ObsMeanStd. Dev. MinMax. sum price weight length40

Foreign 22Domestic 52 Car typeFreq. . table foreign41Total 74

Foreign 22**********************Domestic 52****************************************************

Car typeFreq.. tabulate foreign, plot sort424344Pr(C < c) = 1.0000 2*Pr(C > c) = 0.0000 Pr(C > c) = 0.0000 Ha: sd < 300 Ha: sd != 300 Ha: sd > 300Ho: sd = 300 degrees of freedom = 73 sd = sd(price) c = chi2 =7.1e+03 price746165.257342.87192949.4965481.9146848.6 Variable ObsMeanStd. Err. Std. Dev. [95% Conf. Interval] One-sample test of variance4546REGRESIN LINEAL47FUENTE: Guadalupe Ruiz Merino - Curso de EstadsticaPARA QU SIRVE EL ANOVA?Para comprobar si una variable con ms de dos categoras(factores) tiene relacin con una segunda variable que escuantitativa A esta segunda variable que supone la respuesta al factor se lellama variable dependiente Pretendemos demostrar que depende de la otra variable (factor)variable dependienteEl factor es, por lo tanto, la variable independientevariableindependiente48RECORDATORIOHay dos problemas que no se pueden solucionar con elanlisis de la varianza:El ANOVA se queda corto 1Hay factores que tienen tantas categoras que realmente separecen ms a una variable cuantitativa, o puede que nosintereseusarcomovariableindependienteunavariablequeescuantitativa2Indica si hay o no unaasociacin estadstica entre dosvariables, pero no defineexactamente cul es lamagnitud de esa relacinCunto aumenta lavariable dependientepor cada unidad deaumento de laindependiente?LA REGRESINVIENE A RESOLVERESTOS DOS PROBLEMASINTRODUCCIN A LA REGRESIN49DEFINICIN DE CORRELACINSe considera que dos variables cuantitativas estn relacionadas entre s cuando los valores de una de ellas varan de forma sistemtica conforme a los valores de la otra.50EL COEFICIENTE DE CORRELACIN DE PEARSON El coeficiente de correlacin de Pearson esun ndice estadstico que permite definir deforma ms concisa la relacin entre lasvariables Esunamedidadelarelacinlineal entredos variables medidas con escala numrica51EL COEFICIENTE DE CORRELACIN DE PEARSON Su resultado es un valor que flucta entre -1 y +1+1-10Relacin perfecta en sentido negativoRelacin perfecta en sentido positivoCuanto ms cercanos a 0 sean losvalores significar una relacin msdbil o incluso ausencia de relacin52El valor del coeficiente de correlacin estmuy influenciado por los valores extremos,igual que la desviacin estndar.Por tanto la correlacin no describe bien larelacinentredosvariablescuandocadauna de ellas tiene valores extremosEn estos casos debe hacerse unatransformacin de los datos o usarse lacorrelacin de Spearman53Finalmente, correlacinno es igual acausaEl juicio de que una caracterstica causa otra debejustificarse con argumentos, no slo con el coeficiente decorrelacinCorrelacin = Causa54EL COEFICIENTE DE CORRELACIN DE PEARSON Segn su valor la relacin entre las variables ser:1Perfecta0,50,90,8ExcelenteBuenaRegularMala55DIAGRAMAS DE DISPERSINUn DIAGRAMA DE DISPERSINofrece una idea bastanteaproximadasobreel tipoderelacin existenteentredosvariablesUn DIAGRAMA DE DISPERSIN tambin puede utilizarse comouna forma de cuantificar el grado de relacin lineal existenteentre dos variables56COEFICIENTE DE PEARSON REPRESENTACIN GRFICACOEFICIENTE DE PEARSON REPRESENTACIN GRFICADIAGRAMAS DE DISPERSINEl DIAGRAMA DE DISPERSIN permite formarse una primera impresin sobre el tipo de relacin existente entre variablesIntentar cuantificar esa relacin tiene inconvenientes porque la relacin entre dos variables no siempre es perfecta o nulaNormalmente nilo uno nilootro59 Como hemos visto, la correlacin sirve para medir la fuerzacon que estn asociadas dos variable cuantitativas Esa fuerza se expresa con un nmeroCOEFICIENTE DECORRELACINLa regresin sirve para detallar msEst dirigida a describir de una manera ms completa cmo es larelacin entre ambas variablesde tal manera que se puede predecir (con un cierto margen deerror) cul va a ser el valor de una variable una vez que se sabeel valor de la otraINTRODUCCIN A LA REGRESIN60Si la asociacin entre ambas variables es dbilPero cuando la asociacin es fuerteLa regresin nos ofreceun modelo estadsticoque puede alcanzarfinalidades predictivasEsta prediccin puede ser bastante imprecisaINTRODUCCIN A LA REGRESIN61UnavezquesabemosquedosvariablesestnrelacionadasCmo averiguar qu tipo de relacin tienen?Para esto utilizamos los modelos deregresinMODELOS DE REGRESININTRODUCCIN A LA REGRESIN62QU ES?La regresin como tcnica estadstica analizala relacin de dos o ms variables continuasPARA QU SIRVE?La regresin se utiliza para inferir datosa partir de otros y hallar una respuesta a lo que pueda sucederCONCEPTO DE REGRESININTRODUCCIN A LA REGRESIN63 DIFERENCIA ENTRE CORRELACIN Y REGRESIN:La correlacin es independiente de la escala pero no la regresinEJEMPLOLa correlacin entre estatura y peso es lamismasinimportarquelaestaturasemidaen metros o centmetrosSIN EMBARGOLaecuacinderegresinentreel pesoylaestatura depende de las unidades queutilicemosINTRODUCCIN A LA REGRESIN64La regresin supone que hay una variable fija, controlada por el investigador y otra variable que no est controladaLa regresin supone que hay una variable fija, controlada por el investigador y otra variable que no est controladaLa regresin supone que hay una variable fija, controlada por el investigador y otra variable que no est controladavariable indepediente o predictoravariable de respuesta o dependienteLa correlacin supone que ninguna variabe es fija, las dos estn fuera del control del investigadorINTRODUCCIN A LA REGRESIN65SIMILITUDES ENTRE CORRELACIN Y REGRESIN:La pendiente de la lnea de regresin tiene el mismo signo que el coeficiente de correlacinLa correlacin y la regresin slo describen relacioneslineales. Si los coeficientes de correlacin y las ecuacionesde regresin se calculan a ciegas, sin examinar las grficas,los investigadores pasarn por alto relaciones muyestrechas pero no linealesOJO!INTRODUCCIN A LA REGRESIN66VARIABLES DE LA REGRESINLas variables del modelo de regresin deben sercuantitativasDadalarobustezdelaregresinesfrecuenteencontrarincluidas como variable independiente variables nominalesLa variable dependiente debe ser siempre cuantitativaRobustez: un estadsticosedicequeesrobustocuandoesvlidoaunquenosecumpla alguno de sus supuestosINTRODUCCIN A LA REGRESIN67TIPOS DE REGRESINSe pueden encontrar distintos tipos deregresinRegresin Lineal1Regresin Mltiple2Regresin Logstica3INTRODUCCIN A LA REGRESIN68La regresin en su forma ms sencilla se llama regresinlineal simpleTcnica estadstica que analiza la relacinentre dos variables cuantitativas, tratando deverificar si dicha relacin es linealSin embargo, a diferencia de lo que ocurra con lacorrelacin, ahora no se puede considerar que ambasvariables tengan un papel simtricoINTRODUCCIN A LA REGRESIN69En la regresin, cada una de las dos variables desempeauna funcin diferente y en consecuencia tienen unaconsideracin distinta:A la variable respuesta se le llama variable dependiente y ocupa el eje de ordenadas (eje vertical o de la y)A la variable predictora o causa se le denomina variable independiente y ocupa el eje de abcisas (eje horizontal)variable respuestavariable predictoraSuele ser un factor previamentedeterminado o unacaracterstica ms fcil demedirquelaquesepretendeexplicar a partir de ellaINTRODUCCIN A LA REGRESIN70 La correlacin y la regresin tienen distintas finalidades Es bastante raro que est indicado aplicar simultneamente ambas tcnicas para alcanzar los objetivos de un determinado anlisis estadstico Confrecuenciaseconfundenambastcnicasysepiensaque son una solaALGUNAS ACLARACIONESINTRODUCCIN A LA REGRESIN71Medir el grado o fuerza de laasociacin entre dos variablescuantitativasOBJETIVO DE LACORRELACINA travs del coeficiente de correlacinNo estima la bondad del ajuste de unos datos a un modeloBuscar la lnea que mejor se ajusta a los puntosOBJETIVO DE LAREGRESININTRODUCCIN A LA REGRESIN72REGRESIN LINEALConsideremos una variable aleatoria respuesta Y,relacionada con otra variable que llamaremos explicativa XSupongamos una muestra de n individuos para los que seconocen los valores de ambas variablesHacemos una representacin grfica: en el eje X la variableexplicativa en el Y la respuestaYVariable aleatoriaXVariable explicativanMuestraINTRODUCCIN A LA REGRESIN73REGRESIN LINEALOBJETIVO Encontrar unarectaqueseajustealanubedepuntosApartir de esa recta podemos usar los valores de Xparapredecir los de YNormalmente se utiliza el mtodo de los mnimos cuadradosque minimiza la distancia de las observaciones a la rectaINTRODUCCIN A LA REGRESIN74 Una recta tiene una ecuacin muy simple:abY=a+bXbaes la pendiente de la rectaes el punto en que la recta corta el eje verticalHabra que calcular los coeficientes a,b.REPRESENTACIN GRFICAINTRODUCCIN A LA REGRESIN75Conociendolos valores deestos dos coeficientes podramosreproducir la recta y describir conella la relacinentrelasvariablesAdems de representar la recta con su frmula tambin es tildisponer de alguna informacin sobre el grado en que la rectase ajusta a la nube de puntosREGRESIN LINEALINTRODUCCIN A LA REGRESIN76Obtenemos el siguiente resultadoQu est pasando? Cul es el problema?Dispersin de los datos: los datos estn muyseparadosPor eso no se observa ninguna tendenciaQUHACER?Aplicamos transformaciones logartmicasEs una opcin siempre que tengamos datos dispersosINTRODUCCIN A LA REGRESINEJEMPLOEl ejemplo ms intuitivo es cmo se relacionan la talla y la edadPor cada incremento de edad (por lo menos hasta los 25 aos)se produce un incremento de altura. Es deciry = a + b*xconstante llamada ordenada en elorigen (en nuestro caso: cunto medira un recin nacido)pendiente: incremento de y porcada unidad de incremento de x(en nuestro caso: cuntoscentmetroscreceunnioalao)INTRODUCCIN A LA REGRESINEJEMPLOSin embargo, a pesar de ser este un modelo de fcil comprensin,tiene erroresNunca ser posible hacer predicciones perfectas de la estaturaque tendr un nio una vez que se conoce su edadAunquelaedadtieneunefectoimportantesobrelaestatura,esteefectoestafectadopor unciertogradodevariabilidadaleatoriaINTRODUCCIN A LA REGRESINEJEMPLOLas observaciones de dos variables no suelen trazar una lnea rectaperfecta sino que existe un cierto grado de dispersin entornoa una imaginaria lnea recta que los atravesara por el centroy = a + b*x + eerror residual: expresael desajuste de losdatos respecto almodelo lineale esunacantidadvariabledeunsujetoaotroypuedeserpositiva o negativa equivale a lo que habra que aadir o quitar a la prediccinquehaceel modeloparaquecoincidaexactamenteconloobservado en cada sujetoINTRODUCCIN A LA REGRESINLa ecuacin anterior nos plantea una serie de preguntasHasta qu punto es importante ese error? Quporcentajedelavariabilidadenlatallapuedeser explicadopor efectodelaedady cul noesexplicado?Para resolver estos interrogantes nos adentramos en losmodelos de regresinINTRODUCCIN A LA REGRESINBONDAD DEL AJUSTEUna medida de ajustemuy aceptada es elcoeficiente dedeterminacin R2Se trata de una medida estandarizada que toma valores entre 0y 1Cuadrado del coeficientede correlacin linealR2=0.86La recta explica un 86% de la variabilidad de Y en funcin de XModelo de RegresinCOEFICIENTE DE DETERMINACIN R2R2Coeficiente muy importante en regresin, yaquecomparaloexplicadoporlaregresinlineal con la variabilidad totalPorcentaje de lavariabilidad totalde lavariable dependiente que es explicadapor la variable independienteINTERPRETACINModelo de RegresinCOEFICIENTE DE DETERMINACIN R2Los posibles valores para R2 van desde 1, que esel mximo, a 0 que es el mnimoVALORES+10La recta no explica nada, es decir, no existeasociacin entre x e yLarectadaraunaexplicacinperfecta, esdecir,losvaloresde yestntotalmentedeterminadospor la xModelo de RegresinCOEFICIENTE DE DETERMINACIN R2Los posibles valores para R2 van desde 1, que esel mximo, a 0 que es el mnimoVALORES+10Cuando ms prximo a 1 sea R2 mayor es la fuerzade la asociacin entre ambas variablesModelo de RegresinCOEFICIENTE DE DETERMINACIN R2La raz cuadrada de R2 se llama r Slo se escribe con mayscula (R) cuando hay variasvariables independientes EntoncessellamacoeficientedecorrelacinmltipleoRmltipleR2 = rEsta r es precisamente el coeficiente de correlacin dePearsonModelo de RegresinCOEFICIENTE DE DETERMINACIN R2Salvo en los casos extremos de que R2valga 0 o 1, lamagnitud de r es siempre superior a la de R2para R2 0,1 r >R2Una correlacin puede parecer muy buena,por ejemplo r=0,7, y sin embargo elmodelo lineal explicara menos del 50% delo observadoREPERCURSIONESPRCTICASR2 = 0,49Modelo de RegresinECUACIN DE REGRESINEl objetivo ms importante de un anlisis de regresin linealsuele ser el clculo del valor de la pendiente de la rectab = pendiente de la recta o coeficiente de regresinmide el cambio de la variable y por cada unidad de cambio de xSu magnitud sirve para predecir en cuntoaumentar y cada vez que x se incremente en unaunidadSu signo puede ser positivo o negativo, y en esto la interpretacin coincide con la correlacinModelo de RegresinSUPUESTOS DEL MODELO DE REGRESINPara poder realizar una regresin lineal se deben asumir cuatrosupuestos:Normalidad de la distribucin condicional de la variable y 1Linealidad2Homogeneidad de las varianzas 3Independencia de las observaciones4Modelo de RegresinSUPUESTOS DEL MODELO DE REGRESINPara poder realizar una regresin lineal se deben asumir cuatrosupuestos:Normalidad de la distribucin condicional de la variable y 1Linealidad2Homogeneidad de las varianzas 3Independencia de las observaciones4Se refiere no slo a que la variable y siga unadistribucin normal, sino que adems, paracadavalorde x, ladistribucindeposiblesvalores de y tambin siga una normalModelo de RegresinSUPUESTOS DEL MODELO DE REGRESINPara poder realizar una regresin lineal se deben asumir cuatrosupuestos:Normalidad de la distribucin condicional de la variable y 1Linealidad2Homogeneidad de las varianzas 3Independencia de las observaciones4Que exista una relacin lineal subyacente entrela variable x y la variable yModelo de RegresinSUPUESTOS DEL MODELO DE REGRESINPara poder realizar una regresin lineal se deben asumir cuatrosupuestos:Normalidad de la distribucin condicional de la variable y 1Homogeneidad de las varianzas 3Independencia de las observaciones4Linealidad2Se conoce como homoscedasticidadModelo de RegresinSUPUESTOS DEL MODELO DE REGRESINPara poder realizar una regresin lineal se deben asumir cuatrosupuestos:Normalidad de la distribucin condicional de la variable y 1Independencia de las observaciones4Linealidad2Homogeneidad de las varianzas 3Cada observacinde la variable ydebe ser independiente de las demsSUPUESTOS DEL MODELO DE REGRESINPOREJEMPLOUn estudio en el que y que representa el nmerode acudientes en un colegioSi existiesen estudiantescon el mismo acudienteHay dos observaciones poracudiente que estnautocorrelacionadas entre sNo son independientes!PORTANTOHabra que considerar como N al nmero deestudiantes y no al nmero de brazosModelo de RegresinSUPUESTOS DEL MODELO DE REGRESINOTROEJEMPLONmero de casos de gripa en la reginen un aoEs decir, elsegundo valor y no es independiente sinoque est condicionado por elprimero, eltercero por elsegundo y as sucesivamenteA este efecto se le llama autocorrelacinModelo de RegresinSUPUESTOS DEL MODELO DE REGRESINOTROEJEMPLONmero de casos de gripa en la reginen un aoLa autocorrelacin exige aplicar tcnicas especiales quese agrupan bajo el concepto de series temporalesEstas series se utilizan mucho en economa, y cada vez van teniendo ms inters para aplicaciones en ciencias socialesModelo de RegresinREGRESIN LINEALPRIMERPASOPedir a SPSS un grfico de dispersinOBJETIVOApreciar visualmente si se puede asumir un modelo lineal entre ambas variables Cundo ajustaremosuna regresin?Cuando la nube de puntos nos sugiera que existe una relacin linealModelo de RegresinUSOS E INTERPRETACIN DE UNA REGRESIN LINEALCul es la utilidad ms interesante de esta recta de regresin?Representaloqueidealmenteseralaunindelasdiferentesmedias que va tomando y para cada grupo de valores de xcul es la media de y amedida que x va cambiandoESDECIRModelo de RegresinUn error comn en el anlisis de regresin se presenta cuandosehacenenel mismoindividuomltiplesobservacionesysetratan como si fueran independientesPOREJEMPLOConsidrese 10 empresas de quienes se haregistradoel nmerodetrabajadoresysusactivosantes de empezar una reestructuracinN = 10#trabajadoresACTIVOSTamao de la muestra VariablesPuedeesperarseunamoderadarelacinpositivaentre el #de trabajadores y los activos de laempresaRESULTADOErrores comunes de la regresinSi las 20 observaciones se tratan como si fueran independientesse presentaran varios problemas:Ahora supngase que las mismas 10 empresas se encuestan alos seis meses de la reestructuracin1El tamao de la muestra parecera ser de 20 en vez de102El uso de ambas observaciones tiene el mismo efecto que usar mediciones duplicadasErrores comunes de la regresinSi las 20 observaciones se tratan como si fueran independientesse presentaran varios problemas:Ahora supngase que las mismas 10 empresas se encuestan alos seis meses de la reestructuracin1El tamao de la muestra parecera ser de 20 en vez de102El uso de ambas observaciones tiene el mismo efecto que usar mediciones duplicadasPodra concluirse conmayor probabilidad una significancia(errneamente)Errores comunes de la regresinSi las 20 observaciones se tratan como si fueran independientesse presentaran varios problemas:Ahora supngase que las mismas 10 empresas se encuestan alos seis meses de la reestructuracin1El tamao de la muestra parecera ser de 20 en vez de 102El uso de ambas observaciones tiene el mismo efecto que usar mediciones duplicadasEsto es debido a que larelacin entre el # detrabajadores y los activoses estable en la mismaempresaDacomoresultadounacorrelacinmayor deloque en realidad debe serErrores comunes de la regresinSe pueden tambin obtener conclusiones inadecuadas si semezclan dos poblaciones diferentesPOREJEMPLOConsidrese la relacin entre estatura ypeso corporalRecogemos una muestra de 10hombres y 10mujeres y secalcula la correlacin entre peso y estatura combinando lasmuestrasErrores comunes de la regresinEl procedimientodeRegresinLineal permiteutilizar msdeuna variable independiente ypermite llevar a caboanlisis deregresin mltipleEn el anlisis de regresin mltiple la ecuacin ya no define unarecta en el plano, sino un hiperplano en un espaciomultidimensionalCon una variable dependiente y dos independientesnecesitamos tres ejes para poder representar el diagramade dispersinRegresin lineal MltipleSi en lugar de dos variables independientesutilizramos tressera necesariounespacio de cuatrodimensiones parapoder construir el diagrama de dispersinPOR TANTOConmsdeunavariableindependiente, larepresentacin grfica de las relacionespresentes en un modelo de regresin resultapoco intuitiva, muy complicada y nada tilRegresin lineal MltipleEs ms fcil y prctico partir de la ecuacin delmodelo de regresin lineal:Y = 0+ 1*X1+ 2*X2+..+ k*Xk+ La variable dependiente Y se interpreta como una combinacin lineal de un conjunto de K variables independientes, cada una de las cuales va acompaada de un coeficiente , que indica el peso relativo de esa variable en la ecuacin La variable dependiente Y se interpreta como una combinacin lineal de un conjunto de K variables independientes, cada una de las cuales va acompaada de un coeficiente , que indica el peso relativo de esa variable en la ecuacin La variable dependiente Y se interpreta como unacombinacin lineal de un conjunto de K variablesindependientes, cada unadelascualesvaacompaada deuncoeficiente , que indica el peso relativo de esa variable en laecuacin La ecuacin incluye un componente aleatorio (los residuos) que recoge todo lo que las variables independientes no soncapaces de explicarRegresin lineal MltipleSELECCIN DE LAS VARIABLES DE REGRESINEl control sobre las variables utilizadas para construir elmodelo de regresin recae sobre el propio analistaEs el analista quien decide qu variables independientesdesea incluir en la ecuacin de regresin seleccionndolas lmismo de la lista de variables independientes que tienev. independiente 1 v. independiente 2 v. independiente 3 ..analistaecuacin de regresinRegresin lineal MltipleSELECCIN DE LAS VARIABLES DE REGRESINSin embargo sonfrecuentes situacionesen las quePara afrontar estas situaciones existen procedimientosdiseados para seleccionar, entre una gran cantidad devariables, sloaquellasquepermitenobtenerel mejorajusteposible No existe una teora o un trabajo previo que oriente al analista en la eleccin de las variables relevantes El nmero de variables independientes es muy elevadoMtodos de Regresin CRITERIOS DE SELECCIN DE LAS VARIABLESExisten diferentes criterios para seleccionar variables en unmodelo de regresin:El valor del coeficiente de correlacin mltiple R21El coeficiente de correlacin parcial entre cadavariable independiente y la dependiente2El grado de reduccin del error tpico cada vez quese incorpora una variable3Mtodos de Regresin MTODOS DE SELECCIN DE VARIABLESExistendiferentes mtodos para seleccionar las variablesindependientes que debe incluir un modelo de regresinLos de mayor aceptacin son los mtodos de seleccin porpasos (stepwise) En primer lugar se selecciona la mejor variable, deacuerdo a algn criterio estadstico A continuacin, la mejor de las restantes y as sucesivamente hasta que ya no quedan variablesque cumplan los criterios de seleccinMtodos de Regresin MTODOS DE SELECCIN DE VARIABLESLos mtodos de seleccin ms utilizados son:Mtodo hacia delante 1Mtodo hacia atrs 2Pasos sucesivos 3Mtodos de Regresin Mtodo hacia delante 1Mtodo hacia atrs 2Pasos sucesivos 3MTODOS DE SELECCIN DE VARIABLESLos mtodos de seleccin ms utilizados son:Las variables se incorporan al modelo de regresinuna a unaPRIMER PASO: se selecciona la variableindependiente que, adems de superar los criteriosde entrada, ms alto correlaciona (positiva onegativamente) con la dependienteMtodos de Regresin Mtodo hacia delante 1Mtodo hacia atrs 2Pasos sucesivos 3MTODOS DE SELECCIN DE VARIABLESLos mtodos de seleccin ms utilizados son:SIGUIENTES PASOS: se utiliza como criterio deseleccin el coeficiente de correlacin parcial.Vansiendoseleccionadasunaaunalasvariablesque poseenel coeficiente de correlacin parcialms alto en valor absolutoLa seleccin de variables se detiene cuando noquedan variables que superen el criterio de entradaMtodos de Regresin MTODOS DE SELECCIN DE VARIABLESLos mtodos de seleccin ms utilizados son:Mtodo hacia delante 1Mtodo hacia atrs 2Pasos sucesivos 3Comienza incluyendo en el modelo todas lasvariables independientes, para luego proceder aeliminarlas una a unaPRIMER PASO: se elimina aquella variable que,adems de cumplir los criterios de salida, posee elcoeficiente de regresin ms bajo en valor absolutoMtodos de Regresin MTODOS DE SELECCIN DE VARIABLESLos mtodos de seleccin ms utilizados son:Mtodo hacia delante 1Mtodo hacia atrs 2Pasos sucesivos 3SIGUIENTES PASOS: Se van eliminando las variablescon coeficientes de regresin no significativosLaeliminacindevariablessedetienecuandonoquedanvariables enel modeloque cumplanloscriterios de salidaMtodos de Regresin Mtodo hacia delante 1Mtodo hacia atrs 2Pasos sucesivos 3MTODOS DE SELECCIN DE VARIABLESLos mtodos de seleccin ms utilizados son:Mezcla de los dos mtodosanterioresMtodos de Regresin Mtodo hacia delante 1Mtodo hacia atrs 2Pasos sucesivos 3MTODOS DE SELECCIN DE VARIABLESLos mtodos de seleccin ms utilizados son:Comienza al igual que el mtodo hacia delante,seleccionando en el primer paso la variableindependientequeademsdesuperar loscriteriosdeentrada ms altos correlaciona con la variabledependienteMtodos de Regresin Mtodo hacia delante 1Mtodo hacia atrs 2Pasos sucesivos 3MTODOS DE SELECCIN DE VARIABLESLos mtodos de seleccin ms utilizados son:A continuacin se selecciona la variable independienteMtodos de Regresin 121SellamaSeriesdeTiempoaunconjuntodeobservaciones sobre valores que toma unavariable (cuantitativa) en diferentes momentos deltiempo, a lo que llamaremos Perodicidad.122 Hoyendadiversasorganizacionesrequierenconocer el comportamiento futuro de ciertosfenmenos conel finde planificar, prevenir,esdecir, se utilizan para predecir lo que ocurrir conuna variable en el futuro a partir delcomportamiento de esa variable en el pasado.123 En las organizaciones es de mucha utilidad enpredicciones a corto y mediano plazo, porejemplo ver que ocurrira con la demanda de uncierto producto, lasventasafuturo, decisionessobre inventario, insumos, etc.... No as para el diseo de un proceso productivoyaquenosedisponendedatoshistricosysetrata de un proyecto a largo plazo1241. El horizonte de tiempo para realizar la proyeccin. 2. La disponibilidad de los datos.3. La exactitud requerida.4. El tamao del presupuesto de proyeccin.5. La disponibilidad de personal calificado.125ao Trim. 1 Trim. 2 Trim. 3 Trim. 41 0,300 0,460 0,345 0,9102 0,330 0,545 0,440 1,0403 0,495 0,680 0,545 1,2854 0,550 0,878 0,660 1,5805 0,590 0,990 0,830 1,7306 0,610 1,050 0,920 2,0407 0,700 1,230 1,060 2,3208 0,820 1,410 1,250 2,730ganancias0,000,250,500,751,001,251,501,752,002,252,502,753,000 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34127Mes 1999 2000 2001 2002 2003Enero 6265,6 6356,8 6953,2 7428,1 6760,9Febrero 5822,1 6194,9 6263,6 6755,8 6486,1Marzo 6647,8 6664 7261,1 7389,7 7445,5Abril 6320,9 6556,3 7039,6 7231,9 7345,2Mayo 6781,5 7034,9 7305,5 7627,7 7703,3Junio 6484,5 6809,7 7239,3 7339,9 7340,4Julio 6636,2 6921,2 7386,6 7597,2 7621,7Agosto 6583,4 7116,2 7502,1 7720,5 7685,7Septiembre 6546,8 6784,2 7288 7555,6 7543,4Octubre 6690,9 7110,7 7609,3 7835,1 7897,2Noviembre 6588,1 7001,1 7424,7 7637,5 7657,3Diciembre 6592,2 7150 7618,6 7027,5128Consumo Mensual500055006000650070007500800085001 5 9131721252933374145495357129 Establecer un modelo probabilsticohipottico que represente los datos(puede ser mas de uno) Habiendo escogido un modelo (o familiade modelos), estimar los parmetros.130 Para el modelo estimado, verificar labondad de ajuste a los datos Usar el modelo ajustado para intensificarnuestra comprensin del mecanismo quegenera la serie.131 Tendencia: componente a largo plazo Efecto estacional: patrndecambioqueocurreperidicamente Efecto cclico: fluctuacin (o dinmica del proceso)que no es explicada nipor la tendencia nipor laestacionalidad. Efecto aleatorio: variabilidad debido al azar que seobserva despus de retirar los otros componentes1320,0020,0040,0060,0080,00100,00120,00140,000 5 10 15 20 25 30 35 40 45 50 55133-40-200204060801001200 5 10 15 20 25 30 35 40 45 50 55Tendencia y efecto estacional134componente aleatorio-15,00-10,00-5,000,005,0010,0015,000 10 20 30 40 50135136Desestacionalizacin: Mtodos alternativos: Diferencias sobre la media mvil Ratios sobre la media mvil X-11 /X-11 ARIMA / X-12 Mtodos basados en el Proceso Generador de Datos y Anlisis en el dominio de las frecuencias (TRAMO/SEATS)137Presentacin:Los modelos ARIMAresponden al acrnimo de procesosAutoRregresivos, Integrados, y Medias mviles (MovingAverage), yfueronplanteadosinicialmentepor GeorgeBoxyGwilymJenkins en 1970 en su obra Time Series Analysis:Forecastingand Control (HoldenDay, San Francisco, USA)como una alternativa a la modelizacin y prediccin tradicionalmediante modelos estructurales.INTRODUCCIN A LOS MODELOS ARIMA138 La idea subyacente fundamental consiste enadmitirquelasseriestemporalessongeneradasmediante un Proceso Generador de Datos quepuedeseridentificadoycuantificadoyque, portanto, pueden ser inferidos sus valores a futuro. Enestesentidoenlazaconlosmtodosclsicosde prediccin basados en la identificacin de loscomponentes de una serie temporal.139INTRODUCCIN A LOS MODELOS ARIMAPresentacin: En efecto cuando realizamos una prediccin de la evolucin deunadeterminadaserietemporal medianteladescomposicinenlos componentes estacional, tendencial, cclico e irregular, elprocedimiento que seguimos consiste en identificarcomportamientosregularesalolargodelaserie(movimientosestacionales, tendencialesycclicos) yextrapolarlosafuturo,asumiendo que los comportamientos irregulares tendrn un efectopromedio nulo.140 En el caso de los modelos ARIMAidentificaremos igualmente una serie decomportamientosregularesasociadosaprocesosde evolucin temporal conocidos (Procesos deintegracin, autorregresivos y de Mediasmviles) que interactan con procesoscompletamente aleatorios (Ruido blanco).1411.Identificacin tentativa del modelo2.Estimacin de los parmetros del modelo3. Evaluacin de diagnsticos para comprobar si el modelo es adecuado; mejorar el modelo si es necesario.4.Generacin de Pronsticos142Estacionario?SNoTransformar los datos(primera diferencia)Estacionario?SNoTransformar los datos(segunda diferencia)Determinar qu tipo de modelo esel adecuadoEstimar losparmetrosdel modeloEstacionario?No transforma-cionesms complejasSDiagnsticos Pronsticos143Procesos estocsticos elementales: Ruido BlancoEl denominadoruidoblancoes unprocesoestocsticoquepresenta media nula, varianza constante y covarianza nula paracualquiervalordek, si ademsladistribucinesnormal, sedenomina Ruido Blanco Gaussiano.( )( )k a a Cova Ea Ek t ta tt ===+0 ) , (02 2oEste tipo de procesos es estrictamente estacionario.144Procesos estocsticos elementales: Caminata aleatoria.La caminata aleatoria es un proceso tal que la diferencia entredos valores consecutivos de la variable se comporta como unruido blanco.Si existe una tendencia sistemtica en el cambio se denominacamino aleatorio con deriva.t t t t t ta Z Z bien o a Z Z + = = 1 1t t t t t ta Z m Z bien o a m Z Z + + = + = 1 1El camino aleatorio es no estacionario en varianza mientras quesi tiene deriva tampoco lo es en media.145Procesos estocsticos elementales: Proceso Autorregresivo.Definimos un proceso autorregresivo de primer orden AR(1)como un proceso aleatorio que responde a una expresin del tipo0 1 1 1 1 0 = + = + + = t t t t t t t tZ Z con a Z Z bien o a Z Z Losprocesosautoregresivospuedengeneralizarseal ordenpAR(p) sin ms que aadir trminos retardados en la expresingeneral.t p t p t t ta Z Z Z Z + + + + + = ...2 2 1 1 0146Procesos estocsticos elementales: Medias mviles.Definimos una mediamvil de primer ordenMA(1) comounproceso aleatorio que responde a una expresin del tipomedia la a s diferencia en Z con a a Zt t t t 1 1 + = uLosprocesosdemediasmvilessonestacionariosy, aligualque los autoregresivos pueden generalizarse al orden q MA(q)sin ms que aadir trminos retardados en la expresin general.q t q t t t ta a a a Z + + + + = u u u ...2 2 1 1147Procesos estocsticos elementales: Procesos integrados.Un proceso integrado es aquel que puede convertirse en estacionarioaplicando diferencias.As, por ejemplo, un camino aleatorio sera un proceso integrado deorden 1I(1), ya que puede convertirse en estacionariotomandoprimeras diferencias.Definimos el orden de integracin de un proceso como el nmero dediferencias que debemos aplicarle para convertirlo en estacionario.En el contextode las series econmicas los rdenes de integracinms frecuentes son 1 2 I(1) I(2).En algunas ocasiones las diferencias deben aplicarse sobre el valorestacional.io estacionar e s con e Z Zt t s t t12 4 = = 148Proceso Generador de Datos.Mediante la adecuada combinacin de estos procesos elementales:integracin, AR(p), y MA(q) podemos representar la evolucin de cualquierserie temporal.p t p t t t p t p t t ta a a a Y Y Y Y + + + + + V + + V + V = V u u u 2 2 1 1 2 2 1 1( ) ( )( )( )tpqt t q p taBBY a B B Yuu = V = V( ) B Y Y Y Y cont t t t = = V11Para la series que presentan estacionalidad se pueden reproducir los mismos procesos sobre el orden estacional s (s=4 trimestrales, s=12 mensuales)( )st s t t t sB Y Y Y Y = = V1Integracin estacionalt p t sp s t s s t s ta Z Z Z Z + + + + = 2 2 2 1 SAR(p)q t sq s t s s t s t ta a a a Z2 2 2 1 + + + + = u u u SMA(q)149Herramientas de identificacin: Correlograma.Denominamos correlograma a una representacin grfica de las funcionesde Autocorrelacin total (FAC) y parcial (FAP).Las funciones de autocorrelacin recogen los valores de los diferentescoeficientes de autocorrelacin de una serie para distintos desfases k.El coeficiente de autocorrelacin para un determinado desfase k se definecomo:0) ( ) () , ( ko okk t tk t tkZ Var Z VarZ Z Cov= = =Si el proceso Zt es estacionario150Herramientas de identificacin: Correlograma.Asumiendolaestacionariedadyergodicidaddel procesoloscoeficientes de autocorrelacin pueden aproximarse como:( )( )( ) = = ===+ =NttNk tk t t k kkkZ ZNcZ Z Z ZNcconcc120 01011La funcin de autocorrelacin parcial estara formada por los correspondientescoeficientes de autorcorrelacin parcial, que miden la relacin entre los valoresdesfasados k periodos una vez eliminados o filtrados los efectos de lacorrelacin entre los restantes desfases.Las bandas de confianza para la FAC y la FAP se aproximan como:01 1* 96 , 1 = jNoNp151152153154155estacionarioFACse cortaFAC ParcialseextingueFAC ParcialsecortaFACseextiingueFACseextingueFAC parcialseextinguemodelo mixtomodelo demedias mviles(MA)modeloauto-regresivo(AR)Dnde se cortaLa FAC?Nmero derezagos (perodos)a incluirDnde se cortala FAC P ?Nmero derezagos (perodos)a incluir156 En Stata, se utiliza el comando arima. Porejemplo, para estimar un modelo autorregresivocon dos rezagos: arima y, ar(1/2) demediasmvilesenunaprimeradiferencia,con tres rezagos: arima D.y, ma(1/3) mixto, con una segunda diferencia y un rezagotantopara las medias mviles comopara loauto-regresivo: arima D2.y, ma(1) ar(1)157 Sedebe eliminarunavariabledel modelosi nocumple con cualquiera de las siguientescondiciones equivalentes: As se puede lograr que el modelo seaparsimonioso.| |oo< >valor pt tpn n2 /1581. Anlisis de residuos2. La mejor estadstica para determinar si el modelo esadecuado, es la estadstica Ljung-Box. Si el valor-p de laestadstica Ljung-Box es menor que .01, es evidencia muyfuerte de que el modelo no es adecuado.3. Anlisis de autocorrelacin de residuos para identificarespigas: RFAC RFACP159 En Stata, se utilizaelcomando armadiag (finditarimadiag) despusdehabercorridoel modeloarima. Genera cuatro grficas: residuos valores-p de la estadstica Q* RFAC RFPAC160 Sesigueel mismoprocedimientoqueparanoestacionales, pero incluyendo rezagos delnmero de perodos en el ao. Por ejemplo: arima y, ma(1 12) arima D.y, ar(1 2 4) arima D.z, ar(1 3 5) ma(12) donde z = y-L12.y161 arimay, ma(12)ar(1 2) correelmodelomixtoenlos datosoriginales, con dos rezagos y dos choques. arimaD.y, ma(1) correunmodelodemediasmvilesenlosdatos transformados con una primera diferencia, con un perodode rezago. ac y grafica la FAC de los datos originales pacD2.y graficalaFACPdelosdatostransformadoscon unasegunda diferencia. STATA utiliza el mtodo de maximum likelihood (a diferencia deSAS y MINITAB, que utilizan OLS). Box, Jenkins y Reinsel (1994)prefieren maximum likelihood. noconstant opcin elimina el constante del modelo armadiag para las herramientas de diagnstico (hay queinstalarlo.)162 Jeffrey M. Wooldridge: Introductory Econometrics: A Modern Approach, 2nd Edition EvaMedinaMoral, ProfesoraEconomaAplicada(UAM) Guadalupe Ruiz Merino - Curso deEstadstica163