Post on 12-Oct-2018
Big Data, Mineria y Aprendizaje: Conceptosbasicos para economistas
Walter Sosa-Escudero
Universisad de San Andres y CONICET
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Jerga
NoSQL, Hadoop, mineria, aprendizaje, visualizacion, fat models,funciones de perdida, riesgo de Bayes, LASSO, CART, GARROTE,sobreajuste, muestra de entrenamiento, aprendizaje supervisado yno supervisado, validacion cruzada, arboles, bosques, podas,nodos, clusters, boosting, bagging, matriz de confusion, curvaROC, regularizacion, shrinkage, Bayes, incertidumbre de modelo,promedio de modelos, error reproducible, prediccion fuera demuestra, bases, splines, GAM, support vector machines, subsetselection, scrapping, networks, phyton, predictive analytics.
Demasiado Spanglish...
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Problemas
Decidir si un email es spam.
Identificar codigos postales escritos a mano.
Relevar precios.
Asignar tratamiento para pacientes con cancer.
Identificar factores que puedan identificar a los pobres.
Encontrar el nombre de una cancion a partir de un silbido otarareo.
Traducir un texto.
Predecir preferencias por la redistribucion ante una eleccion.
Encontrar la clase media.
Recomendar libros o peliculas.
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Babel
Aprender, hurgar, encontrar patrones, clasificar, reducirdimensionalidad, visualizar, resumir, decidir.
Manipular, mover, organizar, guardar, recuperar, explorardatos masivos.
Data mining, statistical learning, machine learning, predictiveanalytics.
Mas Spanglish...
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Experiencias
Epidemia de gripe A
Iphones lentos
Google translate
El desafio de Netflix
Mil millones de precios
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
El paradigma clasico / frecuentista
Y = f(X) + u
Objetivo: conocer f o sus caracteristicas (derivadas, porejemplo).
Exito: insesgadez, varianza minima, etc.
¿f? Estructura (teoria) o representa un experimento(¿teoria?). Relacion causal?
Paradigma: estimacion insesgada / consistente y varianzaminima.
Validez interna.
Uso de todos los datos (en pos de la eficiencia)
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Ejemplo: MCO y el modelo clasico
Y = Xβ + u bajo los supuestos clasicos. f(X) = Xβ
Interes en β.
El modelo esta dado. Problema: como estimar β dado elmodelo.
β = (X ′X)−1X ′Y
Minimiza SRC, maximiza R2
Gauss-Markov: bajo los supuestos clasicos es MELI.
Supuestos clasicos: como afectan a las propiedades (variablesomitidas, endogeneidades, heterocedasticidad, etc.)
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
El paradigma predictivo
Y = f(X) + u
Objetivo: predecir Y en base a X, sin observar u y sin saberf(.) (‘aprender’ f).
Objetivo: predecir bien.
Que significa predecir bien o mal?
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Error cuadratico medio
Z una variable aleatoria y m una constante (predictor).
ECM(m) ≡ E(Z −m)2.
Resultado: la esperanza es el mejor predictor en ECM:
E(Z) minimiza ECM(m)
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Prueba: ECM(m) = E(Z −m)2 =∫(z −m)2f(z) dz. Las CPO
son: ∫−2(z −m)f(z) dz = 0
Dividiendo por -2 y despejando
m
∫f(z) dz =
∫z f(z) dz
m = E(Z)
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Error reducible e irreducible
Y = f(X) + u
Si f fuese conocida y X fuese observable, el problema sereduce a predecir u.
Dado que u no es observable, la mejor prediccion en ECM essu esperanza. u es el error irreducible
Cuando f es tambien desconocida, el problema de prediccionse reduce a conocer f .
El error ‘reducible’ se refiere a la discrepancia entre f y f .
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Aprendizaje
Aprender f con algun proposito (minimizar el ECM, porejemplo)
Aprender en ausencia de modelo (no hay un f preestablecido).
Aprendizaje automatico (machine learning): metodosnumericos y estadisticos para dar con f a partir de datos oinformacion disponible y en base a un objetivo.
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Entrenamiento y evaluacion
El principal objetivo es prediccion para datos fuera de lamuestra: futuros, contrafactuales, en otras regiones,circunstancias, etc.
Datos de entrenamiento: los usados para ‘aprender’ (estimar).
Datos de evaluacion: usados para evaluar las predicciones
Ejemplo: Netflix game, series de tiempo.
Un gran problema es como elegir los datos de entrenamiento ylos de evaluacion.
R2 no funciona: por que?
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
La descomposicion sesgo / varianza
Recordar
Sesgo(f) = E(f)− f = E(f − f)
Var(f) = E(f − E(f))2
Resultado (muy importante)
ECM(f) = Sesgo2(f) + V (f)Prueba: como ejercicio
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
La aproximacion econometrica
ECM(f) = Sesgo2(f) + V (f)
Cuando f es insesgado, minimizar ECM(f) se reduce aminimizar V (f)
El secreto mejor escondido: tolerando algun sesgo es posiblereducir V (f) y bajar ECM.
Si el objetivo es predecir, no es un problema tolerarestimaciones sesgadas.
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Especificacion parametrica vs no parametrica
Y = f(X) + u
Enfoque parametrico: forma parametrica para f . Ejemplo:f(X) = β1 + β2X. Cantidad finita de parametros.
Enfoque no-parametrico: solo algunas condiciones sobre f(suavidad, por ejemplo) y aprenderla de los datos. Infinitosparametros.
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
El trade off sesgo/varianza
Y = β1X1 + β2X2 + u
Recordar: modelo grande tiene menos posibilidades de sersesgado, pero es mas ineficiente.
En general, los intentos por eliminar el sesgo ocurren a costade mayor varianza. Y al reves.
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Precision, complejidad e interpretabilidad
Recordar el problema de interpretacion en
Y = β1 + β2X + β3X2 + u
Hemos perdido la interpretacion de β2 como efecto marginal.
En un modelo no lineal las interpretaciones dejan de sertriviales.
Machine learning: rapidamente perdemos interpretabilidad enpos de calidad predictiva
Es esto un problema?
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Aprendizaje supervisado y no supervisado
Supervisado: para cada predictor xi se observa una ‘respuesta’yi. Ejemplo: regresion. Todo lo que hemos hecho eneconometria es supervisado.
No supervisado: se observa xi pero no hay una respuesta.Ejemplo: analisis de clusters.
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Regresion y clasificacion
Division un poco arbitraria
Regresion: prediccion de variables cuantitativas. Ejemplo:salarios.
Clasificacion: prediccion de variables cualitativas. Ejemplo:trabaja o no trabaja.
Cuidado: un logit predice probabilidades no variables. Nos tomaratrabajo relacionar unas con las otras.
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Lo bueno
Rol de la induccion y la descripcion en las ciencias sociales (yen la ciencia).
¿Big data o new data?
Experimentos
Construccion de contrafactuales.
Complejidad, alta frecuencia.
Re-evaluar la ‘tirania de la insesgadez’.
¡Bayes!
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Lo malo
¿Small data? ¿Realmente hay un problema de pocos datos enlas ciencias sociales?
Mas datos no es necesariamente mejor.
Choice based sampling. Papelones historicos. El origen deGallup.
Small data es un problema poblacional: no observabilidad decontrafactuales.
Polıtcas: ¿prohibir paraguas? ¿regalar televisores?
Daniel Heymann y el PBI diario. Datos de la frecuenciacorrecta. Raices unitarias.
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Lo feo
¿El fin de la teoria? Intentos ‘ateoricos’ en economia.
VAR y econometria dinamica.
La ‘revolucion de credibilidad’: experimentos, instrumentos.Mostly Harmless.
¿Big data? Mejoras sustanciales con la teoria (linguisticabasada en viejas traducciones, meteorologia). Acciones depolitica. Analisis causal.
Teoria y conocimiento causal como necesidad atavica.
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Perspectivas
Posturas extremas sobre el tema.
Discusion filosofica produnda sobre el rol de la teoria y lainduccion.
¿Cambios en la ensenanza?
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Caja de herramientas
Lecturas
Hastie, Tibshirani,Friedman (2009)
James, Witten, Hastie and Tibshirani (2014).
Murphy (2012, Machine Learning)
Varian (2014)
Edicion especial de JEP sobre Big Data (JEP, 2014)
Papers: Keely and Tan (2008, Journal of Public Econommics),Bajari et al. (2015, American Economic Review), Cavallo andRigobon (2013, Journal of Monetary Economics).
Mayer-Schonberger y Cukier (Big Data, 2013).
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
Charla de Tim Harford sobre ‘The Big Data Trap’.
Nota en Clarin (6/4/2014)
Computer intensive
Olvidense de Stata
Curso (learning): Hastie and Tibshirani (Stanford)
Libros gratis!
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas
Apocalypsis NowPredecir y explicar
Lo bueno, lo malo y lo feo
JLB
‘... su antepasado no creia en un tiempo uniforme, absoluto. Creia en infinitasseries de tiempos, en una red creciente y vertiginosa de tiempos divergentes,convergentes y paralelos. ... No existimos en la mayorıa de esos tiempos; enalgunos existe usted y no yo; en otros, yo, no usted; en otros, los dos. En este,que un favorable azar me depara, usted ha llegado a mi casa; en otro, usted, alatravezar el jardın, me ha encontrado muerto; en otro, yo digo estas mismaspalabras, pero soy un error, un fantasma.’
El jardin de senderos que se bifurcan
‘Ireneo tenıa diecinueve anos; habıa nacido en 1868; me parecio monumentalcomo el bronce, mas antiguo que Egipto, anterior a las profecias y a laspiramides. Pense que cada una de mis palabras (que cada uno de mis gestos)perduraria en su implacable memoria; me entorpecio el temor de multiplicarademanes inutiles.’
Funes, el memorioso
Walter Sosa-Escudero Big Data, Mineria y Aprendizaje: Conceptos basicos para economistas