Estadistica y Machine Learning para Todos

Estadística y Machine Learning para Todos...TODOS!

Terminología, casos de uso, herramientas y caminos para poner un pié en la Ciencia de Datos en México.

Copyright © @xuxoramos 2017

Objetivos

Que sepan cómo desmenuzar estadísticamente una aseveración.

Que sepan qué es el aprendizaje automático y sus partes.

Que sepan para qué sirve el aprendizaje automático.

Que sepan por qué es importante para México ponerse chingón en aprendizaje automático.

2Copyright © @xuxoramos 2017

Las noticias

Declaración típica de político:


El enfoque periodísitico● Comparar último mes del

PAN vs 1er mes del PRI.

● El PRI tiene mayor

número de sentencias.

● Pero luego bajan

rápidamente.

● Por tanto...


El enfoque estadístico

media(PAN)

media(PRI)● Sacamos medias

del histórico

6

● PAN = 9480.33PRI = 11590

● Son diferentes?

● Son significativamente diferentes?


El enfoque estadísticoSacamos histograma

Fijamos distribución


El enfoque estadísticoSacamos histograma

Fijamos distribución

Probamos hipótesis: calculamos la probabilidad de que la diferencia entre muestras sea debido al azar (hipótesis nula), o si es debido al factor que se está explorando (hipótesis alterna).


El enfoque estadísticoProbamos hipótesis: calculamos la probabilidad de que la diferencia entre muestras sea debido al azar (hipótesis nula), o si es debido al factor que se está explorando (hipótesis alterna).

Con 95% de confianza!




No hay suficiente evidencia de que la diferencia entre muestras sea debido al factor explorado. Investígale mucho más!

Si hay suficiente evidencia de que la diferencia entre muestras sea debido al factor explorado. Investígale poquito más!


El enfoque estadísticoCómo investigamos más?

Controlando por factores!

Volviendo a probar hipótesis.

"Diseño de experimentos"

Sentencias consignatorias…

Por partidoPor estadoPor añoPor antigüedad en el cargoPor nivel administrativoPor dependencia gubernamental

Si todos los experimentos confirman el efecto del factor que exploramos, BINGO!


Qué hueva! Como automatizo?


Qué es Machine Learning?

Máquina

Programa

Datos

Contexto

Resultado de negocio

Proyectos de Software


Qué es Machine Learning?

Máquina


Datos

Contexto

Programa

Proyectos de Machine Learning


Tipos de Machine Learning

Máquina


Datos

Contexto

Programa

Supervisado



MáquinaDatos

Contexto

Programa

No-supervisado



MáquinaDatos

Contexto

Programa

ReinforcementResultado de negocio

Ruido


Objetivo

Identificar patrones equivocándose lo menor posible.


Cómo lo logra?

Balanceando componentes del error: sesgo + varianza.


Ejemplo

21

Posible sesgo de la muestra

Sesgo de selección Varianza del fenómeno


Cómo balanceamos?

A mayor número de variables, mayor complejidad.

También mayor varianza.

Y menor sesgo.


Cómo balanceamos?

Más/menos variables

Mayor variables, mayor complejidad.

Más/menos renglones

Mayor num de renglones DE LAS VARIABLES CORRECTAS, menor sesgo.

CONTEXTO!


Usos de Machine Learning

Clasificación

Partir el espacio de datos en N categorías con funciones.



Regresión

Función que se ajuste al espacio de datos.



Agrupamiento/Clustering

No supervisado!

Descubrimiento de grupos emergentes.



Reducción de dimensionalidad

Proyectar el espacio de datos a una sola dimensión y evaluar pérdida de información.


Y cómo lo aplico al ejemplo?

1. Definición del problema

2. Recolección y exploración de datos

3. Inferencia Estadística

4. Construcción del modelo

5. Selección del modelo.








Queremos ver si EPN miente?

Si sus fuentes mienten?

Si su comunicación es efectiva?

O si El Sabueso opera bien su metodología?








Queremos emular y validar la metodología de El Sabueso.

Dependencia Nivel Motivo

Valor Inicial Valor final Fecha comparación

Valor de Verdad








Queremos emular y validar la metodología de El Sabueso.



Valor de Verdad

PREDICTORES

OBJETIVO








Conocer efecto de las variables seleccionadas en la variable objetivo.



Valor de Verdad








Conocer efecto de las variables seleccionadas en la variable objetivo.

SSP V Informe 13,000 18,000 ~2018 Falso

SE CONAGO 12.5 11.2 ~2016 Mayormente F

SHCP Inauguración 8 10 ~2018 No se puede

probar

SEDESOL Visita 4mmdp 6.5mmdp ~2018 Engañoso


Llevándolo a Producción

Labor entre la Ingeniería de Datos y la Ciencia de Datos

Modelo

● Tolerancia a fallos● 1000 hits por minuto● Seguridad● Monitoreo

API


Cómo anda MX en esto?

113K Ingenieros de Software al año.

350 Matemáticos, actuarios, físicos y estadísticos.

No se conoce la diferencia entre Data Scientist (DS) y Data Engineer (DE).

Tenemos miles de Data Engineers chingones.

No tenemos casi Científicos de Datos.

Tenemos muchos DE queriendo ser DS cuando no saben ni proba.

+


http://www.oecd-ilibrary.org/science-and-technology/oecd-science-technology-and-industry-scoreboard-2015_sti_scoreboard-2015-en

http://www.oecd-ilibrary.org/science-and-technology/oecd-science-technology-and-industry-scoreboard-2015_sti_scoreboard-2015-en

http://imco.org.mx/comparacarreras/#!/carrera/431

http://imco.org.mx/comparacarreras/#!/carrera/431

Qué puede salir mal?

Telco importante dando créditos a sospechosos criminales.

Empresa importante de internet no le atina a predicción de AH1N1.

Gran empresa de software crea un bot sexualmente cargado y racista.

Empresa de internet clasifica foto de 2 afroamericanos como gorilas.

Crisis financiera de 2008.

Victoria de Trump.


Debe México convertirse en un hub de Ciencia de Datos?La frontera norte se cierra a nuestros productos y servicios.

Poco petróleo, y a precio muy bajo.

Corrupción rampante.

Mercado interno débil.

Variables macroeconómicas malas.

La "mano de obra barata" no será relevante en la era de la automatización.


Cómo pueden ayudar?

Entra a un programa académico completo.

Regresa a la escuela a aprender mates.

Usa la educación abierta en internet para hacer tu propia maestría.

Únete a grupos profesionales.

Únete a comunidades.


Mates aplicadas @ ITAM, UNAM, IPN

Física @ UNAM

Economía @ ITAM, UNAM

MSc Ciencia de Datos @ ITAM

MSc Inteligencia Analítica @ UAnáhuac

Programas académicos en MX*

+

* Evaluación de 63 candidatos para posiciones de Ciencia de Datos en Bolsa Mexicana de Valores, GBM, TERAN/TBWA, Klustera, Globant, OPI y ConCrédito.


Intro to Mathematical Thinking: Stanford + Coursera

Intro to Logic: Stanford + Coursera

Business Analytics: Wharton + Coursera

Data Science Specialization: JHU + Coursera

Machine Learning: Stanford + Coursera

Executive Data Science: JHU + Coursera

"Hága su propia maestría"*

* Ver ratings de cursos en https://www.class-central.com/ 40Copyright © @xuxoramos 2017

https://www.coursera.org/learn/mathematical-thinking

https://www.coursera.org/learn/mathematical-thinking

https://www.coursera.org/learn/logic-introduction

https://www.coursera.org/learn/logic-introduction

https://www.coursera.org/specializations/business-analytics

https://www.coursera.org/specializations/business-analytics

https://www.coursera.org/specializations/jhu-data-science

https://www.coursera.org/specializations/jhu-data-science

https://www.coursera.org/learn/machine-learning

https://www.coursera.org/learn/machine-learning

https://www.coursera.org/specializations/executive-data-science

https://www.coursera.org/specializations/executive-data-science

https://www.class-central.com/

Sociedad de Científicos de Datos de MéxicoGrupo más académico.

SocialTICMenos Ciencia, más visualización, periodismo e infoactivismo.

Instituto Internacional de Ciencia de DatosMás governance y proyectos "empresariales".

Grupos Profesionales


http://sociedat.org/

http://sociedat.org/

http://socialtic.org/

http://socialtic.org/

http://www.i2ds.org/

http://www.i2ds.org/

The Data Pub (FB: /thedatapub, TW: @thedatapub)

2500 miembros. Meetups cada último Jueves del mes.

Presentamos 2 proyectos donde el negocio o la vida humana sean primero, las mates segundo, y la tecnología tercero.

Cursos de Stats & Machine Learning para Developers.

Job posting - porque sigue habiendo confusión entre DS y DE.

Badges - porque los endorsements de LinkedIn son "la hoguera de las vanidades".

Comunidades


https://www.meetup.com/thedatapub/

https://facebook.com/thedatapub

https://twitter.com/thedatapub

https://www.meetup.com/thedatapub/

Grax!@[email protected]


https://twitter.com/xuxoramos

https://twitter.com/xuxoramos

mailto:[email protected]

mailto:[email protected]

https://linkedin.com/in/xuxoramos

https://linkedin.com/in/xuxoramos

https://github.com/jsramos

https://github.com/jsramos

https://facebook.com/xuxoramos

https://facebook.com/xuxoramos

Estadistica y Machine Learning para Todos

Data & Analytics

Transcript of Estadistica y Machine Learning para Todos