Conceptos Estadísticos para la Modelación Predictiva

Click here to load reader

  • date post

    28-Jan-2018
  • Category

    Education

  • view

    860
  • download

    4

Embed Size (px)

Transcript of Conceptos Estadísticos para la Modelación Predictiva

  1. 1. Probabilidad y Estadstica: Conceptos Estadsticos para Modelacion Predictiva Dr. Juliho Castillo 22 de octubre de 2017 Universidad LaSalle Oaxaca 1
  2. 2. 1 Objetivos 2 Muestreo aleatorio y teorema del lmite central 3 Pruebas de hipotesis 4 Estadsticos Z y t 5 Intervalos de conanza, niveles de signicacion y valore p 6 Una gua paso a paso para realizar una prueba de hipotesis 7 Un ejemplo de la prueba de hipotesis 8 Prueba cuadrada 9 Correlacion 10 Recursos 2
  3. 3. Conceptos Estadsticos Importantes 1 Pruebas de hipotesis. 2 pvalores. 3 Distribucion normal. 4 Correlacion. 3
  4. 4. Objetivos 4
  5. 5. Muestreo aleatorio y teorema del lmite central Entender el concepto de muestreo aleatorio a traves de ejemplos e ilustrar las aplicaciones del teorema del lmite central. Estos dos conceptos son la columna vertebral de las pruebas de hipotesis. 5
  6. 6. Pruebas de hipotesis Entender el signicado de los terminos tales como hipotesis nula, hipotesis alternativa, intervalos de conanza, pvalores, nivel de signicacion, etc. Desarrollaremos una gua de la implementacion de pruebas de hipotesis, seguidas por un ejemplo. 6
  7. 7. Pruebas cuadrada Calcularemos el estadstico -cuadrada y describiremos el uso de pruebas -cuadrada con un par de ejemplos. 7
  8. 8. Correlacion Entenderemos el signicado y la signicacion de la correlacion entre dos variables, de los coecientes de correlacion y calcularemos y visualizaremos la correlacion entre variables de una base de datos. 8
  9. 9. Muestreo aleatorio y teorema del lmite central 9
  10. 10. Ejemplo Supongamos que tratamos de encontrar la edad promedio en una ciudad, digamos Oaxaca. Una manera de hacerlo sera por fuerza bruta, es decir, recolectando esta informacion persona por persona. Pero este metodo sera muy costoso en terminos de infraestructura y tiempo. 10
  11. 11. En estadstica, este es un problema comun, cuya solucion esta en el muestreo aleatorio: Tomemos un grupo de 1000 individuos (o 10,000 dependiendo de tu capacidad, obviamente entre mas, es mejor) y calculemos la edad promedio en este grupo, a la que denotaremos por A1. 11
  12. 12. Repitamos este procedimiento, digamos 100 veces, y denotaremos por A1, A2, ..., A100 el promedio de edades obtenido en cada respectivo intento. 12
  13. 13. De acuerdo a la ley de los grandes numeros, la cantidad A100 = A1 + ... + A100 100 (2.1) es una aproximacion muy cercana al promedio real de la edad de los pobladores de la ciudad. 13
  14. 14. De acuerdo al teorema del lmite central, si el numero de tales muestras es sucientemente grande, entonces la distribucion de estos promedios seguiran una distribucion normal. Es decir, A1, A2, ..., A100 estaran distribuidos de manera normal. 14
  15. 15. Observacion: No estamos mas interesados en obtener el valor exacto de la edad promedio, si no establecer un estimador para la misma. En tal caso, tenemos que conformarnos con la denicion de un rango de valores en el que el valor real podra estar. Dado que hemos asumido una distribucion normal para los valores de edad media de estos grupos, podemos aplicar todas las propiedades de una distribucion normal para cuanticar las probabilidades de que esta edad media sea mayor o menor que un cierto numero. 15
  16. 16. Dado que hemos asumido una distribucion normal para los valores de edad media de estos grupos, podemos aplicar todas las propiedades de una distribucion normal para posibilidades de que esta edad media sea mayor o menor que un cierto numero. 16
  17. 17. Pruebas de hipotesis 17
  18. 18. El concepto que acabamos de comentar en la seccion anterior se utiliza para una tecnica en estadstica, llamada prueba de hipotesis. En la prueba de hipotesis, asumimos una hipotesis (generalmente relacionada con el valor del estimador) denominada hipotesis nula y tratar de ver si es cierto o no aplicando las reglas de una distribucion normal. Tenemos otra hipotesis llamada hipotesis alternativa. 18
  19. 19. Hipotesis nula vs. alternativa Hay un truco para decidir cual sera la hipotesis nula y cual sera la hipotesis alternativa. La hipotesis nula es la premisa inicial o algo que asumir que todava es cierto. La hipotesis alternativa es algo de lo que no estamos seguros y proponen como premisa alternativa (casi con frecuencia contradictoria a la nula hipotesis) que podra o no ser cierto. 19
  20. 20. Por lo tanto, cuando alguien esta haciendo una investigacion cuantitativa para calibrar el valor de un estimador, el valor conocido del parametro se toma como hipotesis nula mientras que el nuevo valor encontrado (de la investigacion) se toma como la hipotesis alternativa. 20
  21. 21. En nuestro caso (encontrar la edad media de nuestra ciudad), un investigador puede armar que la edad menor que 35. Esto puede servir como la hipotesis nula. Si una nueva agencia arma lo contrario (que es mayor que 35), entonces se puede denominar como la hipotesis alternativa. 21
  22. 22. Estadsticos Z y t 22
  23. 23. Suponga que el valor del parametro asumido en la hipotesis nula es Ao. Tomemos una muestra aleatoria de 100 o 1000 personas o eventos del evento y calculemos la media del parametro, por ejemplo la edad promedio de una ciudad, el tiempo medio de suministro de la pizza, la media ingresos, etc. Podemos llamarlo A. 23
  24. 24. El estadstico Z se calcula para convertir una variable normalmente distribuida (la distribucion de la media poblacional de edad) a una distribucion normal estandar. Esto es porque los valores de probabilidad para una variable que sigue a la distribucion normal estandarizada se puede obtener de una tabla precalculada. 24
  25. 25. El estadstico Z se da por la siguiente formula: Z = A A0 / n (4.1) donde es la desviacion estandar de la poblacion y n es el numero de personas en la muestra 25
  26. 26. Ahora, debemos considerar dos casos 26
  27. 27. Prueba Z (distribucion normal) El investigador conoce a desviacion estandar del parametro de su experiencia pasada. Un buen ejemplo de esto es el caso del tiempo de entrega de una pizza. En este caso (4.1) seguira una distribucion normal y los valores normalizados se conoceran como valores Z. 27
  28. 28. Prueba t (distribucion t de Student En este caso, el investigador no conoce la desviacion estandar de la poblacion. Esto puede pasar porque: No existen tales datos en algun registro historico; o el numero de eventos o personas es demasiado pequeno para suponer una distribucion normal. 28
  29. 29. En este caso, la media y la desviacion estandar son desconocidas, y la expresion asume una distribucion diferente a la normal llamada distribucion t de Student. El valor estandarizadas en este caso es llamado tvalor y la prueba es llamada prueba-t. 29
  30. 30. Distribucion t de Student La distribucion de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fabrica de cerveza, Guinness, que prohiba a sus empleados la publicacion de artculos cientcos debido a una difusion previa de secretos industriales. De ah que Gosset publicase sus resultados bajo el seudonimo de Student. Wikipedia: Distribucion t de Student 30
  31. 31. Figura 4.1: De The original uploader was Thorin de Wikipedia en frances - Transferido desde fr.wikipedia a Commons., CC BY-SA 1.0, https://commons.wikimedia.org/w/index.php?curid=1878902 31
  32. 32. Figura 4.2: De Desconocido, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=788691 32
  33. 33. Distribucion t en Python from scipy import stats import numpy as np import matplotlib.pyplot as plt def ft(x, nu): return stats.t.pdf(x, df=nu) def Ft(x, nu): return stats.t.cdf(x, df=nu) x = np.arange(-4,4,0.01) 33
  34. 34. Distribucion t en Python yd = ft(x,30) yc = Ft(x,30) fig, ax = plt.subplots() plt.plot(x, yd, r, linewidth=2) plt.plot(x, yc, b, linewidth=2) plt.ylim(ymin=0) plt.show() 34
  35. 35. 35
  36. 36. El parametro df se le conoce como grados de libertad y generalmente se denota como (la letra nu griega). 36
  37. 37. Si una variable aleatoria X tiene distribucion t con grados de libertad, entonces X = 0, 2 X = 2 (4.2) 37
  38. 38. Ejemplo 4.1. Consideremos una variable con distribucion t y = 9 grados de libertad. Encuentre el valor de t para el cual el area a la derecha sea 0.05 pero el total del area sin sombrear sea 0.90. 38
  39. 39. tExample.py from scipy import stats import numpy as np import matplotlib.pyplot as plt def tp(x, nu): return stats.t.ppf(x, df=nu) print tp(0.05, 9) ##-1.83311293265 print tp(1-0.05, 9) ##1.83311293265 39
  40. 40. Varianza muestral S2 = (Ai A0)2 n 1 (4.3) 40
  41. 41. Estadstico t t = (A A0) S/ n (4.4) 41
  42. 42. Intervalos de conanza, niveles de signicacion y valore p 42
  43. 43. Figura 5.1: Una distribucion tpica normal con valores p. 43
  44. 44. Supongamos que Z1 y Z2 son dos Zestadsticos correspondientes a dos valores de una variable aleatoria y p1 y p2 son areas encerradas por la curva de densidad a la derecha de esos valores. En otras palabras P(X > Z1) = p1 (5.1) P(X > Z2) = p2 (5.2) 44
  45. 45. Entonces, podemos denir un intervalo en el cual encontrar el valor de una variable aleatoria, al cual llamaremos intervalo de conanza. 45
  46. 46. Por ejemplo, para una distribucion normal con media y desviacion estandar , el valor de la variable aleatoria estara en el intervalo [ 3, + 3] con una conanza (probabilidad) del 99 %. 46
  47. 47. Para cualquier estimador (variable aleatoria) que tenga una distribucion normal, uno puede denir un intervalo de conanza si decidimos el nivel de conanza o probabilidad. Podemos pensar en los intervalos de conanza como el umbral de los valores aceptados para sostener que la hipotesis nula es cierta Si el v