CARTILLA SEMANA 3.pdf

17
SIMULACIÒN Análisis de datos de Entrada

Transcript of CARTILLA SEMANA 3.pdf

Page 1: CARTILLA SEMANA 3.pdf

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   

SIMULACIÒN

Análisis de datos de Entrada

Page 2: CARTILLA SEMANA 3.pdf

 

 2   [ POLITÉCNICO GRANCOLOMBIANO]

• ANÁLISIS  DE  DATOS  DE  ENTRADA    

1. Índice  1. Introducción  2. Identificación  gráfica  de  distribuciones  de  probabilidad  adecuadas  

2.1. Histogramas  2.2. Q-­‐Q  Plot  2.3. P-­‐P  Plot  

3. Pruebas  de  bondad  de  ajuste  3.1. Prueba  Chi  Cuadrado  3.2. Prueba  Kolmogorov-­‐Smirnov  

Interpretación  P-­‐Value    

2. Introducción  El  propósito  del  presente  documento  es  presentar  a  los  estudiantes  las  herramientas  gráficas  y  analíticas  para   llevar  a  cabo  un  correcto  análisis  de   los  datos  de  entrada,  donde  se  tenga  muy  presente  que  son  estos  los  que  alimentarán  el  modelo  de  simulación  a  construir  y,  que  por  lo  tanto,  tendrán  una  alta  influencia  en  los  resultados  que  se  reporten  después  de  haber  corrido  la  simulación.  Por  otra  parte,  teniendo  en  cuenta  que  el  objetivo  general  del  módulo  es  que  los  estudiantes  desarrollen  las  capacidades  necesarias  para  llevar  a  cabo  un  estudio  completo  de  simulación,  en   esta   unidad   se   presentarán   las   herramientas   fundamentales   para   realizar   el   análisis   de  entrada,   así   como  herramientas   computacionales  que  permite   su   realización  casi  de   forma  automática.  

Finalmente,  se  presentará  al  estudiante  una  serie  de  ejercicios  relacionados  para  reforzar  los  conocimientos  adquiridos  en  el  desarrollo  del  módulo.    

3. Objetivo  general  Al  finalizar  el  módulo,  los  estudiantes  sabrán  cuáles  son  las  herramientas  gráficas  para  llevar  a   cabo  un   análisis   de   datos   de   entrada,   así   como   sabrán   emplear,   de   forma   adecuada,   las  pruebas  analíticas  para  alimentar  el  modelo  de  simulación  que  se  esté  construyendo.    Al  finalizar  la  tercera  semana  de  aprendizaje:  

1. El  estudiante  entenderá  la  importancia  de  realizar  un  análisis  de  datos  de  entrada.  2. El  estudiante  conocerá  las  distintas  metodologías  para  ejecutar  un  correcto  análisis  de  

la  información  de  entrada.  

Page 3: CARTILLA SEMANA 3.pdf

 

 3 [ SIMULACIÓN ]

3. El   estudiante   podrá   realizar   un   análisis   de   entrada   donde   emplee   herramientas  computacionales  adecuadas.  

 4. Desarrollo  temático  

 4.1  Recomendaciones  académicas  

Se  recomienda  al  estudiante  realizar   la   lectura  de   la  cartilla,  en   la  que  se  encuentra  toda   la  información  relevante  que  se  evaluará  en  la  semana.  Adicional,  se  recomienda  al  estudiante  revisar   las   teleconferencias,  así  como   las  video   -­‐diapositivas,  pues  estas  son  un  medio  para  aclarar  las  dudas  generadas  con  la  lectura  y  dar  soporte  a  los  temas  expuestos  en  la  misma.  

Finalmente,  se  recomienda  al  estudiante  realizar  los  ejercicios  planteados  y  sugeridos  por  el  tutor,  ya  que  estos,  a  pesar  de  no  tener  un  valor  porcentual  en  la  nota,  si  harán  que  su  formación  sea  completa  y  pueda  ser  reforzada  de  forma  práctica.    4.2    Desarrollo  de  cada  una  de  las  unidades  temáticas    1. Introducción  

La   recolección   de   datos   y   el   procesamiento   de   la   información   son   una   de   las   tareas   más  grandes  y  difíciles  en  los  problemas  reales.  Incluso,  aún  cuando  hay  información  disponible,  rara   vez   los   datos   vienen   o   están   grabados   en   un   formato   que   sea   útil   y   aplicable  directamente  en  un  modelo  de  simulación.    El  término  “GIGO”  o  “garbage-­‐in-­‐garbage-­‐out”  (si  entra  basura,  sale  basura)  es  un  concepto  básico  en  ciencias  de   la  computación  y  se  aplica,  sin  problema,  en  el  área  de  simulación  de  sistemas  discretos.    Aún  cuando  la  estructura  del  modelo  sea  válida  y  robusta,  si  los  datos  de  entrada   han   sido   recolectados   de  manera   inapropiada,     analizados   de  manera   imprecisa   o  simplemente   no   son   representativos,   los   datos   de   salida   o   resultados   del   modelo   serán  inservibles   para   tomar   buenas   decisiones,   derivándose   en   pérdidas   costosas   para   la  organización.    Para   llevar  a  cabo  un  correcto  análisis  de  datos  de  entrada  y   recolectar  datos  que  no  sean  “basura”,  se  recomienda  lo  siguiente:  

• Planeación:  observación  del  sistema  actual  y  situaciones  atípicas,  etc.  • Análisis  de  los  datos  a  medida  que  son  recolectados.  Revisar  su  pertinencia.  • Verificar  homogeneidad  en  los  diferentes  grupos  de  datos.  • Revisar  la  relación  entre  variables.  • Revisar  autocorrelación.  • Diferenciar  claramente  entre  datos  de  entrada  y  de  salida.  

Page 4: CARTILLA SEMANA 3.pdf

 

 4   [ POLITÉCNICO GRANCOLOMBIANO]

2. Identificación  gráfica  de  distribuciones  de  probabilidad  adecuadas  

En   esta   sección   se   describirán   métodos   para   seleccionar   familias   de   distribuciones   de  probabilidad  cuando  los  datos  están  disponibles.  Básicamente,  la  identificación  gráfica,  como  su  nombre  lo   indica,  permite  visualizar   la  forma  de  una  distribución  como  punto  de  partida  para   realizar   una   primera   aproximación   de   al   tipo   de   distribución   que   siguen   los   datos  recolectados  para  la  construcción  del  modelo  de  simulación.    

2.1. Histogramas  

Una   distribución   de   frecuencias   o   un   histograma   es   útil   para   identificar   la   forma   de   una  distribución.  Un  histograma  se  construye  bajo  la  siguiente  metodología:  

1. Dividir  el  rango  de  datos  en  intervalos,  generalmente  de  igual  amplitud  2. Marcar  el  eje  horizontal  del  gráfico  para  conformar  los  intervalos  3. Encontrar  la  frecuencia  de  ocurrencias  dentro  de  cada  intervalo  4. Marcar  en  el  eje  vertical  del  gráfico  el  total  de  ocurrencias  de  cada  intervalo  

El   número   de   intervalos   depende   del   número   de   observaciones   y   de   la   dispersión   de   los  datos.   Generalmente,   en   la   práctica   s   establece   que   el   número   de   intervalos   es  aproximadamente   igual   a   la   raíz   cuadrada  del   tamaño  de   la  muestra   que   se   utiliza   para   el  análisis.   Si   los   intervalos   son   muy   anchos,   el   histograma   no   mostrará   claramente   un  comportamiento  visible  de  la  información.    El  histograma  para  datos  continuos  corresponde  a  la  función  de  densidad  de  la  distribución  teórica   de   los   dato,   mientras   que   para   datos   discretos,   la   forma   del   histograma   debería  parecerse  a  la  función  de  masa  de  la  distribución  teórica.    Sin  embargo,  debe  tenerse  en  cuenta  que  un  histograma  tan  sólo  da  una   idea  de  cómo  se  distribuyen  los  datos,  más  no  es  la  única  herramienta  de  identificación  de  los  mismos.    

Page 5: CARTILLA SEMANA 3.pdf

 

 5 [ SIMULACIÓN ]

   

2.2. Q-­‐Q  Plot  (Diagramas  Cuantil  –  Cuantil)  

Al  igual  que  los  histogramas,  los  gráficos  Cuantil  –  Cuantil  o  Q-­‐Q  plot  dan  una  idea  gráfica  del  posible  comportamiento  que  pueden  seguir  los  datos  de  entrada  que  se  estén  analizando.      La   diferencia   principal   de   un   histograma   y   un   Q-­‐Q   plot   es   que   los   segundos   no  muestran  propiamente   el   comportamiento   de   la   distribución,   si   no   que   muestra   la   relación   de   los  cuantiles   de   la   distribución   que   se   sospecha   siguen   los   datos   con   la   distribución   real,   y   a  partir  de  dicha  relación  es  posible  realizar  conclusiones.    Estrictamente  hablando,  un  cuantil  se  define  de  la  siguiente  manera:    Sea  X  es  una  variable  aleatoria  (VA)  con  función  acumulada  de  probabilidad  Fx(x),  entonces  el  q-­‐cuantil  de  X  es  aquel  valor  !    tal  que  ! ! = ! ! ≤ ! = !.    Luego,  ! = !!!(!).    Ahora   bien,   al   partir   de   este   concepto,   se   presenta   a   continuación   el   algoritmo  (metodología)  a  desarrollar  para  obtener  los  cuantiles  y,  por  lo  tanto,  la  gráfica  que  propone  la  herramienta  debe  realizarse:  

1. Si  se  tiene  una  muestra  de  n  datos  de  X,  estos  deben  ordenarse  de  menor  a  mayor,  y  denotarlos   como   yj,   donde   j   es   el   orden   que   tiene   el   dato   dentro   del   conjunto,   es  decir,  j  =  1  para  el  menor  dato  y  j  =  n  para  el  mayor.    

2. Asignar  una  probabilidad  de  ocurrencia  a  cada  uno  de  los  datos  recolectados,  dicha  probabilidad  es  asignada  de  acuerdo  a  la  expresión  (j-­‐0.5)/n  

3. Basado  en  el  hecho  de  que  yj  es  una  estimación  del  cuantil  (j-­‐0.5)/n  de  X  calculado  en  el  paso  anterior,  debe  calcularse  la  función  inversa  de  la  distribución  que  se  sospecha  siguen  los  datos.  En  otras  palabras:  

Page 6: CARTILLA SEMANA 3.pdf

 

 6   [ POLITÉCNICO GRANCOLOMBIANO]

!! ≅ !!!! − 0.5!  

4. Graficar  yj  v.s.  !!!!!!.!!

 

 Supóngase   que   se   ha   escogido   una   distribución   con   función   F   como   una   posible  representación   de   la   distribución   de   X.   Si   F   es   un   miembro   de   una   familia   apropiada   de  distribuciones,  entonces  la  gráfica  de  yj  versus  F-­‐1  será  aproximadamente  una  línea  recta.    Ejemplo  Se   tienen   los   siguientes   diez   datos   y   se   sospecha   que   siguen   una   distribución   normal   con  media  =  100  y  desviación  estándar  =  13    

105   91   103   83   71  120   100   135   123   9

0    Con   base   en   la   metodología   anterior,   el   primer   paso   consiste   en   ordenarlos   de   menor   a  mayor,  así:    

j   Yj  1   71  2   83  3   90  4   91  5   100  6   103  7   105  8   120  9   123  10   135  

 El  segundo  paso  es  asignarle  una  probabilidad  de  acuerdo  a  la  expresión  (j-­‐0.5)/n:    

j   Yj   Probabilidad  1   71   0,05  2   83   0,15  3   90   0,25  4   91   0,35  5   100   0,45  

Page 7: CARTILLA SEMANA 3.pdf

 

 7 [ SIMULACIÓN ]

6   103   0,55  7   105   0,65  8   120   0,75  9   123   0,85  10   135   0,95  

 El  tercer  paso  es  calcular  la  función  inversa  para  cada  una  de  las  probabilidades  asignadas  en  el   paso   anterior.   Como   en   este   caso   se   sospecha   que   los   datos   siguen   una   distribución  normal   con   media   =   100   y   desviación   estándar   =   13,   debe   calcularse   la   inversa   de   una  distribución  normal.    

j   Yj  Probabilid

ad  Función  inversa  

1   71   0,05   78,616903  2   83   0,15   86,526366  3   90   0,25   91,231633  4   91   0,35   94,990834  5   100   0,45   98,366402  6   103   0,55   101,633598  7   105   0,65   105,009166  8   120   0,75   108,768367  9   123   0,85   113,473634  10   135   0,95   121,383097  

 Nota:   si   por   ejemplo,   se   hubiese   dicho   que   se   sospechaba   que   los   datos   seguían   una  distribución  exponencial,   los  pasos  1  y  2  se  debían  haber  realizado  de  la  misma  forma,  pero  en  el  paso  tres  debería  haberse  calculado  la  inversa  de  una  distribución  exponencial  y  no  de  la  normal,  es  decir,   la  función  inversa  se  calcula  con  base  en  la  distribución  de  probabilidad  que  se  sospecha  siguen  los  datos.  

Page 8: CARTILLA SEMANA 3.pdf

 

 8   [ POLITÉCNICO GRANCOLOMBIANO]

   La   columna   denominada   Probabilidad,   corresponde   al   cálculo   del   cuantil   respectivo.   Por  ejemplo,  para  j  =  1,  al  reemplazar  en  la  expresión  !!!/!

!,  da  como  resultado  0,05,  para  n  =  10.  

La   columna   de   Función   Inversa,   se   puede   calcular   utilizando   Excel,   mediante   la   función  DISTR.NORM.INV,  con  parámetros:  media  =  100;  desviación  estándar  =  13;  probabilidad  =   la  recién  calculada  para  cada  uno  de  los  datos.    Cabe   anotar   que   la   decisión   de   aceptar   o   rechazar   la   hipótesis   es   subjetiva,   por   cuanto   la  apreciación   de   la   gráfica   y   el   ajuste   de   los   puntos   a   una   línea   recta   parten   de   simple  observación.    

2.3. P-­‐P  Plot  (Diagramas  probabilidad  –  probabilidad)  

Al   igual   que   con   el   diagrama   Q-­‐Q,   el   diagrama   P-­‐P   permite   evaluar   un   conjunto   de   datos  mediante  la  comparación  de  una  distribución  teórica  de  probabilidad.  Su  principal  diferencia  con   respecto   al   diagrama   anteriormente   descrito,   radica   en   que   los   valores   a   contrastar  corresponden  al  cuantil   calculado  versus   la   función  de  distribución  acumulada.  Si   los  datos  corresponden   a   la   distribución   teórica   que   se   está   probando,   la   nube   de   puntos   debe  aproximarse  a  una  línea  recta.    Ahora  bien,  a  partir  de  lo  anterior,  se  presenta,  a  continuación,  el  algoritmo  (metodología)  a  desarrollar  para  obtener  los  percentiles  y,  por  lo  tanto,  la  gráfica  que  propone  la  herramienta  debe  realizarse:  

1. Si  se  tiene  una  muestra  de  n  datos  de  X,  estos  deben  ordenarse  de  menor  a  mayor,  y  denotarlos   como   yj,   donde   j   es   el   orden   que   tiene   el   dato   dentro   del   conjunto,   es  decir,  j  =  1  para  el  menor  dato  y  j  =  n  para  el  mayor.    

0

20

40

60

80

100

120

140

0 20 40 60 80 100 120 140 160

Page 9: CARTILLA SEMANA 3.pdf

 

 9 [ SIMULACIÓN ]

2. Asignar  una  probabilidad  de  ocurrencia  a  cada  uno  de  los  datos  recolectados,  dicha  probabilidad  es  asignada  de  acuerdo  a  la  expresión  (j-­‐0.5)/n  

3. Calcular  la  probabilidad  “real”  de  que  se  de  cada  uno  de  los  valores  de  los  datos  que  se  recolectaron.  En  otras  palabras:  

!! !!  

4. Graficar  !!!.!!  v.s.  !! !!  

 

Ejemplo  Se   tienen   los   siguientes  diez  datos,   y   se   sospecha  que   siguen  una  distribución  normal   con  media  =  100  y  desviación  estándar  =  13    

105   91   103   83   71  120   100   135   123   9

0    Con   base   en   la   metodología   anterior,   el   primer   paso   consiste   en   ordenarlos   de   menor   a  mayor,  así:    

j   Yj  1   71  2   83  3   90  4   91  5   100  6   103  7   105  8   120  9   123  10   135  

 El  segundo  paso  es  asignarle  una  probabilidad  de  acuerdo  a  la  expresión  (j-­‐0.5)/n:    

j   Yj   Probabilidad  1   71   0,05  2   83   0,15  3   90   0,25  4   91   0,35  5   100   0,45  6   103   0,55  

Page 10: CARTILLA SEMANA 3.pdf

 

 10   [ POLITÉCNICO GRANCOLOMBIANO]

7   105   0,65  8   120   0,75  9   123   0,85  10   135   0,95  

 El   tercer   paso   es   calcular   la   probabilidad   real   para   cada   uno   de   los   valores   de   los   datos  ordenados  en  el  paso  1.  Como  en  este  caso  se  sospecha  que  los  datos  siguen  una  distribución  normal  con  media  =  100  y  desviación  estándar  =  13,  debe  calcularse  la  probabilidad  de  los  yj  con  esta  distribución.    

j   Yj  Probabilida

d   Acumulada  1   71   0,05   0,01284821  

2   83   0,15  0,0954888

5  3   90   0,25   0,22087816  

4   91   0,35  0,2443720

6  5   100   0,45   0,5  6   103   0,55   0,59125296  7   105   0,65   0,6497388  8   120   0,75   0,9380321  9   123   0,85   0,96157231  

10   135   0,95  0,9964520

3    Nota:   si   por   ejemplo   se   hubiese   dicho   que   se   sospechaba   que   los   datos   seguían   una  distribución  exponencial,   los  pasos  1  y  2  se  debían  haber  realizado  de  la  misma  forma,  pero  en  el  paso  tres  debería  haberse  calculado  la  probabilidad  con  una  distribución  exponencial  y  no   de   la   normal,   es   decir,   la   probabilidad   se   calcula   con   base   en   la   distribución   de  probabilidad  que  se  sospecha  siguen  los  datos.    

Page 11: CARTILLA SEMANA 3.pdf

 

 11 [ SIMULACIÓN ]

   

3. Pruebas  de  bondad  de  ajuste  

Las  pruebas  de  bondad  de  ajuste  son  pruebas  de  hipótesis  que  permiten  evaluar  la  idoneidad  de   un   conjunto   de   datos,   dada   una   distribución   teórica   de   probabilidad   donde   se   podrían  ajustar.  Como  toda  prueba  de  hipótesis,  esta  comienza  con  el  enunciado  de  la  hipótesis  nula  y  alternativa.  La  hipótesis  nula  afirma  que   la  variable  aleatoria  que  describe  el  conjunto  de  datos,   se  distribuye   según   la   función  de  probabilidad  propuesta,  mientras  que   la   hipótesis  alternativa  contradice  tal  afirmación.    Nota:  Las  pruebas  de  hipótesis  corresponden  a  procesos  de  toma  de  decisión  estadísticos.  El  modelador  formula  dos  hipótesis  complementarias,  llamadas  la  hipótesis  nula  (denotada  por  H0)   y   la   hipótesis   alternativa   (denotada   por  H1).   Generalmente,   una   decisión   se   asocia   a   la  hipótesis   nula,   la   cual   puede   ser   aceptada   o   rechazada.   Consecuentemente,   se   pueden  generar  dos  tipos  de  error:  

- Error  tipo  I:  Rechazar  H0  erróneamente  - Error  tipo  II:  aceptar  H0    erróneamente  

El  objetivo  de  las  pruebas  de  hipótesis  es  rechazar  (o  aceptar  H0)  de  tal  manera  que  si    H0    es  en  realidad  verdadera,  entonces  la  probabilidad  de  rechazarla  erróneamente  (error  tipo  I),  no   exceda   un   valor   de   probabilidad   previamente   definido,  α,   el   cual   es   llamado   nivel   de  confianza  o  nivel  de  significancia.  Mientras  más  pequeño  es  α,  más  alta  es  la  confianza  en  la  decisión  de  rechazo  correspondiente.    

     

0

0,2

0,4

0,6

0,8

1

1,2

0 0,2 0,4 0,6 0,8 1

Page 12: CARTILLA SEMANA 3.pdf

 

 12   [ POLITÉCNICO GRANCOLOMBIANO]

3.1. Prueba  Chi  Cuadrado  

Para  realizar  esta  prueba  se  disponen  los  datos  en  una  tabla  de  frecuencias.  Para  cada  valor  o  intervalo   de   valores   se   indica   la   frecuencia   absoluta   observada   (Oi).   A   continuación,   y  suponiendo  que  la  hipótesis  nula  es  cierta,  se  calculan  para  cada  valor  o  intervalo  de  valores,  la  frecuencia  esperada  (Ei=n·∙pi,  donde  n  es  el  tamaño  de  la  muestra  y  pi  la  probabilidad  del  i-­‐ésimo  valor  o  intervalo  de  valores  según  la  hipótesis  nula).      Para  emplear  esta  metodología  que  es  analíticamente  más  confiable  que   los  histogramas  o  gráficos  P-­‐P  y  Q-­‐Q,  es  necesario  calcular  un  estadístico  de  prueba.  Dicho  estadístico  se  calcula  con  base  en  la  frecuencia  observada  y  frecuencia  esperada,  así:    

! =!! − !! !

!!

!

!!!

 

 

Este   estadístico   tiene   una   distribución   Chi-­‐cuadrado   con   k-­‐1   grados   de   libertad   si   n   es  suficientemente  grande,  es  decir,  si  todas  las  frecuencias  esperadas  son  mayores  que  5.    Si   existe   concordancia   perfecta   entre   las   frecuencias   observadas   y   las   esperadas,   el  estadístico  tomará  un  valor   igual  a  0;  por  el  contrario,  si  existe  una  gran  discrepancia  entre  estas  frecuencias,  el  estadístico  tomará  un  valor  grande  y,  en  consecuencia,  se  rechazará  la  hipótesis   nula.   Así   pues,   la   región   crítica   estará   situada   en   el   extremo   superior   de   la  distribución  Chi-­‐cuadrado  con  k-­‐1  grados  de  libertad.  

Ejemplo  La   distribución   de   los   ingresos   anuales   en   dólares   de   una   muestra   de   100   familias,   que  habitan  en  cierta  población  presentó  los  siguientes  resultados:    

Ingresos  anuales  en  miles  de  dólares  

Frecuencia  Observada  (Oi)  

40  ≤  x  ≤  60   12  60  <  x  ≤  80   8  80  <x  ≤  100   25  100  <x  ≤  120   30  120  <x  ≤  140   25  

 Puede  admitirse  que   los   ingresos  de   las   familias  que  habitan  en  dicha  población   sigue  una  distribución  uniforme  en  el  intervalo  [40.000  –  140.000]  con  un  nivel  de  significancia  del  5%.    Dado  que  ya  se  tienen  las  frecuencias  observadas,  el  siguiente  paso  es  calcular  la  frecuencia  esperada   Ei,   se   debe   que   esta   siempre   será   igual   a   pi·∙n,   donde   n   es   el   número   total   de  

Page 13: CARTILLA SEMANA 3.pdf

 

 13 [ SIMULACIÓN ]

observaciones   y   pi   es   la   probabilidad   de   la   clase   estimada   con   base   en   la   función   de  distribución  de  probabilidad  que  se  sospecha  tienen  los  datos.    Dado  que  se  sospecha  que  los  datos  siguen  una  distribución  uniforme  [40  –  140],  el  cálculo  de   la   probabilidad   pi   debería   realizarse   con   la   función   de   densidad   acumulada   de   una  uniforme  que  como  habíamos  visto  en  la  semana  2  del  curso  es  igual  a:    

!! ! =! − !! − !  

 Para  la  primera  clase  pi,  sería  entonces:    ! 40 < ! ≤ 60 = ! ! ≤ 60 − ! ! ≤ 40    

! 40 < ! ≤ 60 =60− 40140− 40−

40− 40140− 40  

 ! 40 < ! ≤ 60 = 0,2− 0    ! 40 < ! ≤ 60 = 0,2    Entonces  Ei  sería  0,2*100  =20    Nota:   Dado   que   se   sospechaba   que   los   datos   seguían   una   distribución   uniforme,   la  probabilidad   fue   calculada   con   la   función  de  densidad   acumulada  de   la   uniforme,   si   por   el  contrario   se   hubiese   sospechado   que   los   datos   seguían   una   distribución   exponencial,   la  probabilidad   debería   haber   sido   calculada   con   la   función   de   densidad   acumulada   de   la  exponencial,   si   se   hubiese   sospechado   que   los   datos   seguían   una   distribución   Poisson,  entonces  debía  haberse  calculado  la  probabilidad  con  la  función  de  densidad  de  una  Poisson,  etc…    Este  procedimiento   se   repite   para   cada   una  de   las   clases,   donde   se  obtiene   los   siguientes  resultados:    

Ingresos  anuales  en  miles  de  dólares  

Frecuencia  Observada  

(Oi)  

Probabilidad  

Frecuencia  Esperada  (Ei)  

40  ≤  x  ≤  60   12   0,2   20  60  <  x  ≤  80   8   0,2   20  80  <x  ≤  100   25   0,2   20  100  <x  ≤  120   30   0,2   20  120  <x  ≤  140   25   0,2   20  

Page 14: CARTILLA SEMANA 3.pdf

 

 14   [ POLITÉCNICO GRANCOLOMBIANO]

 Al  tener  los  valores  de  la  frecuencia  observada  y  de  la  frecuencia  esperada,  es  posible  realizar  el  cálculo  del  estadístico  recordando  que  este  es  igual  a    

! =!! − !! !

!!

!

!!!

 

 Se  obtienen,  entonces,  los  siguientes  resultados:    

Ingresos  anuales  en  miles  de  dólares  

Frecuencia  Observada  

(Oi)  

Probabilidad  

Frecuencia  Esperada  (Ei)  

(Oi-­‐Ei)2/Ei  

40  ≤  x  ≤  60   12   0,2   20   3.2  60  <  x  ≤  80   8   0,2   20   7.2  80  <x  ≤  100   25   0,2   20   1.25  100  <x  ≤  120   30   0,2   20   5  120  <x  ≤  140   25   0,2   20   1.25  

  Y  =   17.9    Una  vez  obtenido  el  estadístico,  este  deberá  compararse  con  el   valor  Chi2  de   la   tabla  Chi2.  Para  calcular  este  valor,  recuerde  que  debe  tenerse  presente  el  nivel  de  significancia  con  que  se  realizó  la  prueba  y  los  grados  de  libertad.    Para  este  ejemplo  en  específico  se  sugirió  que  alfa  fuera  igual  a  0.05  y  los  grados  de  libertad  siempre  serán  iguales  al  número  de  clases  menos  1,  es  decir,  que  para  el  ejercicio  los  grados  de  libertad  serían  df  =  5-­‐1  =  4    Al  observar  la  tabla  de  la  Chi2  ,  apreciamos  que  el  resultado  es:    

   Finalmente,  para  concluir,  si  se  rechaza  o  no  la  hipótesis  de  que  la  distribución  de  los  ingresos  anuales  de  dichas  familias  siguen  una  distribución  entre  [40.000  –  140.000],  se  deben  comparar  los  valores  del  estadístico  calculado  Y  y  los  de  la  tabla  Chi2,  así:  

Page 15: CARTILLA SEMANA 3.pdf

 

 15 [ SIMULACIÓN ]

 

- Si  el  estadístico  Y  es  menor  al  valor  en  tabla  de  la  Chi2,  entonces  no  se  rechaza  la  hipótesis  nula  de  lo  contrario  se  rechaza  

 Para  este  ejemplo  en  particular,  dado  que  Y  =  17.9  no  es  menor  a  9.48,  entonces  se  debe  rechazar  la  hipótesis  nula  y,  por  lo  tanto,  se  concluye  que  el  ingreso  anual  de  las  familias  no  sigue  una  distribución  uniforme  ente  [40.000  –  140.000].    

3.2. Prueba  Kolmogorov-­‐Smirnov  

En   esta   prueba   se   pretende   medir   la   mayor   desviación   entre   la   función   de   distribución  teórica   y   la   empírica.   Esta   desviación   se   compara   con   el   valor   crítico   respectivo,   según   la  tabla  asociada  a  este  tipo  de  prueba.  Una  ventaja  de  esta  prueba  consiste  en  que  funciona  muy  bien  para  cualquier  tamaño  de  muestra,  incluso  para  conjuntos  de  datos  muy  pequeños.    El  algoritmo  para  ejecutar  esta  prueba  es  como  sigue:       1.    Ordenar  los  datos  de  manera  ascendente     2.    Calcular  F  (X)  para  cada  uno  de  los  datos     3.    Calcular  las  siguientes  desviaciones    

!! = !"#!! − ! !  

!! = !"# ! ! −! − 1!  

    4.    Estimar  el  estadístico  de  la  prueba  dado  por  ! = max !!,!! .  5.    Determinar  el  valor  crítico  !!  de  la  tabla,  para  un  nivel  de  significancia  α  y  un  tamaño  de  muestra  N.  6.     Si   el   estadístico   de   la   prueba   es   mayor   que   el   valor   crítico   de   la   tabla,   entonces   se  rechaza  la  hipótesis.    Ejemplo  

Se  tomaron  mediciones  de  tiempo  de  un  proceso  crítico  en  una  línea  de  producción,    donde  se  tiene  la  siguiente  información  (en  segundos):    

17,3   19,6   10,7   11,3   17,8  16,1   18,0   17,6   18,7   14,5  

 

Page 16: CARTILLA SEMANA 3.pdf

 

 16   [ POLITÉCNICO GRANCOLOMBIANO]

Se  quiere  comprobar   la  hipótesis  de  que  este  tiempo  sigue  una  distribución  uniforme  con  parámetros  (10,  20)  segundos,  con  un  nivel  de  confianza  del  95%.    De   manera   similar   a   la   elaboración   de   los   diagramas   Q-­‐Q   y   P-­‐P,   resulta   bastante   útil   la  elaboración  de  una  tabla  para  completar  la  prueba.    

   

D+  =  0,07  D-­‐    =  0,33  

 Entonces,   el   estadístico   de   la   prueba   corresponde   a   0,33.   Se   procede   ahora   a   consultar   la  tabla  de  valores  críticos  de  la  prueba  Kolmogorov-­‐Smirnov,  la  cual  se  muestra  a  continuación:    

   

Se  puede  observar  que  el  valor  crítico  equivale  a  0,40925,  para  un  tamaño  de  muestra  n  =  10,  y  un  nivel  de  significancia  del  5%.  Como  este  valor  es  mayor  al  estadístico  de   la  prueba,  no  

Page 17: CARTILLA SEMANA 3.pdf

 

 17 [ SIMULACIÓN ]

existe   suficiente   evidencia   estadística   para   rechazar   la   hipótesis   de   que   los   datos   se  distribuyen  uniformemente.    

4. Interpretación  P-­‐Value  

Otra   forma   de   determinar   si   se   rechaza   o   no   una   hipótesis   sin   emplear   directamente   los  estimadores,  es  a  través  del  concepto  de  P-­‐value  (esta  metodología  es  la  que  suelen  emplear  la  gran  mayoría  de  software  estadísticos  capaces  de  realizar  análisis  de  entrada).    El  P-­‐Value  corresponde  al  área  superior  derecha  a  partir  del  estadístico  de  prueba,  es  decir,  es   la   probabilidad   acumulada   que   existe   después   del   estadístico   de   prueba.   Por   ejemplo,  para   el   caso   de   la   prueba   Chi2   realizada   en   el   ejemplo,   podemos   ver   que   el   p-­‐value  corresponde  al  área  amarilla  +  área  azul:    

   Con  base  en  este  análisis,  las  conclusiones  se  tomarían  así:    

Si  el  p-­‐value  es  menor  que  el  nivel  de  significancia,  entonces  se  debe  rechazar  la  hipótesis  nula,  de  lo  contrario  no  se  rechaza.