Probabilidad y estadistica para ingenieria y ciencias by jay devore

742

description

INGENIERÍA CIVIL

Transcript of Probabilidad y estadistica para ingenieria y ciencias by jay devore

  • 1. Devore.pdf 12/3/08 10:13:56

2. 00Ander(i-xxviii).qxd 2/29/08 10:41 AM Page iv 3. SPTIMA EDICIN Probabilidad y Estadstica para Ingeniera y Ciencias Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page i 4. Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page ii 5. Probabilidad y Estadstica para Ingeniera y Ciencias JAY L. DEVORE California Polytechnic State University, San Luis Obispo Traduccin Jorge Humberto Romo Traductor profesional Revisin Tcnica A. Leonardo Bauelos Saucedo Profesor de carrera titular Facultad de Ingeniera Universidad Nacional Autnoma de Mxico Australia Brasil Corea Espaa Estados Unidos Japn Mxico Singapur Reino Unido SPTIMA EDICIN Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page iii 6. Probabilidad y Estadstica para Ingeniera y Ciencias Sptima edicin Jay L. Devore Presidente de Cengage Learning Latinoamrica: Javier Arellano Gutirrez Director general Mxico y Centroamrica: Hctor Enrique Galindo Iturribarra Director editorial Latinoamrica: Jos Toms Prez Bonilla Director de produccin: Ral D. Zendejas Espejel Editor: Sergio R. Cervantes Gonzlez Editora de produccin: Abril Vega Orozco Ilustrador: Lori Heckelman / Graphic World, International Typesetting and Composition Diseo de portada: Grupo Insigne OTA S. A. de C. V. Composicin tipogrfica: EDITEC, S.A. de C.V D.R. 2008 por Cengage Learning Editores, S.A. de C.V., una Compaa de Cengage Learning, Inc. Corporativo Santa Fe Av. Santa Fe nm. 505, piso 12 Col. Cruz Manca, Santa Fe C.P. 05349, Mxico, D.F. Cengage Learning es una marca registrada usada bajo permiso. DERECHOS RESERVADOS. Ninguna parte de este trabajo amparado por la Ley Federal del Derecho de Autor, podr ser reproducida, transmitida, almacenada o utilizada en cualquier forma o por cualquier medio, ya sea grfico, electrnico o mecnico, incluyendo, pero sin limitarse a lo siguiente: fotocopiado, reproduccin, escaneo, digitalizacin, grabacin en audio, distribucin en Internet, distribucin en redes de informacin o almacenamiento y recopilacin en sistemas de informacin a excepcin de lo permitido en el Captulo III, Artculo 27 de la Ley Federal del Derecho de Autor, sin el consentimiento por escrito de la Editorial. Traducido del libro Probability and Statistics for Engineering and the Sciences. Seventh Edition. Publicado en ingls por Brooks/Cole 2008 ISBN: 0-495-38217-5 Datos para catalogacin bibliogrfica: Devore, Jay L. Probabilidad y Estadstica para Ingeniera y Ciencias. Sptima edicin. ISBN-13: 978-607-481-338-8 ISBN-10: 607-481-338-8 Visite nuestro sitio en: http://latinoamerica.cengage.com Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page iv 7. v A mi esposa Carol: Su esmero en la enseanza es una continua inspiracin para m. A mis hijas, Allison y Teresa: Con gran orgullo admito sus logros que no conocen ningn lmite. Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page v 8. Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page vi 9. vii Contenido Introduccin 1 1.1 Poblaciones, muestras y procesos 2 1.2 Mtodos pictricos y tabulares en la estadstica descriptiva 10 1.3 Medidas de localizacin 24 1.4 Medidas de variabilidad 31 Ejercicios suplementarios 42 Bibliografa 45 1 Generalidades y estadstica descriptiva 2 Probabilidad Introduccin 46 2.1 Espacios muestrales y eventos 47 2.2 Axiomas, interpretaciones y propiedades de probabilidad 51 2.3 Tcnicas de conteo 59 2.4 Probabilidad condicional 67 2.5 Independencia 76 Ejercicios suplementarios 82 Bibliografa 85 Introduccin 86 3.1 Variables aleatorias 87 3.2 Distribuciones de probabilidad para variables aleatorias discretas 90 3.3 Valores esperados 100 3.4 Distribucin de probabilidad binomial 108 3.5 Distribuciones hipergeomtricas y binomiales negativas 116 3.6 Distribucin de probabilidad de Poisson 121 Ejercicios suplementarios 126 Bibliografa 129 3 Variables aleatorias discretas y distribuciones de probabilidad Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page vii 10. viii Contenido Introduccin 130 4.1 Funciones de densidad de probabilidad 131 4.2 Funciones de distribucin acumulativa y valores esperados 136 4.3 Distribucin normal 144 4.4 Distribuciones exponencial y gama 157 4.5 Otras distribuciones continuas 163 4.6 Grficas de probabilidad 170 Ejercicios suplementarios 179 Bibliografa 183 4 Variables aleatorias continuas y distribuciones de probabilidad Introduccin 184 5.1 Variables aleatorias conjuntamente distribuidas 185 5.2 Valores esperados, covarianza y correlacin 196 5.3 Estadsticos y sus distribuciones 202 5.4 Distribucin de la media muestral 213 5.5 Distribucin de una combinacin lineal 219 Ejercicios suplementarios 224 Bibliografa 226 Introduccin 254 7.1 Propiedades bsicas de los intervalos de confianza 255 7.2 Intervalos de confianza de muestra grande para una media y proporcin de poblacin 263 Introduccin 227 6.1 Algunos conceptos generales de estimacin puntual 228 6.2 Mtodos de estimacin puntual 243 Ejercicios suplementarios 252 Bibliografa 253 5 Distribuciones de probabilidad conjunta y muestras aleatorias 6 Estimacin puntual 7 Intervalos estadsticos basados en una sola muestra Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page viii 11. 7.3 Intervalos basados en una distribucin de poblacin normal 270 7.4 Intervalos de confianza para la varianza y desviacin estndar de una poblacin normal 278 Ejercicios suplementarios 281 Bibliografa 283 Contenido ix Introduccin 284 8.1 Hiptesis y procedimientos de prueba 285 8.2 Pruebas sobre una media de poblacin 294 8.3 Pruebas relacionadas con una proporcin de poblacin 306 8.4 Valores P 311 8.5 Algunos comentarios sobre la seleccin de una prueba 318 Ejercicios suplementarios 321 Bibliografa 324 Introduccin 369 10.1 ANOVA unifactorial 370 10.2 Comparaciones mltiples en ANOVA 379 10.3 Ms sobre ANOVA unifactorial 385 Ejercicios suplementarios 395 Bibliografa 396 Introduccin 325 9.1 Pruebas z e intervalos de confianza para una diferencia entre dos medias de poblacin 326 9.2 Prueba t con dos muestras e intervalo de confianza 336 9.4 Inferencias sobre una diferencia entre proporciones de poblacin 353 9.5 Inferencias sobre dos varianzas de poblacin 360 Ejercicios suplementarios 364 Bibliografa 368 8 Pruebas de hiptesis basadas en una sola muestra 9 Inferencias basadas en dos muestras 10 Anlisis de la varianza Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page ix 12. Introduccin 397 11.1 ANOVA bifactorial con Kij 1 398 11.2 ANOVA bifactorial con Kij 1 410 11.3 ANOVA con tres factores 419 11.4 Experimentos 2p factoriales 429 Ejercicios suplementarios 442 Bibliografa 445 x Contenido 12 Regresin lineal simple y correlacin 13 Regresin mltiple y no lineal 11 Anlisis de varianza con varios factores Introduccin 446 12.1 Modelo de regresin lineal simple 447 12.2 Estimacin de parmetros de modelo 454 12.3 Inferencias sobre el parmetro de pendiente 1 468 12.4 Inferencias sobre Yx* y prediccin de valores Y futuros 477 12.5 Correlacin 485 Ejercicios suplementarios 494 Bibliografa 499 Introduccin 500 13.1 Aptitud y verificacin del modelo 501 13.2 Regresin con variables transformadas 508 13.3 Regresin con polinomios 519 13.4 Anlisis de regresin mltiple 528 13.5 Otros problemas en regresin mltiple 550 Ejercicios suplementarios 562 Bibliografa 567 Introduccin 568 14.1 Pruebas de bondad de ajuste cuando las probabilidades categricas se satisfacen por completo 569 14.2 Pruebas de bondad de ajuste para hiptesis compuestas 576 14 Pruebas de bondad de ajuste y anlisis de datos categricos Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page x 13. 14.3 Tablas de contingencia mutuas (o bidireccionales) 587 Ejercicios suplementarios 595 Bibliografa 598 Contenido xi 15 Procedimientos sin distribucin 16 Mtodos de control de calidad Apndice/Tablas Introduccin 599 15.1 La prueba Wilcoxon de rango con signo 600 15.2 Prueba Wilcoxon de suma de rangos 608 15.3 Intervalos de confianza sin distribucin 614 15.4 ANOVA sin distribucin 618 Ejercicios suplementarios 622 Bibliografa 624 Introduccin 625 16.1 Comentarios generales sobre grficas de control 626 16.2 Grficas de control para ubicacin de proceso 627 16.3 Grficas de control para variacin de proceso 637 16.4 Grficas de control para atributos 641 16.5 Procedimientos CUSUM 646 16.6 Muestreo de aceptacin 654 Ejercicios suplementarios 660 Bibliografa 661 A.1 Distribuciones binomiales acumulativas 664 A.2 Distribuciones acumulativas de Poisson 666 A.3 reas de la Curva normal estndar 668 A.4 La Funcin Gamma incompleta 670 A.5 Valores crticos para Distribuciones t 671 A.6 Valores crticos de tolerancia para distribuciones normales de poblacin 672 A.7 Valores crticos para distribuciones chi-cuadrada 673 A.8 Curva t para reas de cola 674 A.9 Valores crticos para distribuciones F 676 A.10 Valores crticos para distribuciones de rango estudentizado 682 Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page xi 14. A.11 Curvas chi-cuadrada para reas de cola 683 A.12 Valores crticos para la prueba de normalidad Ryan-Joiner 685 A.13 Valores crticos para la prueba Wilcoxon de rangos con signo 686 A.14 Valores crticos para la prueba Wilcoxon de suma de rangos 687 A.15 Valores crticos para el intervalo Wilcoxon de rangos con signo 688 A.16 Valores crticos para el intervalo Wilcoxon de suma de rangos 689 A.17 Curvas para pruebas t 690 Respuestas a ejercicios seleccionados de nmero impar 691 ndice 710 xii Contenido Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page xii 15. xiii Propsito El uso de modelos de probabilidad y mtodos estadsticos para analizar datos se ha conver- tido en una prctica comn en virtualmente todas las disciplinas cientficas. Este libro pre- tende introducir con amplitud aquellos modelos y mtodos que con mayor probabilidad se encuentran y utilizan los estudiantes en sus carreras de ingeniera y las ciencias naturales. Aun cuando los ejemplos y ejercicios se disearon pensando en los cientficos e ingenieros, la mayora de los mtodos tratados son bsicos en los anlisis estadsticos en muchas otras disciplinas, por lo que los estudiantes de las ciencias administrativas y sociales tambin se beneficiarn con la lectura del libro. Enfoque Los estudiantes de un curso de estadstica diseado para servir a otras especialidades de es- tudio al principio es posible que duden del valor pertinencia de la materia, pero mi experien- cia es que los estudiantes pueden ser conectados a la estadstica con el uso de buenos ejemplos y ejercicios que combinen sus experiencias diarias con sus intereses cientficos. As pues, he trabajado duro para encontrar ejemplos reales y no artificiales, que alguien pen- s que vala la pena recopilar y analizar. Muchos de los mtodos presentados, sobre todo en los ltimos captulos sobre inferencia estadstica, se ilustran analizando datos tomados de una fuente publicada y muchos de los ejercicios tambin implican trabajar con dichos da- tos. En ocasiones es posible que el lector no est familiarizado con el contexto de un pro- blema particular (como muchas veces yo lo estuve), pero me di cuenta que los problemas reales atraen ms a los estudiantes con un contexto un tanto extrao que por problemas de- finitivamente artificiales en un entorno conocido. Nivel matemtico La exposicin es relativamente modesta en funcin de desarrollo matemtico. El uso sus- tancial del clculo se hace slo en el captulo 4 y en partes de los captulos 5 y 6. En par- ticular, con excepcin de una observacin o nota ocasional, el clculo aparece en la parte de inferencia del libro slo en la segunda seccin del captulo 6. No se utiliza lgebra matricial en absoluto. Por lo tanto, casi toda la exposicin deber ser accesible para aquellos cuyo co- nocimiento matemtico incluye un semestre o dos trimestres de clculo diferencial e in- tegral. Contenido El captulo 1 se inicia con algunos conceptos y terminologa bsicos (poblacin, muestra, estadstica descriptiva e inferencial, estudios enumerativos contra analticos, y as sucesiva- mente) y contina con el estudio de mtodos descriptivos grficos y numricos importantes. En el captulo 2 se ofrece el desarrollo un tanto tradicional de la probabilidad, seguido por distribuciones de probabilidad de variables aleatorias continuas y discretas en los captulos 3 y 4, respectivamente. Las distribuciones conjuntas y sus propiedades se analizan en la pri- mera parte del captulo 5. La ltima parte de este captulo introduce la estadstica y sus dis- tribuciones muestrales, las cuales constituyen el puente entre probabilidad e inferencia. Los siguientes tres captulos se ocupan de la estimacin puntual, los intervalos estadsticos y la comprobacin de hiptesis basados en una muestra nica. Los mtodos de inferencia que implican dos muestras independientes y datos apareados se presentan en el captulo 9. El anlisis de la varianza es el tema de los captulos 10 y 11 (unifactorial y multifactorial, Prefacio Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page xiii 16. xiv Prefacio respectivamente). La regresin aparece por primera vez en el captulo 12 (el modelo de re- gresin lineal simple y correlacin) y regresa para una amplia repeticin en el captulo 13. Los ltimos tres captulos analizan mtodos de ji cuadrada, procedimientos sin distribucin (no paramtricos) y tcnicas de control de calidad estadstico. Ayuda para el aprendizaje de los estudiantes Aunque el nivel matemtico del libro representar poca dificultad para la mayora de los es- tudiantes de ciencia e ingeniera, es posible que el trabajo dirigido hacia la comprensin de los conceptos y apreciacin del desarrollo lgico de la metodologa en ocasiones requiera un esfuerzo sustancial. Para ayudar a que los estudiantes ganen en comprensin y aprecia- cin he proporcionado numerosos ejercicios de dificultad variable desde muchos que impli- can la aplicacin rutinaria del material incluido en el texto hasta algunos que piden al lector que extienda los conceptos analizados en el texto a situaciones un tanto nuevas. Existen mu- chos ejercicios que la mayora de los profesores deseara asignar durante cualquier curso particular, pero recomiendo que se les pida a los estudiantes que resuelvan un nmero sus- tancial de ellos; en una disciplina de solucin de problemas, el compromiso activo de esta clase es la forma ms segura de identificar y cerrar las brechas en el entendimiento que ine- vitablemente surgen. Las respuestas a la mayora de los ejercicios impares aparecen en la seccin de respuestas al final del texto. Adems, est disponible un Manual de Soluciones para el Estudiante, que incluye soluciones resueltas de casi todos los ejercicios de nmero impar. Nuevo en esta edicin Ejercicios y ejemplos nuevos, muchos basados en fuentes publicadas que incluyen datos reales. Algunos de los ejercicios permiten una interpretacin ms amplia de los ejerci- cios tradicionales que incluyen cuestiones muy especficas y algunos de stos implican material de las primeras secciones y captulos. El material de los captulos 2 y 3 sobre propiedades de probabilidad, conteo y tipos de va- riables aleatorias se reescribi para alcanzar una mayor claridad. La seccin 3.6 sobre la distribucin de Poisson ha sido revisada, incluido el material nue- vo sobre la aproximacin de Poisson a la distribucin binomial y la reorganizacin de la subseccin sobre procesos de Poisson. El material de la seccin 4.4 sobre distribuciones gama y exponencial ha sido reordenado de tal suerte que las segundas aparecen antes que las primeras. Esto es muy conveniente para aquellos que desean abordar la distribucin exponencial y evitar la distribucin gama. Una breve introduccin al error en la media de los cuadrados en la seccin 6.1 ahora apa- rece como ayuda para motivar la propiedad de insesgabilidad y se da un ejemplo nuevo que ilustra la posibilidad de tener ms de un solo estimador insesgado razonable. Existe un nfasis disminuido en los clculos manuales en el ANOVA multifactorial para reflejar el hecho de que ahora hay software apropiado ampliamente disponible y ahora se incluyen grficas residuales para verificar suposiciones de modelo. Se han realizado miles de pequeos cambios en la redaccin a lo largo del libro para me- jorar las explicaciones y pulir la exposicin. El sitio web incluye applets Java creados por Gary McClelland, especficamente para este texto basado en el clculo, as como tambin conjuntos de datos tomados del texto principal. WebAssign, el sistema de asignacin de tareas ms ampliamente utilizado en la educacin superior, permite asignar, reunir, calificar y registrar tareas va la web. Este comprobado sistema de asignacin de tareas ha sido mejorado para incluir vnculos al contenido espe- cfico del texto, ejemplos de video y tutoriales propios del problema. Disponible para es- te libro, Enhanced WebAssign es ms que un sistema de asignacin de tareas; es un completo sistema de aprendizaje para los estudiantes. Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page xiv 17. Material de apoyo para el profesor Este libro cuenta con una serie de recursos para el profesor, los cuales estn disponibles en el ingls y slo se proporcionan a los docentes que lo adopten como texto en sus cursos. Para mayor informacin, pngase en contacto con el rea de servicio a clientes en las siguientes direcciones de correo electrnico: Cengage Learning Mxico y Centroamrica [email protected] Cengage Learning Caribe [email protected] Cengage Learning Cono Sur [email protected] Cengage Learning Paraninfo [email protected] Cengage Learning Pacto Andino [email protected] Los recursos disponibles se encuentran en el sitio web del libro: http: //latinoamerica.cengage.com/devore Las direcciones de los sitios web referidas en el texto no son administradas por Cengage Learning Latinoamrica, por lo que sta no es responsable de los cambios o actualizaciones de las mismas. Prefacio xv Reconocimentos Mis colegas en Cal Poly me proporcionaron apoyo y retroalimentacin invaluables durante el curso de los aos. Tambin agradezco a los muchos usuarios de ediciones previas que me sugirieron mejoras (y en ocasiones errores identificados). Una nota especial de agradecimien- to va para Matt Carlton por su trabajo en los dos manuales de soluciones, uno para profeso- res y el otro para estudiantes. Y me he beneficiado mucho de un dilogo que tuve con Doug Bates sobre el contenido, aun cuando no siempre he estado de acuerdo con sus muy preca- vidas sugerencias. La generosa retroalimentacin provista por los siguientes revisores de sta y previas ediciones, ha sido de mucha ayuda para mejorar el libro: Robert L. Armacost, University of Central Florida; Bill Bade, Lincoln Land Community College; Douglas M. Bates, Univer- sity of Wisconsin-Madison; Michael Berry, West Virginia Wesleyan College; Brian Bow- man, Auburn University; Linda Boyle, University of lowa; Ralph Bravaco, Stonehill College; Linfield C. Brown, Tufts University; Karen M. Bursic, University of Pittsburgh; Lynne Butler, Haverford College; Raj S. Chhikara, University of Houston-Clear Lake; Ed- win Chong, Colorado State University; David Clark, California State Polytechnic Univer- sity en Pomona; Ken Constantine, Taylor University; David M. Cresap, University of Portland; Savas Dayanik, Princeton University; Don E. Deal, University of Houston; Ann- janette M. Dodd, Humboldt State University; Jimmy Doi, California Polytechnic State Uni- versity-San Luis Obispo; Charles E. Donaghey, University of Houston; Patrick J. Driscoll, U.S. Military Academy; Mark Duva, University of Virginia; Nassir Eltinay, Lincoln Land Community College; Thomas English, College of the Mainland; Nasser S. Fard, Northeas- tern University; Ronald Fricker, Naval Postgraduate School; Steven T. Garren, James Madi- son University; Harland Glaz, University of Maryland; Ken Grace, Anoka-Ramsey Community College; Celso Grebogi, University of Maryland; Veronica Webster Griffis, Mi- chigan Technological University; Jose Guardiola, Texas A&M University-Corpus Christi; K.L.D. Gunawardena, University of Wisconsin-Oshkosh; James J. Halavin, Rochester Institute of Technology; James Hartman, Marymount University; Tyler Haynes, Saginaw Valley State University; Jennifer Hoeting, Colorado State University; Wei-Min Huang, Lehigh University; Roger W. Johnson, South Dakota School of Mines & Technology; Chih- wa Kao, Syracuse University; Saleem A. Kassam, University of Pennsylvania; Mohammad T. Khasawneh, State University of NewYork-Binghamton; Stephen Kokoska, Colgate Uni- versity; Sarah Lam, Binghamton University; M. Louise Lawson, Kennesaw State Univer- sity; Jialiang Li, University of Wisconsin-Madison; Wooi K. Lim, William Paterson Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page xv 18. xvi Prefacio University; Aquila Lipscomb, The Citadel; Manuel Lladser, University of Colorado en Boulder; Graham Lord, University of Califomia-Los Angeles; Joseph L. Macaluso, DeSales University; Ranjan Maitra, Iowa State University; David Mathiason, Rochester Institute of Technology; Arnold R. Miller, University of Denver; John J. Millson, University of Mary- land; Pamela Kay Miltenberger, West Virginia Wesleyan College; Monica Molsee, Portland State University; Thomas Moore, Naval Postgraduate School; Robert M. Norton, College of Charleston; Steven Pilnick, Naval Postgraduate School; Robi Polikar, Rowan University; Ernest Pyle, Houston Baptist University; Steve Rein, California Polytechnic State Uni- versity-San Luis Obispo; Tony Richardson, University of Evansville; Don Ridgeway, North Carolina State University; Larry J. Ringer, TexasA&M University; Robert M. Schumacher, Ce- darville University; Ron Schwartz, Florida Atlantic University; Kevan Shafizadeh, California State University-Sacramento; Robert K. Smidt, California Polytechnic State University-San Luis Obispo; Alice E. Smith, Auburn University; James MacGregor Smith, University of Massachusetts; Paul J. Smith, University of Maryland; Richard M. Soland, The George Washington University; Clifford Spiegelman, Texas A&M University; Jery Stedinger, Cor- nell University; David Steinberg, Tel Aviv University; William Thistleton, State University of New York Institute of Technology; G. Geoffrey Vining, University of Florida; Bhutan Wadhwa, Cleveland State University; Elaine Wenderholm, State University of New York- Oswego; Samuel P. Wilcock, Messiah College; Michael G. Zabetakis, University of Pitts- burgh y Maria Zack, Point Loma Nazarene University. Gracias a Merrill Peterson y sus colegas en Matrix Productions por hacer el proce- so de produccin lo menos embarazoso posible. Una vez ms me siento obligado a expresar mi gratitud a todas las personas que han hecho importantes contribuciones a lo largo de sie- te ediciones del libro. En particular, Carolyn Crockett ha sido tanto una editora de primera clase como una buena amiga. Jennifer Risden, Joseph Rogove, Ann Day, Elizabeth Gersh- man y Ashley Summers merecen una mencin especial por sus recientes esfuerzos. Tambin deseo extender mi aprecio a los cientos de representantes de ventas quienes durante los l- timos 20 aos han predicado hbilmente el evangelio sobre este libro y otros que he escri- to. Por ltimo pero no menos importante, un sincero agradecimiento a mi esposa Carol por tolerar mi programa de trabajo y mis frecuentes y demasiadas quejas a lo largo de mi carre- ra de escritor. Jay Devore Prels_p00i-xvi.qxd 3/12/08 10:17 AM Page xvi 19. 1 1 Generalidades y estadstica descriptiva INTRODUCCIN Los conceptos y mtodos estadsticos no son slo tiles sino que con frecuencia son in- dispensables para entender el mundo que nos rodea. Proporcionan formas de obtener ideas nuevas del comportamiento de muchos fenmenos que se presentarn en su campo de especializacin escogido en ingeniera o ciencia. La disciplina de estadstica nos ensea cmo realizar juicios inteligentes y tomar decisiones informadas entre la presencia de incertidumbre y variacin. Sin incerti- dumbre y variacin, habra poca necesidad de mtodos estadsticos o de profesionales en estadstica. Si cada componente de un tipo particular tuviera exactamente la mis- ma duracin, si todos los resistores producidos por un fabricante tuvieran el mismo valor de resistencia, si las determinaciones del pH en muestras de suelo de un lugar particular dieran resultados idnticos, y as sucesivamente, entonces una sola obser- vacin revelara toda la informacin deseada. Una importante manifestacin de variacin surge en el curso de la medicin de emisiones en vehculos automotores. Los requerimientos de costo y tiempo del Fede- ral Test Procedure (FTP, por sus siglas en ingls) impiden su uso generalizado en pro- gramas de inspeccin de vehculos. En consecuencia, muchas agencias han creado pruebas menos costosas y ms rpidas, las que se espera reproduzcan los resultados obtenidos con el FTP. De acuerdo con el artculo Motor Vehicle Emissions Variabi- lity (J. of the Air and Waste Mgmt. Assoc., 1996: 667-675), la aceptacin del FTP como patrn de oro ha llevado a la creencia ampliamente difundida de que las me- diciones repetidas en el mismo vehculo conduciran a resultados idnticos (o casi idnticos). Los autores del artculo aplicaron el FTP a siete vehculos caracterizados como altos emisores. He aqu los resultados de uno de los vehculos. HC (g/milla) 13.8 18.3 32.2 32.5 CO (g/milla) 118 149 232 236 c1_p001-045.qxd 3/12/08 2:31 AM Page 1 20. La variacin sustancial en las mediciones tanto de HC como de CO proyecta una du- da considerable sobre la sabidura convencional y hace mucho ms difcil realizar eva- luaciones precisas sobre niveles de emisiones. Cmo se pueden utilizar tcnicas estadsticas para reunir informacin y sacar conclusiones? Supngase, por ejemplo, que un ingeniero de materiales invent un re- cubrimiento para retardar la corrosin en tuberas de metal en circunstancias especfi- cas. Si este recubrimiento se aplica a diferentes segmentos de la tubera, la variacin de las condiciones ambientales y de los segmentos mismos producir ms corrosin sus- tancial en algunos segmentos que en otros. Se podra utilizar un anlisis estadstico en datos de dicho experimento para decidir si la cantidad promedio de corrosin excede un lmite superior especificado de alguna clase o para predecir cunta corrosin ocu- rrir en una sola pieza de tubera. Por otra parte, supngase que el ingeniero invent el recubrimiento con la creen- cia de que ser superior al recubrimiento actualmente utilizado. Se podra realizar un experimento comparativo para investigar esta cuestin aplicando el recubrimiento ac- tual a algunos segmentos de la tubera y el nuevo a otros segmentos. Esto debe reali- zarse con cuidado o se obtendr una conclusin errnea. Por ejemplo, tal vez la cantidad promedio de corrosin sea idntica con los dos recubrimientos. Sin embargo, el recubrimiento nuevo puede ser aplicado a segmentos que tengan una resistencia su- perior a la corrosin y en condiciones ambientales severas en comparacin con los seg- mentos y condiciones del recubrimiento actual. El investigador probablemente observara entonces una diferencia entre los dos recubrimientos atribuibles no a los recubrimien- tos mismos, sino slo a variaciones extraas. La estadstica ofrece no slo mtodos para analizar resultados de experimentos una vez que se han realizado sino tambin suge- rencias sobre cmo pueden realizarse los experimentos de una manera eficiente para mitigar los efectos de variacin y tener una mejor oportunidad de llegar a conclusiones correctas. 2 CAPTULO 1 Generalidades y estadstica descriptiva 1.1 Poblaciones, muestras y procesos Los ingenieros y cientficos constantemente estn expuestos a la recoleccin de hechos o datos, tanto en sus actividades profesionales como en sus actividades diarias. La disciplina de estadstica proporciona mtodos de organizar y resumir datos y de sacar conclusiones ba- sadas en la informacin contenida en los datos. Una investigacin tpicamente se enfocar en una coleccin bien definida de objetos que constituyen una poblacin de inters. En un estudio, la poblacin podra consistir de todas las cpsulas de gelatina de un tipo particular producidas durante un periodo especfi- co. Otra investigacin podra implicar la poblacin compuesta de todos los individuos que recibieron una licenciatura de ingeniera durante el ao acadmico ms reciente. Cuando la informacin deseada est disponible para todos los objetos de la poblacin, se tiene lo que se llama un censo. Las restricciones de tiempo, dinero y otros recursos escasos casi siem- pre hacen que un censo sea imprctico o infactible. En su lugar, se selecciona un subcon- junto de la poblacin, una muestra, de manera prescrita. As pues, se podra obtener una c1_p001-045.qxd 3/12/08 2:31 AM Page 2 21. muestra de cojinetes de una corrida de produccin particular como base para investigar si los cojinetes se ajustan a las especificaciones de fabricacin, o se podra seleccionar una muestra de los graduados de ingeniera del ltimo ao para obtener retroalimentacin sobre la calidad de los programas de estudio de ingeniera. Por lo general, existe inters slo en ciertas caractersticas de los objetos en una po- blacin: el nmero de grietas en la superficie de cada recubrimiento, el espesor de cada pa- red de cpsula, el gnero de un graduado de ingeniera, la edad a la cual el individuo se gradu, y as sucesivamente. Una caracterstica puede ser categrica, tal como el gnero o tipo de funcionamiento defectuoso o puede ser de naturaleza numrica. En el primer caso, el valor de la caracterstica es una categora (p. ej., femenino o soldadura insuficiente), mientras que en el segundo caso, el valor es un nmero (p. ej., edad 23 aos o dimetro 0.502 cm). Una variable es cualquier caracterstica cuyo valor puede cambiar de un ob- jeto a otro en la poblacin. Inicialmente las letras minsculas del alfabeto denotarn las va- riables. Algunos ejemplos incluyen: x marca de la calculadora de un estudiante y nmero de visitas a un sitio web particular durante un periodo especfico z distancia de frenado de un automvil en condiciones especficas Se obtienen datos al observar o una sola variable o en forma simultnea dos o ms varia- bles. Un conjunto de datos univariantes se compone de observaciones realizadas en una so- la variable. Por ejemplo, se podra determinar el tipo de transmisin automtica (A) o manual (M) en cada uno de diez automviles recientemente adquiridos en cierto concesio- nario y el resultado sera el siguiente conjunto de datos categricos M A A A M A A M A A La siguiente muestra de duraciones (horas) de bateras D puestas en cierto uso es un con- junto de datos numricos univariantes: 5.6 5.1 6.2 6.0 5.8 6.5 5.8 5.5 Se tienen datos bivariantes cuando se realizan observaciones en cada una de dos variables. El conjunto de datos podra consistir en un par (altura, peso) por cada jugador integrante del equipo de bsquetbol, con la primera observacin como (72, 168), la segunda como (75, 212), y as sucesivamente. Si un ingeniero determina el valor tanto de x componente de duracin y y razn de la falla del componente, el conjunto de datos resultante es bivarian- te con una variable numrica y la otra categrica. Los datos multivariantes surgen cuando se realizan observaciones en ms de una variable (por lo que bivariante es un caso especial de multivariante). Por ejemplo, un mdico investigador podra determinar la presin sangu- nea sistlica, la presin sangunea diastlica y nivel de colesterol en suero de cada pacien- te participante en un estudio. Cada observacin sera un triple de nmeros, tal como (120, 80, 146). En muchos conjuntos de datos multivariantes, algunas variables son numricas y otras son categricas. Por lo tanto, el nmero anual dedicado al automvil de Consumer Reports da valores de tales variables como tipo de vehculo (pequeo, deportivo, compacto, tamao mediano, grande), eficiencia de consumo de combustible en la ciudad (mpg), efi- ciencia de consumo de combustible en carretera (mpg), tipo de tren motriz (ruedas traseras, ruedas delanteras, cuatro ruedas), etctera. Ramas de la estadstica Es posible que un investigador que ha recopilado datos desee resumir y describir caracters- ticas importantes de los mismos. Esto implica utilizar mtodos de estadstica descriptiva. Algunos de ellos son de naturaleza grfica; la construccin de histogramas, diagramas de caja y grficas de puntos son ejemplos primordiales. Otros mtodos descriptivos implican 1.1 Poblaciones, muestras y procesos 3 c1_p001-045.qxd 3/12/08 2:31 AM Page 3 22. el clculo de medidas numricas, tales como medias, desviaciones estndar y coeficientes de correlacin. La amplia disponibilidad de programas de computadora estadsticos han he- cho que estas tareas sean ms fciles de realizar de lo que antes eran. Las computadoras son mucho ms eficientes que los seres humanos para calcular y crear imgenes (una vez que han recibido las instrucciones apropiadas del usuario!). Esto significa que el investigador no tiene que esforzarse mucho en el trabajo tedioso y tendr ms tiempo para estudiar los da- tos y extraer mensajes importantes. A lo largo de este libro, se presentarn los datos de sa- lida de varios paquetes tales como MINITAB, SAS, S-Plus y R. El programa R puede ser descargado sin cargo del sitio http://www.r-project.org. La tragedia que sufri el transbordador espacial Challenger y sus astronautas en 1986 con- dujo a varios estudios para investigar las razones de la falla de la misin. La atencin se en- foc de inmediato en el comportamiento de los sellos anulares del motor del cohete. He aqu datos derivados de observaciones en x temperatura del sello anular (F) en cada encendi- do de prueba o lanzamiento del motor del cohete del transbordador (Presidential Commis- sion on the Space Shuttle Challenger Accident, Vol. 1, 1986: 129-131). 84 49 61 40 83 67 45 66 70 69 80 58 68 60 67 72 73 70 57 63 70 78 52 67 53 67 75 61 70 81 76 79 75 76 58 31 Sin organizacin, es difcil tener una idea de cul podra ser una temperatura tpica o repre- sentativa, ya sea que los valores estn muy concentrados en torno a un valor tpico o bastan- te esparcidos, ya sea que existan brechas en los datos, qu porcentaje de los valores estn en los 60, y as sucesivamente. La figura 1.1 muestra lo que se conoce como grfica de tallo y hojas de los datos, as como tambin un histograma. En breve, se discutir la construccin e interpretacin de estos resmenes grficos; por el momento se espera que se vea cmo es- tn distribuidos los valores de temperatura a lo largo de la escala de medicin. Algunos de estos lanzamientos/encendidos fueron exitosos y otros fallaron. 4 CAPTULO 1 Generalidades y estadstica descriptiva Ejemplo 1.1 Figura 1.1 Una grfica de tallo y hojas e histograma generados con MINITAB de los datos de temperatura de los sellos anulares. Porcentaje Temperatura Tallo y hojas de temperatura N 36 Unidad de hojas 1.0 1 3 1 1 3 2 4 0 4 4 59 6 5 23 9 5 788 13 6 0113 (7) 6 6777789 16 7 000023 10 7 556689 4 8 0134 25 35 45 55 65 75 85 40 30 20 10 0 c1_p001-045.qxd 3/12/08 2:31 AM Page 4 23. La temperatura ms baja es de 31 grados, mucho ms baja que la siguiente temperatura ms baja y sta es la observacin en relacin con el desastre del Challenger. La investigacin presidencial descubri que se requeran temperaturas calientes para la operacin exitosa de los sellos anulares y que 31 grados eran demasiado fro. En el captulo 13 se presentar una relacin entre temperatura y la probabilidad de un lanzamiento exitoso. Despus de haber obtenido una muestra de una poblacin, un investigador con fre- cuencia deseara utilizar la informacin muestral para sacar algn tipo de conclusin (hacer una inferencia de alguna clase) con respecto a la poblacin. Es decir, la muestra es un me- dio para llegar a un fin en lugar de un fin por s misma. Las tcnicas para generalizar desde una muestra hasta una poblacin se congregan dentro de la rama de la disciplina llamada es- tadstica inferencial. Las investigaciones de resistencia de materiales constituyen una rica rea de aplicacin de mtodos estadsticos. El artculo Effects of Aggregates and Microfillers on the Flexural Properties of Concrete (Magazine of Concrete Research, 1997: 81-98) report sobre un es- tudio de propiedades de resistencia de concreto de alto desempeo obtenido con el uso de superplastificantes y ciertos aglomerantes. La resistencia a la compresin de dicho concre- to previamente haba sido investigada, pero no se saba mucho sobre la resistencia a la fle- xin (una medida de la capacidad de resistir fallas a flexin). Los datos anexos sobre resistencia a la flexin (en megapascales, MPa, donde 1 Pa (pascal) 1.45 104 lb/pulg2 ) aparecieron en el artculo citado: 5.9 7.2 7.3 6.3 8.1 6.8 7.0 7.6 6.8 6.5 7.0 6.3 7.9 9.0 8.2 8.7 7.8 9.7 7.4 7.7 9.7 7.8 7.7 11.6 11.3 11.8 10.7 Supngase que se desea estimar el valor promedio de resistencia a la flexin de todas las vi- gas que pudieran ser fabricadas de esta manera (si se conceptualiza una poblacin de todas esas vigas, se trata de estimar la media poblacional). Se puede demostrar que, con un alto gra- do de confianza, la resistencia media de la poblacin se encuentra entre 7.48 MPa y 8.80 MPa; esto se llama intervalo de confianza o estimacin de intervalo. Alternativamente, se podran utilizar estos datos para predecir la resistencia a la flexin de una sola viga de este tipo. Con un alto grado de confianza, la resistencia de una sola viga exceder de 7.35 MPa; el nme- ro 7.35 se conoce como lmite de prediccin inferior. El objetivo principal de este libro es presentar e ilustrar mtodos de estadstica infe- rencial que son tiles en el trabajo cientfico. Los tipos ms importantes de procedimientos inferenciales, estimacin puntual, comprobacin de hiptesis y estimacin por medio de in- tervalos de frecuencia, se introducen en los captulos 6 a 8 y luego se utilizan escenarios ms complicados en los captulos 9 a 16. El resto de este captulo presenta mtodos de estads- tica descriptiva que se utilizan mucho en el desarrollo de inferencia. Los captulos 2 a 5 presentan material de la disciplina de probabilidad. Este material finalmente tiende un puente entre las tcnicas descriptivas e inferenciales. El dominio de la pro- babilidad permite entender mejor cmo se desarrollan y utilizan los procedimientos inferencia- les, cmo las conclusiones estadsticas pueden ser traducidas al lenguaje diario e interpretadas y cundo y dnde pueden ocurrir errores al aplicar los mtodos. La probabilidad y estadstica se ocupan de cuestiones que implican poblaciones y muestras, pero lo hacen de una manera in- versa una con respecto a la otra. En un problema de probabilidad, se supone que las propiedades de la poblacin estu- diada son conocidas (p. ej., en una poblacin numrica, se puede suponer una cierta distri- bucin especfica de valores de la poblacin) y se pueden plantear y responder preguntas con respecto a una muestra tomada de una poblacin. En un problema de estadstica, el ex- perimentador dispone de las caractersticas de una muestra y esta informacin le permite sa- car conclusiones con respecto a la poblacin. La relacin entre las dos disciplinas se resume diciendo que la probabilidad discurre de la poblacin a la muestra (razonamiento deductivo), 1.1 Poblaciones, muestras y procesos 5 Ejemplo 1.2 c1_p001-045.qxd 3/12/08 2:31 AM Page 5 24. mientras que la estadstica inferencial discurre de la muestra a la poblacin (razonamiento inductivo). Esto se ilustra en la figura 1.2. Antes de que se pueda entender lo que una muestra particular pueda decir sobre la po- blacin, primero se deber entender la incertidumbre asociada con la toma de una muestra de una poblacin dada. Por eso se estudia la probabilidad antes que la estadstica. Como un ejemplo del enfoque contrastante de la probabilidad y la estadstica inferen- cial, el uso que los conductores hacen de los cinturones de seguridad manuales de regazo en carros equipados con sistemas de cinturones de hombro automticos. (El artculo Auto- mobile Seat Belts: Usage Patterns in Automatic Belt Systems, Human Factors, 1998: 126-135, resume datos de uso.) Se podra suponer que probablemente 50% de todos los con- ductores de carros equipados de esta forma en cierta rea metropolitana utilizan de manera regular su cinturn de regazo (una suposicin sobre la poblacin), as que se podra pregun- tar, qu tan probable es que una muestra de 100 conductores incluir por lo menos 70 que regularmente utilicen su cinturn de regazo? o cuntos de los conductores en una mues- tra de tamao 100 se puede esperar que utilicen con regularidad su cinturn de regazo? Por otra parte, en estadstica inferencial se dispone de informacin sobre la muestra; por ejem- plo, una muestra de 100 conductores de tales vehculos revel que 65 utilizan con regulari- dad su cinturn de regazo. Se podra entonces preguntar: proporciona esto evidencia sustancial para concluir que ms de 50% de todos los conductores en esta rea utilizan con regularidad su cinturn de regazo? En el ltimo escenario, se intenta utilizar la informa- cin relativa a la muestra para responder una pregunta acerca de la estructura de toda la po- blacin de la cual se seleccion la muestra. En el ejemplo del cinturn de regazo, la poblacin est bien definida y concreta: todos los conductores de carros equipados de una cierta manera en un rea metropolitana particu- lar. En el ejemplo 1.1, sin embargo, una muestra de temperaturas de sello anular est dispo- nible, pero proviene de una poblacin que en realidad no existe. En su lugar, conviene pensar en la poblacin como compuesta de todas las posibles mediciones de temperatura que se po- dran hacer en condiciones experimentales similares. Tal poblacin se conoce como pobla- cin conceptual o hipottica. Existen varias situaciones en las cuales las preguntas encajan en el marco de referencia de la estadstica inferencial al conceptualizar una poblacin. Estudios enumerativos contra analticos W. E. Deming, estadstico estadounidense muy influyente quien fue una fuerza propulsora en la revolucin de calidad de Japn durante las dcadas de 1950 y 1960, introdujo la dis- tincin entre estudios enumerativos y estudios analticos. En los primeros, el inters se en- foca en un conjunto de individuos u objetos finito, identificable y no cambiante que conforman una poblacin. Un marco de muestreo, es decir, una lista de los individuos u ob- jetos que tienen que ser muestreados, est disponible para un investigador o puede ser cons- truida. Por ejemplo, el marco se podra componer de todas las firmas incluidas en una peticin para calificar una cierta iniciativa para las boletas de votacin en una eleccin prxi- ma; por lo general se elige una muestra para indagar si el nmero de firmas vlidas sobre- pasa un valor especificado. Como otro ejemplo, el marco puede contener nmeros de serie de todos los hornos fabricados por una compaa particular durante cierto periodo; se puede seleccionar una muestra para inferir algo sobre la duracin promedio de estas unidades. El uso de mtodos inferenciales presentados en este libro es razonablemente no controversial en tales escenarios (aun cuando los estadsticos continan argumentando sobre qu mtodos particulares deben ser utilizados). 6 CAPTULO 1 Generalidades y estadstica descriptiva Poblacin Probabilidad Estadstica inferencial Muestra Figura 1.2 Relacin entre probabilidad y estadstica inferencial. c1_p001-045.qxd 3/12/08 2:31 AM Page 6 25. Un estudio analtico se define ampliamente como uno que no es de naturaleza enume- rativa. Tales estudios a menudo se realizan con el objetivo de mejorar un producto futuro al actuar sobre un proceso de una cierta clase (p. ej., recalibrar equipo o ajustar el nivel de al- guna sustancia tal como la cantidad de un catalizador). A menudo se obtienen datos slo sobre un proceso existente, uno que puede diferir en aspectos importantes del proceso futu- ro. No existe por lo tanto un marco de muestreo que enliste los individuos u objetos de in- ters. Por ejemplo, una muestra de cinco turbinas con un nuevo diseo puede ser fabricada y probada para investigar su eficiencia. Estas cinco podran ser consideradas como una muestra de la poblacin conceptual de todos los prototipos que podran ser fabricados en condiciones similares, pero no necesariamente representativas de la poblacin de las unida- des fabricadas una vez que la produccin futura est en proceso. Los mtodos para utilizar la informacin sobre muestras para sacar conclusiones sobre unidades de produccin futu- ras pueden ser problemticos. Se deber llamar a alguien con los conocimientos necesarios en el rea del diseo e ingeniera de turbinas (o de cualquier otra rea pertinente) para que juzgue si tal extrapolacin es sensible. Una buena exposicin de estos temas se encuentra en el artculo Assumptions for Statistical Inference, de Gerald Hahn y William Meeker (The American Statistician, 1993: 1-11). Recopilacin de datos La estadstica se ocupa no slo de la organizacin y anlisis de datos una vez que han sido recopilados sino tambin con el desarrollo de tcnicas de recopilacin de datos. Si stos no son apropiadamente recopilados, un investigador no puede ser capaz de responder las pre- guntas consideradas con un razonable grado de confianza. Un problema comn es que la po- blacin objetivo, aquella sobre la cual se van a sacar conclusiones, puede ser diferente de la poblacin realmente muestreada. Por ejemplo, a los publicistas les gustara contar con va- rias clases de informacin sobre los hbitos de ver televisin de sus clientes potenciales. La informacin ms sistemtica de esta clase proviene de colocar dispositivos de monitoreo en un pequeo nmero de casas a travs de Estados Unidos. Se ha conjeturado que la coloca- cin de semejantes dispositivos por s misma modifica el comportamiento del televidente, de modo que las caractersticas de la muestra pueden ser diferentes de aquellas de la pobla- cin objetivo. Cuando la recopilacin de datos implica seleccionar individuos u objetos de un mar- co, el mtodo ms simple para garantizar una seleccin representativa es tomar una mues- tra aleatoria simple. sta es una para la cual cualquier subconjunto particular del tamao especificado (p. ej., una muestra de tamao 100) tiene la misma oportunidad de ser selec- cionada. Por ejemplo, si el marco se compone de 1000000 de nmeros de serie, los nme- ros 1, 2, . . . , hasta 1000000 podran ser anotados en trozos idnticos de papel. Despus de colocarlos en una caja y mezclarlos perfectamente, se sacan uno por uno hasta que se ob- tenga el tamao de muestra requisito. De manera alternativa (y mucho ms preferible), se podra utilizar una tabla de nmeros aleatorios o un generador de nmeros aleatorios de computadora. En ocasiones se pueden utilizar mtodos de muestreo alternativos para facilitar el pro- ceso de seleccin, a fin de obtener informacin extra o para incrementar el grado de con- fianza en conclusiones. Un mtodo como se, el muestreo estratificado, implica separar las unidades de la poblacin en grupos no traslapantes y tomar una muestra de cada uno. Por ejemplo, un fabricante de reproductores de DVD podra desear informacin sobre la satis- faccin del cliente para unidades producidas durante el ao previo. Si tres modelos diferen- tes fueran fabricados y vendidos, se podra seleccionar una muestra distinta de cada uno de los estratos correspondientes. Esto dara informacin sobre los tres modelos y garantizara que ningn modelo estuviera sobre o subrepresentado en toda la muestra. Con frecuencia, se obtiene una muestra de conveniencia seleccionando individuos u objetos sin aleatorizacin sistemtica. Por ejemplo, un conjunto de ladrillos puede ser apilado 1.1 Poblaciones, muestras y procesos 7 c1_p001-045.qxd 3/12/08 2:31 AM Page 7 26. de tal modo que sea extremadamente difcil seleccionar a los que se encuentran en el cen- tro. Si los ladrillos localizados en la parte superior y a los lados de la pila fueran de algn modo diferentes a los dems, los datos muestrales resultantes no representaran la pobla- cin. A menudo un investigador supondr que tal muestra de conveniencia representa en for- ma aproximada una muestra aleatoria, en cuyo caso el repertorio de mtodos inferenciales de un estadstico puede ser utilizado; sin embargo, sta es una cuestin de criterio. La ma- yora de los mtodos aqu analizados se basan en una variacin del muestreo aleatorio sim- ple descrito en el captulo 5. Los ingenieros y cientficos a menudo renen datos realizando alguna clase de expe- rimento. Esto puede implicar cmo asignar varios tratamientos diferentes (tales como ferti- lizantes o recubrimientos anticorrosivos) a las varias unidades experimentales (parcelas o tramos de tubera). Por otra parte, un investigador puede variar sistemticamente los niveles o categoras de ciertos factores (p. ej., presin o tipo de material aislante) y observar el efec- to en alguna variable de respuesta (tal como rendimiento de un proceso de produccin). Un artculo en el New York Times (27 de enero de 1987) report que el riesgo de sufrir un ataque cardiaco podra ser reducido tomando aspirina. Esta conclusin se bas en un ex- perimento diseado que inclua tanto un grupo de control de individuos que tomaron un placebo que tena la apariencia de aspirina pero que se saba era inerte y un grupo de tra- tamiento que tom aspirina de acuerdo con un rgimen especfico. Los sujetos fueron asignados al azar a los grupos para protegerlos contra cualquier prejuicio de modo que se pudieran utilizar mtodos basados en la probabilidad para analizar los datos. De los 11 034 individuos en el grupo de control, 189 subsecuentemente experimentaron ataques cardiacos, mientras que slo 104 de los 11 037 en el grupo de aspirina sufrieron un ata- que cardiaco. La tasa de incidencia de ataques cardiacos en el grupo de tratamiento fue de slo aproximadamente la mitad de aquella en el grupo de control. Una posible explica- cin de este resultado es la variacin de la probabilidad, que la aspirina en realidad no tie- ne el efecto deseado y la diferencia observada es slo una variacin tpica del mismo modo que el lanzamiento al aire de dos monedas idnticas por lo general producira dife- rente cantidad de guilas. No obstante, en este caso, los mtodos inferenciales sugieren que la variacin de la probabilidad por s misma no puede explicar en forma adecuada la magnitud de la diferencia observada. Un ingeniero desea investigar los efectos tanto del tipo de adhesivo como del material con- ductor en la fuerza adhesiva cuando se monta un circuito integrado (CI) sobre cierto sustra- to. Se consideraron dos tipos de adhesivos y dos materiales conductores. Se realizaron dos observaciones por cada combinacin de tipo de adhesivo/material conductor y se obtuvie- ron los datos anexos. Las fuerzas adhesivas promedio resultantes se ilustran en la figura 1.3. Parece que el adhe- sivo tipo 2 mejora la fuerza adhesiva en comparacin con el tipo 1 en aproximadamente la misma cantidad siempre que se utiliza uno de los materiales conductores, con la combina- cin 2, 2 como la mejor. De nuevo se pueden utilizar mtodos inferenciales para juzgar si estos efectos son reales o simplemente se deben a la variacin de la probabilidad. Supngase adems que se consideran dos tiempos de curado y tambin dos tipos de posrecubrimientos de los circuitos integrados. Existen entonces 2 2 2 2 16 combi- naciones de estos cuatro factores y es posible que el ingeniero no disponga de suficientes ??? 8 CAPTULO 1 Generalidades y estadstica descriptiva Ejemplo 1.3 Ejemplo 1.4 Tipo de adhesivo Material conductor Fuerza de adhesin observada Promedio 1 1 82, 77 79.5 1 2 75, 87 81.0 2 1 84, 80 82.0 2 2 78, 90 84.0 c1_p001-045.qxd 3/12/08 2:31 AM Page 8 27. recursos para hacer incluso una observacin sencilla para cada una de estas combinaciones. En el captulo 11 se ver cmo la seleccin cuidadosa de una fraccin de estas posibilida- des usualmente dar la informacin deseada. 1.1 Poblaciones, muestras y procesos 9 Material conductor Fuerza promedio 1 2 80 85 Adhesivo tipo 2 Adhesivo tipo 1 Figura 1.3 Fuerzas de adhesin promedio en el ejemplo 1.4. EJERCICIOS Seccin 1.1 (1-9) 1. D una posible muestra de tamao 4 de cada una de las si- guientes poblaciones. a. Todos los peridicos publicados en Estados Unidos. b. Todas las compaas listadas en la Bolsa de Valores de Nueva York. c. Todos los estudiantes en su colegio o universidad. d. Todas las calificaciones promedio de los estudiantes en su colegio o universidad. 2. Para cada una de las siguientes poblaciones hipotticas, d una muestra posible de tamao 4. a. Todas las distancias que podran resultar cuando usted lan- za un baln de ftbol americano. b. Las longitudes de las pginas de libros publicados de aqu a 5 aos. c. Todas las mediciones de intensidades posibles de terremo- tos (escala de Richter) que pudieran registrarse en Califor- nia durante el siguiente ao. d. Todos los posibles rendimientos (en gramos) de una cierta reaccin qumica realizada en un laboratorio. 3. Considere la poblacin compuesta de todas las computadoras de una cierta marca y modelo y enfquese en si una computadora necesita servicio mientras se encuentra dentro de la garanta. a. Plantee varias preguntas de probabilidad con base en la se- leccin de 100 de esas computadoras. b. Qu pregunta de estadstica inferencial podra ser respondi- da determinando el nmero de dichas computadoras en una muestra de tamao 100 que requieren servicio de garanta? 4. a. D tres ejemplos diferentes de poblaciones concretas y tres ejemplos distintos de poblaciones hipotticas. b. Por cada una de sus poblaciones concretas e hipotticas, d un ejemplo de una pregunta de probabilidad y un ejemplo de pregunta de estadstica inferencial. 5. Muchas universidades y colegios han instituido programas de instruccin suplementaria (IS), en los cuales un facilitador re- gularmente se rene con un pequeo grupo de estudiantes inscritos en el curso para promover discusiones sobre el ma- terial incluido en el curso y mejorar el dominio de la materia. Suponga que los estudiantes inscritos en un largo curso de es- tadstica (de qu ms?) se dividen al azar en un grupo de control que no participar en la instruccin suplementaria y en un grupo de tratamiento que s participar. Al final del cur- so, se determina la calificacin total de cada estudiante en el curso. a. Son las calificaciones del grupo IS una muestra de una poblacin existente? De ser as, cul es? De no ser as, cul es la poblacin conceptual pertinente? b. Cul piensa que es la ventaja de dividir al azar a los es- tudiantes en los dos grupos en lugar de permitir que cada estudiante elija el grupo al que desea unirse? c. Por qu los investigadores no pusieron a todos los estu- diantes en el grupo de tratamiento? Nota: El artculo (Supplemental Instruction: An Effective Component of Student Affairs Programming, J. of College Student De- vel., 1997:577-586) discute el anlisis de datos de varios programas de instruccin suplementaria. 6. El sistema de la Universidad Estatal de California (CSU, por sus siglas en ingls) consta de 23 terrenos universitarios, des- de la Estatal de San Diego en el sur hasta la Estatal Humboldt cerca de la frontera con Oregon. Un administrador de CSU desea hacer una inferencia sobre la distancia promedio entre la ciudad natal y sus terrenos universitarios. Describa y discuta diferentes mtodos de muestreo, que pudieran ser empleados. ste sera un estudio enumerativo o un estudio analtico? Explique su razonamiento. 7. Cierta ciudad se divide naturalmente en diez distritos. Cmo podra seleccionar un valuador de bienes races una muestra de casas unifamiliares que pudiera ser utilizada como base para desarrollar una ecuacin para predecir el valor estimado a partir de caractersticas tales como antigedad, tamao, n- mero de baos, distancia a la escuela ms cercana y as suce- sivamente? El estudio es enumerativo o analtico? c1_p001-045.qxd 3/12/08 2:31 AM Page 9 28. La estadstica descriptiva se divide en dos temas generales. En esta seccin, se considera la representacin de un conjunto de datos por medio de tcnicas visuales. En las secciones 1.3 y 1.4, se desarrollarn algunas medidas numricas para conjuntos de datos. Es posible que usted ya conozca muchas tcnicas visuales; tablas de frecuencia, hojas de contabilidad, his- togramas, grficas de pastel, grficas de barras, diagramas de puntos y similares. Aqu se se- leccionan algunas de estas tcnicas que son ms tiles y pertinentes a la estadstica de probabilidad e inferencial. Notacin Alguna notacin general facilitar la aplicacin de mtodos y frmulas a una amplia varie- dad de problemas prcticos. El nmero de observaciones en una muestra nica, es decir, el tamao de muestra, a menudo ser denotado por n, de modo que n 4 para la muestra de universidades {Stanford, Iowa State, Wyoming, Rochester} y tambin para la muestra de lecturas de pH {6.3, 6.2, 5.9, 6.5}. Si se consideran dos muestras al mismo tiempo, m y n o n1 y n2 se pueden utilizar para denotar los nmeros de observaciones. Por lo tanto, si {29.7, 31.6, 30.9} y {28.7, 29.5, 29.4, 30.3} son lecturas de eficiencia trmica de dos tipos diferentes de motores diesel, entonces m 3 y n 4. Dado un conjunto de datos compuesto de n observaciones de alguna variable x, enton- ces x1, x2, x3, . . . , xn denotarn las observaciones individuales. El subndice no guarda nin- guna relacin con la magnitud de una observacin particular. Por lo tanto, x1 en general no ser la observacin ms pequea del conjunto, ni xn ser la ms grande. En muchas aplica- ciones, x1 ser la primera observacin realizada por el experimentador, x2 la segunda, y as sucesivamente. La observacin i-sima del conjunto de datos ser denotada por xi. Grficas de tallos y hojas Considrese un conjunto de datos numricos x1, x2, . . . , xn para el cual xi se compone de por lo menos dos dgitos. Una forma rpida de obtener la representacin visual informativa del conjunto de datos es construir una grfica de tallos y hojas. 10 CAPTULO 1 Generalidades y estadstica descriptiva 8. La cantidad de flujo a travs de una vlvula solenoide en el sistema de control de emisiones de un automvil es una ca- racterstica importante. Se realiz un experimento para estu- diar cmo la velocidad de flujo dependa de tres factores: la longitud de la armadura, la fuerza del resorte y la profundidad de la bobina. Se eligieron dos niveles diferentes (alto y bajo) de cada factor y se realiz una sola observacin del flujo por ca- da combinacin de niveles. a. De cuntas observaciones consisti el conjunto de datos resultante? b. Este estudio es enumerativo o analtico? Explique su ra- zonamiento. 9. En un famoso experimento realizado en 1882, Michelson y Newcomb obtuvieron 66 observaciones del tiempo que re- quera la luz para viajar entre dos lugares en Washington, D.C. Algunas de las mediciones (codificadas en cierta mane- ra) fueron, 31, 23, 32, 36, 2, 26, 27 y 31. a. Por qu no son idnticas estas mediciones? b. Es ste un estudio enumerativo? Por qu s o por qu no? 1.2 Mtodos pictricos y tabulares en la estadstica descriptiva Pasos para construir una grfica de tallos y hojas 1. Seleccione uno o ms de los primeros dgitos para los valores de tallo. Los segun- dos dgitos se convierten en hojas. 2. Enumere los posibles valores de tallos en una columna vertical. 3. Anote la hoja para cada observacin junto al valor de tallo. 4. Indique las unidades para tallos y hojas en algn lugar de la grfica. c1_p001-045.qxd 3/12/08 2:31 AM Page 10 29. Si el conjunto de datos se compone de calificaciones de exmenes, cada uno entre 0 y 100, la calificacin de 83 tendra un tallo de 8 y una hoja de 3. Para un conjunto de datos de efi- ciencias de consumo de combustible de automviles (mpg), todas entre 8.1 y 47.8, se po- dran utilizar como el tallo, as que 32.6 tendra entonces una hoja de 2.6. En general, se recomienda una grfica basada en tallos entre 5 y 20. El consumo de alcohol por parte de estudiantes universitarios preocupa no slo a la comu- nidad acadmica sino tambin, a causa de consecuencias potenciales de salud y seguridad, a la sociedad en su conjunto. El artculo (Health and Behavioral Consequences of Binge Drinking in College, J. of the Amer. Med. Assoc., 1994: 1672-1677) present un amplio es- tudio sobre el consumo excesivo de alcohol en universidades a travs de Estados Unidos. Un episodio de parranda se defini como cinco o ms tragos en fila para varones y cuatro o ms para mujeres. La figura 1.4 muestra una grfica de tallo y hojas de 140 valores de x porcentaje de edades de los estudiantes de licenciatura bebedores. (Estos valores no apare- cieron en el artculo citado, pero la grfica concuerda con una grfica de los datos que s lo hicieron.) La primera hoja de la fila 2 del tallo es 1, la cual dice que 21% de los estudiantes de una de las universidades de la muestra eran bebedores. Sin la identificacin de los dgitos en los tallos y los dgitos en las hojas, no se sabra si la observacin correspondiente al ta- llo 2, hoja 1 debera leerse como 21%, 2.1% o 0.21 por ciento. Cuando se crea una imagen a mano, la ordenacin de las hojas de la ms pequea a la ms grande en cada lnea puede ser tediosa. Esta ordenacin contribuye poco si no se dis- pone de informacin adicional. Supngase que las observaciones hubieran sido puestas en lista en orden alfabtico por nombre de la escuela, como 16% 33% 64% 37% 31% . . . Entonces la colocacin de estos valores en la grfica en este orden hara que la fila 1 del ta- llo tuviera 6 como su primera hoja y el principio de la fila 3 del tallo sera 3 371 . . . La grfica sugiere que un valor tpico o representativo se encuentra en la fila 4 del ta- llo, tal vez en el rango medio de 40%. Las observaciones no aparecen muy concentradas en torno a este valor tpico, como sera el caso si todos los valores estuvieran entre 20 y 49%. Esta grfica se eleva a una sola cresta a medida que desciende, y luego declina; no hay bre- chas en la grfica. La forma de la grfica no es perfectamente simtrica, pero en su lugar pa- rece alargarse un poco ms en la direccin de las hojas bajas que en la direccin de las hojas altas. Por ltimo, no existen observaciones que se alejen inusualmente del grueso de los da- tos (ningunos valores apartados), como sera el caso si uno de los valores de 26% hubiera sido de 86%. La caracterstica ms sobresaliente de estos datos es que, en la mayora de las universidades de la muestra, por lo menos una cuarta parte de los estudiantes son bebedo- res. El problema de beber en exceso en las universidades es mucho ms extenso de lo que muchos hubieran sospechado. 1.2 Mtodos pictricos y tabulares en la estadstica descriptiva 11 Ejemplo 1.5 0 4 1 1345678889 2 1223456666777889999 Tallo: dgitos de diez cifras 3 0112233344555666677777888899999 Hojas: dgitos de una cifra 4 111222223344445566666677788888999 5 00111222233455666667777888899 6 01111244455666778 Figura 1.4 Grfica de tallo y hojas de porcentajes de bebedores en cada una de 140 universidades. c1_p001-045.qxd 3/12/08 2:31 AM Page 11 30. Una grfica de tallos y hojas da informacin sobre los siguientes aspectos de los datos: Identificacin de un valor tpico o representativo. Grado de dispersin en torno al valor tpico. Presencia de brechas en los datos. Grado de simetra en la distribucin de los valores. Nmero y localizacin de crestas. Presencia de valores afuera de la grfica. La figura 1.5 presenta grficas de tallos y hojas de una muestra aleatoria de longitudes de campos de golf (yardas) designados por Golf Magazine como los ms desafiantes en Esta- dos Unidos. Entre la muestra de 40 campos, el ms corto es de 6 433 yardas de largo y el ms largo es de 7280 yardas. Las longitudes parecen estar distribuidas de una manera aproximadamente uniforme dentro del rango de valores presentes en la muestra. Obsrvese que la seleccin de tallo en este caso de un solo dgito (6 7) o de tres (643, . . . , 728) pro- ducira una grfica no informativa, primero a causa de pocos tallos y segundo a causa de de- masiados. Los programas de computadora de estadstica en general no producen grficas con ta- llos de dgitos mltiples. La grfica MINITAB que aparece en la figura 1.5(b) resulta de truncar cada observacin al borrar los dgitos uno. Grficas de puntos Una grfica de puntos es un resumen atractivo de datos numricos cuando el conjunto de datos es razonablemente pequeo o existen pocos valores de datos distintos. Cada observa- cin est representada por un punto sobre la ubicacin correspondiente en una escala de me- dicin horizontal. Cuando un valor ocurre ms de una vez, existe un punto por cada ocurrencia y estos puntos se apilan verticalmente. Como con la grfica de tallos y hojas, una grfica de puntos da informacin sobre la localizacin, dispersin, extremos y brechas. La figura 1.6 muestra una grfica de puntos para los datos de temperatura de los sellos anu- lares introducidos en el ejemplo 1.1 en la seccin previa. Un valor de temperatura represen- tativo es uno que se encuentra entre la mitad de los 60 (F) y existe poca dispersin en torno al centro. Los datos se alargan ms en el extremo inferior que en el superior y la observa- cin ms pequea, 31, apenas puede ser descrita como valor extremo. 12 CAPTULO 1 Generalidades y estadstica descriptiva Figura 1.5 Grficas de tallo y hojas de yardajes de campos de golf: a) hojas de dos dgitos; b) grfica generada por MINITAB con las hojas de un dgito truncadas. 64 35 64 33 70 Tallo: dgitos de miles y cientos de cifras 65 26 27 06 83 Hojas: dgitos de decenas de cifras y una cifra 66 05 94 14 67 90 70 00 98 70 45 13 68 90 70 73 50 69 00 27 36 04 70 51 05 11 40 50 22 71 31 69 68 05 13 65 72 80 09 Tallo y hojas de yardaje N 40 Unidad de hojas 10 4 64 3367 8 65 0228 11 66 019 18 67 0147799 (4) 68 5779 18 69 0023 14 70 012455 8 71 013666 2 72 08 a) b) Ejemplo 1.6 Ejemplo 1.7 c1_p001-045.qxd 3/12/08 2:31 AM Page 12 31. Si el conjunto de datos del ejemplo 1.7 hubieran consistido en 50 o 100 observacio- nes de temperatura, cada una registrada a un dcimo de grado, habra sido muy tedioso cons- truir una grfica de puntos. La tcnica siguiente es muy adecuada a situaciones como esas. Histogramas Algunos datos numricos se obtienen contando para determinar el valor de una variable (el nmero de citatorios de trfico que una persona recibi durante el ao pasado, el nmero de personas que solicitan empleo durante un periodo particular), mientras que otros datos se obtienen tomando mediciones (peso de un individuo, tiempo de reaccin a un estmulo par- ticular). La prescripcin para trazar un histograma es en general diferente en estos dos casos. Una variable discreta x casi siempre resulta de contar, en cuyo caso posibles valores son 0, 1, 2, 3, . . . o algn subconjunto de estos enteros. De la toma de mediciones surgen variables continuas. Por ejemplo, si x es el pH de una sustancia qumica, entonces en teora x podra ser cualquier nmero entre 0 y 14: 7.0, 7.03, 7.032 y as sucesivamente. Desde lue- go, en la prctica existen limitaciones en el grado de precisin de cualquier instrumento de medicin, por lo que es posible que no se pueda determinar el pH, el tiempo de reaccin, la altura y la concentracin con un nmero arbitrariamente grande de decimales. Sin embargo, desde el punto de vista de crear modelos matemticos de distribuciones de datos, conviene imaginar un conjunto completo continuo de valores posibles. Considrense datos compuestos de observaciones de una variable discreta x. La fre- cuencia de cualquier valor x particular es el nmero de veces que ocurre un valor en el con- junto de datos. La frecuencia relativa de un valor es la fraccin o proporcin de veces que ocurre el valor: Supngase, por ejemplo, que el conjunto de datos se compone de 200 observaciones de x el nmero de cursos que un estudiante est tomando en este semestre. Si 70 de estos valo- res x es 3, entonces frecuencia del valor 3 de x: 70 frecuencia relativa del valor 3 de x: Si se multiplica una frecuencia relativa por 100 se obtiene un porcentaje en el ejemplo de cursos universitarios, 35% de los estudiantes de la muestra estn tomando tres cursos. Las 70 200 5 0.35 1.2 Mtodos pictricos y tabulares en la estadstica descriptiva 13 Figura 1.6 Grfica de puntos de los datos de temperatura de los sellos anulares (F). Temperatura 30 40 50 60 70 80 DEFINICIN Una variable numrica es discreta si su conjunto de valores posibles es finito o se puede enumerar en una sucesin infinita (una en la cual existe un primer nmero, un segundo nmero, y as sucesivamente). Una variable numrica es continua si sus va- lores posibles abarcan un intervalo completo sobre la lnea de nmeros. frecuencia relativa de un valor nmero de veces que ocurre el valor nmero de observaciones en el conjunto de datos c1_p001-045.qxd 3/12/08 2:31 AM Page 13 32. frecuencias relativas, o porcentajes, por lo general interesan ms que las frecuencias mis- mas. En teora, las frecuencias relativas debern sumar 1, pero en la prctica la suma puede diferir un poco de 1 por el redondeo. Una distribucin de frecuencia es una tabla de las frecuencias o de las frecuencias relativas, o de ambas. Esta construccin garantiza que el rea de cada rectngulo es proporcional a la frecuencia relativa del valor. Por lo tanto, si las frecuencias relativas de x 1 y x 5 son 0.35 y 0.07, respectivamente, entonces el rea del rectngulo sobre 1 es cinco veces el rea del rectn- gulo sobre 5. Qu tan inusual es un juego de bisbol sin hit o de un hit en las ligas mayores y cun fre- cuentemente un equipo pega ms de 10, 15 o incluso 20 hits? La tabla 1.1 es una distribu- cin de frecuencia del nmero de hits por equipo por juego de todos los juegos de nueve episodios que se jugaron entre 1989 y 1993. El histograma correspondiente en la figura 1.7 se eleva suavemente hasta una sola cresta y luego declina. El histograma se extiende un poco ms hacia la derecha (hacia valo- res grandes) que hacia la izquierda, un poco asimtrico positivo. O con la informacin tabulada o con el histograma mismo, se puede determinar lo si- guiente: frecuencia frecuencia frecuencia relativa relativa relativa de x 0 de x 1 de x 2 0.0010 0.0037 0.0108 0.0155 14 CAPTULO 1 Generalidades y estadstica descriptiva Construccin de un histograma para datos discretos En primer lugar, se determina la frecuencia y la frecuencia relativa de cada valor x. Luego se marcan los valores x posibles en una escala horizontal. Sobre cada valor, se traza un rectngulo cuya altura es la frecuencia relativa (o alternativamente, la fre- cuencia) de dicho valor. Ejemplo 1.8 Tabla 1.1 Distribucin de frecuencia de hits en juegos de nueve episodios Nmero de Frecuencia Nmero de Frecuencia Hits/juego juegos relativa Hits/juego juegos relativa 0 20 0.0010 14 569 0.0294 1 72 0.0037 15 393 0.0203 2 209 0.0108 16 253 0.0131 3 527 0.0272 17 171 0.0088 4 1048 0.0541 18 97 0.0050 5 1457 0.0752 19 53 0.0027 6 1988 0.1026 20 31 0.0016 7 2256 0.1164 21 19 0.0010 8 2403 0.1240 22 13 0.0007 9 2256 0.1164 23 5 0.0003 10 1967 0.1015 24 1 0.0001 11 1509 0.0779 25 0 0.0000 12 1230 0.0635 26 1 0.0001 13 834 0.0430 27 1 0.0001 19383 1.0005 proporcin de juegos a lo sumo de dos hits c1_p001-045.qxd 3/12/08 2:31 AM Page 14 33. Asimismo, proporcin de juegos con 0.0752 0.1026 . . . 0.1015 0.6361 entre 5 y 10 hits (inclusive) Esto es, aproximadamente 64% de todos estos juegos fueron de entre 5 y 10 hits (inclu- sive). La construccin de un histograma para datos continuos (mediciones) implica subdivi- dir el eje de medicin en un nmero adecuado de intervalos de clase o clases, de tal suer- te que cada observacin quede contenida en exactamente una clase. Supngase, por ejemplo, que se hacen 50 observaciones de x eficiencia de consumo de combustible de un automvil (mpg), la ms pequea de las cuales es 27.8 y la ms grande 31.4. Entonces se podran utilizar los lmites de clase 27.5, 28.0, 28.5, . . . , y 31.5 como se muestra a con- tinuacin: Una dificultad potencial es que de vez en cuando una observacin est en un lmite de cla- se as que por consiguiente no cae en exactamente un intervalo, por ejemplo, 29.0. Una for- ma de habrselas con este problema es utilizar lmites como 27.55, 28.05, . . . , 31.55. La adicin de centsimas a los lmites de clase evita que las observaciones queden en los l- mites resultantes. Otro mtodo es utilizar las clases 27.5