Modulo 4 Analisis de La Informacion

334
YOLANDA GALLARDO DE PARADA ADONAY MORENO GARZÓN Serie APRENDER A INVESTIGAR Módulo 4 ANÁLISIS DE LA INFORMACIÓN ICFES LA EDUCACIÓN SUPERIOR

Transcript of Modulo 4 Analisis de La Informacion

YOLANDA GALLARDO DE PARADA ADONAY MORENO GARZNSerie APRENDER A INVESTIGARMdulo 4 ANLISIS DE LA INFORMACIN

ICFESLA EDUCACIN SUPERIORINSTITUTO COLOMBIANO PARA EL FOMENTO DE LA EDUCACIN SUPERIOR, ICFESSubdireccin General Tcnica y de FomentoPATRICIA MARTNEZ BARRIOS Directora GeneralPATRICIA ASMAR AMADOR Subdirectora General Tcnica y de FomentoMNICAIBARRA ROSERO Jefe Divisin de Fomento (A)MARA JESS RESTREPO LZATE Coordinadora del ProyectoSerie: APRENDER A INVESTIGAR ISBN: 958-9279-11-2 Obra completa ISBN: 958-9279-15-5 Mdulo 41a Edicin: 1987 1a Reimpresin: 1988 2a Reimpresin: 1991 2a Edicin: 1995Reimpresin: 1998 3a Edicin: (corregida y aumentada) 1999 ICFESCalle 17N3-40 A.A. 6319Telfono: 2819311 - 2834027 - 2834067 - 2435129Fax: 2845309 - 2834047 - 2845980Santa Fe de BogotDiseo de cartula, diagramacin e impresin: ARFO EDITORES LTDA. Carrera 15 N 53-86 Tels.: 2355968-2175794 Santa Fe de Bogot, D.C.

ICFESLA EDUCACIN SUPHHORINSTITUTO COLOMBIANO PARA EL FOMENTO DE LA EDUCACIN SUPERIORSerie: APRENDER A INVESTIGAR

Mdulos: 1.CIENCIA, TECNOLOGA, SOCIEDAD Y DESARROLLO

2.LA INVESTIGACIN

3.RECOLECCIN DE LA INFORMACIN

4.ANLISIS DE LA INFORMACIN

5.EL PROYECTO DE INVESTIGACIN

La serie APRENDER A INVESTIGAR ha sido realizada porel ICFES. Para las ediciones anteriores se cont con el siguiente grupo de autores:CARLOS ESCALANTE A.Profesor Universidad Nacional de ColombiaALBERTO MAYOR M.Profesor Universidad Nacional de Colombia

HUMBERTO RODRGUEZ M.Profesor Universidad Nacional de ColombiaEDUARDO VLEZB.Investigador Instituto SER de InvestigacionesNGEL FACUNDO D. Exjefe Divisin de Fomento Investigativo ICFESEl proyecto de actualizacin y revisin de la presente edicin de la serie APRENDER A INVESTIGAR fue realizado por el ICFES, para lo cual se conform el siguiente grupo de autores:Mdulo 1:LUIS JAVIER JARAMILLOMdulos 3 y 4:ADONAY MORENOYOLANDA GALLARDO DE PARADAMdulos 2 y 5:MARIO TAMAYO Y TAMAYO

Universidad San Buenaventura - Cali Universidad de Pamplona (N.S.)Universidad ICESI - CaliInstructivos para videos:LUZ ESTELLA URIBE VLEZ

EAFIT-MedellnContenidoSERIE APRENDERAINVESTIGARPresentacin

7Introduccin

9Propsito, poblacin y objetivos de la serie

11Estructura de aprendizaje de la serie

13La organizacin de la serie: los mdulos, y material audiovisual

17Descripcin sinttica de los mdulos

19La asesora de tutores

23Mdulo 4: ANLISIS DE LAINFORMACIN251. NATURALEZA DE LA ESTADSTICA

252. DIVISINDELAESTADSTICA

272.1 Estadstica descriptiva

272.1.1 Descripcin de datos, tcnicas de representacin grfica

292.1.2 Distribucin de frecuencias

312.1.3 Elaboracin de una tabla de frecuencias

312.1.4 Presentacin grfica

332.1.4.1 Histogramas y polgonos de frecuencias

342.1.4.2 Grficas de barras

352.1.4.3 Grficas lineales

362.1.4.4 Grficas circulares

373.DESCPJPCINDEDATOS- TCNICAS NUMRICAS

413.1Medidas de tendencia central

413.1.1 Lamoda

413.1.2 Lamediana

423.1.3 La media aritmtica

44

3.2Medidas de dispersin

463.2.1 Elrango

473.2.2 Percentiles

473.2.3 Varianza

483.2.4 Desviacin estndar

503.2.5 Coeficiente de variacin

503.3 Asimetra

513.4 Kurtosis

513.5 Tablas de contingencia

534.INTRODUCCIONALASPROBABILIDADES

604.1 Probabilidades elementales

604.2 Esperanza

62

4.3 Leyes de las probabilidades

624.4 Anlisis combinatorio

644.4.1 Permutaciones

644.4.2 Variaciones

664.4.3 Combinaciones

664.5 Probabilidad condicional

674.6 Distribucin binomial

704.7 Distribucin normal

704.8 Distribucin de Poisson

765.ESTADSTICA DIFERENCIAL

805.1 La prueba de hiptesis

815.2 Pruebas de significancia de muestras nicas o simples

865.2.1 PruebaZ

865.2.2 Distribucin t de Student

875.2.3 Distribucin Chi cuadrado: %2

926.REGRESINYCORRELACIN

986.1 Introduccin a la bidimensional

986.2 Ajuste de una recta de regresin rectilnea simple

1016.3 Correlacin

1046.4 Coeficiente de correlacin

1077. ANLISIS DE LA VARIANZA

1118. ESTUDIO DE FACTBILIDAD DEL SOFTWARE ESTADSTICO

1178.1 SAS

1178.2 SPSS

1198.3 Requerimientos mnimos para la instalacin del Software SAS

1208.4 Requerimientos mnimos para la instalacin del Software SPSS

1208.5 Manejador de Base de Datos

1219.STATGRAPHICS

1259.1 Grupo I: Data handling and systemUtilities

1259.2 Grupo II: Plotting and descriptive statistics

1259.3 Grupo III: Anova and regression analysis

126

9.4 Grupo IV: Time series procedures

1269.5 Grupo V Advanced procedures

126

9.6 Grupo VI: Mathematical procedures

1269.7 Requerimientos fsicos para la instalacin de Statgraphics

127ANEXO: Instructivo para el uso del video1. Uso didctico del video

1372. Videos: La mediciny las ciencias

145 La curva normal

151 La muestra

157BIBLIOGRAFA

165SERIE APRENDER A INVESTIGARPresentacinEl Instituto Colombiano para el Fomento de la Educacin ICFES, ha venido desarrollando proyectos que propenden por el mejoramiento de la calidad de la educacin superior y la formacin del talento humano que sea capaz de asumir el reto que nos impone la educacin del siglo XXI.Dentro de este marco de referencia, la formacin de directivos, docentes e investigadores en el tema de la investigacin ha sido prioritaria para el ICFES, razn por la cual ha continuado impulsando la divulgacin de materiales de gran utilidad para incentivar la prctica nvestigativa en la educacin superior.La SERIE APRENDER INVESTIGAR es un material autoinstructivo que ofrece los conceptos, las herramientas y los mtodos necesarios para la formulacin, perfeccionamiento y diseo de proyectos de investigacin.A las puertas del nuevo milenio, estamos entregando a la comunidad acadmica una nueva edicin actualizada y complementada de la SERIE APRENDER A INVESTIGAR, la cual contribuir a generar la cultura nvestigativa, que constituye la base de la educacin, la ciencia y la tecnologa del pas.PATRICIA MARTNEZ BARRIOS Directora GeneralIntroduccin a la serieEl presente programa autoinstruccional denominado APRENDER A INVESTIGAR, contiene algunos de los principales elementos, tericos y prcticos, sobre conceptos, mtodos y tcnicas usualmente empleados en el trabajo de investigacin cientfica.Aprender a Investigar es un proceso largo y complejo, que comprende diversas dimensiones y etapas formativas, algunas de las cuales comienzan, o deben comenzar a desarrollarse, desde los primeros aos de vida. Para el grupo de autores del programa, Aprender a Investigar no se reduce al estudio y dominio de la metodologa general de la investigacin cientfica. Aprender a Investigar implica, entre otras cosas, el desarrollo de diversas dimensiones, tales como:a) Un espritu de permanente observacin, curiosidad, indagacin y crtica dela realidad, el cual nos permite preguntarnos si aquello que se conoce sobre algoes realmente un conocimiento o si acaso ofrece unamejor explicacin del fenmeno o del objeto de estudio. Este espritu de observacin, crtica y creatividad sedesarrolla desde los primeros aos de vida.b) Una slida formacin general y un creciente dominio de los conocimientossobre un rea especfica de la realidad, pues stos son la base y el punto departida para poder aportar nuevos conocimientos. Como el cmulo de informacincientfica es hoy en da tan grande y se encuentra en constante aumento, se hacenecesario concentrar la atencin en tpicos especficos, pues cada vez es msdifcil seguir de cerca y estar al da sobre diversas temticas y mtodos de conocimiento. La formacin general y la concentracin del inters y aprendizaje permanentes en aspectos particulares de la realidad se ha venido efectuando a travs delos diferentes niveles educativos hasta llegar a centrar el inters en un rea especfica del conocimiento. Esta segunda dimensin, unida al dominio de la metodolo-10ga general de la investigacin cientfica, es otro de los requisitos decisivos paraaprender a investigar.anrender a investigarc) La prctica investigativa misma por medio de la cual las teoras, principios, conceptos, mtodos y tcnicas dejan de ser simples enunciados para convertirse en algo concreto y vivencial, constituye la tercera condicin indispensable. El adagio popular dice que a nadar se aprende nadando. De forma semejante, para aprender a investigar hay que lanzarse a la prctica investigativa. La teora sin la prctica es vaca, pero la prctica sin la teora es ciega. Los conocimientos sobre los contenidos y mtodos que se han venido adquiriendo sobre las disciplinas de estudio, y aquellos que se puedan adquirir a travs de esta serie sobre metodologa general de investigacin cientfica, deben servir como guas iluminadoras de la accin. En la medida de lo posible, para aprender a investigar es necesario integrarse a un equipo de investigacin, el cual pueda ser conducido y orientado por la experiencia terico-prctica de investigadores profesionales que estn en la misma lnea de inters investigativo.El estudio de la metodologa general de la investigacin cientfica, junto con ese espritu indagador y creativo y los conocimientos de los contenidos y mtodos de reas especficas del saber que usted ha venido adquiriendo, as como el deseo de lanzarse pronto a la prctica investigativa, justifica el nombre que se ha dado a la serie: APRENDER A INVESTIGAR.De otra parte, es importante advertir sobre las ventajas y limitaciones de un programa como ste. En primer lugar, al haber sido escrito dentro de la metodologa de la autoinstruccin, si bien cuenta con la ventaja de permitir estudiar por cuenta propia, de acuerdo con el tiempo disponible y el ritmo personal de aprendizaje, tiene la limitante de tener que suponer que quien sigue el programa posee los aprendizajes previos requeridos para asimilar los contenidos y el nivel acadmico adecuado; se cuenta por tanto, bsicamente, con la seriedad del estudiante y con el cumplimiento estricto de las diferentes instrucciones del programa.Es segundo trmino, debe tenerse en cuenta que la funcin de un programa como ste es proporcionar los principales conceptos, mtodos y tcnicas de un proceso de investigacin, los cuales son tratados de forma sencilla y resumida. Se presentan en forma sucinta las diferentes discusiones que sobre cada aspecto se han dado en la comunidad cientfica. Si se desea un conocimiento ms profundo, debe necesariamente recurrirse a aquellos textos que analicen cada tpico en toda su complejidad, al investigador, profesor, instructor o tutor.11Propsito, poblacin y objetivos de la serieEl propsito del programa, serie APRENDER INVESTIGAR, es familiarizar al estudiante con los elementos conceptuales y algunas tcnicas bsicas que le permitan, en su rea de estudio, comenzar a resolver problemas de conocimiento, aplicando la lgica del proceso investigativo utilizando determinados instrumentos bsicos. No se trata de proporcionar una informacin para memorizar sino que sta debe servir para orientar la prctica investigativa del estudiante, dentro de la disciplina cientfica en la cual se prepara como profesional e investigador.En este sentido, la serie APRENDER A INVESTIGAR ha sido diseada para una poblacin de estudiantes de educacin superior que se ha iniciado en el conocimiento de los contenidos y mtodos bsicos de una disciplina cientfica determinada y que, por tanto, comienza a plantearse y a enfrentar algunos problemas de investigacin.En la situacin corriente de nuestras instituciones de educacin superior, lapobla-cin objetivo de esta serie son estudiantes que estn cursando aproximadamente el quinto semestre de carrera, y que van a tener su primera aproximacin a la metodologa general de investigacin cientfica.El objetivo terminal de toda la serie o del curso completo consiste en lo siguiente:Al finalizar el proceso instructivo, el estudiante deber estar en condicin de disear y emprender un proyecto de investigacin dentro de su disciplina acadmica, aplicando tanto los contenidos adquiridos con las asignaturas propias de su carrera, como los elementos conceptuales y tcnicos adquiridos con el estudio de esta serie. Esto loV2

capacitar para enfrentar y tratar de resolver problemas de su rea de estudio siguiendo la metodologa de la investigacin cientfica.Para cumplir estos propsitos y estos objetivos, se supone que los usuarios de este curso (estudiantes que estn en la mitad de una carrera de educacin superior), han desarrollado los siguientes aprendizajes: Comprensin clara de textos escritos. Deduccin lgica, abstraccin y aplicacin de principios. Conocimientos bsicos de historia. Manejo general de los temas y mtodos bsicos de su disciplina de estudio. Manejo de las operaciones matemticas.

Solucin de ecuaciones de primer grado. Definicin de funciones matemticas. Entendimiento de los conceptos lgicos de probabilidad.Hacemos explcitas estas conductas mnimas de entrada, con la finalidad de garantizar, por una parte, la adecuada ubicacin del curso dentro de los programas acadmicos, o en el caso eventual de que ste se siga por fuera del mbito de un programa acadmico formal, con la finalidad de garantizar la necesaria nivelacin previa de los conocimientos bsicos.13Estructurade aprendizajede la serieLa serie APRENDER A INVESTIGAR consta de los siguientes elementos: Cinco mdulos escritos y guas de utilizacin de videocasetes. Cinco videocasetes que contienen trece programas de video para BETA o VHS. Gua de utilizacin de videocasetes.Los mdulos son el material fundamental de trabajo. Sin embargo, en aquellos temas en los cuales el medio audiovisual permite una mayor riqueza y facilidad de expresin, se prefiri su uso al del material escrito. En otros aspectos que presentan alguna dificultad de comprensin, el material audiovisual cumple la funcin de complemento o refuerzo del material escrito. En ningn caso el material audiovisual es repetitivo del material escrito.Toda la serie ha sido diseada como material autoinstructivo. Por tal razn, sin sacrificar la necesaria precisin de los conceptos, se ha utilizado el lenguaje coloquial y sencillo. Segn el propsito y el objeto antes expresados, se ha buscado hacer un primer acercamiento del estudiante a los conceptos, mtodos y tcnicas bsicas de investigacin, buscando ante todo despertar su inters por ellas. En los casos en los cuales el estudiante desee profundizar, deber recurrir a la bibligrafo bsica que se le indica al final de cada unidad, as como una consulta con tutores, profesores o con expertos investigadores en la materia. El conocimiento adquirido a travs del curso debe servirle de gua para continuar profundizando en la materia.Los mdulos de que consta la serie son:14Serie Aprender a Investigar Organizacin de los mdulosMaterial escritoVideocasetes

Mdulo 1Ciencia, Tecnologa y Desarrollo* Ciencia y tecnologa:

*Naturaleza de la actividad cientficadesarrollo del hombre 15

*Naturaleza de la tecnologa

*Investigacin y desarrollo experimental

*El impacto socio-econmico

de la ciencia y la tecnologa

*La ciencia y la tecnologa en

la nueva revolucin industrial

Mdulo 2La Investigacin* Tipos de investigacin

*El conocimiento cientficocientfica 15'

*Tipos de investigacin* El experimento 15'

*Modelos y diseos de investigacin

*La interdisciplinariedad

Mdulo 3Recoleccin de la Informacin* Informacin primaria

*Conceptos bsicos de mediciny secundaria 15'

* Informacin primaria y secundaria*La observacin 15'

*Unidades variables y valores*La encuesta 15'

*Tcnicas para el registro*La entrevista 15'

de informacin secundaria

* Tcnicas para la recoleccin

de informacin primaria

*La encuesta

Mdulo 4Anlisis de la Informaciii*La medicin

*Descripcin de datos - Tcnicasy las ciencias 15'

de representacin grfica*La curva normal 15'

*Distribucin de datos - Tcnicas*La muestra 15'

numricas

*Introduccin a las probabilidades

*La prueba de hiptesis

*Regresin y varianza

*Anlisis y muestra

*Universo y muestra

*Estudio de factibilidad

de software estadstico

Mdulo 5El Proyecto de Investigacin*Cmo utilizar las fuentes

*Elementos del proceso investigativode informacin 15'

*Administracin del proyecto*De dnde surgen los

*Evaluacin del proyectoproblemas de investigacin 15'

*El informe investigativo*Vamos a elaborar

un proyecto

Nota: En los mdulos escritos se incluye una gua didctica para utilizacin de los videocasetes.Se trata de que cada mdulo (tanto en el material escrito como en el material audiovisual) sea autosuficiente, es decir, que en forma independiente comunique una informacin completa sobre un determinado tema. Sin embargo, no debe perderse de vista que cada uno de ellos es parte integrante del programa total. Entre uno y otro mdulo existen relaciones determinadas de orden y niveles, que conforman la ESTRUCTURA DE APRENDIZAJE con la cual se dise la serie.Es importante conocer esta estructura de aprendizaje, pues ella es una gran ayuda, tanto para el estudio como para la evaluacin de los objetivos de aprendizaje propuestos.1617La organizacin de la serie:los mdulos y material audiovisualUn mdulo consta de unidades de aprendizaje, que son consideradas como etapas que hay que recorrer, siguiendo una ruta estratgicamente diseada, para lograr un objetivo propuesto.Dentro de cada mdulo y antes de empezar cada Unidad se explicitan cules son los objetivos especficos de aprendizaje que se persiguen.En la tcnica de estudio independiente o de autoinstruccin, usted debe ser muy consciente, antes de entrar a trabajar, de qu es lo que va a hacer. Esto le ayudar en el aprendizaje. Una vez usted haya estudiado un contenido de acuerdo con su ritmo propio de trabajo, al final de cada unidad encontrar unas preguntas sobre los contenidos que trata el mdulo que le permitirn autoevaluarse, conocer si usted domina esos contenidos y, por tanto, decidir en forma personal y responsable si puede continuar avanzando.Recuerde y tenga siempre en cuenta que no todas las partes del proceso investigativo presentadas en el modelo aparecen desarrolladas en el texto escrito, algunas han sido desarrolladas en los videocasetes, por lo cual, cuando as se le indique, usted deber recurrir al beta o VHS y seguir la gua de utilizacin de videos.La serie est diseada de tal forma que es bsicamente usted quien juega el rol principal, quien estudia y quien debe decidir si ha alcanzado los objetivos previstos. Se han hecho grandes esfuerzos para organizar los diferentes materiales en funcin de un aprendizaje a partir de un estudio independiente.1819Descripcin sinttica de los mdulosEl mdulo 1Hemos denominado al mdulo 1: Ciencia, tecnologa, sociedad y desarrollo El propsito de este mdulo es proporcionar al estudiante que se inicia en el estudiode la metodologa general de investigacin, una rpida visin de cmo la ciencia,la tecnologa y la investigacin son actividades de carcter histrico, es decir,que han evolucionado con el desarrollo del hombre y de la sociedad. Mostrar cmo han adquirido en la actualidad una importancia estratgica. Introducir en los conceptos de ciencia, tecnologa e investigacin.Este mdulo se complementa con el videocasete: "Ciencia y tecnologa: desarrollo del hombre", 15'.El mdulo 2Hemos denominado el mdulo 2: La investigacin El propsito de este mdulo es presentar el conocimiento y el mtodo cientficocomo punto de partida para enfrentar la realidad y plantear procesos nvestigativos. Mostrar los diferentes tipos de investigacin y dar elementos de juicio para lautilizacin de medios y determinacin del tipo de diseo a seguir.20

- Presentar la interdisciplinariedad como una metodologa de investigacin cientfica.Este mdulo se complementa con dos videocasettes: 1. Tipos de investigacin cientfica, 15' y 2. El experimento, 15'.El mdulo 3Hemos denominado al mdulo 3: Recoleccin de la informacin El propsito de este mdulo es identificar las tcnicas bsicas para recolectar lainformacin que se requiere para el trabajo de investigacin. Distinguir las reglas de diseo a que estn sometidas. Plantear elementos bsicos para que, en dependencia con el tipo de investigacin,el programa que se enfrenta y la estrategia concebida para resolverla, es decir, conla hiptesis conductora del trabajo, se pueda emplear las tcnicas que ms seajusten a esos requerimientos.Este mdulo se complementa con cuatro videocasettes: 1-. Informacin primariay secundaria, 15'. 2-. La observacin, 15'. 3-. La encuesta, 15'. 4- La entrevista, 15'.El mdulo 4Hemos denominado al mdulo 4: Anlisis de la informacin- El propsito de este mdulo es plantear las tcnicas ms comunes para el anlisis de datos, y el saber cundo, cmo y por qu utilizarlas. Se plantea adems el anlisis conceptual y la descripcin de paquetes estadsticos para uso del computador.Este mdulo se complementa con tres videocasettes: 1-. La medicin y las ciencias, l 5'. 2-. La curva normal, I 5'. 3-. La muestra, 15'.El mdulo 5Hemos denominado el mdulo 5: El proyecto de investigacin El propsito de este mdulo es lograr que el estudiante retome e integre los conceptos y los procesos de la metodologa de investigacin cientfica y pueda formular un proyecto de investigacin en su respectiva rea de estudio.

Presentar elementos bsicos para el desarrollo del proyecto de investigacin relacionados con el proceso de investigacin: la administracin del proyecto; la evaluacin del proyecto y el informe investigativo.Este mdulo se complementa con tres videocasettes. 1-. Cmo utilizar las fuentes de informacin, 15'. 2-. De dnde surgen los problemas de investigacin, 15'. 3-, Vamos a elaborar un proyecto, 15'.Consideramos que este mdulo es de vital importancia y tanto los videos como los otros mdulos convergen a ste. Es decir que el mdulo 5 es el centro de la serie APRENDER A INVESTIGAR.Como objetivos especficos del mdulo, tenemos: Indicar al estudiante los factores a tener en cuenta en la eleccin de un tema parainvestigar. Proporcionar al estudiante las herramientas bsicas que le permitan identificar,analizar y formular problemas de investigacin dentro de su rea de estudio. Capacitar al estudiante para que pueda formular hiptesis para la solucin de losproblemas y sealarle algunos de los pasos que generalmente se siguen para ponera prueba las hiptesis de investigacin. Sealar las diferencias que existen entre las actividades cientifico-tcnicas, con lafinalidad de que pueda comprender la peculiaridad de una de ellas: la investigacin. Hacer conocer que la forma moderna de investigar es a travs de la planeacin,ejecucin y determinacin de aspectos administrativos del proyecto. Proporcionar al estudiante y a los profesores parmetros de evaluacin para proyectos de investigacin. Lograr que el estudiante entienda la necesidad e importancia de elaborar informesparciales y finales, que estn en capacidad de elaborarlos aplicando las tcnicasbsicas correspondientes.

22SERIE: APRENDER A INVESTIGAR23La asesora de tutoresAunque los mdulos han sido diseados para que puedan utilizarse en estudio independiente o en forma auto-instructiva, es conveniente valerse de la asesora de tutores, profesores o expertos investigadores.El trabajo tutorial es conveniente para: Aclarar, ampliar y profundizar conceptos. Orientar los ejemplos, ejercicios y prcticas hacia los temas y problemas propiosde la disciplina que estudie cada participante. Resolver inquietudes y dudas. Coordinar el contacto y trabajo con otros estudiantes. Estimulacin del debate en grupos. Estimular el aprendizaje en la prctica. Auto-regular el proceso de aprendizaje.Segn lo previsto en el diseo y organizacin de la serie, la asesora de tutores, profesores o expertos investigadores no solo es conveniente sino necesaria en las siguientes actividades: La realizacin de experimentos y trabaj o en laboratorios. El diseo y la ejecucin del proyecto de investigacin.Sin embargo, es importante enfatizar que el participante es el directo responsable de su aprendizaje. Tanto los materiales escritos y los audiovisuales que conforman los diferentes mdulos del programa, as como los tutores, profesores o investigadores-asesores son solamente medios que le apoyen en su decisin de aprender.24SERIE: APRENDER A INVESTIGARMDULO 4: ANLISIS DE LA INFORMACIN25Mdulo 4Anlisis de la informacinEl anlisis de la informacin en el proceso investigativo, depende del enfoque y del tipo de investigacin que se haya seleccionado, como tambin de los objetivos que se hayan planteado.La estadstica se constituye en una herramienta fundamental para el anlisis de la informacin. Sin embargo es necesario precisar y seleccionar el tratamiento estadstico dependiendo del enfoque cuantitativo o cualitativo, de la escala de medicin de las variables, de las hiptesis y de los objetivos.La estadstica es fundamental para resolver problemas de descripcin de datos, anlisis de muestras, contrastacin de hiptesis, medicin de relaciones y predicciones.1. NATURALEZA DE LA ESTADSTICALa estadstica es una rama de la ciencia, encargada del diseo y aplicacin de mtodos para recolectar, organizar, analizar y hacer deducciones a partir de ellos.Aunque los orgenes de la estadstica se remontan a los estudios de los juegos de azar del siglo XVIII, slo en los ltimos 60 aos se han desa-26SERIE: APRENDER A INVESTIGARrrollado las aplicaciones de los mtodos estadsticos en casi todos los campos de la ciencia (social, comportamental y fsica). La mayor parte de las primeras aplicaciones de la estadstica consistieron principalmente en la presentacin de datos en forma de tablas y grficas. Este campo se desarroll con rapidez llegando a incluir gran variedad de mtodos para ordenar, resumir y expresar en alguna forma las caractersticas de un conjunto de nmeros. Hoy estas tcnicas cubren lo que es sin duda la ms visible aplicacin de la estadstica: la masa de informacin cuantitativa que se recopila y se publica todos los das en nuestra sociedad. Las tasas de natalidad, de mortalidad, los ndices de precios, los promedios de goles obtenidos en las fechas semanales de ftbol, son algunas de las muchas estadsticas que nos resultan familiares.Adems de expresar las caractersticas de la informacin cuantifica-ba, estas medidas proporcionan una base importante para el anlisis en casi todas las disciplinas acadmicas, especialmente en las ciencias sociales y del comportamiento, donde la conducta humana no puede generalmente ser descrita con la precisin que se consigue en las ciencias exactas. Las medidas estadsticas de satisfaccin, inteligencia, aptitud para el trabajo y capacidad de liderazgo, que sirven para ampliar nuestro conocimiento de las motivaciones y del rendimiento humano, son ejemplos de lo dicho. Del mismo modo, los ndices de precios, productividad, producto nacional bruto, empleo, reservas disponibles y exportaciones son elementos tiles tanto para el gerente como para el gobernante cuando se trata de trazar una poltica encaminada a lograr el desarrollo y la estabilidad econmica a largo plazo.La estadstica proporciona una metodologa para evaluar y juzgar las discrepancias entre la realidad y la teora. Adems de su papel instrumental, el estudio de la estadstica es importante para entender las posibilidades y limitaciones de la investigacin experimental, para diferenciar las conclusiones que pueden obtenerse de los datos de aquellas que carecen de base emprica y en definitiva para desarrollar un pensamiento crtico y antidogmtico ante la realidad.En la actualidad con la ayuda de la informtica y la tecnologa el tratamiento estadstico de la informacin se hace ms sencillo.Para el anlisis de datos cuantitativos, tenemos en la actualidad programas como el SAS, SPSS, MINITAB, SVSTAT, RESAMPLING, STATGRA-PHIS. Para el anlisis de datos cualitativos existen programas como el QUALPRO, ETHNOGRAPH, NUDIST, AQUAD.MDULO 4: ANLISIS DE LA INFORMACIN272. DIVISIN DE LA ESTADSTICALa estadstica se divide en dos grandes ramas, dependiendo del mtodo empleado para manejar la informacin y hacer que tenga sentido: estadstica descriptiva y estadstica inferencial.Estadstica inferencial Estadstica descriptivaPoblacinGrfica 1.2.1 Estadstica descriptiva. Permite describir resumir y analizar la informacin obtenida de la muestra.Para tal fin se recolecta la informacin, se tabula, se grfica y en muchos casos en vez de trabajar con todas las observaciones, es preferible tener unas medidas que resuman los datos.Bsicamente hay tres tipos de medidas de resumen: medidas de tendencia central, medidas de dispersin o variabilidad de los datos y medidas de ubicacin.La grfica 1 se interpreta as: con los datos de la muestra se aplica la estadstica descriptiva; con los resultados de la estadstica descriptiva se hacen anlisis de estadstica inferencial referidos a la poblacin.28

SERIE: APRENDER A INVESTIGARMAPA CONCEPTUAL DE ESTADSTICA DESCRIPTIVATABULACIN

TABLAS DE FRECUENCIAS TABLAS DE CONTINGENCIA

GRFICAS O DIAGRAMAS

PUNTOSLNEASBARRASCRCULOCAJA

HISTOGRAMAS

MEDIDAS DE TENDENCIA CENTRAL

MEDIAMEDIANAMODAMEDIA GEOMTRICA

MEDIDASDERESUMEN

MEDIDAS DE DISPERSIN

RANGODESVIACIN ESTNDARVARIANZANDICE DE DISPERSIN CATEGRICO

MEDIDAS DE UBICACIN

CUARTILES QUINTILES DECILES PERCENTILESMDULO 4: ANLISIS DE LA INFORMACIN292.1.1 Descripcin de datos, tcnicas de representacin grficaEl concepto de la descripcin est asociada a la distribucin de frecuencias, que consiste en el ordenamiento o clasificacin de los valores observados en una variable, de acuerdo con su magnitud numrica. Permite al investigador identificar la forma como ciertos puntos o caractersticas estn distribuidos.La distribucin de frecuencia se puede construir a partir de variables medidas a cualquier nivel, desde nominal hasta de razn.Podramos suponer que queremos ver cuntos productores agrcolas en una vereda son grandes, medianos o pequeos productores.Entrevistamos a los productores de la vereda y les preguntamos la extensin de su explotacin y la clasificamos de acuerdo con el tamao (magnitud) en una de las tres categoras.Se construye la distribucin de frecuencias que muestre cuntos productores son grandes, cuntos medianos y cuntos pequeos. El recuento ser:Tabla 1 - Tipo de productor agrcolaTipo de productorFrecuencia

Pequeo Mediano GrandeDn 7DDD 12SD 9

Total28

En el cuadro slo se ha agrupado el nmero de agricultores pertenecientes a cada categora. El nmero de agricultores se denomina observaciones o frecuencia (f).Para el caso de variables medidas a nivel intervalo o de razn, podemos hacer exactamente el mismo ejercicio.Si se tiene, por ejemplo, la informacin acerca del nmero de cajas de madera que construyen al da unos carpinteros en un taller, podramos clasificarlos por su productividad.30SERIE: APRENDER A INVESTIGARTabla 2 - Nmero decajas construidas por 15 carpinteros

N de cajas

Carpinterosconstruidas

111

210

38

412

512

610

77

88

910

1011

1110

129

139

1410

1511

A partir de esta informacin podemos aclarar an ms la naturaleza de la produccin por carpintero y se podra entrar a comparar esta productividad con la de otro tipo de taller o fbrica.En la tabla 3 introducimos un mayor significado y ordenamiento a la informacin que se est analizando.Tabla 3 - Nmero de cajas construidas por 15 carpinterosN de cajas construidasN de carpinteros que construyen X N de cajasF

7I1

8II2

9II2

105

11III3

12II2

Hasta ahora los ordenamientos que se han hecho son bastante simples, pero en la vida real muchas veces la informacin analizada es ms compleja y la distribucin de frecuencias debe ser construida a partir de un mayor nmero de puntajes.MDULO 4: ANLISIS DE LA INFORMACIN31_2.1.2Distribuciones de frecuenciasLa distribucin de frecuencias es un mtodo para organizar y resumir datos. Bajo este mtodo los datos que componen una serie, se clasifican y ordenan, indicndose el nmero de veces en que se repite cada valor.Los caracteres de los elementos de una poblacin pueden ser: cualitativos y cuantitativos.Los datos cualitativos, denominados tambin atributos, son todos aquellos fenmenos que pueden ser descritos cualitativamente, es decir mediante palabras; son ejemplos de atributos: la clasificacin de los alumnos de una universidad por departamento de origen, clasificacin de un grupo de personas por ocupacin, por sexo, por cargo, etc.Los caracteres cuantitativos, denominados variables, son todos aquellos fenmenos susceptibles de ser expresados cuantitativamente, es decir mediante nmeros. Por ejemplo: peso, estatura, edad, nmero de hijos, salarios, etc.Las variables se dividen en: discretas y continuas, teniendo en cuenta que sta clasificacin tiene ms valor terico que prctico.Las variables discretas son aquellas que admiten solamente valores enteros, es decir no tienen valores intermedios; por ejemplo el nmero de hijos por familia, ya que no se puede decir que una familia tiene dos hijos y medio.Las variables continuas, son aquellas que admiten valores fraccionarlos, pudindose establecer intervalos. Por ejemplo, la estatura de una persona que mide un metro con setenta centmetros, que pesa sesenta kilos, una libra y cuatro onzas, etc.2.1.3Elaboracin de una tabla de frecuenciasTomemos como ejemplo una muestra de 20 alumnos, determinando su peso en kilos; para facilitar el trabajo redondeamos las cifras.X., = 74X5 = 69X9 = 47X13 -65x17= 76

X2 = 67X6 = 61X10 = 85X14 -88Xi8= 57

X3 = 94X7 = 71Xn = 82X15 =52X-ig= 72

X4 = 70X8 = 79s\-\2 *^*^X16 =58X?n= 66

32SERIE: APRENDER A INVESTIGAREl primer paso a seguir consiste en determinar el valor mximo y el mnimo.En el ejemplo tenemos:'Vnximo ~~ ^^> /\nnmo ~ ^'La diferencia entre el valor mximo y el mnimo se denomina recorrido o rango.94 . 47 = 47El rango, ser entonces de 47.Introducimos dos nuevos smbolos que son:m = nmero de intervalos (o clase de la distribucin)c = amplitud de intervalo (o de clase de la distribucin)El valor de m, o sea, el nmero de intervalos se puede obtener mediante la siguiente frmula:m = 1 + 3.3 log n , donde n es el nmero de datosEs de anotar que la anterior frmula es poco conocida, por consiguiente, es poco usual. Sin embargo, se recomienda que el nmero de intervalos, hasta donde sea posible, no sea menor de 5 ni mayor de 16.Para el clculo de amplitud del intervalo se puede aplicar la siguiente frmula:max.mm. " xmn o sea rangoc= c =mmEn el caso de nuestro ejemplo, el nmero de intervalos ser:m = 1 +3.3 log2O de donde m = 1 + 3.3,x 1,30m = 1 + 4,29m = 5.29 = 5 intervalos.MDULO 4: ANLISIS DE LA INFORMACIN

33La amplitud del intervalo de clase ser:Rango R =47Nmero de intervalos m = 5C =

Rm

de donde

= 9.4Redondeando y para mejor manejo de los datos, se puede considerar que la amplitud del intervalo sea de 9.La tabla de frecuencias nos quedar en la siguiente forma, Tabla 4 - Distribucin de frecuencias del peso de 20 alumnosPesoFrecuencias (f)Frecuencia Relativa Fr

46-55 56-65 66-75 76-85 86-95 Total3 4 7 4 2 203/20 = 0.15 = 15% 4/20 = 0.20 = 20% 7/20 = 0.35 = 35% 4/20 = 0.20 = 20% 2/20 = 0.10 = 10% 20/20 = 1 = 100%

Frecuencia relativa (Fr)Es su frecuencia dividida por el total de datos y se expresa generalmente como un porcentaje:fFr = n2.1.4 Presentacin grficaAunque las tablas sean ya el resultado de una concentracin de datos, pueden ser, sin embargo, demasiado amplias y complejas, de modo que pierden una buena parte de lo que debera ser su cualidad primordial, la claridad.Entonces, podemos recurrir a la presentacin grfica, para la mejor comprensin y anlisis de los datos. En las variables discretas se hace la representacin mediante diagramas de frecuencias; para ello, en el eje hori-34

SERIE: APRENDER A INVESTIGARzontal, se colocan los distintos valores de las frecuencias absolutas o relativas. Si la representacin se refiere a las frecuencias absolutas o relativas acumuladas se denomina: Diagrama de frecuencias acumuladas, colocndose los valores de la variable en el eje horizontal y las frecuencias Fr, en el vertical.2.1.4.1 Histogramas y polgonos de frecuenciasUna distribucin de frecuencias, se puede describir por medio de histogramas de frecuencias, que son grficos que representan la informacin contenida en una distribucin de frecuencias.El ejemplo de la tabla 4, sobre el peso de los alumnos, se puede presentar en un histograma que representa exactamente lo mismo.Grfica 1. Peso en kilos de 20 alumnos de un colegio8-c/}

7

^UENCIA en

tu H ceX2

LL2 0/"

/

Pesos46 a 5556 a 6566 a 7576 a 8586 95

Otra manera de describir la distribucin de la informacin obtenida, es por medio del polgono de frecuencias.Estos son grficos en la forma de una serie de lneas rectas conectadas entre s y que unen puntos medios de intervalos a lo largo del eje horizontal.El caso del peso de los alumnos, puede servirnos para ilustrar la tcnica de los polgonos de frecuencia. Para construirlo se siguen los mismos pasos que para construir un histograma, pero en lugar de construir los rectngulos a partir de los lmites superior e inferior de los intervalos, se calcula el punto medio del mismo y se unen, por medio de una lnea recta que se conecta a los puntos medios de los dems intervalos.MDULO 4: ANLISIS DE LA INFORMACIN

35As por ejemplo en el grfico 1 podemos trazar el polgono de frecuencias, uniendo los puntos medios del histograma de frecuencias.2.1.4.2 Grficas de barrasLa grfica de barras es fcil de construir y su interpretacin es de gran utilidad. Una grfica diseada para mostrar magnitudes absolutas deber tener su inicio en cero y una escala de cantidades continuas. Las grficas de barras pueden construirse en forma vertical u horizontal.Las grficas de barras pueden dividirse en tres tipos:a. Grficas de barras con partes componentes. En esta grfica cada barra ha sido segmentada en dos partes componentes; as, por ejemplo, en la siguiente grfica se tiene que la poblacin de estudiantes de 100 semestre de la facultad X, de la Universidad Y, se distribuye segn el sexo y la edad as:Distribucin de los estudiantes de dcimo semestre de la Facultad X, de la Universidad Y, por sexo y edad

15-19 20-24 25-29 30-34

hom bres m u je re s102030Nmero de Estudiantes

40En la grfica se muestra el nmero de estudiantes clasificados por sexo y edades, en cada barra se presentan los dos componentes, los hombres y las mujeres.b. Grficas de barras agrupadas. En esta grfica, se presentan los mismos datos de estudiantes, excepto que los componentes por sexo se muestran separadamente as:36

SERIE: APRENDER A INVESTIGARDistribucin de los estudiantes de dcimo semestre de la Facultad X, de la Universidad Y, segn el sexo y la edad15-19 ^11

1

30-34 ^'1

-I1

m u je re s Dh o m b re s10152 0Nmero de Estudiantesc. Grficas de barras bidireccionales. Cuando se desea graficar cantidades positivas y negativas, tales como prdidas y ganancias en la produccin de una empresa, por tipo de producto. As, en la grfica de produccin de la empresa X, se tiene que las prdidas y ganancias por tipo de producto son:Utilidad o prdida en la produccin de la Empresa Xi

Ibstutas

C

alentadores de aaua

Secadores Enfriadores Planchas

D utilidad o prdida-40

-20

020Produccin

40

602.1.4.3 Grficas linealesCuando debe presentarse una serie que cubre un gran nmero de perodos de tiempo, los datos graficados por medio de barras se ven demasiado acumulados; entonces, stas pueden ser reemplazadas por una lnea, ya que las lneas son ms efectivas que las barras, cuando existen marcadas fluctuaciones en las series, o cuando deben presentarse varias series sobre la misma grfica. Por ejemplo, el nmero de estudiantes de la facultad X, matriculados por sexo, en el perodo 1990-1998.MDULO 4: ANLISIS DE LA INFORMACIN

37Nmero de estudiantes de la Facultad X, matriculados por sexo,en el perodo 1990-1998

2A.4.4 Grficas circularesLas grficas circulares, llamadas tambin de tipo pastel, se usan para mostrar los tamaos relativos de los componentes de un total. Son utilizados, para indicar cosas tales como participacin de cada facultad en el total de estudiantes matriculados de determinada universidad, en perodos diferentes.El proceso para realizar el diagrama consiste en una regla de tres.Para conocer el ngulo de cada sector se debe relacionar los 3600 que tiene una circunferencia con el tamao de la muestra y con cada una de sus frecuencias absolutas, as:Por ejemplo, si la siguiente tabla representa el nmero de docentes de una universidad, clasificados por modalidad educativa.ModalidadTcnica Tecnologa Universitaria Post-grado

525 80 15N = 125El diagrama circular se construir as:Donde 125 es el tamao de la muestra y 5 la frecuencia en la primera modalidad.38SERIE: APRENDER A INVESTIGARLuego X = 360x 5 125En el siguiente ejemplo, se muestra la distribucin porcentual del nmero de estudiantes matriculados en 5 facultades de una universidad X, en los aos de 1990 y 1998.

DESCRIPCIN DE DATOS, TCNICA DE REPRESENTACIN GRFICA - AUTOEVALUACIN N 1Lea cuidadosamente cada uno de los siguientes enunciados y seale la respuesta correcta.1.El propsito principal de la estadstica descriptiva es:a) Representar los datos por medio de histogramas.b) Obtener la informacin necesaria para la investigacin.c) Medir en escalas nominales, ordinales e intervalos.d) Conocer las caractersticas generales de una distribucin defrecuencias.e) Todas las anteriores.2.Una distribucin de frecuencias slo se puede construir a partir devariables medidas en escalas intervalos.S No

MDULO 4: ANLISIS DE LA INFORMACIN39Porqu?

3. Si clasificamos 220 municipiosen grandes, medianos y peque-

os, de acuerdo con el nmerode habitantes, de forma tal que

tenemos 49 grandes, 63 medianos y 108 pequeos, cmo los

representara en un histograma de frecuencias como en un diagra-

ma circular?

4. Para construir un histograma defrecuencias, primero es necesa-

rio construir un polgono de frecuencias.

S No

5. En un examen general de matemticas los 30 alumnos de un cur-

so obtuvieron las siguientes calificaciones:

CalificacinN de alumnos

781

771

760

752

741

730

722

712

704

695

683

670

663

652

640

631

622

611

Represente la misma informacin en una distribucin de frecuencias,

basada en intervalos. Determine elrango, el nmero de intervalos y

la amplitud de los intervalos. Represente los resultados por medio de

un histograma y un polgono de frecuencias.

1. d2. No3. Grfico4. No5. Rango =17; nmero de intervalos = 6; amplitud de intervalo = 3CalificacionesFFrecuencia

Relativa %

61-63413.3

64-66516.7

67-69826.7

70-72826.7

73-75310.0

76-7830100.0

Graficari oN NOiovmvAaoinv vn vyvonsaAN vyaaN3ydv:3iyasovMDULO 4: ANLISIS DE LA INFORMACIN41_3. DESCRIPCIN DE DATOS - TCNICAS NUMRICASLa segunda tcnica utilizada en la estadstica descriptiva se basa en dos tipos de clculos numricos: Los de tendencia central y los de dispersin.Las medidas de tendencia central se basan en que, en cualquier distribucin de frecuencias, los valores tienden a concentrarse al rededor de un valor central de la distribucin.Las de dispersin, por el contrario, se basan precisamente en la manera en que los valores se distribuyen alrededor de esos valores centrales.Para entender la naturaleza de la distribucin, tenemos que tratar de describir el centro de la distribucin de las mediciones y la forma como stas varan alrededor de ese centro.Podemos utilizar estas tcnicas descriptivas, tanto para estudiar los parmetros de la poblacin como las estadsticas de las muestras y en este ltimo caso, a partir de ellas podemos estimar los correspondientes parmetros de la poblacin.3.1 Medidas de tendencia centralA continuacin describimos las tcnicas de tendencia central: moda, mediana y media aritmtica.3.1.1 La modaLa moda de una distribucin se define como el valor que presenta la mayor frecuencia. Se usa con mediciones de escala nominal, ordinal, de intervalo o de razn.Es comnmente utilizada como una medida de popularidad, que refleja la tendencia de una opinin. En algunas distribuciones slo hay una moda, pero en otras puede haber dos o ms modas. Si tomamos 1, 4, 4, 4, 2, 5, 5, 8, 3, 6, 5, vemos que tanto el cuatro como el cinco aparecen con ms frecuencia y en tres ocasiones. Es decir, hay dos modas y la distribucin es bimodal.Cuando se trabaja con datos agrupados, la moda se refiere como el valor medio del intervalo que constituye la mayor frecuencia.42

SERIE: APRENDER A INVESTIGARTabla 5. Puntajes obtenidos por 50 alumnos de un curso de fsicaPuntajesFrecuencias

30-324

33-354

36-385

39-417

42-4412

45-477

48-504

51 -533

54-562

57-592

Total50

En la tabla 5, presentamos la distribucin obtenida al estudiar los puntajes obtenidos por 50 estudiantes como calificacin en un curso de fsica.El intervalo que contiene el mayor nmero de casos, o mayor frecuencia es 42 - 44. Este intervalo contiene los puntajes 42, 43 y 44. El valor medio del intervalo es, por lo tanto, 43 y lo denominamos como la moda.3.1.2 La medianaLa mediana se define como la medida de tendencia central que divide a cualquier distribucin en dos partes iguales. En la siguiente distribucin:7, 8, 8, 9, 12, 15, 18, 18,20,21, 23.La mediana es 15, porque se sita en el punto que divide la distribucin en dos partes iguales. Hay el mismo nmero de casos antes y despus del 15.La mediana se usa en variables medidas en escala ordinal, intervalo o de razn. Su mayor uso es cuando se tienen muchas observaciones y generalmente se utiliza en distribuciones de ingresos, edades, pesos.Cuando hay una distribucin con un nmero par de casos, la mediana es el promedio de los dos valores medios. As, en la siguiente distribucin de notas:78,95,86,73,52,90,89,84,76,92MDULO 4: ANLISIS DE LA INFORMACIN43El valor de la mediana es 85, porque, primero al ordenar la distribucin de menor a mayor as:52,73,76,78,84,86,89,90,92,95Siendo 10 el total de notas, las que aparecen en la posicin quinta y sexta estn en la mitad de la distribucin, entonces la mediana ser:84 + 86 = 85 2Cuando se tiene informacin agrupada, la mediana se define como el valor dentro del intervalo que divide la distribucin en dos partes iguales. El smbolo utilizado es Me.En la tabla 6, tenemos una distribucin cualquiera con 5 intervalos de tamao 5 y con 30 observaciones.Tabla 6. Distribucin de frecuencias de los pesos de 30 estudiantesFrecuencias

IntervalosFacumuladas

30-3444

35-39711

40-44819

45-49625

50-54530

Total30

Los pasos a seguir para el clculo de la mediana son:Encuentro las frecuencias absolutas acumuladas. Con base en las frecuencias acumuladas ubico el intervalo donde quede la frecuencias correspondiente a la mitad del tamao de la muestra, es decir: n 2Encuentro el valor del lmite real inferior del intervalo donde est n2Aplico la siguiente frmula:44SERIE: APRENDER A INVESTIGAR_nX Fa2Mediana = Li + CFn_ 2donde Li = Lmite real inferior donde est ubicada 2 XFa = Suma de las frecuencias anteriores a donde estubicado -H_2 C = Amplitud del intervalo.En el ejemplo anterior de los pesos de 30 estudiantes la mediana est dada por:_n_ 30 . 1fi 2 " 2Li = 39.5 Corresponde al lmite inferior donde est 15 como frecuencia acumulada.F n s Corresponde a la frecuencia del intervalo donde est2 "2XFa = 11 Corresponde a la suma de las frecuencias antes de 2C = 5Es la amplitud del intervalo.Luego:(15-11)Mediana = 39.5 +x 5oMediana = 423.1.3 La media aritmticaEs la medida de tendencia central ms conocida, es fcil de calcular, de gran estabilidad en el muestreo, sus frmulas permiten tratamiento algebraico.MDULO 4: ANLISIS DE LA INFORMACIN45Adems, presenta el inconveniente de ser muy sensible a los valores extremos, cuando stos son demasiado bajos o demasiado altos. Se representa as: XLa media aritmtica se define como la suma de todos los valores observados dividido por el nmero de observaciones (n).-La frmula para datos no agrupados es: X =

n

yDonde X-Xi corresponde a la sumatoria de todos los valores de la muestra.La media aritmtica de la siguiente distribucin es:1.1, 2, 1,2.4, 3,2, 4.5 - _ 1.1+2 + 1+2.4 + 3 + 2 + 4.5 _. 16.1 _ 2 28Para las distribuciones con datos agregados, existe una frmula, aunque un poco ms complicada, es bastante fcil de aplicar.media = _2lPLndonde f corresponde a las frecuencias, y X al valor de cada marca de clase.Tabla 7. De valores de los pesos de los 30 estudiantesXf

IntervalosMarca de claseFrecuenciasfx

30-34324128

35-39377259

40-44428336

45-49476282

50-54525260

Total301265

La marca de clase es el punto medio de cada intervalo. Para tal fin se suman los dos valores extremos y se divide entre dos. Por ejemplo, la marea de clase para el primer intervalo es:46

SERIE: APRENDER A INVESTIGARX 30 + 34 64 3222Por consiguiente al aplicar la frmula la media aritmtica es:media = 1265 = 42.17 30La media aritmtica tiene sus ventajas, sobre las otras medidas de tendencia central, en que: Cada caso se incluye en el clculo. Es rgidamente calculada, es decir, slo hay una para conjunto de datos. Es importante para hacer inferencias, es decir sirve tambin para calcular parmetros de la poblacin.La media aritmtica slo se puede calcular a valores numricos, es decir que estn en escala de intervalos o de razn.3.2 Medidas de dispersinSon aquellas que nos determinan cmo se agrupan o se dispersan los datos alrededor de un promedio.En este captulo se estudiarn las medidas que se utilizan para determinar cuan bien representan los promedios a la distribucin considerada.En el siguiente ejemplo se presentan las notas obtenidas por dos grupos de estudiantes:Grupo AGrupo B

8097

8095

7570

8372

8273

8196

8280

7572

7971

771

795797

MDULO 4: ANLISIS DE LA INFORMACIN47XA = 79.5 XB = 79.7La media aritmtica de ambas series es prcticamente igual (79.5 en el grupo A y 79.7 en el grupo B). Un anlisis de las cifras individuales revelan un gran contraste. En el grupo A hubo muy poca variacin entre las notas, siendo la ms alta 83 y la ms baja 75. En el grupo B, se nota mayor variacin, en este grupo la mayor nota fue 97 y la menor 71. Como conclusin se podra decir que en el grupo B hubo notas muy altas y muy bajas. En el grupo A las notas tuvieron una mayor concentracin alrededor del promedio.Para establecer esta caracterstica se utilizan las medidas de variacin o dispersin, entre las cuales las ms utilizadas son el rango, la varianza y la desviacin estndar.3.2.1El rangoLa medida ms simple de dispersin es el rango. Este identifica la distancia entre el valor mayor y el valor menor de la distribucin. Ms especficamente, se define como la diferencia entre el mayor valor y el menor valor. Se simboliza por r.Ejemplo, el rango de la siguiente distribucin es: 25, 36, 64, 20, 48, 59. r = 64 - 20 = 44El rango es sencillo de calcular pero tiene la desventaja de que es sensible a los valores extremos.3.2.2PercentilesLos percentiles son usados para calcular una segunda medida de dispersin. El P-simo percentil de un conjunto de mediciones ordenadas segn su magnitud, es el valor que tiene P% de las mediciones por debajo de l y (100 P%) por encima.Se utilizan muy frecuentemente para describir los resultados de pruebas de conocimiento, como los del Sistema Nacional de Pruebas y en la clasificacin de personas en forma comparativa. Entre los percentiles de ms inters estn el 25, el 50 y el 75, frecuentemente denominados como el menor cuartil Q.,, el cuartil mediano (mediana) Q2 y el cuartil superior, Q3.48SERIE: APRENDER A INVESTIGAR3.2.3 VarianzaDe todas las medidas de dispersin, la ms importante, ms conocida y usada es la varianza. Se define como la media aritmtica de los cuadrados de las desviaciones, respecto a su media. Se simboliza por S2.Su frmula es:2 X (x - media)2S = i para datos no agrupados X f (X - media)23 = datos agrupadosEjemplo con datos no agrupadosX=5;X2 = 3;X3= 1;X4 = 6;X5= 10^ 5 + 3+1+6+10 2555(5-5)2+ (3-5)2 + (1-5)2 + (6-5)2 + (10-5)2 50 + 4+16+1+25 46 _ gLo cual indica que la varianza de los datos es de 9.2Ejemplo para datos agrupadosSupongamos la siguiente tabla de pesos en kilogramos:MDULO 4: ANLISIS DE LA INFORMACIN

49Tabla 8 - Pesos de 100 estudiantes de un colegioMarca de

Pesosclase XX-X(X-X)2Frecuencias ff (X - X)2

60-6261-6.4541.605208.0

63-6564-3.4511.9018214.2

66-6867-0.450.20428.4

69-71702.556.5027175.5

72-74735.5530.808246.4

Total100 = n852.51

X = 67.45S2 =

Xf(x-x)2

donde X es la marca de claseX la media aritmticaf la frecuencia de cada intervaloS2 = 8525 = 8.52 100Propiedades de la varianzaa.La varianza siempre debe ser un valor positivo S2> 0b.La varianza de una constante es 0, es decir: si Xi = C para todo i,entonces S2 = 0c.La varianza de una constante ms una variable, es igual a la varianzade la variable.S

2 - O2 + O2 - n + ^2 - ^2Tambin es vlida para la diferenciaS

2 - O2 + O2 - n C2 - O2(k+X)-~okTx~u~ox~xd.La varianza de una constante por una variable, es igual al producto dela constante al cuadrado por la varianza de la variable:C2 - \,2 C2 (kX)- ~ * X50SERIE: APRENDER A INVESTIGAR3.2.4 Desviacin estndarLa desviacin tpica estndar es la raz cuadrada de la varianza, considerada siempre con signo positivo.Para el caso del peso de los 100 estudiantes del colegio la desviacin estndar es:S = V8.52 = 2.92La varianza se expresa siempre en unidades diferentes a las originales, es decir, si la variable se refiere a peso en Kg, al calcular la varianza estar dado el peso en Kg al cuadrado. Es una de las razones por la cual se utiliza la desviacin estndar, pues se expresa en las mismas unidades de la variable.3.2.5 Coeficiente de variacinEsta medida relaciona la desviacin estndar y la media, para expresar la variacin de la desviacin con respecto a la media aritmtica. Se acostumbra expresarlo en porcentaje.La frmula que se utiliza es:Cv = A . 100 XEl coeficiente de variacin sirve para determinar el grado de homogeneidad de la informacin. Si el valor del coeficiente de variacin es pequeo indica que la informacin tiene un alto grado de homogeneidad y si el coeficiente de variacin es grande es porque la informacin es heterognea.Ejemplo: al hallar el coeficiente de variacin de 6, 3, 4, 7, 8X = -i8- = 5.6 5S = 1.85Cv = -^- = 0.3304 = 33.04%5.6Lo cual indica que la informacin es homognea, pues el coeficiente de variacin es de 33.04%.MDULO 4: ANLISIS DE LA INFORMACIN

513.3 AsimetraUna distribucin es simtrica si se tiene que: la media es igual diana e igual al modo (X = Md = Mo); pero si la distribucin se vuelve asimtrica las tres medidas se separan y entonces el valor promedio ar ser mayor que la mediana, que a su vez ser mayor que el modo, deducindose que la distribucin es asimtrica positiva. Si la media aritmtica es menor que la mediana y sta menor que el modo, se dice que la distribucin es asimtrica negativa. En la distribucin asimtrica positiva, la curva presenta un alargamiento a la derecha; en la negativa el alargamiento presenta hacia la izquierda. Vase grficas 4.

Asimtrica negativa Md>Mo>X\Asimtrica positiva Md 30 (muestra grande) la desviacin estndar simbolizada por -, se le considera como un buen estimador de la desviacin estndar poblacional, debido a que existe una mayor probabilidad de que los valores extremos que toma la variable, queden incluidos en el clculo de la va-rianza para la muestra, tal como ocurre en el clculo de la varianza poblacional.Siendo, - = S, la frmula para obtener- ser:88SERIE: APRENDER A INVESTIGARPara n < 30 (muestra pequea) la desviacin estndar se simboliza por-, cuando no se ha efectuado ninguna correccin. Se considera que, -, por lo general, es mejor que S, debido a la menor probabilidad de que se incluyan los valores extremos de la variable. Por tanto, se hace necesario efectuar algunas correcciones en el clculo:a. Cuando se da la desviacin estndar sin corregir:

b. Cuando se desea corregirla directamenten-1En la distribucin de t Student, se considera que las curvas son simtricas, pero algo ms achatadas y ms abiertas en los extremos, los cuales corresponden a regiones crticas. A medida en que el tamao de la muestra se hace ms grande, ms se acerca a la normal.La funcin dada para este tipo de distribucin es:

donde v corresponde a los grados de libertad, nmero que depende de n; C es una constante que depende de v y es calculada en tal forma que el rea bajo la curva sea igual a 1.Grados de libertadCorresponden al nmero mximo de variables que puedan asignarse libremente, antes de que el resto de las variables queden completamente determinadas.MDULO 4: ANLISIS DE LA INFORMACIN89Las variantes estadsticas para el clculo de t son: a) En las distribuciones mustrales donde n < 30, la frmula es:tambin puede escribirse en la siguiente formadonde- se obtiene corrigindola as:

n-1b) En las distribuciones de medias mustrales se tiene: (X - Y)2 - (lix - li )siendon1+n2-2En la determinacin de los puntos crticos, t (inferior) y ts (superior), se utiliza la tabla t de Student. En primer lugar se fija el nivel de significacin, por ejemplo, a = 0.05, luego se calculan los grados de libertad, siendo en distribuciones mustrales v = n -1, en diferencias de medidas mustrales: v= n,+ n2 - 2. Si la prueba es bilateral, se tomar el 5% para cada una de90

SERIE: APRENDER A INVESTIGARlas regiones crticas y si es unilateral se tomar el doble del nivel de significancia asignado; en este caso, ser 0. 1 0.Ejemplos:1. Una muestra de 25 observaciones tiene una media de 42.0 y una desviacin estndar de 8. Trabajando con un nivel de significancia del 1 %. Existe razn para rechazar la hiptesis de que la media de la poblacin es de 46.0.a.H1:|ix#46Ho: n = 46b.a = 0.01a =0.01a = 0.01Re-2.7969

2.7969Grfica 12.c.

t =

8.17 V25

= 8(1.021) = 8.17t = "4 = -2.45 1.63V = 25-1; a = 0.01; corresponde a una t = 2.7969MDULO 4: ANLISIS DE LA INFORMACIN

91Como el valor de t = -2.45 queda en la regin de aceptacin, se acepta la hiptesis de que li = 46, es decir no existe razn para rechazar que la media de la poblacin es 46.2. Un fabricante de cigarrillos analiza el tabaco de dos marcas diferentes, para determinar el contenido de nicotina y obtiene los siguientes resultados, en miligramos.Marca A:2426252223

Marca B:2728252926

Los resultados anteriores, sealan que existe una diferencia en el contenido medio de nicotina en ambas marcas?Solucin:a)H,: Lix # |xyHo: LLx = LLyb)= 0.05c) -x-y = 1Siendo:4 =

(Y-Y)21+n2-2I*2Tabla 11. Resultado de las dos marcas de cigarrillos para determinar el contenido de nicotinaXyx-x(x-x)2y-y(y-y)2

24270000

26282411

252511-24

2229-2424

2326-11-11

120135010010

92

SERIE: APRENDER A INVESTIGAR_ 120X = -

= 24

_ 135Y = -= = 27

5 + 5-2 = 1.6

8 = 2.52.5 2.5

a =0.05d)t- (24-27)-01a = 0.05e)v = n1 + n2-2v = 5 + 5-2v = 8

-3

= -3- 2.3060

Grfica 13.

2.3060f) Los resultados anteriores sealan que existe una diferencia significativa en el contenido medio de nicotina en ambas marcas. Vase grfica 13.5.2.3 Distribucin Chi Cuadrado: %2La distribucin normal se utiliza en todos aquellos casos que ofrecen dos resultados posibles; cuando se presentan ms de dos resultados posibles, debe aplicarse la prueba chi cuadrado que se simboliza as: %2. Un ejemplo tpico de distribucin lo constituye el lanzamiento de una moneda con posibilidades de que aparezca cara o sello. Uno de %2 consiste en el lanzamiento de un dado con seis caras posibles, numeradas del 1 al 6.MDULO 4: ANLISIS DE LA INFORMACIN

93El Chi cuadrado es la suma de las fracciones que tienen por numerador el cuadrado de las diferencias entre las frecuencias reales u observadas y las frecuencias esperadas o tericas y por denominador la frecuencia esperada.en donde n frecuencia observada o realn* frecuencia terica o esperadaSe puede observar en la frmula, que mientras mayor sea la coincidencia entre las frecuencias observadas y las esperadas, menor ser el valor de %2. Si x2 = 0 significa concordancia entre las frecuencias observadas y las esperadas.Ejemplo:Supongamos que se lanza un dado 60 veces. Se sabe que las frecuencias tericas, para este caso son de 10 veces cada cara y las frecuencias reales son los resultados del lanzamiento. La base de un nivel de significancia del 5%, permite suponer que el dado no es perfecto?Solucin:El problema da las frecuencias reales nt, para cada cara, como se ve en la tabla 12. Las frecuencias esperadas se obtienen multiplicando la probabilidad de cada suceso por n (nmero de lanzamientos). Vase grfica 14.Tabla 12. Frecuencia en el lanzamiento de un dado 60 vecesCarasnn*n-n*(rvn*)2(n-n*)2

n*

1710-390.9

214104161.6

3810-240.4

4510-5252.5

516106363.6

O51010000

Z60600-9.0

94

SERIE: APRENDER A INVESTIGARn*= no = 60 1 = =10 y as se obtienen las dems frecuencias te- 1 \6} 6ricas.Se realiza la prueba teniendo en cuenta los siguientes pasos:1) H,:n #n*H,: n #n*2) a = 0.053) X2=

= 9-04) V = n-1 =6-1=5.,x2oo5=11O7

11.07Grfica 14.En la tabla de distribucin de %2, encontramos que 11.07 es el valor crtico.5) %2< %2005, es decir 9 < 11.07, por lo tanto se acepta la hiptesis de que la diferencia no es significativa. En otras palabras podemos afirmar que a un nivel del 5%, las diferencias que presentan las frecuencias reales, con relacin a las frecuencias tericas no nos da base para afirmar que el dado est cargado.MDULO 4: ANLISIS DE LA INFORMACIN95PRUEBAS DE HIPTESIS - AUTOEVALUACIN N 51. La hiptesis de investigacin es exactamente lo mismo que la hiptesis nula?S

No

2. Si una hiptesis de investigacin es que dos poblaciones tienen iguales medias aritmticas, cul es la hiptesis nula?a.Que en efecto tienen iguales medias aritmticas

b.Que las dos poblaciones tienen distintas medias aritmticas

c.Que las medias aritmticas pueden ser iguales o distintas

d.Para poder definirla hay que conocer la desviacin estndar

3. Una distribucin de muestreo es lo mismo que una distribucin de una muestra?SNoPor qu?4. El nivel de significancia es:a.Lo mismo que el nivel de precisinb.La regin crtica de una curva normalc.Una probabilidadd.El error alfa ae.La exactitud con que se predicen los parmetros5. El valor crtico de un puntaje Z para una prueba de una cola, al nivel de significancia 0.05 es: _96SERIE: APRENDER A INVESTIGAR6. A partir de una muestra de obreros en una fbrica, se puede inferir a cerca de las caractersticas de esa fbrica?a.No

b.Slo si uso una prueba Z

c.Slo si uso una prueba t

d.Si se usa una prueba Z o prueba t

7. La prueba t se prefiere a la prueba Z cuando no se conocen los parmetros del universo?SNo

8. Los salarios diarios de una industria estn distribuidos normalmente con una media de $132 y una desviacin estndar de $25. Si una empresa de dicha industria, que cuenta con 40 obreros paga en promedio $122, puede acusarse a esta compaa de pagar salarios inferiores al nivel de significancia del 1%?SNo

Desarrollo:9. Una hiptesis dice que el estudiante promedio de la universidad colombiana tiene un coeficiente de inteligencia mayor que el resto de la poblacin. Escriba una hiptesis de investigacin y una hiptesis nula, con un coeficiente de inteligencia que al estandarizarse tiene una X = 100Hiptesis de investigacin:

Hiptesis nula:

10. Un fabricante de ciertas piezas de proyectiles sostiene que en condiciones normales de reparacin, tienen una duracin media |i=320 horas. Probar esta afirmacin frente a la alternativa |i#320, si 16 piezas duran un promedio de 308 horas, con una desviacin de 29 horas. Utilizar un nivel de significancia del 5%.1. No, es lo contrario.2. b3. No. La distribucin de una muestra son las caractersticas quetienen los datos a partir de una muestra.La distribucin de un muestreo es la distribucin de una muestra de medias a partir de muestras.4. c5. 1.966. d7. S122 1328.Z == -2.53 cae en la regin de rechazo. Se puede25/A/40 acusara la compaa de pagar salarios inferiores al nivel del 1%9.Hiptesis de investigacin: H.,= x >100 Hiptesis nula: H0=x7 * *El problema consiste ahora en unir varios puntos de ese conjunto o nube de puntos, mediante un ajuste, ya sea rectilneo, parablico, exponencial o de cualquier otro tipo de lnea que represente al conjunto. En algunos casos esos puntos estarn condensados al rededor de la lnea, en otros presentarn diferencias; en este ltimo caso, se pueden producir grandes errores, como consecuencia de que el ajuste realizado no es el ms indicado.El tipo de lnea que se relaciona, depender de la forma que asuma el conjunto de puntos, al hacer la respectiva grfica. Tambin valindose de la experiencia del estadstico se puede determinar el mejor ajuste. En la exponencial, es muy sencilla la identificacin, basta que la variable muestre un crecimiento geomtrico, como por ejemplo, la poblacin, el producto bruto, etc.En general, se dice que la curva que hace mnima la suma de los cuadrados de las desviaciones entre puntos dados, dicha lnea es la mejor.MDULO 4: ANLISIS DE LA INFORMACIN

1016.2 Ajuste de una recta de regresin rectilneo simpleSupngase que se desea ajustar una recta, para ello sabemos que la ecuacin general de la recta es:Y = a + bx,

X = a + bydonde X, en la primera ecuacin y Y en la segunda es la variable que se supone conocida, llamada variable independiente. Ahora, Y y X en una segunda ecuacin corresponde a la variable que se va a estimar, conocida con el nombre de variable dependiente.a. es el coeficiente de posicin, denominado tambin origen, o sea, es la altura de la perpendicular levantada en el punto de origen. Vase grfica 16.El coeficiente de posicin puede ser mayor, menor o igual a cero,a) a>0b) a=0c) a0

b) b