Fundamentos Estadísticos

Click here to load reader

  • date post

    15-Dec-2015
  • Category

    Documents

  • view

    12
  • download

    0

Embed Size (px)

description

Contenidos de Estadística Básica

Transcript of Fundamentos Estadísticos

Apuntes Clase 1

A. Concepto de Estadstica.

Es frecuente que la Estadstica se identifique con una tabla o coleccin de datos. De hecho, eso es una estadstica. Pero qu duda cabe que la Estadstica no debe entenderse como una mera coleccin de datos, aunque los mismos se presenten de forma ordenada y sistemtica.

Esta forma de entender la Estadstica tiene su origen en el significado etimolgico del trmino. La palabra Estadstica deriva de la latina "status" y se remonta a los tiempos en los que los estados-naciones recababan datos, especialmente sobre renta y poblacin, a efectos de recaudacin impuestos y mantenimiento del ejrcito. Esos datos se identificaban con el estado, razn por la cual terminaron conocindose como estadsticas. En este sentido, la Estadstica es tan antigua casi como el propio ser humano. Pero esta es una forma muy estrecha de entender y definir la Estadstica.

En cambio, la Estadstica entendida como ciencia tiene un origen ms reciente y el gran desarrollo de la misma ha tenido lugar, fundamentalmente, a lo largo del siglo XX. Como ciencia, la Estadstica est formada por el conjunto de mtodos y tcnicas que permiten la obtencin, organizacin, sntesis, descripcin e interpretacin de los datos para la toma de decisiones en ambiente de incertidumbre. Ese objetivo que persigue la Estadstica con la organizacin y sntesis de los datos tiene su razn de ser en el hecho de que la misma se preocupa del estudio de los que podemos denominar como fenmenos de masas. Es decir, la Estadstica no est interesada en el estudio de datos aislados, pues si la informacin es escasa no tiene sentido plantearse problemas de organizacin ni de sntesis. As, si se estudian los gastos en publicidad de las empresas de una determinada rama de actividad y se tiene informacin para solo dos empresas, entonces, con esos dos datos no ha lugar plantearse si los mismos han de presentarse mediante una tabla o un grfico o si deben resumirse mediante un promedio. Esa escasez de informacin no debiera ser nunca objeto de anlisis estadstico, pues la descripcin de la misma es irrelevante y a partir de ella poco se puede decir en relacin con los gastos en publicidad de todas las empresas. La metodologa estadstica adquiere entidad cuando de lo que se trata es de analizar un elevado volumen de datos, pues por lo general, tras esa "masa de datos" se esconden ciertas regularidades o leyes de comportamiento que nos permitirn, una vez descritas, tomar decisiones en ambiente de incertidumbre, siempre que esta pueda cuantificarse en trminos de probabilidad, pues esas decisiones se basan en una leyes que, a diferencia de las leyes de la fsica, no son exactas sino que estn sujetas a errores.

En el prrafo anterior han aparecido, no por casualidad, tres trminos que nos van a permitir desdoblar a la Estadstica en dos ramas principales. Esos trminos son: describir, probabilidad y toma de decisiones con incertidumbre. El primero de ellos da lugar a lo que se conoce como Estadstica Descriptiva. Esta rama es la ms antigua de la Estadstica y su objeto es el anlisis de los datos para descubrir o describir las posibles regularidades que presenten. Paralelamente, aunque con posterioridad, se desarroll la Teora de la Probabilidad. La unin ambas ha dado lugar a lo que se conoce como Estadstica Matemtica o Inferencia Estadstica. El instrumental propio de esta rama es el que nos permite tomar decisiones en ambiente de incertidumbre. Se trata de decisiones basadas en la informacin que suministran los datos y que permiten generalizar los resultados obtenidos.

La observacin estadstica.

Ahora bien, una vez que se tiene claro que el objeto de la Estadstica es la observacin y estudio de las poblaciones, la siguiente cuestin que puede plantearse es como ha de realizarse esa observacin. La misma puede ser exhaustiva o parcial. Las dos formas tienen ventajas e inconvenientes. En el caso de la observacin exhaustiva o total, y si se asume que no hay errores de medida entonces, lo que se consigue es eliminar la incertidumbre.

Frente a esa ventaja fundamental, la observacin exhaustiva tiene un grave inconveniente: el coste. Se trata tanto de un coste monetario como en tiempo. Imaginemos la siguiente situacin. Un partido poltico, antes de unas elecciones, quiere saber cul es la intencin de voto del electorado. Para ello tiene dos opciones. Preguntarle a todos los electores o solo a un subconjunto de los mismos. En el primer caso estamos frente a una observacin exhaustiva y est claro que, ante esta situacin, para el partido que lleva a delante la observacin no habr incertidumbre alguna en relacin con el resultado final de las elecciones, siempre y cuando no haya errores de medida. En este caso esos errores vendrn dados por la falta de sinceridad en la respuesta de los electores y por las no respuestas, adems de otras posibles causas. Pero, por qu ese partido, o cualquier otro, normalmente no realizan ese tipo de observacin? En este caso la respuesta parece trivial. El tamao de la poblacin es demasiado grande, lo que conlleva un coste tanto en tiempo como en dinero que hace desaconsejable esa opcin. Un ejemplo de una operacin estadstica de carcter exhaustivo, dentro de la estadstica oficial, son los censos de poblacin, especialmente los realizados desde 1991, pues los anteriores eran una mezcla de observacin exhaustiva y parcial.

La alternativa al enfoque anterior es la observacin parcial. Esta implica que no se observa a toda la poblacin. Dentro de esta forma de proceder se pueden distinguir dos categoras distintas. Por un lado est la subpoblacin y por otro la muestra. Con la primera lo que se hace es observar a un conjunto de entes o elementos de la poblacin que guardan entre si una cierta caracterstica y que los diferencia de los dems. As, siguiendo con el ejemplo anterior, los electores que no han votado antes porque en las elecciones anteriores no tenan la edad mnima exigida constituyen una subpoblacin. Al proceder de esta forma se consigue realizar una operacin estadstica en menos tiempo y a menor coste pero, en cambio, la incertidumbre acerca de la intencin de voto del electorado es enorme, pues esa subpoblacin no representa en absoluto a toda la poblacin. Su intencin de voto no tiene por qu coincidir con la de los dems electores.

No obstante, esta forma de observar la poblacin puede resultar de gran inters en determinados casos. Pensemos que nuestro inters se centra es cuantificar la ocupacin hotelera en una zona turstica. En esta situacin, en lugar de preguntar a todos los establecimientos que se dedican a esta actividad econmica, podra resultar suficiente con preguntarle solo a los hoteles a partir de una cierta categora, por ejemplo a los de tres y ms estrellas pues, en este caso, esos elementos de la poblacin son determinantes de la poblacin total y los dems tienen poca incidencia en el volumen de ocupacin.

La segunda opcin de la observacin parcial consiste en tomar una muestra. En este caso se observar tambin un subconjunto de elementos de la poblacin. Pero ahora, a diferencia de lo que ocurra con la subpoblacin, los elementos de la muestra no guardan ninguna caracterstica especial que los diferencie de los dems. Al contrario, con una muestra lo que se pretende es representar a toda la poblacin. Podramos decir que la muestra es una poblacin de tamao reducido.

Las ventajas de observar la poblacin de forma parcial y, en especial, para el caso de seleccionar muestras son, en algunos casos, evidentes. En primer lugar reduce el tiempo de observacin. Si el tiempo que se dedica a observar los elementos de la poblacin es excesivo podra ocurrir que los resultados llegaran ms tarde de lo que es admisible. Siguiendo con el ejemplo de las elecciones, si el periodo de observacin es superior al tiempo que dista hasta que tengan lugar las elecciones, entonces cuando se disponga de resultados sobre intencin de voto ya no son necesarios. En general, si lo que se pretende al observar la poblacin es analizar una caracterstica que no cambia mucho con el transcurso del tiempo, entonces no importar demasiado que el periodo de observacin sea razonablemente largo. Por el contrario, si esa caracterstica est sometida a fuertes variaciones en periodos de tiempo cortos o si el plazo de presentacin de resultados es breve, qu duda cabe que en tales circunstancias la observacin parcial, mediante una muestra, es el procedimiento ms indicado.

En segundo lugar est el tema de los costes monetarios, que en la observacin parcial son ms reducidos que en el caso de la exhaustiva.

Finalmente, la observacin parcial presenta tambin la ventaja de que reduce las pruebas destructivas. Imaginemos que nos encontramos frente a un estudio de control de la calidad de la produccin de una empresa que se dedica a la fabricacin de vigas de hormign para obras civiles. Esas vigas habrn de someterse a presiones altas para conocer su resistencia a la ruptura. Pero si somete toda la produccin a este tipo de pruebas destructivas entonces no hay produccin. Bastara en este caso con seleccionar una muestra y, aplicarle ese tipo de pruebas a los elementos de la misma, para tener una idea razonable de cul es la resistencia a la ruptura de las vigas producidas por la empresa.

Pero no todo son ventajas en la observacin parcial. El principal inconveniente se deriva precisamente de que la observacin no es exhaustiva. En estos casos las caractersticas de la poblacin sern desconocidas, pues aunque la muestra pretenda representar lo ms fielmente posible a la poblacin, nunca dejar de ser eso, una muestra. Con los datos de la muestra solo podremos conocer las caractersticas de esos valores muestrales. Concluir que son iguales a las de la poblacin sera poco menos que una osada. Entre las caractersticas observadas en la muestra y las de la poblacin habr siempre una diferencia que se conoce como error muestral. Es precisamente este error muestral el que lleva a que las decisiones, en relacin con las caractersticas poblacionales, se tomen en situaciones de incertidumbre.

Veamos esto de una forma grfica y sencilla. En la Figura 1 se han representado una poblacin con todos sus elementos y una muestra de los mismos. Como puede apreciarse, la poblacin toma valores que van del 0 al 9, mientras que en la muestra el valor 9 no est incluido. As pues, segn la muestra, los valores de la poblacin van del 0 al 8, pero eso no es cierto, solo es aproximado. Se est cometiendo un error.

Referencia:

Snchez Fernndez, J. (2004) Introduccin a la Estadstica Empresarial. Edicin electrnica en http://www.eumed.net/cursecon/libreria/index.htm (Extracto del captulo 1)B. El Papel del Anlisis de Datos en la Investigacin Educativa

IntroduccinAnalizar informacin procedente de diversas vas es una actividad comn en el ser humano. Habitualmente examinamos aspectos de nuestra realidad, indagamos en un problema vital o damos diferentes interpretaciones a las cosas que nos ocurren. Desde este punto de vista llevamos a cabo un proceso de asimilacin de la informacin externa y acomodacin en nuestro intelecto, que muchas veces es realizado de manera automtica.

Cuando nos referimos aqu al Anlisis de Datos hablamos de un proceso de indagacin cientfica sobre un problema de investigacin concreto con relevancia social y educativa. La informacin que recogemos puede ser tanto numrica como textual, y ante ella nos disponemos a la realizacin de diferentes actividades o tareas de anlisis acordes con el tipo de dato recogido, el problema de investigacin formulado, y las caractersticas propias del diseo de investigacin al que nos enfrentamos. De esta manera, el Anlisis de Datos no constituye un fin en s mismo sino que es un proceso subordinado a otro ms amplio como es la investigacin educativa.

Concretamente, en esta materia nos detendremos en el Anlisis Estadstico de Datos y en la relevancia que poseen las tcnicas y procedimientos estadsticos en y para la investigacin educativa. No obstante, tambin dedicaremos un apartado al Anlisis de Datos no cuantitativos, aludiendo al anlisis de textosEl concepto de anlisis estadstico de datosEl Anlisis Estadstico de Datos se ha asociado de manera general con la investigacin de corte experimental, o podemos decir que es caracterstico de los enfoques positivistas. Este trmino se define de muchas maneras segn se conciba desde una perspectiva ms amplia o ms restringida, y segn se entienda tambin el proceso de investigacin.

El concepto de Anlisis Estadstico de Datos no se agota en las acepciones que se identifican con un conjunto de datos o enumeracin de hechos, o con procedimientos de tipo descriptivo destinados a recoger, organizar y presentar la informacin relativa a un conjunto de casos. De esta manera, el Anlisis Estadstico de Datos ha dejado de ser nicamente la ciencia de recopilar datos y, tras fusionarse con la corriente de estudios sobre el clculo de probabilidades, se ha constituido en una rama de la matemtica aplicada, entendiendo sta como el uso de principios y modelos matemticos en diversos mbitos de la ciencia o la tcnica.

Dentro del Anlisis Estadstico de Datos encontramos dos vertientes:

Anlisis Estadstico de Datos (propiamente matemtico), que supone el estudio de los fenmenos estadsticos utilizando los mtodos matemticos y proporciona conocimiento acerca de las tcnicas que integran los mtodos estadsticos.

Anlisis Estadstico de Datos Aplicado; este carcter aplicado ha estado presente desde los inicios de esta ciencia, sobre todo en cuanto a su conexin con el estudio y resolucin de problemas prcticos con datos reales. Todo ello ha estimulado la innovacin de nuevos mtodos y procedimientos, y el avance de anlisis estadsticos.

A continuacin expondremos las caractersticas propias que definen el concepto de Anlisis Estadstico de Datos:

Carcter terico y aplicado.

Estudio de conjunto de datos.

Trabajo con datos procedentes de observaciones o mediciones.

Carcter cuantitativo de los datos.

Reduccin de la informacin.

Generalizacin a colectivos ms amplios.

Por tanto, como ya mencionamos, el Anlisis Estadstico de Datos no se limita slo a su tratamiento sino que se extiende a tareas previas y posteriores a esta fase. Tambin puede ocuparse de la recogida de datos (referido a las tcnicas y mtodos de muestreo y a la evaluacin de la calidad de los instrumentos que se disean para la recogida de datos) y la interpretacin de los resultados (afirmaciones que se realizan como consecuencia de la aplicacin de mtodos estadsticos: descripcin, reduccin, generalizacin).

Terminaremos este apartado sintetizando los rasgos ms relevantes que llevan a definir el Anlisis Estadstico de Datos:

Es una ciencia cuyo objeto es el estudio de mtodos y tcnicas para el tratamiento de conjuntos de datos numricos.

Las tcnicas estadsticas permiten la descripcin de conjuntos de datos y la inferencia sobre conjuntos ms amplios.

Los mtodos desarrollados por esta ciencia pueden ser aplicados a distintos campos del saber, constituyendo un importante instrumento para el estudio cientfico.

As, definimos el Anlisis Estadstico de Datos como un conjunto de mtodos, tcnicas y procedimientos para el manejo de datos, su ordenacin, presentacin, descripcin, anlisis e interpretacin, que contribuyen al estudio cientfico de los problemas planteados en el mbito de la educacin y a la adquisicin de conocimiento sobre las realidades educativas, a la toma de decisiones y a la mejora de la prctica desarrollada por los profesionales de la educacin.

El anlisis estadstico de datos en las distintas fases del proceso de investigacinEl Anlisis Estadstico de Datos desempea un papel relevante dentro de campo de la investigacin educativa. No obstante, dichas tcnicas de anlisis cobran especial importancia dentro del enfoque positivista. Desde esta perspectiva, existen razones que justifican la utilizacin del Anlisis Estadstico de Datos en la investigacin Educativa. Permite el tipo de descripcin ms exacta. Si el objetivo de la ciencia es la descripcin de fenmenos, el Anlisis Estadstico de Datos forma parte del lenguaje descriptivo que necesita el cientfico.

Nos fuerza a ser definidos y exactos en nuestros procedimientos y en nuestro pensamiento, evitando las conclusiones vagas.

Nos permite reducir los datos en una forma significativa y conveniente, poniendo orden en el caos. Facilita la extraccin de conclusiones generales, siguiendo reglas aceptadas para llegar a ellas.

Permite hacer predicciones sobre lo que ocurrir bajo condiciones que conocemos y hemos medido. Tales predicciones pueden contener error, pero el Anlisis Estadstico de Datos nos informa tambin del margen de error que cometemos.

Nos permite analizar algunos de los factores causales que explican fenmenos complejos.

Tambin Anlisis Estadstico de Datos como herramienta de trabajo til en la investigacin educativa ya que nos ofrece tcnicas y procedimientos que pueden aplicarse en la fase de Anlisis de Datos. No obstante, no queda limitado a dicha fase ya que contribuye a otras o a diferentes momentos del proceso de investigacin.

De esta manera, intentamos resalta la presencia del Anlisis Estadstico de Datos en diferentes momentos del proceso de investigacin y la utilidad de las tcnicas estadsticas en y para el mismo. Dicho proceso constituye un todo interrelacionado en el que la toma de decisiones que realicemos sobre cualquier elemento del mismo supone un condicionante de cara a los dems elementos.

1. Planteamiento del problema y formulacin de hiptesis

El Anlisis Estadstico de Datos est presente en la formulacin del problema de investigacin. Como sealamos, el proceso de investigacin es un todo interrelacionado en el que las decisiones que tomemos con respecto a algunos de sus elementos condicionan a los dems elementos del proceso. La formulacin del problema determinar el tipo de datos que es necesario recoger, las tcnicas de recogida adecuadas para ello y los procedimientos estadsticos que se utilizarn en el anlisis. En la definicin del problema aparecer una limitacin de la amplitud del estudio, de tal forma que si ste se dirige a toda una poblacin, tendremos que pensar en procedimientos de la estadstica Descriptiva, mientras que si nos limitamos al estudio de una muestra, habremos de recurrir a la estadstica inferencial.

Definimos problema como una laguna en el conocimiento (un interrogante que nos hacemos) para la cual no tenemos solucin aceptable. El problema ha de ser relevante y verificable empricamente y se debe formular de manera clara y breve. En este sentido, es muy importante la resolubilidad del problema de investigacin, aspecto que en ocasiones slo queda garantizado si contamos con tcnicas estadsticas adecuadas y potentes, capaces de abordar los interrogantes de partida. Por ejemplo, el planteamiento de problemas que supongan comparaciones entre mltiples grupos no podra hacerse sin contar con tcnicas como el anlisis de la varianza; un gran nmero de problemas de investigacin en los que se incluyen mltiples dimensiones o variables simultneamente no han llegado a ser estudiados hasta que no se ha contado con tcnicas de anlisis multivariante que permiten abordar su estudio.

De igual manera, el Anlisis Estadstico de Datos est presente en la formulacin de hiptesis, ya que sta no puede hacerse sin tener en cuenta las tcnicas estadsticas que permiten su contrastacin. El investigador se ve en la necesidad de salvaguardar la coherencia entre la teora, la hiptesis y el posterior anlisis estadstico que le permitir aceptarla o rechazarla. Una hiptesis es una solucin por adelantado que se da al problema de investigacin que formulamos; es una conjetura, una solucin posible. En el marco de los programas de investigacin positivistas, la hiptesis cientfica habr de ser expresada en trminos estadsticos para su contrastacin.

2. Diseo de investigacin

Como expusimos en un apartado anterior, el Anlisis Estadstico de Datos forma parte de los diseos de investigacin experimentales. En el concepto de diseo contemplamos por un lado la organizacin de los aspectos que constituyen el experimento (en los que el Anlisis Estadstico de Datos est presente en la medida que facilitan el anlisis de datos y posibilitan el control de la varianza debida a variables extraas), y por otro, el procedimiento estadstico que hace posible la interpretacin de los resultados.

El Anlisis Estadstico de Datos tambin est presente cuando el diseo contempla la seleccin de sujetos. La teora de muestras proporcionar tanto los procedimientos de seleccin como la determinacin del tamao muestral necesario para mantener el error dentro de los lmites aceptables.

Por otro lado, la recogida de datos es una tarea para la que aparentemente las tcnicas estadsticas parecen no jugar un papel relevante. Sin embargo, el Anlisis Estadstico de Datos tiene un lugar especial en la construccin y validacin de instrumentos que se utilizan para la recogida de datos. Por ejemplo, la determinacin de la fiabilidad y validez de algunos instrumentos se apoya directamente en coeficientes de correlacin, o la aplicacin de tcnicas de anlisis de componentes principales o anlisis factorial permite explorar la dimensionalidad de los instrumentos.

Adems, el Anlisis Estadstico de Datos puede participar indirectamente en la operacin de recogida proporcionando primeras elaboraciones de los datos en el momento mismo de su registro.

3. Anlisis de Datos

Tras la recogida de datos procedemos al anlisis de los mismos. Es decir, pretendemos transformar, organizar, resumir y sacar indicadores bsicos de la informacin recogida, y en funcin de dichos indicadores extraer conclusiones, y tambin generalizar los resultados a las poblaciones de donde las muestras fueron extradas. Todas estas tareas corresponden al Anlisis Estadstico de Datos.

El procedimiento de Anlisis suele comenzar con una depuracin de los datos para tratar de eliminar o corregir los posibles errores que se hayan cometido en la fase de registro o codificacin de la informacin recogida. Una segunda fase es la descripcin de las variables que entrarn a formar parte del estudio, teniendo en cuenta el enfoque del que partimos (univariante, multivariante o aplicacin de tcnicas inferenciales).

No obstante, existen vas diferentes al Anlisis Estadstico de Datos dentro de la investigacin educativa. En ellas nos centraremos en el ltimo tema del programa de la asignatura. En este sentido, entre los procedimientos de Anlisis de datos, entendidos como tcnicas para extraer informacin de los datos e interpretar su significado, cabra hacer una distincin entre:

Anlisis Cualitativo, que expresa, ordena, describe, interpreta los datos mediante conceptos, razonamientos y palabras, y

Anlisis Cuantitativo, en el que se recurre a conceptos y razonamientos que se apoyan en nmeros y estructuras matemticas.

4. Obtencin de conclusiones y redaccin del informe de investigacin

Aplicar tcnicas de Anlisis Estadstico nos lleva de manera directa a la obtencin de conclusiones, las cuales estarn, de alguna forma predeterminadas por el tipo de tcnicas que usemos.

Estas conclusiones, al igual que todo el proceso de investigacin, deben contar con la inclusin de resultados estadsticos. De esta manera, el Anlisis Estadstico de Datos est presente en la fase de redaccin del informe de investigacin. Para ilustrar tales conclusiones se utilizarn cuadros, tablas y grficos, que recogern medias, porcentajes, coordenadas, correlaciones, o cualquier otro tipo de estadsticos necesarios para ilustrar de manera adecuada la investigacin realizada.

Contenidos del anlisis estadstico de datosLejos de realizar una exhaustiva revisin de todas las tcnicas y mtodos estadsticos existentes, nuestra pretensin en este apartado es apuntar a grandes rasgos los principales campos en que se estructura el Anlisis Estadstico de Datos, y sobre todo el que habitualmente se aplica en el campo de las Ciencias de la Educacin.

No obstante, aqu adoptaremos la solucin de distinguir entre:

Estadstica descriptiva, procedimientos dirigidos a la organizacin y descripcin de un conjunto de datos. Estadstica inferencial, que se orientan a realizar inferencias sobre una poblacin a partir de las caractersticas conocidas para una muestra extrada de ella.

Es frecuente que se otorgue especial importancia a la Estadstica inferencial, considerndola el verdadero objetivo de la Estadstica; la descriptiva tendra nicamente la finalidad de proporcionar los ndices a partir de los cuales se estimarn los parmetros.

Si adoptramos nicamente la complejidad como criterio, basndonos en el nmero de variables implicadas, podramos hablar de: Estadstica univariada. Bivariada. Multivariada.

El esquema a seguir en la presentacin de los contenidos de la Estadstica podra estar basado en el planteamiento clasificatorio que suele adoptarse a la hora de recoger las tcnicas estadsticas en los manuales dedicados a esta materia:

Los procedimientos de la Estadstica descriptiva e inferencial se reduciran a las tcnicas que suponen el tratamiento de una o dos variables; cuando entramos en el manejo simultneo de ms de dos variables suele considerarse un apartado diferente de la Estadstica al que se califica con el trmino de Estadstica multivariante. Pero no debe perderse de vista que este modo de clasificacin no es sino una solucin prctica, que desde el punto de vista terico presenta algunas dificultades.

Al diferenciar entre estos tres tipos de tcnicas no hemos logrado una verdadera clasificacin del Anlisis Estadstico de Datos; Estadstica descriptiva, inferencial y multivariante, en sentido estricto, no representan una particin del conjunto de contenidos de la Estadstica, es decir, no constituyen subconjuntos disjuntos ni tampoco abarcan entre ellas todo el dominio de las tcnicas estadsticas. No obstante, en esta materia nos centraremos en los dos primeros bloques de contenidos citados: Estadstica descriptiva e inferencial.

La informtica en el anlisis estadstico de datos Auge y desarrollo /expansin de la Informtica desde hace algunos aos en el campo de la investigacin educativa, y ms concretamente en el mbito del Anlisis de Datos.

Aplicaciones de la informtica muy importantes si tenemos en cuenta la cantidad de datos que manejamos normalmente y tambin los diferentes tipos de anlisis que se realizan. En este sentido, los programas informticos facilitan mucho la tarea pero es importante que resaltemos la correcta utilizacin de los mismos y la coherencia y lgica del investigador en tales procesos. Es fundamental que la informtica siempre responda al problema de investigador y objetivos planteados, y no sustituya al analista.

De todas las funciones que el computador puede cubrir en la investigacin educativa, es quiz la del Anlisis de Datos la que con mayor claridad puede haberse beneficiado de este tipo de herramientas. El computador ha venido a revolucionar este campo, permitiendo la aplicacin de complejos procedimientos de anlisis y, de alguna manera, simplificndolos.

Si el impacto de la informtica en el campo de la investigacin educativa ha sido considerable, en el caso del Anlisis de Datos esta afirmacin cobra pleno sentido. El Anlisis de Datos "ha recibido un impulso revolucionario con la generalizacin del uso de los computadores", hasta tal punto que hoy es difcil concebir este proceso desligado de la utilizacin de tales mquinas. Algunas de las ventajas y posibilidades que lleva consigo el uso de la informtica en el Anlisis Estadstico de Datos son:

El computador ha permitido un considerable ahorro de tiempo y esfuerzo. Los clculos manuales que costaban al investigador largas horas de trabajo, incluso utilizando la calculadora, la mquina los realiza en pocos segundos.

El computador posibilita una mayor exactitud en los clculos. Es evidente que el clculo manual, adems de ser lento conlleva aproximaciones o redondeos, sobre todo cuando se trabaja con nmeros decimales y se requieren clculos encadenados, que pueden llegar a suponer un considerable error en los resultados finales obtenidos. Por otra parte, en el dominio de la inferencia estadstica, el computador nos ofrece posibilidades con mayor exactitud que las obtenidas mediante tablas de distribuciones tericas de probabilidad habitualmente usadas.

El computador ha abierto la posibilidad de manejar grandes cantidades de datos, de trabajar con muestras mayores y de incluir ms variables, haciendo que el anlisis de grandes bancos de datos o la aplicacin de complejas tcnicas multivariantes a grandes muestras no presenten tareas inabordables en la prctica.

Considerando dichas ventajas, la Informtica en el Anlisis Estadstico de Datos:

Al liberarnos de tiempo en la realizacin de clculos el investigador puede centrarse en otros momentos o tareas conceptuales ms relevantes del proceso de investigacin como la toma de decisiones respecto al proceso estadstico a seguir o a la tcnica concreta que se deber emplear, mayor atencin al anlisis crtico del proceso y a la interpretacin de resultados.

Tambin nos ofrecen la posibilidad de realizar clculos para la comparacin de resultados utilizando mtodos diferentes, aspecto que no se realizaba por considerar un esfuerzo adicional para el investigador, adems de la dificultad que entraaba un anlisis.

Otra de las posibilidades que abri la informtica fue el tratamiento conjunto de mltiples variables y, por ende, el desarrollo de anlisis multivariante, en los que se observaba una creciente complejidad estadstica.

La triangulacin multimtodos y el manejo de grandes muestras y elevado nmero de variables contribuye al aumento de la fiabilidad y validez de los estudios y, por ende, su poder de generalizar los resultados.

No obstante, el desarrollo de la Informtica no slo ha supuesto beneficios para el Anlisis Estadstico de Datos sino tambin a la mejora y desarrollo de tcnicas estadsticas ms complejas e innovadoras.

Teniendo en cuenta las ventajas que representa el uso del computador y el papel que juega en el Anlisis Estadstico de Datos, hoy da resulta inconcebible la realizacin de este tipo de anlisis en la investigacin educativa que no se apoyen en la informtica.

Actualmente, gracias al avance y desarrollo del mundo de la informtica contamos con un gran nmero de programas para el Anlisis de Datos. Los diferentes tipos de datos (cuantitativos o cualitativos) exigen diferente software informtico, ya que requieren diferente tratamiento.

En este curso, al centrar nuestra atencin principalmente en el Anlisis Estadstico de Datos, tendremos como soporte el paquete estadstico SPSS, utilizndolo para generar archivos de datos, transformarlos y realizar anlisis estadsticos, atendiendo, como ya sealamos, tanto a la Estadstica Descriptiva como a la Inferencial.

C. Organizacin Y Presentacin De Los DatosConceptos previos sobre medicin y escalas de medida

1. Concepto de medida

Asignacin de nmeros a los objetos con la intencin de representar alguna de sus caractersticas. Toda medicin implica establecer una regla para hacer corresponder los nmeros con las distintas formas en que se presenta una caracterstica de los objetos o individuos. En el caso de la investigacin educativa, se suelen asignar nmeros a conductas, opiniones, actitudes, intereses, etc. manifestadas por individuos o grupos.

2. Niveles de medida

Segn el modo en que se utilizan los nmeros en la medicin, podemos hablar de distintos niveles de medida:

a) Nivel nominal.

El nivel nominal de medicin consiste en asignar nmeros que hacen la funcin de meros nombres o etiquetas.

Si empleamos un nivel de medida nominal lo nico que podemos inferir es que los objetos difieren entre s respecto del atributo medido, aunque ello no implica ninguna otra propiedad.

b) Nivel ordinal.

El nivel ordinal de medida supone que podemos establecer una ordenacin, creciente o decreciente, con los objetos o hechos que medimos.

Con un nivel de medida ordinal podramos establecer sin dificultad que algo es diferente de algo, y que es mayor o menor, pero no cunto mayor o menor.

c) Nivel de intervalo

En este nivel de medida, distancias numricamente iguales representan distancias iguales con respecto a la propiedad que se est midiendo.

Una medicin a nivel de intervalo posee las caractersticas de los dos niveles anteriores, por lo que podemos establecer diferencias entre objetos, determinar una ordenacin entre ellos y adems, conocer en qu cuanta unos objetos son mayores o menores que otros.

d) Nivel de cuociente, razn o proporciones.

Este nivel de medicin aade a la medida en escala de intervalo la existencia de un cero absoluto.

Adems de las propiedades de los niveles anteriores, en las medidas en escala de razn puede afirmarse que el valor cero indica ausencia total del rasgo medido.

3. Constante, variable, modalidades y clases

Una constante es una caracterstica que se manifiesta de manera similar en todos los objetos o individuos sobre los que se realiza la medicin. Es decir, presenta un nico valor posible.

Una variable es una caracterstica que puede manifestarse de manera diferente en un grupo de objetos o individuos sobre los que se realiza la medicin. Cada uno de los valores asumidos es una modalidad.

Cuando el nmero de modalidades bajo el que se mide una variable es muy grande, las modalidades pueden ser agrupadas en clases. De esta manera, se pasa de un nmero amplio de modalidades a un nmero mucho ms reducido de clases. Al definir clases, deben respetarse al menos dos criterios:

Las clases deben ser mutuamente exclusivas. Es decir, una modalidad no puede formar parte de dos clases; quedar incluida en slo una clase. Las clases deben ser exhaustivas. La definicin de clases debe cubrir todas las modalidades, de forma que ninguna modalidad quede sin pertenecer a alguna clase.

Ordenacin y clasificacin de los datos: distribuciones de frecuencias

1. Frecuencias y distribucin de frecuencias

Las tcnicas ms habituales para ordenar, clasificar y presentar datos son las distribuciones de frecuencias. Comenzaremos concretando el concepto de frecuencia.

Frecuencia hace alusin al nmero de veces que se da un fenmeno. En estadstica, la frecuencia va referida al nmero de veces en que aparece un determinado valor para una variable. Comenzaremos diferenciando dos tipos de frecuencias:

Frecuencia absoluta individual (fi) de un valor. Es el nmero de veces que aparece repetido dicho valor en un conjunto de n puntuaciones. La suma de las frecuencias fi para todos los valores coincide con el valor de n.

Frecuencia relativa individual (pi) de un valor. Es el cociente entre la frecuencia absoluta individual y el tamao de la muestra. Es decir, pi = fi/n. Lo ms frecuente es utilizar este tipo de frecuencia en trminos porcentuales, expresndola como Pi = (fi /n) x 100. En este caso, la suma de las Pi para todos los valores es 100.

A partir de las frecuencias alcanzadas por las distintas modalidades de una variable, puede organizarse una distribucin de frecuencias. Una distribucin de frecuencias consiste en presentar ordenadamente todos los valores asumidos por la variable estudiada, situando a su derecha la frecuencia con que aparecen (al menos, su frecuencia absoluta).

Frecuencia absoluta acumulada (fa) de un valor. Es la suma de las frecuencias absolutas que corresponden a todos los valores iguales o menores que l. La frecuencia fa para el valor ms alto de la variable coincide con n.

Frecuencia relativa acumulada de un valor. Es la suma de las frecuencias relativas de los valores iguales o menores que l; expresada en trminos de porcentaje.

2. Distribucin de frecuencias agrupadas

Una distribucin de frecuencias agrupadas se origina cuando en lugar de modalidades consideramos clases. Suele recurrirse a ellas cuando se pretende simplificar la presentacin de variables que poseen muchas modalidades posibles.

Un caso particular de agrupamientos se da en los valores correspondientes a variables continuas, medidas al menos en escala de intervalos. En esta situacin, la clase de valores que adoptamos se denomina intervalo y comprende las modalidades de una variable contenidas entre los dos valores que delimitan el intervalo.

Conceptos relativos al agrupamiento en intervalos:

Lmites aparentes de un intervalo. Son los valores que delimitan el segmento de valores que constituyen un intervalo. Para cada intervalo existe un lmite inferior y un lmite superior.

Lmites reales de un intervalo. El lmite real inferior de un intervalo es el valor que resulta de disminuir el valor del lmite aparente inferior en media unidad de medida. El lmite real superior de un intervalo resulta de incrementar el lmite superior aparente en media unidad de medida.

Amplitud de un intervalo. Es la distancia existente entre el lmite real inferior y el lmite real superior de un intervalo. Tambin se podra definir como la diferencia entre los lmites aparentes del intervalo incrementada en la unidad de medida.

Punto medio de un intervalo. Es el valor que se obtiene como promedio de los dos lmites del intervalo (real o aparente).

Representacin grfica de datos

1. Diagrama de Barras

Consiste en indicar por medio de una barra o rectngulo las frecuencias correspondientes a cada modalidad o clase de modalidades. Las alturas de las barras son proporcionales a las frecuencias alcanzadas, con independencia de que se trate de frecuencias absolutas o relativas.

Cuando representamos variables medidas en una escala nominal, las modalidades o clases pueden ser colocadas en cualquier orden. Cuando las variables se miden en escala ordinal, las barras deben ser colocadas en un orden determinado por la ordenacin que se establece entre las modalidades.

2. Histograma

Cuando la variable a representar est medida en una escala de intervalos, en lugar del diagrama de barras recurrimos al histograma. Este es similar al diagrama de barras, pero la base de cada rectngulo coincide con los lmites reales del intervalo y el orden de presentacin de las modalidades en el eje de abscisas no es arbitrario. El histograma puede construirse para frecuencias absolutas o relativas, tanto si son individuales como acumuladas; tambin puede ser construido para representar frecuencias (tambin porcentajes) o frecuencias acumuladas.

3. Polgono de Frecuencias

Consiste en una lnea poligonal que une el punto medio de cada intervalo, tomado a una altura que resulta proporcional a la frecuencia alcanzada en el intervalo. La lnea obtenida de este modo cierra el polgono al ser unida a los puntos medios del intervalo anterior y posterior sobre el eje de abscisas Puede construirse a partir del histograma.

4. Polgono de Frecuencias Acumuladas

Es una lnea poligonal mediante la cual se representan las frecuencias que acumulan los intervalos. Se construye cmodamente sobre el polgono de frecuencias acumuladas, uniendo el vrtice inferior izquierdo de cada intervalo con su vrtice superior derecho.5. Ciclograma

Es un diagrama en forma de crculo, el cual se encuentra dividido en tantos sectores circulares como modalidades presenta la variable. La amplitud de cada sector circular es proporcional a la frecuencia de la modalidad correspondiente.

Problemas Problema 1

Hemos recogido los siguientes datos, correspondientes a las puntuaciones obtenidas por 25 alumnos en un test de inteligencia. Organzalos en una distribucin de frecuencias sin agrupar en intervalos.

105, 99, 109, 100, 94, 100, 97, 120, 99, 107, 96, 107, 100, 109, 105, 97, 100, 105, 96, 99, 100, 97, 105, 107, 99.

Problema 2

Construye la distribucin de frecuencias absolutas y relativas, tanto individuales como acumuladas, para las siguientes puntuaciones. Agrupando los datos en intervalos de amplitud 5.

3, 6, 7, 9, 9, 12, 12, 13, 13, 14, 14, 15, 15, 16, 16, 20, 20, 20, 20, 20, 22, 23, 24, 24, 24, 25, 25, 28, 35, 37.

Problema 3

Los 31 profesores de un Centro de Educacin Primaria se agrupan, en funcin de su situacin administrativa, de la forma que recogemos a continuacin. Representa dichos datos mediante un ciclograma.

Situacin AdministrativaN Profesores

Definitivos

Provisionales

En comisin de servicios

Interinos15

10

4

2

Problema 4

Representa mediante un histograma las edades (en meses) de los 60 alumnos del segundo ciclo de Educacin Infantil de un Centro, cuya distribucin de frecuencias es la siguiente:EdadesN Alumnos

55 - 59

50 - 54

45 - 49

40 - 44

35 - 39

30 - 34

25 - 2916

10

8

7

8

6

5

Problema 5

Representa en un polgono de frecuencias los siguientes datos, correspondientes a los C.I. de un grupo de 25 alumnos de un curso de Educacin Bsica.C.I.N Alumnos

116 - 120

111 - 115

106 - 110

101 - 105

96 - 100

91 - 951

3

7

11

2

1

Problema 6

Representa mediante un polgono de frecuencias acumuladas los datos relativos al C.I. de un grupo de 25 alumnos utilizados en el problema anterior.Soluciones a problemas propuestos

Solucin Problema 1

Para realizar la distribucin de frecuencias debemos, en primer lugar, ordenar los datos (de mayor a menor o de menor a mayor), representarlos en una tabla y realizar el recuento correspondiente a cada uno de los valores (las "marcas" facilitan dicha labor), tal y como se expresa en la tabla siguiente:

PuntuacionesMarcasFrecuencias

120

109

107

105

100

99

97

96

94/

//

///

////

/////

////

///

//

/1

2

3

4

5

4

3

2

1

Solucin Problema 2

En primer lugar, calculamos la amplitud total para la serie de puntuaciones con las que vamos a trabajar.

A.T. = PMAYOR- PMENOR+ 1 = 39 - 3 + 1 = 37

A continuacin determinamos el nmero de intervalos necesarios. Teniendo en cuenta que la amplitud del intervalo debe ser igual a 5, de acuerdo a lo indicado en el enunciado del problema, el nmero de intervalos vendr dado por la relacin (cuociente) entre la amplitud total y la de cada intervalo: 37/5 = 7.4.

Este valor nos indica que necesitamos un nmero superior a 7 intervalos para distribuir todas nuestras puntuaciones en intervalos de amplitud 5. El nmero de intervalos mnimo necesario sera 8. Una vez construidos los intervalos, determinamos la frecuencia absoluta individual (f) en cada uno de ellos, la proporcin (p), el porcentaje (P) y los correspondientes valores acumulados para todos ellos (fa, pay Pa).

IntervalosMarcasfpPfapaPa

1 - 5/1,000.0333.3310.33333.33

6 - 10////4,000.13313.3350.16716.67

11 - 15///// ///8,000.26726.67130.43343.33

16 - 20///// //7,000.23323.33200.66766.67

21 - 25///// //7,000.23323.33270.90090.00

26 - 30/1,000.0333.33280.93393.33

31 - 35/1,000.0333.33290.96796.67

36 - 40/1,000.0333.33301,00100,00

No obstante, podramos haber organizado los datos comenzando el primer intervalo con un lmite aparente inferior distinto (por ejemplo, 2 o 3). En ese caso, la distribucin resultante diferir algo de la aqu construida.

Solucin Problema 3

En este caso la superficie del crculo (360o) se reparte proporcionalmente a las frecuencias de cada categora. Los profesores definitivos ocuparn un sector circular que representa el 48.39% de los 360o, es decir, 360 x 48.39/100 = 174oque suponen algo menos de un ngulo llano. Los profesores provisionales estarn representados por un sector de 360 x 3226/100 = 116o, es decir, algo ms que un ngulo recto. Clculos anlogos determinan un sector circular de 47opara los profesores en comisin de servicios y 23opara los interinos.

Solucin Problema 4

El histograma es similar a un diagrama de barras en el que dichas barras se levantan sobre los lmites reales de los intervalos, apareciendo, por tanto, unidas lateralmente entre s.

Solucin Problema 5

Para trazar el polgono de frecuencias se seala el punto medio de cada intervalo en el eje de abscisas (horizontal), se marca la altura correspondiente, de acuerdo con las frecuencias y se unen los puntos marcados con lneas rectas. El grfico cortar el eje de abscisas en los puntos medios de los intervalos inmediatamente superior al intervalo mayor e inferior al menor (ambos con frecuencia cero).

Solucin Problema 6

El polgono de frecuencias acumuladas se construye de forma muy parecida al polgono de frecuencias, con la diferencia de que aqu la altura viene dada por las frecuencias acumuladas (frecuencia de cada intervalo ms frecuencias de los intervalos anteriores). Adems, la lnea comienza en el eje de abscisas en el lmite inferior real del primer intervalo, y une los puntos situados sobre cada lmite superior real, a una altura igual a la frecuencia acumulada en cada intervalo.

D. Tcnicas descriptivas en una variable1. Medidas de tendencia central

Son ndices numricos que se toman como representativos de un conjunto de puntuaciones, utilizando para ello valores que se sitan hacia el centro del conjunto.a. Media (Promedio): Es el valor obtenido como suma de todas las puntuaciones de un grupo dividida por el nmero de ellas.

Clculo:

Datos sin agruparDatos agrupados por intervalos

donde: Xies cada puntuacin

n es el nmero de casosdonde: Xies el punto medio de cada intervalo

fies la frecuencia de cada intervalo

r es el nmero de intervalos

n es el nmero de casos

Propiedades

La suma de las desviaciones de todas las puntuaciones respecto a la media es 0.

La media es sensible a la variacin de cualquiera de las puntuaciones. Basta que cambie un solo valor para que la media se modifique.

Si se suma una constante a las puntuaciones de un grupo, la media quedar aumentada en dicha constante.

Si se multiplican por una constante las puntuaciones de un grupo, la media quedar multiplicada por dicha constante.

Si una variable X es combinacin lineal de r variables X1, X2, ... Xr, su media se obtiene como combinacin lineal de las medias de dichas variables.

Es decir, sientonces Dados r grupos con n1, n2, ..., nrcasos y sus respectivas medias, la media global se obtiene ponderando dichas medias.

Cuando calculamos la media para datos agrupados en intervalos, el valor resultante depende de los intervalos elegidos (de su amplitud, su nmero y de los lmites fijados).

La media puede calcularse cuando las variables se han medido en una escala de intervalo o razn.

b. Mediana: Es el valor que divide en dos partes iguales a un conjunto de puntuaciones ordenadas, de tal forma que la mitad de las puntuaciones son mayores que la mediana y la otra mitad son mejores que ella.ClculoDatos sin agruparDatos agrupados por intervalos

Se ordenan los datos de menor a mayor.

Si el nmero de casos es impar, la mediana es el valor que ocupa la posicin central en la serie.

Si el nmero de casos es par, la mediana es el punto medio entre los dos valores centrales.donde:

Li es el lmite inferior del intervalo crtico (que contiene a la mediana)

I es la amplitud de los intervalos

fies la frecuencia absoluta en el intervalo crtico

n es el nmero de casos

faes la frecuencia acumulada en el intervalo anterior al intervalo crtico

Propiedades. Es menos sensible que la media a variaciones de las puntuaciones. Podra ocurrir que la modificacin de un valor no altera la mediana

Para datos agrupados por intervalos, el valor de la mediana depender de la amplitud de los intervalos, el nmero de ellos y los lmites fijados.

La mediana puede calcularse cuando se han medido las variables en escala ordinal o superior.

c. Moda: Es el valor o modalidad que ms se repite en un conjunto de medidas.ClculoDatos sin agruparDatos agrupados por intervalos

Se construye la distribucin de frecuencias.

El valor con frecuencia mxima es la moda.

Si la frecuencia mxima se alcanza para dos o ms valores, stos constituyen modas. El grupo puede ser bimodal o multimodal.

Si dos valores adyacentes alcanzan la mxima frecuencia, la moda es el promedio de ambos.Punto medio del intervalo con mayor frecuencia, o bien:

donde:

Li es el lmite inferior del intervalo modal (que contiene a la moda).

I es la amplitud de los intervalos.

d1es la diferencia entre las frecuencias del intervalo modal y el intervalo inferior.

d2es la diferencia entre las frecuencias del intervalo modal y el intervalo inmediato superior.

Propiedades

Es la medida de tendencia central ms inestable, pudiendo variar mucho de una muestra a otra extradas de la misma poblacin.

Para datos agrupados por intervalos, el valor de la moda depender de la amplitud de los intervalos, el nmero de ellos y los lmites fijados.

Puede determinarse para variables medidas en cualquier escala.

2. Medidas de posicin

Son medidas que informan sobre la posicin de determinadas puntuaciones individuales en relacin con el grupo del que forman parte.

a) Percentiles: Son los 99 valores que dividen en cien partes iguales a una serie de puntuaciones ordenadas, de forma que el percentil Pmdeja por debajo de s el m por ciento de las puntuaciones del grupo.Clculo

Se obtienen de forma anloga a como lo hacamos en el caso de la mediana. La frmula de clculo para el percentil m (Pm) en el caso de datos agrupados por intervalos, que representa una generalizacin de la que utilizbamos para la mediana, es la siguiente:

Donde:

Li es el lmite inferior del intervalo crtico (que contiene a Pm) I es la amplitud de los intervalos

fies la frecuencia absoluta en el intervalo crtico

n es el nmero de casos

faes la frecuencia acumulada en el intervalo anterior al intervalo crtico La expresin mn/100 representa el nmero de puntuaciones que quedaran por debajo del percentil m en la distribucin estudiada. El intervalo crtico es precisamente aqul donde la frecuencia acumulada alcanza o supera ese nmero de puntuaciones.b) Deciles: Son los 9 valores que dividen en diez partes iguales a una serie de puntuaciones ordenadas, de forma que el decil Dmdeja por debajo de s a m dcimas partes del total de puntuaciones del grupo.Clculo

Para el caso de datos agrupados por intervalos, la expresin de clculo es:

c) Cuartiles: Son los 3 valores que dividen en cuatro partes iguales a una serie de puntuaciones ordenadas, de manera que el cuartil Qmdeja por debajo de s m cuartas partes del total de puntuaciones del grupo.Clculo

3. Medidas de dispersin

Son medidas que informan sobre la variabilidad que existe en un conjunto de puntuaciones. Indican en qu medida las puntuaciones se sitan prximas entre s.

a) Rango: Es la distancia total en la escala numrica a lo largo de la cual varan las puntuaciones. Tambin se denomina amplitud total o recorrido. Se utilizan dos tipos de rangos:

Rango excluyente: diferencia entre la mayor y la menor de las puntuaciones.

Rango incluyente: diferencia entre la mayor y la menor de las puntuaciones incrementada en la unidad de medida. Este suele ser el ms utilizado.

Rango = Punt.mxima - Punt.mnima + unidad de medida

El rango es la ms imperfecta de las medidas de dispersin, pues slo tiene en cuenta las puntuaciones extremas.

b) Desviacin media: Es la media del valor absoluto de las diferencias de todas las puntuaciones respecto a la media aritmtica.Clculo:Datos sin agruparDatos agrupados por intervalos

donde:

Xies cada puntuacin

es la media

n es el nmero de casosdonde:

Xies el punto medio de cada intervalo

es la media

fies la frecuencia de cada intervalo

r es el nmero de intervalos

n es el nmero de casos

c) Varianza y desviacin tpica

c1) Varianza: La varianza es el promedio del cuadrado de las diferencias de todas las puntuaciones respecto a la media aritmtica.

Clculo

Podemos proponer dos frmulas equivalentes, tanto para datos sin agrupar como para datos agrupados por intervalos.

Datos sin agruparDatos agrupados por intervalos

En el mbito de la estadstica inferencial, se utiliza una expresin de la varianza obtenida recogiendo en el denominador el factor n-1. A esta varianza se le denomina varianza insesgada.

c2) Desviacin tpica: Se define como la raz cuadrada de la varianza, tomada con signo positivo.

Propiedades de la varianza y la desviacin tpica

Adoptan siempre un valor positivo o igual a cero.

Se ven afectadas por la modificacin de cualquiera de las puntuaciones.

Si multiplicamos un conjunto de puntuaciones por una constante, la desviacin tpica y la varianza quedarn multiplicadas respectivamente por la constante y por el cuadrado de esa constante.

Si sumamos a un conjunto de puntuaciones una constante, la desviacin tpica y la varianza no se vern afectadas.

Para datos agrupados por intervalos, el valor depende de la amplitud de los intervalos, el nmero de ellos y los lmites fijados.

No deben calcularse en situaciones en que tampoco debe calcularse la media.

d) Coeficiente de variacin: Es un ndice abstracto, que permite comparar la variabilidad de distintos grupos o distintas variables.Se obtiene a partir del nmero de veces que la desviacin tpica contiene a la media.

e) Amplitud Semi-intercuartlica: Se define como la mitad de la distancia entre el primer y el tercer cuartil. Puede ser calculada cuando se ha medido la variable en escala ordinal o superior.

Problemas

Problema 1

Las puntuaciones obtenidas por un grupo de 38 alumnos en una prueba valorada de 0 a 100, las cuales se suponen medidas en escala de intervalos, son las que se presentan en la tabla.

a) Calcula la media aritmtica, mediana y moda.

b) Qu puntuacin deja por debajo de s el 75% de los casos? Y el 25%? Cmo se denominan dichas puntuaciones?

Intervalosf

91 - 100

81 - 90

71 - 80

61 - 70

51 - 60

41 - 50

31 - 40

21 - 30

11 - 20

1 - 102

0

3

6

7

9

4

5

1

1

Problema 2

Las puntuaciones obtenidas por 59 alumnos en una prueba de diagnstico en lectura son las que se recogen en la tabla siguiente.

a) Calcula P25, P50, P75, P90, moda y mediana.

b) Qu percentil corresponde a una alumna que ha obtenido una puntuacin directa de 40 puntos? Y a un alumno que obtuvo 34 puntos?

IntervalosFfa

47 - 49

44 - 46

41 - 43

38 - 40

35 - 37

32 - 34

29 - 31

26 - 28

23 - 25

20 - 22

17 - 19

14 - 16

11 - 13

8 - 10

5 - 7

2 - 44

7

4

8

4

1

5

6

6

4

3

2

2

2

0

159

55

48

44

36

32

31

26

20

14

10

7

5

3

1

1

Problema 3

Los 25 nios de un aula de Educacin Parvularia han sido evaluados para determinar el nivel que presentan en ciertas variables relevantes para el aprendizaje de las matemticas. Teniendo en cuenta que los resultados obtenidos en una prueba de discriminacin de formas son los que aparecen a continuacin, determina la tendencia central del grupo mediante la media, la mediana y la moda, as como el grado de dispersin que presentan las puntuaciones, expresado a partir de su rango y su desviacin tpica.

27, 35, 40, 26, 32, 31, 35, 28, 29, 25, 36, 31, 27, 29, 25, 32, 34, 28, 33, 35, 29, 30, 39, 27, 25.

Problema 4

Tras aplicar una prueba de clculo mental a 70 alumnos de 4 Bsico, pretendemos describir la dispersin del conjunto de puntuaciones obtenidas. Determina el valor del rango, la desviacin media, la varianza, la desviacin tpica y el coeficiente de variacin.

Ifi

19 - 21

16 - 18

13 - 15

10 - 12

7 - 9

4 - 6

1 - 35

9

12

25

13

4

2

Problema 5

La directora de Recursos Humanos de una entidad educativa utiliza determinada prueba con la que mide la aptitud de los candidatos para desempear cierto puesto de trabajo. El total de aspirantes es de 190 y los resultados alcanzados por cada uno de ellos en la prueba son los que mostramos seguidamente.

Aptitudfi

125-129

120-124

115-119

110-114

105-109

100-104

95-99

90-94

85-89

80-847

8

12

20

27

41

32

30

11

2

a) Si pretendemos seleccionar a slo 38 de los candidatos, cul es la puntuacin mnima que habra de obtenerse para ser seleccionado?

b) Qu porcentaje de sujetos quedaron por debajo de un aspirante que consigui una puntuacin de 105.5?

b) Determina la amplitud semi-intercuartil para la distribucin.

Soluciones a problemas propuestos

Solucin Problema 1

a) La moda, valor ms sencillo de calcular, es la puntuacin con frecuencia mxima o puntuacin que ms se repite. Al estar los datos agrupados en intervalos, la moda ser el punto medio del intervalo con frecuencia mxima, es decir Mo = 45.5.Para calcular la media aritmtica necesitamos los puntos medios de los intervalos y los productos de dichos puntos medios por las frecuencias. Dichos clculos se expresan en la tabla que mostramos seguidamente.

IntervalosfXifi(Xi

91 - 100

81 - 90

71 - 80

61 - 70

51 - 60

41 - 50

31 - 40

21 - 30

11 - 20

1 - 102

0

3

6

7

9

4

5

1

195.5

85.5

75.5

65.5

55.5

45.5

35.5

25.5

15.5

5.5191

0

226.5

393

388.5

409.5

142

127.5

15.5

5.5

n = 381899

La mediana es la puntuacin que deja por encima y por debajo de s el 50% de los casos. Como tenemos 38 sujetos, la mediana ser la puntuacin que deje por encima y por debajo de = 19 sujetos. Su frmula de clculo, para datos agrupados en intervalos, es la siguiente:

Como n/2=38/2=19 es una frecuencia acumulada que se alcanza dentro del intervalo 41-50 (intervalo crtico), sustituyendo en la frmula anterior los valores del lmite inferior de ese intervalo (Linfer), la amplitud de los intervalos (I), la frecuencia en el intervalo crtico (fi) y la frecuencia acumulada en el intervalo anterior al crtico (fa) tendremos

b) Las puntuaciones que dejan por debajo de s el 25 y el 75% de los casos se conocen con el nombre de cuartil 1 (Q1) y cuartil 3 (Q3), respectivamente. Dichas puntuaciones se corresponden, igualmente, con los percentiles 25 y 75. Su clculo viene dado por la frmula

Cada uno de ellos se sita en los siguientes intervalos crticos:

Q3: (3(38)/4=28.5 (intervalo 61 - 70)

Q1: (1(38)/4=9.4 (intervalo 31 - 40)

Sustituyendo los distintos valores en la frmula, obtendremos

Solucin Problema 2a) Clculo de los percentiles

Se pide tambin el clculo de la mediana y de la moda. La mediana ya est calculada, pues coincide con el percentil 50 (Md=P50=30.6). La moda es el punto medio del intervalo con frecuencia mxima, es decir Mo=39.

b) Se trata del problema inverso al apartado anterior, que podemos resolver aplicando la misma frmula. El valor que buscamos no es, como ocurra anteriormente, Pmsino el valor m.

Solucin Problema 3

En primer lugar organizamos las puntuaciones dadas en una distribucin de frecuencias, lo cual aunque no es necesario resulta conveniente, ya que facilita los clculos. En la tabla que se presenta a continuacin incluimos, adems de la distribucin de frecuencias, los clculos previos necesarios para resolver las cuestiones planteadas.

El clculo de la media aritmtica resulta sencillo teniendo en cuenta los clculos previos:

XiMarcasfiXi(fiX2iX2i(fi

25///3756251875

26/126676676

27///3817292187

28//2567841568

29///3878412523

30/130900900

31//2629611922

32//26410242048

33/13310891089

34/13411561156

35///310512253675

36/13612961296

39/13915211521

40/14016001600

n=2576824036

La mediana es la puntuacin que ocupa el lugar central. Puesto que contamos con 25 puntuaciones, la mediana ser el valor que ocupe el lugar 13 (deja 12 por debajo y 12 por encima), es decir Md=30.

La moda es la puntuacin o puntuaciones que ms se repiten (las que tienen mayor frecuencia). En este caso, la distribucin es multimodal, contando con cuatro modas que son 25, 27, 29 y 35.

El rango o amplitud total para la distribucin es: A.T. = Pmayor- Pmenor+ 1 = 40 - 25 + 1 = 16

La desviacin tpica se obtiene a partir de su expresin de clculo:

Solucin Problema 4

En la tabla siguiente se incluyen los clculos previos para hallar las medidas de variabilidad solicitadas. En la primera columna se presentan los intervalos, en la segunda las frecuencias, en la tercera los puntos medios de cada uno de los intervalos, en la cuarta el producto de los puntos medios de cada uno de los intervalos por su frecuencia, en la quinta las diferencias en valor absoluto de cada punto medio de los intervalos con respecto a la media aritmtica (x, por tanto, representa puntuaciones diferenciales), en la sexta la columna anterior multiplicada por la frecuencia de cada intervalo, en la sptima los valores de los puntos medios de cada uno de los intervalos elevados al cuadrado y, en la octava y ltima el valor de la columna anterior multiplicado por la frecuencia de cada intervalo.

IfiXiXi(fixfi(xX2iX2i(fi

19 - 21

16 - 18

13 - 15

10 - 12

7 - 9

4 - 6

1 - 35

9

12

25

13

4

220

17

14

11

8

5

2100

153

168

275

104

20

48.23

5.23

2.23

0.77

3.77

6.77

9.7741.15

47.07

26.76

19.25

49.01

27.08

19.54400

289

196

121

64

25

42000

2601

2352

3025

832

100

8

70824229.8610918

A.T = 21 -1 +1 = 21 (o bien, 21.5-0.5 = 21)

Solucin Problema 5

a) Si de los 190 slo pretendemos seleccionar a 38, de 100 seleccionaramos 38(100/190=20. Por tanto, se nos pide la puntuacin que deje por encima de s el 20% de los casos, es decir el percentil 80 (puntuacin que deja por debajo de s el 80% y por encima el 20%).

Es decir, la puntuacin mnima que hay que alcanzar es 111.75 puntos.

b) Se trata en este caso de un problema inverso al anterior. Utilizamos la misma expresin analtica de los percentiles, pero el elemento desconocido ahora es m.

Por debajo de la puntuacin 105.5 quedan el 63.89% de los sujetos.

c) Amplitud semi-intercuartil.

Para calcular cada uno de los cuartiles debemos previamente determinar el intervalo en el que se encuentran.

Para Q3: Qn/4=3(190/4=142.5 (intervalo 105-109)

Para Q1: Qn/4=1(190/4=47.5 (intervalo 95-99)

E. Puntuaciones individuales y curva normal

1. Puntuacin directa, puntuacin transformada

Una puntuacin directa es la que se asigna a cada individuo como resultado de una medicin; por ejemplo la nota de un examen, el nmero de agresiones mensuales de cada alumno(a) a sus compaeros.

Las puntuaciones transformadas son las que se derivan de las puntuaciones directas por combinacin lineal. Por ejemplo, medimos la velocidad y la comprensin lectora a travs de dos pruebas de las cules obtenemos dos puntuaciones directas; a travs de estas dos puntuaciones nos interesa conocer la eficiencia lectora. En este caso, la eficiencia lectora es una puntuacin transformada, o una variable de transformacin.

Hay algunas puntuaciones transformadas de uso frecuente en educacin, como las puntuaciones diferenciales, tpicas y las puntuaciones tpicas derivadas.

Los softwares estadsticos contienen utilidades que permiten crear variables de transformacin a partir de las puntuaciones directas. Por tanto, si en un anlisis tienen que utilizarse variables de transformacin, no se tienen que introducir las puntuaciones transformadas en el computador, sino obtenerlas a partir de las puntuaciones directas, utilizando los recursos del paquete estadstico.a) Puntuaciones Diferenciales

Son el resultado de restar a la puntuacin directa de un individuo la media de las puntuaciones del grupo. En estadstica descriptiva suelen designarse mediante una letra minscula (xi). Por tanto su clculo viene determinado por la siguiente expresin:

Por el modo en que se definen, si en un grupo de puntuaciones obtenemos las puntuaciones diferenciales, el resultado de la suma de stas valdr cero.

EjemploUn grupo de 8 estudiantes que rinden examen de anlisis de datos han obtenido las siguientes puntuaciones: 7, 3, 2.5, 9, 2, 8.5, 5 y 3. Calcular las puntuaciones diferenciales para cada uno de los(as) alumnos(as).

Solucin: Se debe calcular la media de las puntuaciones, a partir de ese valor, podremos determinar las puntuaciones diferenciales restando la media a la puntuacin directa.

Xixi

7

3

2,5

9

2

8,5

5

3Clculo de la media

2

-2

-2,5

4

-3

3,5 0

-2

b) Puntuaciones tpicas

Son puntuaciones transformadas de gran utilidad en estadstica. Son conocidas tambin por "puntuaciones z", siendo la siguiente expresin que se utiliza para su clculo.

La media de las puntuaciones tpicas vale 0 y la desviacin tpica es igual a 1. Por tanto, cuando hablamos de tipificar los valores de una variable, significa que debemos transformarlos en puntuaciones z.

Ejemplo:

Considerando las puntuaciones del ejemplo anterior, las vamos a transformar en puntuaciones tpicas.

Solucin: 1) determinar el valor de la desviacin tpica del grupo

2) Luego, se divide cada una de las puntuaciones diferenciales por la desviacin tpica Xixixi2zi

7

3

2,5

2

9

8,5

5

32

-2

-2,5

-3

4

3,5

0

-24

4

6,25

9

1,6

12,25

0

40,76

-0,76

-0,95

-1,14

1,53

1,33

0

-0,76

c) Puntuaciones tpicas derivadas

Las puntuaciones tpicas permiten establecer comparaciones entre distintas variables. Sin embargo el inconveniente de las puntuaciones tpicas es que suelen ser negativas y pueden presentar cifras decimales. Contamos solamente con siete puntuaciones enteras posibles (-3, -2, -1, 0, 1, 2, 3), ya que la mayora de las observaciones suelen quedar incluidas entre tres desviaciones tpicas a la derecha de la media y tres a la izquierda.

Tanto los signos negativos como las cifras decimales y los redondeos pueden ocasionar errores de clculo. Para evitar esto, podramos multiplicar las puntuaciones z por una constante S determinada y para evitar los valores negativos, sumar una constante J.

D = J + Sz

De esta forma, y teniendo en cuenta las puntuaciones de las propiedades tpicas, obtendremos una distribucin de media J y de desviacin tpica S. A las puntuaciones obtenidas siguiendo este proceso se les denomina puntuaciones tpicas derivadas.

Entre las ms usadas se encuentran el caso concreto de las puntuaciones T, que tienen como media 50 y como desviacin tpica 10.

T = 50 + 10z

Asimismo los coeficientes intelectuales suelen venir expresados en puntuaciones tpicas derivadas de media 100 y desviacin tpica 15.CI = 100 + 15z

Otra de las puntuaciones tpicas que se suele utilizar en educacin son los eneatipos o estaninos, que son puntuaciones de media 5 y de desviacin tpica 2.E = 5 + 2z

Ejemplo: Supongamos que un sujeto obtiene en una prueba de inteligencia una puntuacin directa de 70 puntos. Sabiendo que la media del grupo de referencia es 63,04 y su desviacin tpica 10,8, podremos transformar la puntuacin directa en una puntuacin tpica z= 0,64.

A partir de este clculo, podemos obtener las diferentes puntuaciones derivadas:

T = 50 + 10 (0,64) = 56,4

C.I. = 10 + 15 (0,64) = 109,6

E = 5 + 2 (0,64) = 6,28

2. La curva normal

La inmensa mayora de valores observados sobre variables cuantitativas en Ciencias Sociales suelen aproximarse a lo que se conoce como distribucin normal o curva normal. Es considerada como una de las distribuciones continuas de ms importancia. En muchos casos, veremos que suponer el comportamiento normal de una poblacin, permitir extraer conclusiones para las estimaciones efectuadas sobre muestras.

La representacin grfica de la distribucin normal (figura 1) presenta forma de campana (de ah el nombre de campana de Gauss, como tambin se conoce).

Figura 1: Curva Normal

= media

= desviacin tpica

Se utilizan y , en lugar de X y s, porque hablamos de un modelo terico.

N = nmero de casos, lo que significa que el rea total bajo la curva es N.

La curva normal presenta las siguientes caractersticas:

Es simtrica alrededor del eje que pasa por la media.

La ordenada mxima coincide con la media en el eje de abscisas.

La media, mediana y moda coinciden.

Es asinttica respecto del eje de abscisas. Como consecuencia hay dos colas, una a cada lado de la distribucin, que se alargan hasta el infinito.

Los puntos de inflexin se encuentran en + y -

Su ecuacin matemtica dada por Laplace en 1874 es:

Distribucin normal tipificada o estndar

Se dice que una variable aleatoria continua tiene distribucin normal tipificada X ~ N (0,1), si su funcin de densidad tiene la siguiente forma:

La curva normal tipificada o reducida es, por tanto, la que opera con puntuaciones z, es un caso especial de distribucin normal que tiene de media cero y de desviacin tpica uno. Tiene mltiples aplicaciones y su uso es frecuente en investigacin educativa.

Al observar una variable tipificada que se distribuye normalmente, puede observarse que la mayor parte de las puntuaciones se encuentran comprendidas entre los valores que van de -3 a +3 (figura 2)

Figura 2: Curva Normal para Puntuaciones z

Esta distribucin es mesocrtica

El rea total comprendida entre la curva y el eje de abscisas es igual a uno

Las reas bajo la curva normal se interpretan en trminos de probabilidades, proporciones o porcentajes

reas bajo la curva normal

Para muchos propsitos es necesario conocer la proporcin del rea bajo la curva normal entre las ordenadas de diferentes puntos sobre la lnea de base. Podemos desear conocer:

La proporcin del rea bajo la curva entre la ordenada de la media y cualquier punto especfico que se encuentre por encima o por debajo de la media.

La proporcin del rea total por encima o por debajo de la ordenada de cualquier punto sobre la lnea base.

La proporcin del rea que se encuentra entre las ordenadas de dos puntos cualesquiera sobre la lnea base.

Mediante la tabla de la Ley Normal pueden calcularse las reas entre dos puntos. Por tanto, pueden resolverse cualquiera de las tres situaciones anteriores. A continuacin se desarrollan algunos ejemplos teniendo en cuenta las siguientes consideraciones:

El rea total vale 1. La mitad es igual a 0,5.

Las puntuaciones que utiliza la tabla estn tipificadas.

Para Z > 0 corresponde la mitad derecha de la curva.

Para Z < 0 corresponde la mitad izquierda de la curva.

Ejemplo

Se ha utilizado el test de inteligencia D-48 a un grupo de sujetos y se ha obtenido una distribucin normal de media 28 y desviacin tpica 5.

Caso 1: Qu porcentaje de sujetos han obtenido una puntuacin superior a 36?

1) Sabemos que:

2) Sustituyendo valores z = (36-28)/5 = 1,6

3) Mirando en la tabla de la Ley Normal encontramos que este valor de z (buscar a la derecha de z), corresponde a un rea de 0,05480. Lo que equivale a un porcentaje de sujetos del 5,48%.

Caso 2: Qu porcentaje han obtenido puntuaciones inferiores a 30?1) Sabemos que

2) Sustituyendo valores z = (30-28)/5 = 0,4

3) Mirando en la tabla de la Ley Normal encontramos que este valor de z (buscar a la derecha de z), corresponde a un rea de 0,34458.

4) Pero obsrvese que el rea que hay que calcular es la contraria, la parte rayada. Por tanto tendremos que quitar a 1 (valor del rea total) el valor del rea calculada (que es la proporcin que obtiene puntuaciones mayores).1-0,34458 = 0,65542

El porcentaje de sujetos que ha obtenido puntuaciones inferiores a 30 es del 65,54%.

Caso 3: Qu probabilidad existe de que al elegir un individuo al azar est comprendido entre 25 y 35?

1) Sustituyendo valores z1 = (25-28)/5 = -0,6

z2 = (35-28)/5=1,4

2) Mirando en la tabla de la Ley Normal los respectivos valores de z encontramos que el valor de la probabilidad de z2 (buscar la izquierda) es de 0,9192 y el valor de z1 (buscar a la derecha de z), corresponde a un rea de 0,2743.

3) se le resta al valor del rea de z2, el valor del rea de z1. 0,9192 - 0,2743 = 0,6449

Caso 4: Qu porcentaje de alumnos/as queda comprendido entre las puntuaciones 19 y 26?

1) Sustituyendo valores z1 = (26-28)/5 = -0,4

z2 = (19-28)/5= -1,8

2) Mirando en la tabla de la Ley Normal los respectivos valores de z encontramos que el valor de la probabilidad de z1 (buscar la derecha) es de 0,3446 y el valor dez2 (buscar a la derecha de z), corresponde a un rea de 0,0359.

3) se le resta al valor del rea de z1 el valor del rea de z2. 0,3446-0,0359 = 0,3087

Lo cual supone un 30,87% de alumnos comprendidos entre ambas puntuaciones.

Bibliografa

Gil, J., Diego, J., Garca, E., & Rodrguez, G. (1997). Estadstica bsica aplicada a las ciencias de la educacin. Sevilla: Kronos.

GIL, J., Diego, J., Garca, E., & Rodrguez, G. (1997). Problemas de estadstica aplicada a las ciencias de la educacin. Sevilla: Kronos. 21

_1461524519.unknown

_1461524754.unknown

_1461522115.unknown

_1461522510.unknown

_1461524464.unknown

_1461522459.unknown

_1461521933.unknown