00032947

download 00032947

of 23

Transcript of 00032947

  • 7/29/2019 00032947

    1/23

    ANLISIS DE DATOS EN PSICOLOGA 1

    1. CONCEPTOS GENERALES

    1.1 Introduccin

    La estadstica actual no slo es un conjunto de tcnicas para resumir ytransmitir informacin cuantitativa, sino que sirve tambin, y fundamentalmente,para hacer inferencias, generalizaciones y extrapolaciones de un conjuntorelativamente pequeo de datos a un conjunto mayor.

    Estadstica es la ciencia que se ocupa de la ordenacin y anlisis de datosprocedentes de muestras, y de la realizacin de inferencias acerca de laspoblaciones de las que stas proceden.

    1.2 Conceptos generales

    Se llama poblacin estadstica al conjunto de todos los elementos que cumplenuna o varias caractersticas o propiedades.

    Una muestra es un subconjunto de los elementos de una poblacin.

    Un parmetro es una propiedad descriptiva de una poblacin.Un estadstico es una propiedad descriptiva de una muestra.

    Una caracterstica es una propiedad o cualidad de un individuo.Una modalidad es cada una de las maneras como se presenta unacaracterstica.

    1.3 Medicin

    La estadstica no realiza sus funciones directamente sobre las modalidadesobservadas, sino que stas se representan por nmeros, y la estadstica realizasus funciones sobre esos nmeros.

    Se llama medicin al proceso de atribuir nmeros a las caractersticas.

    La asignacin de nmeros a las caractersticas se hace siguiendo unas reglas,del estudio de los modelos mediante los cuales conocemos las reglas para unacorrecta atribucin de los nmeros se ocupa la Teora de la Medida.

    A partir de una caracterstica se puede establecer un sistema relacionalemprico (emprico, porque se refiere a entidades y relaciones reales). Elsistema numrico est formado por un conjunto de entidades (nmeros) y unasrelaciones entre ellos. Se trata de un sistema relacional numrico.

    El objetivo de la medicin de una caracterstica es conectar un sistema

    relacional emprico y un sistema relacional numrico, de tal forma que lasrelaciones entre las entidades se reflejen en las relaciones entre los nmeros

    1

  • 7/29/2019 00032947

    2/23

    que los simbolizan. Slo si se consigue este objetivo ocurrir que de lasrelaciones entre los nmeros podrn hacerse inferencias vlidas acerca de lasrelaciones entre las entidades.

    La medicin estudia las condiciones de construccin de representaciones

    numricas, y los modelos desarrollados para la medicin se llaman escalas.

    Tenemos las escalas nominales, ordinales, cuantitativas de intervalo ycuantitativas de razn.

    Escalas nominales: la clave de estas escalas de medida es que slo informande la igualdad o desigualdad de los individuos en una caracterstica, pero no deposibles ordenaciones, puesto que la caracterstica a la que se refieren no setiene en mayor o menor medida, sino que simplemente adopta formascualitativamente distintas.

    Un concepto ntimamente ligado al concepto de escala, y que de hecho lascaracteriza, es el de transformacin admisible, que hace referencia al problemade la unicidad de la medida. La cuestin de la unicidad puede plantearse de lasiguiente forma: es la representacin numrica que hemos construido la nicaposible? En general la respuesta ser negativa.

    Se dice que una transformacin de los nmeros asignados en una escala esuna transformacin admisible si preserva las caractersticas que definen a esaescala, es decir, si los nmeros transformados tambin representan al sistemaemprico.

    Esta transformacin de los valores originales es una transformacin admisibleporque los valores obtenidos mediante su aplicacin siguen cumpliendo lascondiciones especificadas anteriormente para toda escala nominal. En trminosms tcnicos diramos que en una escala nominal son admisibles todas lastransformaciones que supongan aplicaciones inyectivas.

    La aplicacin de una regla de asignacin de nmeros a las diferentescantidades de tal forma que los nmeros asignados a los objetos reflejen esosdistintos grados en los que se presenta la caracterstica. Los nmerosasignados nos permitirn extraer conclusiones acerca de las magnitudes. A

    veces lo nico que esos nmeros nos permiten inferir son relaciones de tipomayor que o menor que

    A aquellas escalas de medida que cumplen estas caractersticas se les llamaescalas ordinales. Tambin se dice que se est haciendo una medicin a nivelordinal. Los objetos pueden ordenarse, y de ah el nombre de la escala.

    En psicologa son muchas las caractersticas cuya medicin se considera queest a nivel ordinal, pues son muchos los casos en los que lo nico que puededecirse es que un individuo es ms extravertido que otro, que un nio es mshiperactivo que otro, o que el aprendizaje es ms rpido con el mtodo A que

    con el mtodo B.

    2

  • 7/29/2019 00032947

    3/23

    Apliquemos de nuevo el concepto de transformacin admisible a este tipo deescalas. No todas las transformaciones que eran admisibles en las escalasnominales lo son para las escalas ordinales.

    Al igual que en las escalas nominales, las ordinales tienen unas

    transformaciones admisibles, que lgicamente sern todas aquellas quepreserven las caractersticas de la escala ordinal. Se puede demostrar que estoocurre con todas aquellas transformaciones que cumplan la condicin de sertransformaciones crecientes.

    Se dice que la transformacin es creciente si para todo par de objetos a y b secumple la siguiente condicin:

    Si n (a) > n (b), entonces t[ n (a) ] > t[n(b)]

    La limitacin de las escalas ordinales es que aunque nos informa de que un

    objeto presenta la caracterstica en cuestin en una mayor magnitud que otroobjeto, no nos dice en cunto ms. Para poder extraer conclusiones msprecisas, como la de en cunto ms presenta la caracterstica un objeto sobreotro, hay que contar con una unidad de medida, y para ello hay que pasar alsiguiente tipo de escala.

    Escala de intervalo, la tercera condicin aadida a las exigidas para una escalaordinal impone que el nmero asignado al objeto y que representamos porn(oi), sea una funcin lineal de la magnitud real que ese objeto representa en lacaracterstica en cuestin. Cuenta con una unidad de medida, si se cumpleesta tercera condicin podemos extraer consecuencias acerca de la igualdad odesigualdad de diferencias.

    Si la diferencia entre los nmeros asignados a dos objetos es igual a ladiferencia entre los nmeros asignados a otros dos, tambin son iguales lasdiferencias en magnitudes entre estos dos pares. Una mayor diferencia entrelos nmeros asignados implica una mayor diferencia entre las magnitudesrepresentadas.

    El ejemplo clsico de este tipo de escalas es el de las temperaturas.

    Las transformaciones admisibles para las escalas de intervalo no significanms que un cambio en la unidad de medida y en el origen asignado a la escala,valores ambos arbitrarios en este tipo de escalas.

    La principal limitacin de este tipo de escalas es que no tiene un cero absoluto.El nmero cero no representa realmente la ausencia de esta caracterstica.

    Las escalas de razn

    Esta tercera condicin cumple la funcin de preservar el significado del valorcero, de forma que siempre representa la ausencia de esa caracterstica. La

    consecuencia fundamental de la presencia de un origen absoluto, y noarbitrario, es que adems de poder extraer conclusiones acerca de la igualdad

    3

  • 7/29/2019 00032947

    4/23

    o desigualdad de diferencias, tambin puede hablarse de la igualdad odesigualdad de razones.

    NOMINAL

    El sexo de los individuos se clasifica simbolizando con un 0 hembra y con un1 varn. Posteriormente se hace una transformacin admisible, 0 5 y 1 3.

    ORDINAL

    La dureza de los elementos se ordena, asignndoles nmeros que representenesa ordenacin. Posteriormente se hace una transformacin admisible, esdecir, una que respeta esa ordenacin.

    INTERVALO

    Las cantidades de calor, pueden representarse por distintos conjuntos denmeros, en tanto en cuanto en ellos se mantenga la diferencia de temperaturaentre los objetos 1 y 2 sea la misma que la diferencia entre los objetos 3 y 4, yambas sean mayores que la diferencia entre los objetos 2 y 3. Estascondiciones las cumplen tanto la escala centgrada como la escala Fahrenheit.Adems, de cualquiera de ellas puede pasarse a la otra, pues cada una es unatransformacin admisible para la otra. Cada una tiene su propia unidad demedida y su origen propio.

    RAZN

    Las longitudes, pueden representarse tambin por distintos conjuntos denmeros, en tanto en cuanto en ellos se mantenga que le objeto 2 tenga eldoble que le objeto 1, y que el cociente entre los nmeros asignados a losobjetos 3 y 1 sea mayor que el cociente entre los nmeros asignados a losobjetos 2 y 1. Estas condiciones se cumplen tanto al medir en metros como almedir en yardas. Se puede pasar de una a otra, son transformacionesmutuamente admisibles, ya que aunque cada una tiene su unidad de medida,ambas respetan el cero absoluto, que coincide con las dos, y representa laausencia de esta caracterstica.

    Tipo Informacindeducible Transform.admisibles Ejemplos

    NominalRelaciones igualque o distinto que

    Aplicacionesinyectivas

    Sexo, estado civil,diagnstico clnico.

    OrdinalRelaciones mayorque o igual que

    Funcionescrecientes

    Dureza, nivelsocioeconmico, grado deasertividad

    Interval

    o

    Igualdad odesigualdad dediferencias

    A + b . x (b 0)Temperatura, calendario,inteligencia.

    4

  • 7/29/2019 00032947

    5/23

    Razn

    Igualdad odesigualdad derazones

    B . x (b 0) Longitud, peso.

    1.3.1 Las variables: clasificacin y notacin

    Una variable es una representacin numrica de una caracterstica.

    EjemploTipo deestudio

    Variables Tipo de escala

    1 Descriptivo Grado de patrn A Intervalo

    2 InferencialGrupo, Nivel cultural,Inteligencia, estrs.

    Nominal, Ordinal,Intervalo, Intervalo

    3 Inferencial Tiempo de reaccin Razn4 Inferencial Intencin de voto Nominal

    Estadstica descriptiva con una variable

    2 ORGANIZACIN Y REPRESENTACIN DE DATOS

    2.2 Distribucin de frecuencias

    La distribucin de frecuencias es un instrumento diseado para cumplir tresfunciones:

    Proporcionar una reorganizacin y ordenacin racional de los datosrecogidos.

    Ofrecer la informacin necesaria para hacer representaciones grficas Facilitar los clculos necesarios para obtener los estadsticos muestrales

    Se llama frecuencia absoluta de un valor Xi, y se simboliza por ni, alnmero de veces que se repite el valor Xi, en la muestra.

    Se llama frecuencia relativa de un valor Xi, y se simboliza por p i, alcociente entre la frecuencia absoluta de ese valor y el tamao de lamuestra. Es decir: pi = ni / n

    Se llama frecuencia absoluta acumulada de un valor Xi, y se simbolizapor na, al nmero de veces que se repite en la muestra ese valor X i, ocualquier otro valor inferior.

    Se llama frecuencia relativa acumulada de un valor Xi, y se simboliza porpa, al cociente entre su frecuencia absoluta acumulada y el tamao de la

    muestra. Es decir: pa = na / n.

    5

  • 7/29/2019 00032947

    6/23

    Las frecuencias relativas, se expresan en trminos porcentuales. Suelenrepresentarse con maysculas, para obtenerlas basta con multiplicar por 100las frecuencias relativas. Para cualquier valor de la variable, Xi tenemos que:

    Pi = pi 100 y Pa = pa 100

    Una distribucin de frecuencias se organiza en forma de tabla. En unadistribucin de frecuencias completa aparece, una columna con los valores queadopta la variable, creciendo de abajo hacia arriba.

    Construimos la distribucin de frecuencias siguiendo los pasos descritos:

    1. Ponemos en la primera columna esos valores, creciendo de abajo haciaarriba

    2. Para la columna de frecuencias absolutas contamos el nmero de vecesque se repite cada valor, si el nmero de valores es muy grande

    conviene ir haciendo marcas por cada valor, para contarlas al final3. Para la columna de frecuencias relativas dividimos cada frecuencia

    absoluta por n4. Para obtener las frecuencias absolutas acumuladas sumamos para cada

    valor su frecuencia absoluta ms la absoluta acumulada del valoranterior.

    5. Para las frecuencias relativas acumuladas dividimos cada frecuenciaabsoluta acumulada por n. La frecuencia relativa acumulada del valormayor debe ser igual a 1.

    Distribucin de frecuencias construida sobre el ejemplo del nmero de hijos(texto)

    Xi ni pi na pa

    4 1 0.0520

    1.00

    3 3 0.1519

    0.95

    2 7 0.3516

    0.80

    1 6 0.30 9 0.45

    0 3 0.15 3 0.1520

    1.00

    Agrupacin en intervalos: consisten en formar grupos de valores consecutivos,llamados intervalos, y poner uno de estos grupos en cada fila, en lugar deponer cada valor individual por separado. Cada uno de estos grupos sueleindicarse en la distribucin de frecuencias poniendo los valores mayor y menosincluidos en l.

    6

  • 7/29/2019 00032947

    7/23

    A continuacin se calculan las frecuencias absolutas conjuntas de los valoresincluidos en el intervalo, haciendo lo mismo despus con las frecuenciasrelativas, las absolutas acumuladas y las relativas acumuladas.

    Se llama intervalo a cada uno de los grupos de valores que ocupan una

    fila en una distribucin de frecuencias. En algunos textos se llamanclases.

    Se llaman lmites aparentes o informados de un intervalo a los valoresmayor y menor que puede adoptar la variable dentro de ese intervalo,segn el instrumento de medida utilizado.

    Se llaman lmites exactos de un intervalo a los valores mximo y mnimoincluidos en el intervalo y que podran medirse si se contara con uninstrumento de precisin perfecta.

    Se llama punto medio de un intervalo a la suma de sus lmites exactospartido por dos. En algunos libros se llama marca de clase.

    Se llama amplitud de un intervalo a la diferencia entre su lmite exactosuperior y su lmite exacto inferior. Suele representarse por la letra I.

    Para hacer una distribucin de frecuencias:

    1. El intervalo superior debe incluir al mayor valor observado.2. el intervalo inferior debe incluir al menor valor observado.

    3. Cada intervalo debe incluir el mismo nmero de valores.

    Dado que el objetivo de una distribucin de frecuencias es conseguir unaordenacin manejable que ayude a comprender el significado de los datos, noes conveniente que el nmero de intervalos sea demasiado grande.

    Como consecuencia de lo anterior, podemos sentirnos inclinados a reducir almximo el nmero de intervalos, pero lo cierto es que esto traera consigo unaconsecuencia negativa, los intervalos tendran una excesiva amplitud yacabaramos teniendo a sujetos con puntuaciones muy distintas en el mismointervalo.

    El nmero apropiado de intervalos debe ser tal que, con ella se consiga unaagrupacin operativa y que cumpla los objetivos para los que ha sido diseadala distribucin de frecuencias, pero sin distorsionar excesivamente los valorescon el error de agrupamiento.

    A veces hay casos en los que hacer un nmero de intervalos siguiendo lasdirectrices que acabamos de plantear distorsionaran demasiado los datos.

    Para evitar eso se utilizan lo que se denomina intervalos abiertos, en los cualesno se pone el lmite inferior del intervalo que incluye los valores menores, el

    lmite superior del intervalo que incluye los valores mayores o no se poneninguno de estos dos. Ej. + de ....

    7

  • 7/29/2019 00032947

    8/23

    Problema de los bordes

    Supongamos que vamos a construir una agrupacin en intervalos, siendo losvalores mayor y menor observados iguales a 79 y 43, respectivamente. Como

    el nmero de valores distintos sera igual a 37, que es un nmero primo, nopueden hacerse intervalos de amplitud constante tales que el mayor tenga al79 como lmite aparente superior y al 43 como lmite aparente inferior. En estoscasos suele aadirse al listado de valores distintos observados algunos otrosvalores no observados en la muestra.

    Estos valores tendrn frecuencias absolutas iguales a cero, pero nos permitirnconseguir un nmero de valores distinto que sea mltiplo del nmero deintervalos que queremos hacer.

    Para no distorsionar demasiado ninguno de los intervalos extremos es

    preferible repartirlos lo ms homogneamente posible entre los dos.

    2.2.1 Supuestos de distribucin intraintervalo

    Una vez confeccionada una distribucin de frecuencias con datos agrupadosen intervalos, sta se puede utilizar para hacer representaciones grficas ypara facilitar los clculos de estadsticos que iremos explicando.

    Dado que de cada puntuacin slo sabemos el intervalo al que pertenece, unprocedimiento que a veces resultar til consiste en asumir el supuesto deconcentracin en el punto medio. Segn este supuesto, trataramos a esos dosdatos como si fueran dos valores iguales. Entonces este es el punto medio desu intervalo.

    El supuesto de distribucin homognea, los valores incluidos en un intervalo sereparte con absoluta conformidad en su interior, si en un intervalo hay cincoobservaciones, aceptaremos que sus valores son los que tendramos sipartiramos al intervalo en cinco subintervalos de igual amplitud y asignramosa cada individuo el punto medio de un subintervalo.

    2.3 Representaciones grficas

    A partir de las distribuciones de frecuencias se pueden construirrepresentaciones grficas. La funcin de stas es dar informaciones globalesmediante un solo golpe de vista.

    2.3.1 Representaciones grficas de uso frecuente

    Diagrama de rectngulos: Para hacer un diagrama de rectngulos secolocan en el eje de abscisas las modalidades (o los nmeros que lasrepresentan) y en el eje de ordenadas las frecuencias. Sobre cadamodalidad se levanta un rectngulo cuya altura es la frecuencia

    correspondiente. Este tipo de representaciones se suele utilizar para

    8

  • 7/29/2019 00032947

    9/23

    variables nominales, pero tambin se utiliza para variables ordinales,como el nivel cultural.

    Perfil ortogonal: Se utiliza mucho en informes psicopedaggicos o derendimiento. Calificaciones obtenidas por un alumno a lo largo de 4

    exmenes.

    Pictograma: Son representaciones en forma de crculos en las questos son divididos en secciones cuya superficie es proporcional a lafrecuencia de la modalidad correspondiente.

    Diagrama de barras: Se utiliza para variables cuantitativas discretas. Enel eje de abscisas se colocan los distintos valores de la variable y en eleje de ordenadas las frecuencias. Sobre cada valor de la variable setraza una lnea o barra perpendicular cuya altura debe ser igual a lafrecuencia.

    Histograma: Se utiliza para variables cuantitativas continuas con datosagrupados en intervalos. En el eje de abscisas se colocan los lmitesexactos de los intervalos, y en el eje de ordenadas las frecuencias.

    Polgono de frecuencias: Para variables discretas, el polgono defrecuencias es la figura que resulta de unir los extremos superiores delas que hubieran sido las barras. Si se trata de las bases superiores delos rectngulos correspondientes a un hipottico histograma construidocon esos mismos datos.

    Diagrama de barras acumulativo: Se utiliza en variables discretas. En eleje de abscisas se colocan los valores de la variable, y en el deordenadas las frecuencias acumuladas, ya sean absolutas o relativas.Sobre cada valor se traza una perpendicular cuya longitud sea igual a lafrecuencia acumulada. Desde el extremo superior de cada una de estasbarras se traza una lnea horizontal que se une con la barra situada a suderecha.

    Polgono de frecuencias acumuladas: Se utilizan en variables continuas.El eje de abscisas se construye igual que en los histogramas, pero en el

    de ordenadas se incluyen las frecuencias acumuladas, ya seanabsolutas o relativas. Sobre cada lmite se levanta una perpendicularcuya longitud sea idntica a la frecuencia acumulada y se unen losextremos superiores de dichas perpendiculares.

    2.3.2 Convenciones sobre las representaciones grficas

    1. En el eje de abscisas colocamos los valores de la variable, y en el deordenadas las frecuencias (absolutas o relativas, simples oacumuladas).

    2. La interseccin de los dos ejes es el origen , de modo que en el eje deabscisas las puntuaciones ms bajas estarn a la izquierda, y las ms

    9

  • 7/29/2019 00032947

    10/23

    altas a la derecha; en el de ordenadas los valores los valores pequeosestarn abajo y los altos arriba.

    3. Si el valor mnimo del eje de abscisas fuera excesivamente grande, sedebe cortar la lnea

    4. Conviene incluir en cada grfico toda la informacin posible para evitarambigedades y facilitar su interpretacin por otras personas o pornosotros mismos al cabo del tiempo.

    5. Cuando un mismo grfico se representan dos o ms grupossimultneamente y stos son de tamaos considerablemente distintosse deben utilizar frecuencias relativas.

    Las representaciones sirven para comunicar informacin de un solo golpe devista, y por ello en su construccin debe tenerse en cuenta el pblico al que va

    dirigida, sus necesidades de informaciones ms bien globales y generales oespecficas y precisas, y cualquier otra consideracin que pueda mejorar latransmisin de informacin gil y precisa.

    2.3.3 Tendenciosidad en las representaciones grficas

    Un primer mtodo consiste en recortar el eje de ordenadas, eliminando losmenores valores de frecuencias con la excusa de que no hay ningunaobservacin que las adopte. Esto tiene como consecuencia que pequeasdiferencias parezcan mayores.

    Un segundo tipo de distorsin se produce cuando se utilizan figurasrepresentativas de aquello que se est midiendo. Suelen hacerseproporcionando sus alturas a las frecuencias correspondientes, el incrementoen la altura conlleva tambin un incremento en la anchura. Como consecuenciade ello, la superficie de las figuras no guarda relacin con las frecuenciasobservadas, dando la impresin de que la diferencia es mayor que la realmenteregistrada.

    2.3.4 Propiedades de las distribuciones de frecuencias

    Los polgonos de frecuencias dependen demasiado de la unidad de medidautilizada, de la agrupacin en intervalos hecha y de las fluctuacionesparticulares esperables en una muestra concreta. Las curvas suavizadassuelen ser representaciones ms apropiadas que los polgonos de frecuenciassimples. Son cuatro las propiedades con las que describiremos lasdistribuciones de frecuencias:

    1. Tendencia central: Una primera propiedad es la que se refiere a lamagnitud general de las observaciones hechas. Esta magnitud generalpuede cuantificarse mediante unos ndices conocidos como ndices detendencia central o promedios, y que reciben ese nombre porque

    pretenden ser sntesis de los valores de la variable.

    10

  • 7/29/2019 00032947

    11/23

    2. Variabilidad: Grado de concentracin de las observaciones en torno alpromedio. Una distribucin de frecuencias ser homogneo o pocovariable si los datos difieren poco entre s, y por tanto, se agolpan entorno a su promedio. Sera heterognea o muy variable si los datos sedispersan mucho con respecto al promedio.

    3. Asimetra o sesgo: Esta propiedad se refiere al grado en que los datostienden a concentrarse en los valores centrales, en los valores inferioresal promedio, o en los valores supriores a ste. Existe simetra perfectacuando en caso de doblar la representacin grfica por una verticaltrazada sobre la media, las dos mitades se superponen perfectamente.Las distribuciones con asimetra negativa son propias de las pruebas,tareas o tests fciles, en las que la mayora de los sujetos puntan alto.Las distribuciones asimtricas positivas son tpicas de pruebas, tareas otests difciles en las que la mayora de los sujetos puntan bajo.

    4. Curtosi: Se refiere al grado de apuntamiento de la distribucin defrecuencias. Si es muy apuntada se llama leptocrtica y si es muyaplastada, se llama platicrtica.

    2.4 Diagrama de tallo y hojas

    Las distribuciones de frecuencias no son el nico medio para resumir y exponerconjuntos de datos; una alternativa a ellas son los llamados diagramas de talloy hojas.

    Su obtencin requiere separar cada puntuacin en dos partes. El primer oprimeros dgitos, que reciben el nombre de tallo, y el dgito o dgitos restantes,que reciben el nombre de hojas; por ejemplo, X = 56 se puede separar en 5(tallo) y 6 hoja. Estos diagramas tienen la suficiente flexibilidad como paraadmitir otras posibilidades.

    1. Se identifican los valores mximo y mnimo observados.2. Se toma una decisin acerca del nmero ms apropiado de tallos

    distintos.3. Se listan todos los tallos distintos en una columna, ordenados de forma

    creciente de arriba abajo.4. Se escribe cada hoja junto al tallo que le corresponda, preferiblementeordenados segn su valor.

    En general, un nmero de tallos superior a cinco y que no pase de 20 suele serapropiado. Aparte de ser ms fcil de construir, el diagrama de tallo y hojastiene varias ventajas sobre la distribucin de frecuencias, y tambin algninconveniente:

    1. Ventaja: permite identificar cada puntuacin individual. En lasdistribuciones tradicionales slo conocemos la frecuencia del intervalo y

    nos obliga a tratar los datos de ciertas maneras distorsionantes. Laventaja de retener cada valor individual viene acompaada del

    11

  • 7/29/2019 00032947

    12/23

    inconveniente de que le diagrama de tallo y hojas no facilita, como ladistribucin de frecuencias clsica, el clculo de los estadsticos queestudiaremos ms adelante.

    2. Ofrece simultneamente tanto un listado de las puntuaciones como un

    dibujo de distribucin, si tumbamos el diagrama obtenemos una especiede histograma.

    3. Al contener los valores de cada observacin, es ms fcil de modificarpara obtener un dibujo con un nivel de detalle distinto, mayor o menor,de la distribucin.

    4. Pueden presentarse dos conjuntos de datos simultneamente en elmismo diagrama, con lo que se facilita la comparacin.

    MEDIDAS DE POSICIN

    2.5 Centiles o percentiles

    Son 99 valores de la variable que dividen a la distribucin en 100 secciones,cada una conteniendo a la centsima parte de las observaciones. Se puedenrepresentar por la inicial de cada uno de los dos trminos que los designan msel subndice correspondiente, Ck o Pk (k = 1,2,...99). Se simboliza por C28 aaquella puntuacin que deja por debajo de s al 28 por 100 de lasobservaciones y que es superada por el 72 por 100.

    Aunque por definicin son slo 99 valores, por extensin a veces se utilizanposiciones intermedias, como, por ejemplo, el centil 88,5 o C88,5, que seraaquel valor de la variable por debajo del cual se encuentra el 88,5 por 100 delas observaciones.

    Dado que los valores correspondientes a los centiles se determinan en funcinde los porcentajes de observaciones, normalmente las distancias entre ellos,en trminos de puntuacin, no sern constantes. Generalmente las distanciasentre los centiles intermedios sern menores que las distancias entre centilesextremos.

    Las puntuaciones correspondientes a los centiles 55 y 56 sern ms cercanasentre s que las puntuaciones correspondientes a los centiles 98 y 99, o las delos centiles 2 y 3. Esto se dar, en distribuciones simtricas, mientras que amedida que las distribuciones se van haciendo ms asimtricas esta relacinhay que matizarla algo ms.

    Los centiles no suelen calcularse con cantidades pequeas de datos y cuandoes necesario hacerlo se obtienen sencillamente ordenando las puntuaciones ycalculando la proporcin de stas que superan al valor que se quiere comparar.Normalmente los centiles se obtienen sobre datos agrupados en intervalos, y

    en su clculo se asume el supuesto de distribucin homognea intraintervalo.

    12

  • 7/29/2019 00032947

    13/23

    Estamos buscando la puntuacin que deja por debajo de s a 140, que es unacantidad intermedia entre 90 y 150. El procedimiento que se utiliza paracalcular ese valor, y que se recoge en la frmula que veremos a continuacin,consiste en adoptar como representacin del C70 un valor perteneciente alintervalo 11 14 que mantenga una relacin de proporcionalidad con respecto

    a la frecuencia buscada. Se trata de buscar una puntuacin de ese intervaloque divida a las observaciones pertenecientes a l en dos grupos, uno queincluya a las 50 observaciones inferiores y otro que incluya a las 10 restantes.De esta forma, ese valor dejar por debajo de s a 50 observacionespertenecientes al intervalo, ms las 90 que quedaban por debajo de su lmiteexacto inferior, totalizando las 140 buscadas. Dado que esa puntuacin debedejar a 50 por debajo y 10 por encima, debe ser una puntuacin ms cercanaal lmite superior del intervalo que al lmite inferior. El procedimiento se resumeen la siguiente frmula:

    Ck = Li + I k n - nani 100

    Ck es la puntuacin correspondiente al centil kLi es el lmite exacto inferior del intervalo crticoI es la amplitud de los intervalosni es la frecuencia absoluta del intervalo crtico.k es el porcentaje de observaciones inferiores a Ckn es el nmero de observaciones hechasna es la frecuencia absoluta acumulada hasta Li

    2.6 Otros cuantiles

    2.6.1 Deciles

    Son nueve puntuaciones que dividen a la distribucin en 10 partes, cada unaconteniendo al 10 por 100 de las observaciones. Se representan por Dk, dondek indica el nmero del decil al que se refiere.

    2.6.2 Cuartiles

    Son tres puntuaciones que dividen a la distribucin en cuatro partes, cada unaconteniendo al 25 por 100 de las observaciones. Se representan por Q k, dondek indica el nmero del cuartil al que se refiere.

    MEDIDAS DE TENDENCIA CENTRAL

    2.7 La media aritmtica

    El ndice de tendencia central ms utilizado es la media. Se define como lasuma de los valores observados, dividida por el nmero de ellas. Serepresenta con la misma letra que representa la variable, en maysculas , con

    una barra horizontal encima. Por tanto, si recogemos n observaciones de lavariable X, entonces la medida de los valores observados es:

    13

  • 7/29/2019 00032947

    14/23

    X = Xi / n

    De donde se deduce que:

    Xi = n X

    4.2.1 Clculo en una distribucin de frecuencias

    Cuando se tiene un conjunto grande de observaciones, stas tradicionalmentese han agrupado en distribuciones de frecuencias, para luego hacer losclculos sobre la distribucin.

    Vamos a describir el procedimiento para hacer los clculos de la media condatos agrupados en una distribucin de frecuencias.

    Para hacer los clculos se asume el supuesto de concentracin en el puntomedio del intervalo.

    Para hallar la media se asume el supuesto de concentracin en el punto mediodel intervalo.

    X = ni Xin

    Se diferencia de la frmula anterior en que: el sumatorio no tiene n sumandos,como en la frmula anterior sino tantos como intervalos tenga la distribucin ylas Xi no son los datos directos, sino los puntos medios de los intervalos.

    4.2.2 Propiedades de la media aritmtica

    Puntuaciones directas: valores brutos y los representamos por la letra de lavariable en maysculas.

    Puntuaciones diferenciales: diferencias de cada sujeto con respecto a la mediagrupal, las representamos por la letra minscula.

    Xi = Xi - X

    La suma de las diferencias de n puntuaciones con respecto a su media,o puntuaciones diferenciales, es igual a cero: xi = 0

    La razn por la que la suma de las diferenciales es igual a cero es que unasson positivas y otras negativas y se compensan unas con otras.

    La suma de los cuadrados de las desviaciones de unas puntuacionescon respecto a su media es menor que con respecto a cualquier otrovalor.

    14

  • 7/29/2019 00032947

    15/23

    Si sumamos una constante a un conjunto de puntuaciones, la mediaaritmtica quedar aumentada en esa misma constante.

    Si multiplicamos por una constante a un conjunto de puntuaciones, lamedia aritmtica quedar multiplicada por esa misma constante.

    La media total de un grupo de puntuaciones, cuando se conocen lostamaos y las medias de varios subgrupos hechos a partir del grupototal, mutuamente exclusivos y exhaustivos, puede obtenerseponderando las medias parciales a partir de los tamaos de lossubgrupos en que han sido calculadas.

    XT = n1 X1 + n2 X2 + + nk Xkn1 + n2 + n3 + + nk

    Una variable definida como la combinacin lineal de otras variables tienecomo media la misma combinacin lineal de las medias de las variablesintervinientes en su definicin

    4.3 La mediana

    Mediana: aquella puntuacin que fuera superada por la mitad de lasobservaciones, pero no por la otra mitad, se suele representar por Mdn.

    Para su clculo podemos encontrarnos en dos casos generales, aquel en elque contamos con un nmero impar de observaciones y aquel que nosencontramos con un nmero par de ellas. En el primero se toma como mediana

    el valor central: en el segundo se da la circunstancia de que cualquier valorcomprendido entre los dos centrales cumple con la definicin de la mediana.Fechner propuso tomar la media aritmtica de los dos valores centrales.

    4.4 La moda

    Una tercera va para representar la tendencia central de un conjunto de valoresconsiste en informar del valor ms frecuentemente observado. Se presenta porMo, y se define sencillamente como el valor de la variable con mayorfrecuencia absoluta.

    Como norma, para obtener la moda ordenaremos los valores de menor amayor para as facilitar la identificacin del de mayor frecuencia.

    Cuando todos los valores tienen la misma frecuencia, es un caso en elque la moda no se puede calcular, decimos que es una distribucinamodal.

    Cuando hay dos valores con la misma y mxima frecuencia en este casose dice que la distribucin tiene dos modas o que es una distribucinbimodal.

    15

  • 7/29/2019 00032947

    16/23

    Cuando disponemos de una distribucin de frecuencias, se toma comomoda el punto medio del intervalo con mayor frecuencia. Tambin endistribuciones de frecuencias pueden darse los casos anteriores. Enellos se utilizaran las mismas reglas que acabamos de exponer, peroaplicadas a los puntos medios de sus intervalos.

    4.5 Comparacin entre medidas de tendencia central

    Si no hay ningn argumento de peso en contra, se preferir siempre la media.Hay dos razones para apoyar esta norma general. La primera es que en ella sebasan otros estadsticos y la segunda es que es mejor estimador de suparmetro que la mediana y la moda.

    Hay al menos 3 situaciones en las que se preferir la mediana a la media:

    1. Cuando la variable est medida en escala ordinal

    2. Cuando haya valores extremos que distorsionen la interpretacin de lamedia

    3. Cuando haya intervalos abiertos, situaciones en las que el intervalosuperior carece de lmite superior, el intervalo inferior carece de lmiteinferior o ambos.

    La media es extremadamente sensible a las puntuaciones y un cambio en slouna de ellas supone un cambio en la media aritmtica, mientras que la medianaslo se vera alterada por cambios en los valores centrales.

    La mediana ser la segunda candidata para representar la tendencia central ysi no hay argumentos de peso en contra se preferir la mediana a la moda:

    1. Cuando se trate de una variable medida en escala nominal2. Cuando haya intervalos abiertos y la mediana pertenezca a uno de ellos.

    MEDIDAS DE VARIACIN

    2.8 Medidas de variacin

    2.8.1 Varianza y desviacin tpicaUna idea que se ha demostrado til a la hora de cuantificar la variabilidad es lade trabajar con las distancias desde los valores hasta algn poste centra, quepodra ser la media aritmtica y basar la medicin de la dispersin en algn tipode separacin promedio hasta ese poste

    Una solucin al problema de que las distancias con respecto a la media sumencero consiste en elevar al cuadrado esas distancias antes de hallar supromedio, dado que los cuadrados son siempre positivos. El ndice basado enesta idea se llama varianza y se representa por la expresin S2x, donde el

    subndice recoge la letra con la que se representa la variable. Al clculo delpromedio de las desviaciones cuadrticas con respecto a la media:

    16

  • 7/29/2019 00032947

    17/23

    S2x = ( X - X )2

    n

    S2x = x2

    n

    La cuestin que puede surgir es la de cmo valorar el grado de dispersincuantificado mediante este ndice. En realidad no tiene mucho sentido hablarde niveles altos o bajos de dispersin en trminos absolutos, sino, en todocaso, en trminos comparativos.

    La varianza sirve sobre todo para comparar el grado de dispersin de dos oms conjuntos de valores en una misma variable, llegando a conclusionescomo la siguiente: La poblacin de hombres presenta una mayor variabilidaden su estatura que la poblacin de mujeres, que son ms homogneas en esacaracterstica

    El valor 27,2 no parece un nmero claramente relacionado con lo que sepretenda medir. Las mayores distancias que presentan esos valores conrespecto a la media son de 8 puntos y parece que una representacin numricade la magnitud general de esas distancias estara bastante alejada de 27,2. Larazn de esta discrepancia es que las distancias no se han tratado como tales,sino que para evitar el problema de que las diferenciales sumen cero se hanelevado stas al cuadrado. Por ello es frecuente que, con objeto de retornar lasunidades originales de esas distancias, se calcule la raz cuadrada de lacantidad obtenida. Al ndice as hallado se le llama desviacin tpica, serepresenta por Sx y se define sencillamente como la raz cuadrada de lavarianza:

    Sx = ( Xi - X)2

    n

    La desviacin tpica es un mejor descriptor de la variabilidad, aunque lavarianza tenga algunas notables propiedades que la hacen idnea para basaren ella los anlisis estadsticos complejos.

    La variabilidad de los datos est reflejando el hecho incuestionable de lasdiferencias individuales y stas son uno de los objetos de estudio primordialesde la psicologa.

    Cuasivarianza: dividiendo por n 1, representamos por S2xn S2x = (n 1) S2x

    2.8.2 Clculo y propiedades de la varianza

    La varianza y la desviacin tpica como medidas de dispersin, son

    valores esencialmente positivos.

    17

  • 7/29/2019 00032947

    18/23

    Si sumamos una constante a un conjunto de puntuaciones, su varianzano se altera

    Si multiplicamos por una constante a un conjunto de puntuaciones, lavarianza quedar multiplicada por el cuadrado de la constante, y la

    desviacin tpica por el valor absoluto de esa constante.

    La varianza total de un grupo de puntuaciones, cuando se conocen lostamaos (ni), las medidas (Xi) y las varianzas (S2i) de varios subgruposhechos a partir del grupo total, mutuamente exclusivos y exhaustivos,puede obtenerse sumando la media (ponderada) de las varianzas y lavarianza (ponderada) de las medias:

    S2T = ni S2i + ni (Xi - XT)2

    ni ni

    La desigualdad de Tchebychev recoge el hecho de que las distanciasmenores hasta la media son ms frecuentes que las distancias mayores.As, entre las puntuaciones correspondientes a la media +- unadesviacin tpica se encontrarn menos observaciones que entre laspuntuaciones correspondientes a la media +- una dos desviacionestpicas. Segn la desigualdad de Tchebychev, el porcentaje depuntuaciones que quedan entre las correspondientes a la media +- kdesviaciones tpicas es, como mnimo, el:

    ( 1 1 por 100 de las observacionesk2

    2.8.3 Otras medidas de variacin

    Una forma muy sencilla de indicar el grado de dispersin consiste en calcular ladistancia entre el mayor y el menor de los valores observados. Este ndice sellama amplitud total, rango o recorrido, y se obtiene sencillamente hallando ladiferencia entre los valores extremos:

    AT = Xmx Xmin

    La principal desventaja de este ndice es que es muy sensible a los valoresextremos, y nada sensible a los intermedios, pudiendo carecer de todarepresentatividad.

    Otro inconveniente de este ndice es que est ligado al tamao de la muestrautilizada, Si se quiere comparar la variabilidad de la dispersin de dosconjuntos de datos de tamao marcadamente distinto, es probable que lamuestra de mayor tamao presente una mayor amplitud aunque laspoblaciones de referencia tengan la misma variabilidad.Desviacin media: tomar las desviaciones con respecto a la media, opuntuaciones diferenciales, en valor absoluto. Se representa por sus iniciales

    (DM):DM o ST = | Xi - X|

    18

  • 7/29/2019 00032947

    19/23

    n

    La desviacin media representa un promedio de distancias tomadas en valorabsoluto y representa bien el concepto de dispersin y su cuantificacin,aunque no es muy utilizado en psicologa debido a la dificultad que supone el

    trabajo con valores absolutos, y que hace que no haya muchas tcnicas deanlisis estadstico basadas en ella.

    Cuando en las puntuaciones hay algn valor extremo que pudiera distorsionarla representatividad de la varianza se puede utilizar otro ndice, basado slo enlas puntuaciones correspondientes a los cuartiles primero y tercero. Sedenomina amplitud semi intercuartil, se representa por la letra Q

    Q = Q3 Q12

    Esta medida de variabilidad elimina del cmputo las puntuaciones extremasque no le afectan.

    Coeficiente de variacin: Comparar la variabilidad de grupos cuya media esclaramente distinta, relativizar la desviacin tpica con respecto a la media,expresado como un porcentaje, se representa por CV

    CV = Sx 100X

    Cuanto mayor es el coeficiente de variacin, menos representativa es la media.

    2.9 Representacin grfica de la variabilidad

    Box and whiuskers, que significa literalmente caja y bigotes. Para suconstruccin se marcan seales de tal forma que las distancias entre ellas seanproporcionales a las distancias entre la puntuacin mxima y mnima y los 3cuartiles. Con los 3 cuartiles se forma una especie de ficha de domin,mientras que las puntuaciones mxima y mnima se unen mediante lneasrectas a los bordes de esta forma geomtrica. Se puede comparar lavariabilidad de dos distribuciones haciendo representaciones paralelas de caja

    y bigotes.En otros casos se quiere representar la evolucin de los valores medios, sepueden unir mediante un trazo los puntos correspondientes y aadir unosbigotes verticales que indiquen los valores correspondientes a una desviacintpica.

    PUNTUACIONES TPICAS Y ESCALAS DERIVADAS

    6.1Puntuaciones tpicas

    19

  • 7/29/2019 00032947

    20/23

    Puntuacin diferencial la distancia o diferencia, entre esa puntuacin y lamedia del grupo de puntuaciones.

    Las puntuaciones diferenciales son ms informativas e interesantes que lasdirectas, pues al menos nos indican si la puntuacin es superior o inferior a la

    media o si coincide con ella. Esta informacin es insuficiente para compararpuntuaciones de sujetos pertenecientes a distintos grupos o a distintasvariables.

    Variabilidad del grupo de referencia: se tratara de indicar cmo de grande esuna distancia en trminos de las distancias observadas en general en esaspuntuaciones. Esa distancia general es la desviacin tpica. Las puntuacionesas conseguidas se denominan, puntuaciones tpicas, se representan por letrasz minsculas y su frmula es:

    zi = Xi - XSx

    Es idntica al cociente entre la puntuacin diferencial y la desviacin tpica:

    zi = xiSx

    Al proceso de obtencin de las puntuaciones tpicas se le llama tipificacin. Ladefinicin de las puntuaciones tpicas puede basarse en esta idea y expresarsecomo sigue:

    La puntuacin tpica de una observacin indica el nmero dedesviaciones tpicas que esa observacin se separa de la media delgrupo de observaciones.

    Las puntuaciones tpicas permiten hacer comparaciones entre unidades dedistintos grupos, entre variables medidas de distintas formas o incluso entrevariables diferentes. Siempre nos indican el nmero de desviaciones tpicasque se separan de la media y si esa desviacin es por encima o por debajo dela media.

    Las tpicas no son ms que una transformacin lineal que consiste enmultiplicar las directas por una constante (el inverso de la desviacin tpica) yluego sumar a esos productos otra constante (el cociente entre la media y ladesviacin tpica, con signo negativo)

    Zi = Xi - X = 1 . Xi + - XSx Sx Sx

    Estas caractersticas de las puntuaciones tpicas son universales, no dependendel tipo de puntuaciones, ni de su dispersin, ni de su nmero.

    20

  • 7/29/2019 00032947

    21/23

    La media de las puntuaciones tpicas es cero, mientras que su varianzay desviacin tpica son iguales a uno.

    Las puntuaciones tpicas reflejan las relaciones esenciales entre laspuntuaciones con independencia de la unidad de medida que se haya utilizado

    en la medicin.

    6.2 Escalas derivadas

    Inconveniente La medida de las tpicas es cero y su desviacin tpica uno,buena parte de las puntuaciones suelen ser negativas y casi todas decimales.

    Un procedimiento consiste en transformar las puntuaciones tpicas en otras queretengan todas las relaciones que manifiestan las puntuaciones originales, quesean puntuaciones equivalentes pero evitando la dificultad operativa y queconstituyen lo que se denomina una escala derivada.

    Las puntuaciones transformadas tienen como media y desviacin tpica lasconstantes utilizadas para la transformacin, podemos conseguir que laspuntuaciones en una escala derivada tengan las caractersticas que nosresulten ms cmodas, sencillamente haciendo la transformacin con lasconstantes que deseamos como media y desviacin tpica.

    Si transformamos linealmente las puntuaciones tpicas, multiplicndolaspor una constante a, y sumando una constante b, entonces laspuntuaciones transformadas tendrn como media la constante sumada,

    b, como desviacin tpica el valor absoluto de la constante multiplicada(a) y como varianza el cuadrado de esta constante, a2

    La construccin de una escala derivada parte de unas puntuaciones directas,stas se tipifican y despus se transforman linealmente en otras puntuaciones.

    Esquema de la transformacin en una escala derivada:

    Tipificacin

    Transformacin en escala derivada:

    Ti = a . zi + b

    La cuestin fundamental de las escalas derivadas consiste en transformar las

    puntuaciones originales, Xi, en otras puntuaciones transformadas, Ti, tales que

    21

    Puntuaciones

    directas (Xi)

    Media: XVarianza: S2x

    Puntuaciones

    tpicas (zi)

    Media: 0Varianza: 1

    Puntuaciones

    transformadas

    (Ti)

    Media: b

    Varianza: a2

  • 7/29/2019 00032947

    22/23

    sean ms cmodas de tratar e interpretar, pero que a la vez retengan lasrelaciones esenciales entre los valores, que sean puntuaciones equivalentes.

    Cualquier transformacin lineal en la que la constante multiplicadora seapositiva da lugar a unas puntuaciones equivalentes.

    MEDIDAS DE ASIMETRA Y CURTOSI

    2.10 ndices de asimetra

    El grado de asimetra de una distribucin hace referencia al grado en que losdatos se reparten equilibradamente por encima y por debajo de la tendenciacentral. Hay diferentes ndices con los que cuantificar esta propiedad:

    El primero de ellos se basa en la relacin entre la media y la moda, y se definecomo la distancia entre la media y la moda, medida en desviaciones tpicas.

    La media es inferior a la moda, y por tanto este ndice dar un valor negativo,mientras que en la figura c la media es superior y el ndice dar positivo. En ladistribucin de la figura b coinciden los dos ndices de tendencia central, y portanto el ndice de asimetra dar cero.

    Las distribuciones del tipo de la figura a se dice que tienen asimetra negativa yel ndice da valores menores que cero. Las del tipo de la figura c se dice quetienen asimetra positiva y este ndice da valores mayores que cero. Las deltipo de la figura b se dice que son distribuciones simtricas, puesto que noestn inclinadas hacia ningn lado; este ndice da en ellas valores en torno acero y si la simetra es perfecta entonces da exactamente cero. Este ndicetiene la dificultad de que slo se puede calcular en distribuciones unimodales.

    ndice de asimetra de Pearson, es igual al promedio de las puntuacionestpicas elevadas al cubo:

    As = (z3) = [( Xi - X)3/ Sx3] = 1 . (Xi - X)3

    n n. S3x

    22

  • 7/29/2019 00032947

    23/23

    Los valores menores que cero indican asimetra negativa, los mayores de ceroasimetra positiva y los valores en torno a cero indican distribucionesaproximadamente simtricas. Es el ndice de asimetra ms utilizado.

    El ndice de asimetra intercuartlico se basa, en los cuartiles. Su frmula es:

    As = (Q3 Q2) (Q2 Q1)Q3 Q1

    Los valores mayores de cero indican asimetra positiva, los menores indicanasimetra negativa y los valores en torno a cero reflejan distribucionesaproximadamente simtricas. Tiene una ventaja sobre los ndices anteriores yes que tiene un valor mximo y mnimo con lo que se facilita su interpretacinen trminos relativos.

    2.11 ndice de curtosis

    Slo vamos a estudiar el que se basa en el promedio de las tpicas elevadas ala cuarta potencia. Su frmula es:

    Cr = (z4) = [(Xi - X)4 / S4x] - 3 = 1 . . (Xi - X)4 - 3n n. S4x

    Al restar un tres al ndice lo que se consigue es utilizar ese modelo comopatrn de comparacin. Una distribucin en la que el ndice sea igual a cerotiene un grado de curtosis similar al de la distribucin normal y, siguiendo laterminologa propuesta por Pearson, se dice que es mesocrtica, mientras que

    si es positivo su grado de apuntamiento es mayor que el de la distribucinnormal y se dice que es una distribucin leptocrtica y si es negativo suapuntamiento es menor que el de la distribucin normal y se dice que esplaticrtica.