Temas 3 y 4 Características estadísticas...

22
Temas 3 y 4. Características estadísticas fundamentales 1 Temas 3 y 4 _____________________ Características estadísticas fundamentales Índice 1. Índices grupales. ..................................................................................................... 3 1.1. Índices de tendencia central. ........................................................................ 3 1.2.1. Moda. ................................................................................................................ 3 1.2.2. Mediana............................................................................................................ 4 1.2.3. Media. ............................................................................................................... 6 1.2. Índices de dispersión. .................................................................................... 7 1.2.1. Amplitud total. .................................................................................................. 8 1.2.2. Amplitud semiintercuartil ............................................................................... 8 1.2.3. Varianza y desviación típica ......................................................................... 8 1.2.4. El coeficiente de variación de Pearson ..................................................... 10 1.3. Índices de forma. ........................................................................................... 11 1.3.1. Sesgo o asimetría. ........................................................................................ 11 1.3.2. Apuntamiento o curtosis. ............................................................................. 13 2. Índices individuales.............................................................................................. 13 2.1. Los cuantiles. .................................................................................................... 14 2.2. Puntuaciones diferenciales y típicas ............................................................. 16 3. Estadísticos descriptivos y SPSS. ................................................................... 18 En este tema quedan resumidos los estadísticos más sencillos e importantes que se usan en el estudio descriptivo de datos. Vas a hacer uso de ellos cada vez que pretendas hacer un estudio en cualquier área de la psicología, sea en el ámbito básico o aplicado y con independencia de lo sofisticado o laborioso que vaya a ser el tratamiento posterior de los datos. Informar sobre estos índices descriptivos constituye un paso esencial y primigenio que otorga conocimiento esencial de los datos y a veces orientaciones importantes para decidir cómo debe ser conducido el trabajo posterior con los mismos.

Transcript of Temas 3 y 4 Características estadísticas...

Page 1: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales

1

Temas 3 y 4

_____________________

Características estadísticas fundamentales

Índice

1. Índices grupales. ..................................................................................................... 3 1.1. Índices de tendencia central. ........................................................................ 3 1.2.1. Moda. ................................................................................................................ 3 1.2.2. Mediana. ........................................................................................................... 4 1.2.3. Media. ............................................................................................................... 6 1.2. Índices de dispersión. .................................................................................... 7 1.2.1. Amplitud total. .................................................................................................. 8 1.2.2. Amplitud semiintercuartil ............................................................................... 8 1.2.3. Varianza y desviación típica ......................................................................... 8 1.2.4. El coeficiente de variación de Pearson ..................................................... 10 1.3. Índices de forma. ........................................................................................... 11 1.3.1. Sesgo o asimetría. ........................................................................................ 11 1.3.2. Apuntamiento o curtosis. ............................................................................. 13 2. Índices individuales .............................................................................................. 13 2.1. Los cuantiles. .................................................................................................... 14 2.2. Puntuaciones diferenciales y típicas ............................................................. 16 3. Estadísticos descriptivos y SPSS. ................................................................... 18

En este tema quedan resumidos los estadísticos más sencillos e importantes que se usan en el estudio descriptivo de datos. Vas a hacer uso de ellos cada vez que pretendas hacer un estudio en cualquier área de la psicología, sea en el ámbito básico o aplicado y con independencia de lo sofisticado o laborioso que vaya a ser el tratamiento posterior de los datos. Informar sobre estos índices descriptivos constituye un paso esencial y primigenio que otorga conocimiento esencial de los datos y a veces orientaciones importantes para decidir cómo debe ser conducido el trabajo posterior con los mismos.

Page 2: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales.

2

Como sabemos, el trabajo del análisis de los datos se realiza la mayoría de las veces con conjuntos de datos que denominamos muestras, referentes más o menos fieles de las poblaciones de las que proceden. El primer paso consiste en describirlas. ¿Cómo se describen las muestras? En primer lugar, es necesario informar sobre el comportamiento central o más representativo de tal conjunto de datos, ya que enumerar uno a uno los datos recogidos resultará desordenado, largo y no ilustrativo. En segundo lugar, resulta importante completar la información anterior con un índice que denote la dispersión o variación que presentan los datos respecto al anterior valor central. Por otro lado, a veces es necesario y útil informar sobre las características de un caso, sujeto o dato particular de la muestra. En estos casos, la mayoría de las veces se trata de indicar la posición concreta en que se encuentra determinado caso respecto al conjunto de ellos. Distinguiremos, pues, entre los estadísticos que informan sobre la muestra en general y aquéllos que informan sobre casos -o individuos- concretos dentro de dicha muestra. La siguiente tabla ofrece un resumen de los descriptivos de ambos tipos que trataremos a continuación:

Índices Grupales

Índices Individuales

Tendencia Central Media, Mediana y Moda

Variabilidad (Dispersión) Amplitud total y semiintercuartílica Varianza, Desviación tipo y C. V. Pearson

Sesgo (Asimetría) Apuntamiento (Curtosis)

Posición Centiles (Ci) Cuartiles (Qi) Percentiles (Pi)

P. directas (Xi) P. diferenciales

(xi) P. típicas (zi)

1. Índices grupales. Se refieren a la caracterización del conjunto de datos como muestra. En este sentido también pueden denominarse índices muestrales. Veamos a continuación cuáles son los índices de tendencia central y de dispersión más usados en la descripción.

1.1. Índices de tendencia central. Son la media, la mediana y la moda. Dependiendo de la escala de medida de la variable puede usarse uno u otro. Todos ellos apuntan a un valor alrededor del cual se concentran o rondan la mayoría de los datos.

1.1.1. Moda.

Para variables cualitativas sólo es posible usar la moda (Mo) definiéndose ésta como el valor de X más frecuente o el valor X que más se repite en la distribución. Si hacemos referencia a la distribución del tema anterior sobre el estado civil cuya representación en diagrama de barras era

Page 3: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales

3

Moda = solteros concluímos que la moda es la condición “soltero” ya que es el valor de X que tiene asociada una frecuencia mayor (18). Respecto a la variable número de hijos medida en una muestra de 20 familias sevillanas, la moda es 2 puesto que la mayoría de las familias de dicha muestra presentan este valor (7 familias). Moda = 2 hijos A veces, encontramos distribuciones bimodales (con dos modas) o multimodales (con más de dos). La siguiente (número de cigarros fumados por una muestra de 14 sujetos en un determinado periodo de tiempo) es bimodal. Sus modas son 10 y 13: Modas = 10 y 13 cigarros

Estado Civil

ViudoCasadoSoltero

Frecuen

cia

20

10

0

3

9

18

01234567

0 1 2 3 4

0

1

2

3

4

8 9 10 11 13 15

1

2

4

2

4

1

Page 4: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales.

4

1.1.2. Mediana.

La mediana (Mdn) es el punto de la distribución –no tanto un determinado valor- que divide a ésta en 2 partes iguales o el punto tal que, ordenados los valores de X de forma ascendente, la mitad son inferiores o iguales a él y la otra mitad, iguales o superiores a él. Así pues, el 50% de los valores de la distribución está por encima y el otro 50% por debajo de la mediana. Mientras que no es posible calcular la mediana para variables cualitativas, es un índice muy útil para variables ordinales y también para las cuantitativas. A veces, en distribuciones con variables cuantitativas con algunos valores muy extremos, la mediana resulta una medida más resistente que la media, más sensible a dichos atípicos y por tanto susceptible de sufrir cambios a causa de los mismos. La mediana puede ser un valor que no tiene por qué coincidir con alguno de los valores X de la muestra. Por ejemplo, en la siguiente distribución de datos ordenados (N=10) –siempre deben estar ordenados para facilitar el cálculo de la mediana- su valor es 34.5:

Posiciones 1 2 3 4 5 6 7 8 9 10 Datos 23 – 29 – 32 – 33 – 34 – 35 - 38 – 38 – 41 – 43

Como vemos, no coincide en este caso con ningún valor de la muestra. Es necesario hacerlo así pues la mediana no puede ser 34 que deja por debajo de sí a 4 valores (40%) y por encima 6 (60%) ni puede serlo 35 pues deja por debajo de sí 6 valores (60%) y por encima 4 (40%). Sólo 34.5 divide a la distribución en dos partes con iguales números de datos, 5 y 5. Para obtener la mediana en el caso anterior hemos operado en dos pasos:

1) Hemos identificado la posición en que se encontrará la mediana. Como tenemos 10 datos sabemos que la posición central es un punto intermedio entre las posiciones 5 y 6, es decir, (5+6)/2 = 5.5

2) Hemos identificado el valor de X que corresponde a esta posición (5.5). El valor de X de esta posición es (34+35)/2 =34.5.

La mediana sí coincide con un valor cuando la muestra cuenta con un número de datos impar. Por ejemplo, para esta distribución la mediana es 8, que se identifica con un valor concreto de X.

Posiciones 1 2 3 4 5 6 7 8 9 10 11 Datos 5 – 6 – 6 – 7 – 7 – 8 – 9 – 9 – 10 – 11 – 12 Mdn=8

Page 5: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales

5

En este caso, pues, la posición de la mediana es la posición 6 y el dato o valor de X (Mdn) es igual a 8.¿Cuál es la mediana de la siguiente distribución?

Datos absolutos Datos acumulados Posiciones Xi fi fri % Fi Fri %ai

1 6 1 0.025 2.5 1 0.025 2.5 2 7 1 0,025 2.5 2 0.050 5 3 - 4 10 2 0.050 5.0 4 0.100 10 5 11 1 0.025 2.5 5 0.125 12.5 6 13 1 0.025 2.5 6 0.150 15 7 – 8 - 9 14 3 0.075 7.5 9 0.225 22.5 10 15 1 0.025 2.5 10 0.250 25 11 -12 -13 16 3 0.075 7.5 13 0.325 32.5 14- 15 17 2 0.050 5.0 14 0.375 37.5

Mdn = 18.5 16- 17- 18- 19- 20 18 5 0.125 12.5 20 0.500 50 21 – 22 - 23 19 3 0.075 7.5 23 0.575 57.5

24- 25- 26- 27 20 4 0.100 10.0 27 0.675 67.5 28 21 1 0.025 2.5 28 0.700 70 29- 30- 31 22 3 0.075 7.5 31 0.775 77.5 32 23 1 0.025 2.5 32 0.800 80 33 24 1 0.025 2.5 33 0.825 82.5 34- 35 25 2 0.050 5.0 35 0.875 87.5 36 26 1 0.025 2.5 36 0.900 90 37 27 1 0.025 2.5 37 0.925 92.5 38 28 1 0.025 2.5 38 0.950 95 39 30 1 0.025 2.5 39 0.975 97.5 40 32 1 0.025 2.5 40 1 100 Total 40 1 100 Contamos con 40 datos, es decir, un número de datos pares. La posición de la mediana es (20+21)/2 = 20.51. Tenemos que encontrar entonces el valor X que se encuentra en la posición 20.5. Para ello hemos incluido en la tabla de datos una nueva columna denominada posiciones. Téngase en cuenta que se trata de valores agrupados por lo que una frecuencia de 3 indica que el valor de X en cuestión ocupa 3 lugares en la secuenciación de posiciones. Observemos que el dato que ocupa la posición 20 es 18 y el que ocupa la posición 21 es 19. La mediana se encuentra entonces en el valor de X a mitad de camino entre 18 y 19: (18+19)/2 = 18.5.2

1 Es lo mismo que calcular la posición mediante la siguiente fórmula que coincide con la utilizada en muchos manuales: 𝑖 (𝑁+1)

2, siendo i el punto de la mediana que es único (1), el que divide a la muestra en dos partes.

2 Se trata de hacer la extrapolación de la distancia decimal que tenemos en el cálculo de la posición a la distancia en los valores X. En los manuales esta extrapolación se expresa según la siguiente forma: (𝑋𝑖 − 𝑋𝑖−1) ∙ 𝐷 siendo D el valor de la parte decimal contenido en el valor de la posición. Así: Mdn= 𝑋𝑖 + (𝑋𝑖 − 𝑋𝑖−1) ∙ 𝐷

20.5

Page 6: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales.

6

Esta columna de posiciones podemos ahorrárnosla observando la columna de frecuencias acumuladas (Fi). Se trata de encontrar la posición 20.5 así que recorremos de arriba abajo los valores Fi y nos detenemos en la fila 10 que corresponde a Fi=20 y al valor X = 18. Como la posición a buscar es 20.5, no 21 (que correspondería ya al valor de X = 19), sabemos que tenemos que recorrer la mitad de camino entre hay 18 y 19 por lo que la Mn = (18+19)/2 = 18.5.

1.1.3. Media.

La media (𝑋�) -o promedio- es el índice de tendencia central más utilizado. Se calcula dividiendo la suma de todos los valores observados por el número total de ellos. Si no hay ninguna razón en contra, la media es el índice representativo en la gran mayoría de las distribuciones de datos cuantitativos (con frecuencia, también, en las distribuciones de datos cuasi-cuantitativos donde se consideren intervalos iguales entre los distintos valores). Calculemos el promedio del siguiente conjunto de datos donde N = 10.

6 – 5 – 4 – 7 – 5 – 7 – 8 – 6 – 7 – 8

4 5 6 7 8

Se dice que la media es el valor que indica el centro de gravedad de la distribución por eso tiene sentido observar esto en el dibujo de arriba (el eje de la balanza). Observemos cómo se desplaza hacia la derecha cuando existen una serie de datos a la derecha en una distribución parecida a la anterior:

6 – 5 – 4 – 7 – 5 – 7 – 8 – 6 – 9 – 10

4 5 6 7 8 9 10

Page 7: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales

7

En el caso de valores distribuidos en tablas de frecuencias, calculamos la media multiplicando cada valor de X por su frecuencia en el numerador y dividimos esta suma por N. Por ejemplo:

Xi fi fri friXi

0 3 0,15 0,00

1 6 0,30 0,30

2 7 0,35 0,70

3 3 0,15 0,45

4 1 0,05 0,20

1.2. Índices de dispersión.

Nos informan sobre cuán alejados o juntos se encuentran los datos -unos de otros- en una distribución. Como ya hemos indicado, al informar sobre los descriptivos de una distribución es importante no olvidar acompañar al índice de tendencia central de los datos con uno de su dispersión. No es lo mismo una distribución con media 5 y dispersión nula que otra con igual media donde los datos se alejan mucho entre sí.

1.2.1. Amplitud total.

Es la distancia entre el valor mayor y el menor de una distribución:

AT = XMáx – XMin

Es un índice que sólo tiene en cuenta los dos valores extremos de la muestra con lo que no es sensible a los datos centrales y además no tiene en cuenta el número de valores que compone la muestra.

Con la siguiente muestra de datos ordenados, 3 7 8 9 10 11 12 13, tendríamos el siguiente valor en amplitud total: AT = 13 – 3 = 10

Page 8: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales.

8

Y con esta otra distribución, 3, 9, 9, 9, 9, 9, 13, tendríamos igual valor: AT = 13 – 3 = 10

Es obvio que la segunda muestra presenta más concentración de valores y por tanto menos variabilidad que la primera, algo totalmente despreciado al calcular la amplitud total.

1.2.2. Amplitud semiintercuartil.

Es una medida centrada en calcular la distancia media del 50% central de los datos. Para ello calcula la puntuación que deja por debajo de sí al 25% (primer cuartil) y al 75% de ellos (tercer cuartil) y calcula la diferencia entre ellos promediándola. Posteriormente cuando tratemos sobre las medidas de posicionamiento de datos veremos con mayor detalle cómo se calculan estos cuartiles.

1.2.3. Varianza y desviación típica

Si nos interesa saber cuál es el promedio aproximado de las distancias de nuestros datos respecto al dato promedio de la distribución tendremos que calcular la varianza (S2) o su derivado, la desviación tipo (√S2).

Supongamos que tenemos los siguientes valores de X (en la siguiente tabla) su promedio es

Xi

3 3 – 9 = - 6 36

6 6 – 9 = - 3 9

9 9 – 9 = 0 0

12 12 – 9 = +3 9

15 15 – 9 = +6 36

Totales 0 90

𝑆2 =∑(𝑋 − 𝑋�)2

𝑁=

905

= 18

La varianza (S2) es el promedio de la suma de las distancias al cuadrado de los datos respecto a su media. Elevar al cuadrado estas distancias tiene como

QQ Q

=−3 1

2

Page 9: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales

9

cometido evitar que dicha suma tenga un valor cercano a cero al medir distancias positivas (de los datos por encima de la media) y negativas (de los datos inferiores a ella). Se divide entre N para aportar un promedio de tales distancias.

La desviación tipo (S) se define como la raíz cuadrada de la varianza. Si deseamos tener una medida más ajustada de la variación de los datos respecto a la media que se acerque más a la propia escala de la variable, calculamos este índice ya que de alguna manera anula el cuadrado de las distancias calculadas antes:

𝑆2 = �∑(𝑋 − 𝑋�)2

𝑁= �90

5= 4.2

Varianza y desviación tipo son los índices de dispersión más frecuentemente utilizados en la estadística. A veces, la varianza se corrige utilizando la cuasivarianza (S�2). Este índice constituye mejor estimador de la varianza poblacional, es decir, mide con mayor precisión la varianza de los datos en la población por lo que se prefiere, en la mayoría de las ocasiones, a la varianza, sobre todo si trabajamos con muestras pequeñas donde la diferencia entre varianza y cuasivarianza es más patente. Para calcular la cuasivarianza basta corregir el denominador de la anterior fórmula de la varianza dividiendo por N-1. Tanto la cuasivarianza como la cuasi-desviación tipo son mayores que la varianza y la desviación tipo, es decir, las variaciones de los datos en la población siempre son mayores a las variaciones detectadas en las muestras:

�̂�2 =∑(𝑋 − 𝑋�)2

𝑁 − 1

Así pues, para la cuasi-desviación típica tendremos:

�̂� = �∑(𝑋 − 𝑋�)2

𝑁 − 1

Fórmulas que derivan de las anteriores y que son más fáciles de aplicar cuando realizamos los cálculos a mano son para varianza y desviación tipo, respectivamente:

𝑆2 =∑𝑋2

𝑁− 𝑋�2

𝑆 = �∑𝑋2

𝑁− 𝑋�2

Page 10: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales.

10

1.2.4. Coeficiente de variación de Pearson.

Su principal utilidad es la de posibilitar la comparación directa de dos muestras en cuanto a su grado de variación. Su razón es la siguiente: Supongamos que tenemos dos muestras de datos, cada una con su correspondiente variación. ¿Cuál de las dos muestras de datos presenta mayor variación? Esta pregunta no puede ser respondida, a veces, con una mera comparación directa entre las varianzas o desviciones tipo porque estos índices de variación dependen en gran medida de la media (que tiene que ver en última instancia con la magnitud de los valores que caracterizan a las variables). Por ejemplo, no es lo mismo una diferencia de 2 años entre las edades de 68 y 70 años que la misma diferencia entre las edades 3 y 5 años ¿verdad?. ¿Cómo podemos establecer una comparativa entre estas variaciones o diferencias y aportar un índice que las compare con cierta ecuanimidad?

El coeficiente de variación (CV) de Pearson nos lo permite y consiste en relativizar un valor de variación de unos datos en función de la media que los caracteriza. Se trata entonces de calcular la dispersión relativa de dichos datos dividiendo su dispersión absoluta entre su media:

En puntuaciones:

Es preferible utilizar el coeficiente de variación de Pearson más que la varianza (S2) o desviación tipo (S) cuando quieran compararse dispersiones de dos muestras de datos que tengan diferente media. Sin embargo, cuando las medias de ambas muestras son iguales este coeficiente no añade nada respecto a la información que aporta cualquier índice de variación alternativo.

Por ejemplo, tengamos las siguientes distribuciones de datos:

Distribución 1 Distribución 2 Distribución 3

2-4-5-6-8 47-49-50-51-53 35-45-50-55-65

𝑋�1 = 5 𝑋�1 = 50 𝑋�1 = 50

𝑆1 = 2 𝑆2 = 2 𝑆3 = 10

𝐶𝑉1 =25𝑥100 = 40 𝐶𝑉2 =

250

𝑥100 = 4 𝐶𝑉3 =1050

𝑥100 = 20

Dispersion absolutaDispersion relativa = Media

C.VSXPearson = × 100

Page 11: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales

11

Observemos que si atendemos exclusivamente a los valores de S, diremos que las dos primeras muestras presentan igual variación. Por el contrario, haciendo depender estas variaciones del valor de sus correspondientes medias se esclarece que la primera muestra –con valores más pequeños- presenta relativamente mucha más dispersión que la segunda. (CV1 = 40 frente a CV2= 4). Sin embargo, observemos que no tiene interés calcular el CV cuando las dos distribuciones tienen la misma media pues sus variaciones iniciales siguen manteniendo entre sí la misma relación (S2 = 2 < S3 = 10 y CV2 = 4 < CV3 = 20.

1.3. Índices de forma.

Estudiaremos dos fundamentales; El sesgo o asimetría y el apuntamiento o curtosis.

Se trata de conocer la forma que tienen las distribuciones cuando sus datos se representan en ejes de coordenadas. Así ubicando los valores de X en la abcisa y los de sus correspondientes frecuencias en la ordenada pueden conocerse sus formas o perfiles.

1.3.1. Sesgo o asimetría.

Dos distribuciones con la misma media y con la misma dispersión pueden ser, en cuanto a su forma, totalmente distintas. Por ejemplo, observemos estas dos representaciones:

Aún presentando iguales medias y desviaciones tipo, la primera de las distribuciones tiene una mayor acumulación de valores en la izquierda –por tanto mayor dispersión en la derecha- y por el contrario la segunda presenta mayor acumulación de datos a la derecha. Dependiendo del lugar de la distribución en que los datos presentan mayor dispersión, las distribuciones pueden ser de tres tipos. Las simétricas, cuya dispersión es igual en ambos lados, las asimétricas negativas cuya dispersión mayor está a la izquierda y las asimétricas positivas que presentan mayor dispersión a la derecha:

010203040

12 13 14 15

40 30

20 10

010203040

11 12 13 14

10 20

30 40

X = 13 S = 1

X = 13 S = 1

Page 12: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales.

12

Asimétrica negativa Simétrica Asimétrica positiva

Para medir el grado de asimetría de una distribución se utiliza el índice g1 cuya formulación es:

𝑔1 =∑(𝑋 − 𝑋�)3

𝑛𝑆3

Siendo el resultado positivo cuando existe asimetría positiva, negativo cuando hay asimetría negativa y 0 cuando la simetría es perfecta. En este último caso, la distribución presenta características propias y especiales, entre las que se cuentan:

- La media, la mediana y la moda de la distribución coinciden en el centro

- Cualquier par de valores equidistantes a la media cuentan entre sí y el centro de la distribución con una proporción de datos iguales. Por ejemplo, en la figura siguiente se marca cómo en una distribución de este tipo el porcentaje de datos desde un punto a la izquierda, equidistante respecto al centro con otro punto a la derecha, concentran una cantidad de datos exactamente igual.

𝑋� = 𝑀𝑑𝑛 = 𝑀𝑜

Es muy importante recordar este tipo de distribución por la utilidad que tienen en el trabajo estadístico. Muchas de las variables manejadas en la investigación se les supone distribución simétrica y dicha distribución sirve como referente esencial para estimar no sólo la situación de valores y sujetos particulares en las muestras sino para la estadística inferencial en la generalización a las poblaciones (lo trataremos en el tema 5 del programa).

25% 25%

Page 13: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales

13

1.3.2. Apuntamiento o curtosis.

Se refiere al grado de alargamiento que tienen hacia arriba las distribuciones. En este sentido se distinguen tres tipos de formas:

D. Platicúrtica D. Mesocúrtica D. leptocúrtica

Para calcular el grado de apuntamiento (g2) se utiliza la siguiente formulación:

𝑔2 =∑(𝑋 − 𝑋�)4

𝑛𝑆4− 3

Si el resultado es negativo la distribución se considera platicúrtica; si es positivo leptocúrtica y si es cero, perfectamente mesocúrtica.

2. Índices individuales.

Informan sobre la posición relativa en la que se encuentra un caso con respecto al conjunto al que pertenece. Por ejemplo, una posición puede informar si, respecto a una determinada característica psicológica, un sujeto es mejor, peor o igual al comportamiento representativo del grupo y también sobre el porcentaje o número de casos que se encuentran por encima o por debajo de él en dicha variable.

El dato o puntuación de un sujeto particular no informa nada de la excelencia o bondad de dicho sujeto respecto a la variable medida si no se conoce la situación de su puntuación dentro de un conjunto. Por r ejemplo, si el nivel atencional de un sujeto medido con una determinada prueba es 10, ¿es éste un nivel bajo, medio o alto? En los test baremados usados en el diagnóstico clínico o escolar se tienen datos normativos referentes al comportamiento de las poblaciones de sujetos con similares edades y características psicológicas que el sujeto medido (grupo normativo). De esta manera, puede estimarse si La puntuación de un sujeto determinado es baja o alta en la variable que manejamos.

De estos índices, los más utilizados en la práctica son: los cuantiles, las puntuaciones diferenciales y las típicas.

Page 14: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales.

14

2.1. Los cuantiles.

Son valores de X que dividen a la distribución en k partes con la misma cantidad de datos o sujetos. En función del número de partes en que se divide, estos cuantiles se denominan: Percentiles- Pk - (si la distribución está dividia en 100 partes), Deciles – Dk - (si se divide en 10 partes), Cuartiles – Qk – (si se divide en 4 partes) o mediana (si se divide en dos).3

46

Representación gráfica de los cuantiles

25% 25%25%25%

Q1 Q2 Q3

Mdn

1D

10P2D 3D 4D 5D 6D 7D 8D 9D

20P 30P 40P 50P 60P 70P 80P 90P

Tal y como hacíamos para el cálculo de la mediana, se trata de conocer la cantidad de datos que se encuentra por debajo de un determinado valor de X; o al contrario, conocer el valor de X que deja por debajo de si a una cantidad determinada de datos. A veces esta serie de valores se encuentran tabulados oficialmente para facilitar el cálculo de la situación de un caso respecto al grupo normativo. Por ejemplo, los médicos cuentan con unos baremos que permiten saber el percentil correspondiente a la talla o peso de un niño recién nacido. Si su talla, por ejemplo, coincide con el percentil 80, sabremos que dicho sujeto mide más o igual que el 80% de niños de su grupo normativo. O lo que es lo mismo, que solo el 20% de niños de la población de referencia miden igual o más que él.

Respecto a los cuantiles en general, la pregunta puede plantearse de dos formas: ¿Qué percentil le corresponde a una determinada puntuación X? o ¿qué puntuación X corresponde a un determinado cuantil P, D, Q o a la mediana?

Veamos la resolución de ambas preguntas a partir de un caso concreto de tabla de frecuencia:

3 Como ya conocemos el concepto de mediana, para el resto de las medidas de posición se trata de aplicar el mismo concepto en distribuciones divididas en vez de en dos partes en un número mayor de partes en función del tipo de cuantil que estemos utilizando.

Page 15: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales

15

Datos absolutos Datos acumulados

Xi fi fri % Fi Fri %ai

6 1 0.025 2.5 1 0.025 2.5 7 1 0,025 2.5 2 0.050 5 10 2 0.050 5.0 4 0.100 10 11 1 0.025 2.5 5 0.125 12.5 13 1 0.025 2.5 6 0.150 15 14 3 0.075 7.5 9 0.225 22.5 15 1 0.025 2.5 10 0.250 25 16 3 0.075 7.5 13 0.325 32.5 17 2 0.050 5.0 14 0.375 37.5 18 5 0.125 12.5 20 0.500 50 19 3 0.075 7.5 23 0.575 57.5 20 4 0.100 10.0 27 0.675 67.5 21 1 0.025 2.5 28 0.700 70 22 3 0.075 7.5 31 0.775 77.5 23 1 0.025 2.5 32 0.800 80 24 1 0.025 2.5 33 0.825 82.5 25 2 0.050 5.0 35 0.875 87.5 26 1 0.025 2.5 36 0.900 90 27 1 0.025 2.5 37 0.925 92.5 28 1 0.025 2.5 38 0.950 95 30 1 0.025 2.5 39 0.975 97.5 32 1 0.025 2.5 40 1 100 Total 40 1 100

Teniendo la tabla de frecuencias con todas sus columnas (frecuencias acumuladas y porcentajes acumulados) puede responderse fácilmente a algunas de las preguntas planteadas sobre cuantiles cuando el valor del cuantil de interés coindice en la tabla con algún valor de porcentaje acumulado. Por ejemplo, si nos interesara conocer la puntuación X que deja por debajo de sí al 70% de los sujetos, o lo que es lo mismo, el P70 o el D7, reparamos en el valor de X que coincide con el porcentaje acumulado de 70: P70 = D7 = 21. También, de la misma manera, podemos identificar otros percentiles, deciles o cuartiles en esta distribución. Así:

P50 = D5 = Q2 = Mn = 18

P10 = D1 = 10

P25 = Q1 = 15

Si el percentil a calcular no coincide con ninguno de los valores de porcentajes acumulados de la tabla, sabemos que dicho percentil se encuentra incluido en el intervalo de valores que aglutina el porcentaje acumulado siguiente. En este caso el valor de X que corresponde a los sujetos que siguen pero quedan fuera de un determinado valor de porcentaje acumulado es el valor de X inmediatamente superior. Por ejemplo: ¿Cuál es el percentil 26 –P26- en la anterior distribución? Sabemos que el 25% de sujetos con valores X más pequeños tienen como mínimo una puntuación de 15 (P25 = 15); así pues, la puntuación que corresponde a los siguientes datos (hasta el 32.5%) es 16.

Page 16: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales.

16

P26 = P27 = P28 = P29 = P30 = P31 = P32 = 164

De manera similar, también podemos calcular percentiles o cualquier otro índice de posición a través de las frecuencias acumuladas. Para ello se identifican los valores de Fi correspondientes a cada posición concreta y a partir de aquí se identifica el valor de X. 5

2.2. Puntuaciones diferenciales y típicas.

En estadística descriptiva estos son índices muy frecuentemente utilizados para conocer la situación de un sujeto dentro de su muestra. Una puntuación diferencial (xi) es la distancia que existe entre un valor y la media del grupo. Obviamente tiene sentido cuando la variable se mide en escala cuantitativa así como para el cálculo de las puntuaciones típicas.

Seleccionemos, por ejemplo, la puntuación 23 obtenida por uno de los sujetos que hemos medido en capacidad de atención. ¿A cuántos puntos se encuentra su puntuación de la media de la distribución? La media de la distribución es:

𝑋� = ∑𝑓𝑖𝑋𝑁

= 1∙6+1∙7+2∙10+1∙11+⋯+⋯+1∙3240

=18.75

Así pues, la puntuación diferencial de ese sujeto:

𝑥𝑖 = (23 − 18.75) = +4.25

Es muy importante tener en cuenta el signo de la puntuación diferencial pues no indica si el sujeto se encuentra por debajo (-) o por encima (+) de la media. En nuestro caso, dicho sujeto supera al valor medio en 4.25 puntos.

La puntuación diferencial puede considerarse un preludio o paso intermedio en el cálculo de la puntuación típica (zi). Esta puntuación representa la distancia tipificada de un determinado dato a la media, o el número de desviaciones típicas a que se encuentra una puntuación respecto a la media. Es por tanto, la puntuación diferencial expresada en número de desviaciones típicas:

𝑧𝑖 =(𝑋 − 𝑋�)𝑆𝑋

=𝑥𝑖𝑆𝑋

Siendo 𝑆𝑋 = 5.85 en la distribución que manejamos, para el sujeto anterior, su correspondiente puntuación típica será:

𝑧𝑖 =(23 − 18.75)

5.85= 0.726

4 En el caso de que interesen únicamente los percentiles de valores enteros y no fracciones como P24.5 5 Según se traten de percentiles, cuartiles o deciles deberemos identificar la Fi o posición del dato de acuerdo al número de partes en que se divide en cada caso la distribución. Con estas fórmulas averiguaremos las correspondientes posiciones para cada uno de ellos:

𝑖 (𝑁+1)100

(para percentiles); : 𝑖 (𝑁+1)10

(para deciles) y : 𝑖 (𝑁+1)4

(para cuartiles)

Page 17: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales

17

Lo que quiere decir que la puntuación en atención de dicho sujeto se encuentra a 0.726 desviaciones típicas por encima de la media.

Las puntuaciones tipícas tienen un interés esencial en estadística pues permiten comparar directamente entre sí las puntuaciones de sujetos diferentes pertenecientes a diferentes muestras o medidos con instrumentos diferentes. Por ejemplo, supongamos que queremos conocer si el sujeto que nos ocupa (X = 23) muestra una puntuación superior o inferior en atención a otro que fue medido en la misma variable pero con un instrumento diferente usando diferente escala.

Nivel atencional (Escala 0-40)

𝑋� = 18.75 𝑆𝑋 = 5.85

Nivel atencional (Escala 0-100)

𝑋� = 57.75 𝑆𝑋 = 15.7

X1=23 X2= 60

𝑧𝑖 =(23 − 18.75)

5.85= 0.726 𝑧𝑖 =

(60 − 57.75)15.7

= 0.143

Si comparamos directamente las puntuaciones X diremos que el segundo sujeto presenta una puntuación superior. Sin embargo, el sentido común nos apunta la falta de congruencia que tiene esta afirmación conduciéndonos a realizar una determinada transformación a los datos que nos permita poder hacer con cierta lucidez esta comparativa. Esta transformación es la que se realiza en la última fila de la tabla anterior donde simplemente se trata de traducir las puntuaciones directas X a sus correspondientes puntuaciones típicas (z) y comparar, ahora sí, a ambos sujetos. El primer sujeto presenta un nivel de atención superior al segundo.

3. Estadísticos descriptivos y SPSS.

En este apartado veremos cómo pueden solicitarse al programa estadístico SPSS los cálculos de los índices descriptivos, grupales e individuales, que hemos desarrollado anteriormente. Cuando tengamos asimilado los conceptos estudiados y hayamos realizado con calculadora algunos de los descriptivos para variables con pocos datos, estaremos de acuerdo en que no tendrá sentido enfrascarse en operaciones laboriosas y largas cuando tengamos entre manos múltiples datos. El uso del programa estadístico nos aportará en pocos segundos los descriptivos solicitados de manera elegante y fidedigna.

Para ilustrar las peticiones que debemos hacer a SPSS para que nos realice los cálculos de los descriptivos anteriores usaremos como ejemplo el archivo de datos referente a las puntuaciones de la variables “atención” de 40 sujetos. La hoja de datos inicial para este caso y para los 12 primeros sujetos será como sigue:

Page 18: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales.

18

Con las instrucciones analizar/estadísticos descriptivos/frecuencias/estadísticos obtenemos el siguiente cuadro de diálogo donde, prácticamente, podemos solicitar casi todos los descriptivos que hemos estudiado:

En concreto, como nuestra variable es cuantitativa, hemos marcado que nos calcule los tres posibles índices de tendencia central y tres de los índices de dispersión. En cuanto a las medidas de forma, hemos marcado la petición del grado de asimetría de la distribución así como de la curtosis. Por último, hemos pedido nos informe sobre el valor de los tres cuartiles así como del percentil 70.

En la ventana de gráficos hemos pedido el histograma con la curva normal de delimitación correspondiente:

Page 19: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales

19

Los resultados obtenidos son los siguientes:

Esta primera tabla de frecuencias sólo nos sirve en este caso –variable cuantitativa continua- y muchos valores y casos, para tener una primera aproximación al análisis y echar un vistazo a la distribución de frecuencias.

atención

1 2,5 2,5 2,51 2,5 2,5 5,02 5,0 5,0 10,01 2,5 2,5 12,51 2,5 2,5 15,03 7,5 7,5 22,51 2,5 2,5 25,03 7,5 7,5 32,52 5,0 5,0 37,55 12,5 12,5 50,03 7,5 7,5 57,54 10,0 10,0 67,51 2,5 2,5 70,03 7,5 7,5 77,51 2,5 2,5 80,01 2,5 2,5 82,52 5,0 5,0 87,51 2,5 2,5 90,01 2,5 2,5 92,51 2,5 2,5 95,01 2,5 2,5 97,51 2,5 2,5 100,0

40 100,0 100,0

6,007,0010,0011,0013,0014,0015,0016,0017,0018,0019,0020,0021,0022,0023,0024,0025,0026,0027,0028,0030,0032,00Total

VálidosFrecuencia Porcentaje

Porcentajeválido

Porcentajeacumulado

Page 20: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales.

20

Aquí, en esta tabla, queda resumida toda la información importante para concluir sobre los descriptivos de nuestros datos. Nos indica que contamos con 40 casos (individuos) y que todos ellos cuentan con su respectivo valor (no hay ningún valor perdido por el sistema). La media, mediana y moda de la distribución son 18.75, 18.5 y 18, respectivamente. La dispersión de los datos, en varianza, 34.24 y en desviación tipo, 5.85. La asimetría es ligeramente positiva así como la curtosis (tendente, pues, hacia lo leptocúrtico). El rango o intervalo entre valores es 26, es decir, el número de valores que existen entre el mayor y el menor de la distribución. Los cuartiles Q1, Q2 y Q3 son, respectivamente, 15.25, 18.5 y 22. Por último, el percentil 70 coincide con el valor 21.7.

En el histograma observamos una forma bastante simétrica de la distribución ajustada en gran medida a la forma típica de la curva normal.

Estadísticos

atención40

018,750018,5000

18,005,85180

34,244,024,374,068,733

26,0015,250018,500021,700022,0000

VálidosPerdidos

N

MediaMedianaModaDesv. típ.VarianzaAsimetríaError típ. de asimetríaCurtosisError típ. de curtosisRango

25507075

Percentiles

atención35,0030,0025,0020,0015,0010,005,00

Fre

cuen

cia

8

6

4

2

0

Histograma

Media =18,75Desviación típica =5,852

N =40

Page 21: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales

21

Por último, representemos la variable en cuestión a través del gráfico de caja y patillas, un tipo de gráfico que resulta frecuente encontrarlo en manuales o en publicaciones estadísticas de diversos procederes. Lo vemos aquí porque aglutina en su representación a una serie de índices descriptivos que hemos visto anteriormente dispersos según la clasificación que hemos hecho de las variables en función de sus escalas de medida.

En los diagramas de caja y patillas se trata de reflejar en una sola representación un compendio de descriptivos importantes a la hora de ilustrar el comportamiento de una variable. Estos descriptivos son: La mediana y los cuartiles Q1 y Q3 –que delimitan la caja-, así como los valores mínimos y máximos que la variable ha adoptado en la distribución –cuyas situaciones se unen a la caja con las patillas-. En la caja se circundan los datos referentes al 50% central de la distribución.

Para la variable atención, la solicitud de esta representación se realiza en el SPSS como sigue: Gráficos/Interactivos/Diagramas de caja:

Y no nos olvidamos de ubicar la variable atención en la ordenada de la gráfica:

La salida correspondiente es la siguiente:

Page 22: Temas 3 y 4 Características estadísticas fundamentalessites.google.com/site/vararey/temas3y4.pdf · Temas 3 y 4. Características estadísticas fundamentales. 2 Como sabemos, el

Temas 3 y 4. Características estadísticas fundamentales.

22

- Podemos observar -con la precisión que permite esta gráfica- que nuestra mediana es aproximadamente 18; que el Q1 es igual a 15 y el Q3 igual a 22. Por tanto el 50% de los valores de atención de la muestra se encuentran entre 15 y 22. El valor mínimo encontrado es aproximadamente 6 y el valor máximo 30. Existe una salvedad a esta afirmación ya que, por defecto, el programa nos ha eliminado del diagrama un valor catalogado como “extremo” o “outlier”. Es el que aparece con un punto rojo en la parte superior de la gráfica y que corresponde a un valor aproximado de 32. Debemos hacer constar que este tipo de diagrama puede resultar muy útil también para variables de tipo ordinal puesto que utiliza para su presentación descriptivos susceptibles de aplicar cuando la variable se mide de esta forma.

6,00

9,00

12,00

15,00

18,00

21,00

24,00

27,00

30,00

33,00

aten

ción

A

n=40