2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no...

24
Diplomado en Salud Pública 2. Metodología en Salud Pública 02. Estadística descriptiva 1 - 24 ESTADÍSTICA DESCRIPTIVA Autor: Clara Laguna En el capítulo anterior vimos que la Estadística es la Ciencia de la: Sistematización, recogida, MUESTREO ordenación y posterior presentación de los datos referentes a un fenómeno o hecho social para su estudio metódico, con objeto de DESCRIPTIVA deducir las leyes que rigen esos fenómenos, PROBABILIDAD y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones INFERENCIA Una vez que se han recogido los valores que toman las variables objeto de estudio, se procede al análisis descriptivo de los mismos. 2.1 REPRESENTACIÓN DE VARIABLES ESTADÍSTICAS Las tablas de frecuencia y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra. Aquí tenéis un esquema de los tipos de gráficos y las medidas estadísticas que podemos calcular dependiendo de la/s variables con la/s que estemos trabajando: Variables CUALITATIVAS: Representaciones gráficas: Diagramas de Sectores Diagramas de Barras Medidas numéricas Cuantiles (var. Ordinal) Variables CUANTITATIVAS: Representaciones gráficas: Diagramas de Barras (var. Discretas) Histograma (var. Continuas) Diagrama de caja (box-plot) Medidas numéricas Medidas de posición Medidas de dispersión Medidas de forma

Transcript of 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no...

Page 1: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 1 - 24

ESTADÍSTICA DESCRIPTIVA

Autor: Clara Laguna

En el capítulo anterior vimos que la Estadística es la Ciencia de la:

Sistematización, recogida, MUESTREO ordenación y posterior presentación de los datos referentes a un fenómeno o

hecho social para su estudio metódico, con objeto de DESCRIPTIVA deducir las leyes que rigen esos fenómenos, PROBABILIDAD y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u

obtener conclusiones INFERENCIA

Una vez que se han recogido los valores que toman las variables objeto de estudio, se procede al análisis descriptivo de los mismos.

2.1 REPRESENTACIÓN DE VARIABLES ESTADÍSTICAS Las tablas de frecuencia y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra. Aquí tenéis un esquema de los tipos de gráficos y las medidas estadísticas que podemos calcular dependiendo de la/s variables con la/s que estemos trabajando:

Variables CUALITATIVAS:

Representaciones gráficas:

Diagramas de Sectores Diagramas de Barras

Medidas numéricas

Cuantiles (var. Ordinal)

Variables CUANTITATIVAS: Representaciones gráficas:

Diagramas de Barras (var. Discretas) Histograma (var. Continuas) Diagrama de caja (box-plot)

Medidas numéricas

Medidas de posición Medidas de dispersión Medidas de forma

Page 2: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 2 - 24

2.1.1 Tablas estadísticas Una distribución o tabla de frecuencias es una ordenación en formato tabular en la que se organizan los datos que hemos recogido en la muestra, asignando a cada uno de ellos el número de observaciones correspondiente. Si consideramos una población estadística con n individuos podemos obtener las siguientes magnitudes: Frecuencia absoluta (ni) es el número de individuos que presenta cada valor de la variable. Número de veces que se repite un determinado valor (í-esimo) de la variable. La suma de las frecuencias absolutas es igual al número total de observaciones, n. Frecuencia absoluta acumulada (Ni) es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. Se interpreta como el número de observaciones menores o iguales a un determinado valor de la variable. Se calcula en variables cuantitativas y cualitativas ordinales.

i

j

jii nnnnN1

21 ...

Frecuencia relativa (fi) es el cociente entre la frecuencia absoluta de un determinado valor y el número total de observaciones. La frecuencia relativa es la proporción de veces que se repite un determinado valor.

if = n

ni

Obsérvese que fi es el tanto por uno de observaciones de cada valor. Multiplicado por 100% representa el porcentaje de la población. Frecuencia relativa acumulada (Fi) es el número de observaciones menores o iguales al í-esimo valor de la variable pero en forma relativa. Se calcula en variables cuantitativas y cualitativas ordinales. Muy útiles para calcular cuantiles.

i

j

jiii

i fffn

nn

n

NF

1

1

1 ......

Tabla de frecuencia de datos no agrupados Los datos no agrupados son las observaciones realizadas en un estudio estadístico que se presentan en su forma original tal y como fueron recogidos, para obtener información directamente de ellos. La tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen los datos estadísticos sin que se haya hecho ninguna modificación al tamaño de las unidades originales.

Page 3: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 3 - 24

Se emplean si las variables toman un número pequeño de valores o la variable es discreta.

Tabla 2.1 Distribución de la nota media final de curso de 100 alumnos

Tabla de frecuencia de datos agrupados Es aquella distribución en la que los valores de las variables se encuentran agrupados en intervalos o clases. A cada clase se le asigna su frecuencia correspondiente. Se emplean generalmente si las variables toman un número grande de valores o la variable es continua. Cada clase está delimitada por el límite inferior y superior. Los intervalos se forman teniendo presente que el límite inferior de una clase pertenece al intervalo, pero el límite superior se cuenta en el siguiente intervalo [L0, L1). No existe una regla fija de cuantos son los intervalos que se deben hacer; hay diferentes criterios, la literatura especializada recomienda considerar entre 5 y 20 intervalos. Cuando trabajemos con estas tablas utilizaremos la marca de clase (xi), punto medio de cada intervalo, para el cálculo de las diferentes medidas estadísticas.

Tabla 2.2 Datos agrupados en intervalos

Nota media

xi ni Ni fi Fi

1 1 1 0,01 0,01

2 2 3 0,02 0,03

3 5 8 0,05 0,08

4 9 17 0,09 0,17

5 14 31 0,14 0,31

6 23 54 0,23 0,54

7 20 74 0,2 0,74

8 15 89 0,15 0,89

9 8 97 0,08 0,97

10 3 100 0,03 1

TOTAL n=100 1

xk

x2

x1

n

NknkLk-1 – Lk

...

N2n2L1 – L2

N1n1L0 – L1

NiniVariable

xk

x2

x1

n

NknkLk-1 – Lk

...

N2n2L1 – L2

N1n1L0 – L1

NiniVariable

Page 4: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 4 - 24

Tabla 2.3 Distribución del peso en Kilogramos de una muestra de 25 personas

Para obtener la distribución de frecuencias, las medidas descriptivas de los

datos y las representaciones gráficas con SPSS, se selecciona la opción Analizar / Estadísticos descriptivos / Frecuencias.

Figura 2.1

Figura 2.2

IntervaloMarca

clase xi ni Ni fi Fi

[35,65) 50 9 9 0,36 0,36

[65,95) 80 7 16 0,28 0,64

[95,125) 110 6 22 0,24 0,88

[125,155) 140 1 23 0,04 0,92

[155,185) 170 1 24 0,04 0,96

[185,215) 200 1 25 0,04 1

n=25 1TOTAL

Page 5: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 5 - 24

Tabla 2.4 Tabla de frecuencias SPSS variable cualitativa

Tabla 2.5 Tabla de frecuencias SPSS variable cualitativa

Tabla 2.6 Tabla de frecuencias SPSS variable cuantitativa agrupada en intervalos

Tabla 2.7 Tabla de frecuencias SPSS variable cuantitativa discreta

Page 6: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 6 - 24

Como podemos ver en las tablas de frecuencias anteriores, con SPSS obtenemos la frecuencia absoluta (Frecuencia), la frecuencia relativa (Porcentaje) y la frecuencia relativa acumulada (Porcentaje acumulado). Además el Porcentaje válido que muestra la frecuencia relativa, expresada en tanto por cien, eliminando los casos con valores perdidos.

2.1.2 Representaciones gráficas Las representaciones gráficas son muy importantes en epidemiología y estadística, especialmente para propósitos descriptivos, ya que consiguen transmitir las características de la población de un solo vistazo. En el análisis e interpretación de los datos de un estudio, es importante no limitarse a realizar medidas de resumen numéricas. Las medidas de tendencia central y dispersión deben completarse con gráficos que permitan observar directamente las características y relaciones de las variables estudiadas. En este apartado vamos a explicar los principales métodos gráficos para presentar y resumir una variable aunque conforme vayamos desarrollando los diferentes temas iremos revisando el resto de gráficos. Los diagramas de barras son adecuados para representar variables cualitativas y cuantitativas discretas. En estos diagramas se representan las categorías de la variable en el eje horizontal y sus frecuencias (absolutas o relativas) en el eje vertical. Para cada categoría de la variable se construye un rectángulo de anchura constante y altura proporcional a la frecuencia. Los rectángulos están separados unos de otros por la misma distancia para reflejar la discontinuidad de la variable.

Page 7: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 7 - 24

Figura 2.3 Diagramas de barras en SPSS para variables cualitativas

Los gráficos de sectores son adecuados para representar variables cualitativas que siguen una escala estrictamente nominal. En estos gráficos se divide un círculo en tantas porciones como categorías tenga la variable, de modo que a cada categoría le corresponde un sector de círculo proporcional a su frecuencia absoluta o relativa.

Figura 2.4 Gráfico de sectores en SPSS para la variable cualitativa Sexo del paciente

El Histograma es el principal método gráfico para la representación de variables cuantitativas continuas. En primer lugar, los valores de la variable continua se agrupan en categorías exhaustivas (cubren todo el rango de la variable) y mutuamente excluyentes (no se solapan). En el eje horizontal del histograma se representan las categorías o intervalos y en el eje vertical las frecuencias (absolutas o relativas) de cada intervalo. Posteriormente, se construye un rectángulo para cada categoría, cuya anchura es igual a la longitud del intervalo y cuyo área es proporcional a la frecuencia (si los intervalos tienen distinta longitud, las alturas de los rectángulos del histograma no serán proporcionales a las frecuencias). El polígono de frecuencias se construye uniendo con líneas rectas los puntos medios de las bases superiores de los rectángulos que conforman un histograma.

Estado del tumor

Invasivo> 4 cm2-4 cm2 cm o menos

Frec

uenc

ia

100

80

60

40

20

0

Page 8: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 8 - 24

Figura 2.5 Histograma en SPSS para la variable cuantitativa Peso

Para realizar los gráficos que acabamos de ver en SPSS utilizamos el botón Gráficos de la opción Frecuencias (figura 2.6):

Figura 2.6

Page 9: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 9 - 24

2.2 MEDIDAS DESCRIPTIVAS Hemos visto cómo se pueden resumir los datos obtenidos del estudio de una muestra (o una población) en una tabla estadística o un gráfico. No obstante, tras la elaboración de la tabla y su representación gráfica, en la mayoría de las ocasiones resulta más eficaz “condensar” dicha información en algunas medidas (estadísticos o parámetros) que la expresen de forma clara y concisa. Es decir, dado un grupo de datos organizados en una distribución de frecuencias (o bien una serie de observaciones sin ordenar), pretendemos describirlos mediante dos o tres medidas sintéticas. En este sentido pueden examinarse varias características, siendo las más comunes:

La tendencia central de los datos La dispersión o variación con respecto a este centro Los datos que ocupan ciertas posiciones La simetría de los datos La forma en la que los datos se agrupan

Siguiendo este orden, iremos estudiando los estadísticos que nos van a orientar sobre cada uno de estos niveles de información: valores alrededor de los cuales se agrupa la muestra, la mayor o menor fluctuación alrededor de esos valores, nos interesaremos en ciertos valores que marcan posiciones características de una distribución de frecuencias así como su simetría y su forma.

Figura 2.7 Medidas representativas de un conjunto de datos estadísticos

Medidas de tendencia central o de posición: Indican valores con

respecto a los que los datos parecen agruparse.

Medidas de dispersión: Indican la mayor o menor concentración de los

datos con respecto a las medidas de posición.

Page 10: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 10 - 24

Medidas de forma: Estudian la simetría y el apuntamiento de la

distribución en comparación con la curva normal.

2.2.1 Medidas de tendencia central Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de otra forma, responden a la siguiente pregunta: ¿alrededor de qué valor se agrupan los datos observados?. Son el elemento fundamental de cualquier estadística descriptiva.

1. La primera y principal es la MEDIA aritmética, .Se define como la suma de todos los valores (xi) dividido por el número total de observaciones (n). Corresponde al “centro de gravedad” de los datos de la muestra.

Para datos sin agrupar:

= n

xxx

n

nn

i

i

1

1

1

Para datos agrupados en intervalos (tabla 2.2): Su principal inconveniente es que es muy sensible a los valores extremos (sobre todo si la muestra no es especialmente grande) y, en este caso, puede que no tengamos un fiel reflejo de la tendencia central de la distribución. La aparición de una observación extrema, hace que la media se desplace en esa dirección. ¡Ojo! su cálculo sólo tiene sentido en variables cuantitativas.

Por ejemplo, la cantidad media de albúmina por litro en una muestra de seis pacientes es: (42.5+41.6+42.1+41.9+41.1+42.2) / 6 = 41.9 gr. por litro

Otra medida que se utiliza mucho es la media ponderada.

Por ejemplo, supongamos que un alumno ha obtenido las siguientes calificaciones en la asignatura “Bioestadística”: pruebas de clase 7.5, prácticas 5.5, Final 4.1. Si a las prácticas y a las pruebas de clase se les da un peso del 25% y al examen final del 50% ¿Cuál será la media ponderada?

Media ponderada = 35́502525

1́45055́255´725

2. Otra medida de tendencia central que se utiliza habitualmente es la Mediana. Una vez ordenadas las observaciones de menor a mayor, la Mediana (Me) es el valor que divide a la población en dos mitades de igual frecuencia, es decir,

x

x

n

nxx i ii

Page 11: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 11 - 24

es el valor que deja por encima el 50 % de los datos de la muestra y por debajo el otro 50%.

Si el tamaño muestral n es impar, la Me es el valor central: 1, 2, 4, 5, 6, 6, 8 Me=5 Si n es par, la mediana viene dada por la media aritmética de los dos

valores centrales: 1,2,4,5,6,6,8,9 Me=(5+6)/2=5,5

En una distribución de frecuencias, la Me es el valor de la variable correspondiente a la primera frecuencia acumulada mayor que N/2.

La principal ventaja de la mediana es que no se deja influir por los valores extremos (se dice que es una medida de tendencia central robusta). La Me es la medida que se debe emplear cuando en muestras pequeñas hay alguna observación extrema (outlier).

Mediana de 1, 2 ,4 ,5 ,6 ,6 ,800 es 5. ¡La media es 117,7!

3. La Moda es el valor más frecuente.

Llamaremos Moda a cualquier máximo relativo de la distribución de frecuencias por lo que tiene sentido calcularla para cualquier tipo de variable. Es muy fácil de calcular y puede haber más de una cómo podemos ver en la figura 2.8.

Figura 2.8

En el histograma de la figura 2.9 vemos que dada la forma de la distribución, en este caso, sería más representativo usar como estadístico de tendencia central la Mediana que la Media.

Page 12: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 12 - 24

Figura 2.9

2.2.2 Medidas de posición Los estadísticos de posición son valores de la variable que superan a cierto porcentaje de observaciones en la muestra. Un cuantil de orden α es el valor de la variable por debajo del cual se encuentra el α·100% de la población. Los cuantiles indican la posición relativa de una observación con respecto al resto de la muestra. Casos particulares son los percentiles, cuartiles, deciles, quintiles,... A continuación se describen los cuantiles más utilizados:

Percentiles son los valores de una variable que dejan un determinado porcentaje de los datos por debajo de ellos.

Percentil de orden k = cuantil de orden k/100

Por ejemplo, el percentil de orden 10 deja por debajo al 10% de las observaciones, por encima al 90% restante. El percentil de orden 15 deja por debajo al 15% de las observaciones, por encima queda el 85%.

Deciles, corresponden a los percentiles 10, 20,..., 90. Los deciles se utilizan para dividir la muestra en 10 grupos de igual tamaño.

Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra en 5 grupos de igual tamaño.

Cuartiles, corresponden a los percentiles 25, 50 y 75, y dividen la muestra en 4

grupos de igual tamaño.

Figura 2.10 De esta manera, tenemos las siguientes equivalencias:

Primer cuartil Q1 = Percentil 25 = Cuantil 0,25 Segundo cuartil Q2 = Percentil 50 = Cuantil 0,5 = Mediana Tercer cuartil Q3 = Percentil 75 = Cuantil 0,75

Page 13: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 13 - 24

Figura 2.11

En Pediatría se emplean los percentiles de forma habitual. Un niño que pese 12Kg. y esté en el percentil 80 de peso, nos indicará que el 80% de los niños de su edad pesan menos de 12 Kg., es decir, este niño pesaría más que el 80% de los niños de su edad. Ejemplo 2.1 Cálculo de medidas de tendencia central y posición con la variable “peso” agrupada en intervalos:

Figura 2.12 Ejemplo 2.2 Tenemos recogido el “Número de años de escolarización” de una muestra de 1.508 alumnos. Veamos que nos muestra la figura 2.13.

Percentil 5 del peso

Peso al nacer (Kg) de 100 niños

fre

cu

en

cia

1 2 3 4 5

05

10

15

20

25

Page 14: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 14 - 24

En la tabla de frecuencias de la variable podemos adivinar los percentiles que necesitemos fijándonos en el porcentaje acumulado. De esta manera, el primer valor que deja por debajo al 20% de las observaciones (P20) corresponde a 11 años de escolarización y el primer valor que deja por debajo al 90% de las observaciones (P90) corresponde a 16 años de escolarización. Estos mismos valores son los que nos muestra el resumen de estadísticos obtenidos con SPSS.

Figura 2.13

2.2.3 Medidas de dispersión Es importante completar la información proporcionada por las medidas de posición y tendencia central con alguna medida de dispersión que mida el grado de variabilidad de los datos. Algunas de las medidas de dispersión cuantifican la separación de los datos (si se alejan mucho o poco) con respecto a los valores centrales midiendo, por tanto, su representatividad. Los estadísticos de tendencia central o posición nos indican dónde se sitúa un grupo de puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones están próximas entre sí o si por el contrario están muy dispersas. Veamos las principales medidas de dispersión:

1. El Recorrido, Amplitud o Rango es la diferencia entre el mayor y el menor valor de la variable.

Se puede ver muy afectado por valores extremos.

Page 15: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 15 - 24

Es fácil de calcular y sus unidades son las mismas que las de la variable.

Un valor pequeño del recorrido indica poca dispersión (la variable toma valores en un intervalo pequeño).

Un valor grande del recorrido indica mucha dispersión o la existencia de valores extremos.

2. El Recorrido o Rango Intercuartílico es la diferencia entre tercer y primer cuartil (percentiles 75 y 25, respectivamente). El RI indica la amplitud del 50% central de la muestra y se usa como medida de dispersión cuando la variable presenta valores extremos. En tal caso, suele ir acompañado de la Mediana como medida de tendencia central.

Recorrido intercuartílico = P75 – P25

Un valor pequeño del RI indica poca dispersión. Un valor grande del RI puede indicar mucha dispersión o la existencia de

valores extremos. Como los cuartiles están poco afectados por la existencia de valores

extremos, un RI pequeño frente a un Recorrido grande indicará la existencia de valores extremos. Si ambos son grandes, podemos asegurar que existe dispersión.

Ejemplo 2.3. Cálculo de estadísticos en dos muestras de concentraciones de albúmina.

1ª muestra: 42.5, 41.6, 42.1, 41.9, 41.1, 42.2 Concentración de albúmina máxima observada es de 42.5 gr/l Concentración de albúmina mínima observada es de 41.1 gr/l Media = 41.9 gr/l. Recorrido = 42.5 – 41.1 = 1.4 gr/l indicando poca dispersión en los datos. RI = 42.2 - 41.6= 0.6 gr. /l, indica poca dispersión

2ª muestra: 41.1, 41.6, 49.1, 42.1, 42.2, 42.5 ¿Se podría decir ahora que todos los pacientes están sanos? La media aumenta a 43.1 gr/l, afectada por el valor máximo observado. Mediana = 42.1 gr/l, está menos afectada por los valores extremos. Recorrido = 49.1 – 41.1 = 8 gr/l, mucha dispersión o existencia de valores extremos RI = 42.5 - 41.6= 0.9 gr. /l, pequeño en comparación con el recorrido (8 gr/l) lo que indica la existencia de valores extremos

3. La varianza muestral, denotada por s2, se define como la suma de los

cuadrados de las diferencias entre cada valor de la muestra y su media, dividida por el tamaño muestral n.

i

i xxn

s 22 )(1

Cuanto más separados estén los valores de la media, mayor será su dispersión

Page 16: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 16 - 24

La varianza se ve afectada por valores extremos. Sus unidades son el cuadrado de las de la variable.

Para calcular la varianza se elevan al cuadrado las desviaciones de cada valor respecto de la media para evitar que se anulen unas a otras. Volviendo al ejemplo 2.3: En la 1ª muestra calculamos las distancias de las cantidades de albúmina a su media 41.9 y las sumamos: (-0.8) + (-0.3) + 0 + 0.2 + 0.3 + 0.6 = 0 Vemos que al compensarse las distancias positivas con las negativas la suma de las distancias no proporciona una buena medida de dispersión. La suma de las distancias de las observaciones a la media es siempre cero, por ello, se dice que la media es el centro de gravedad de la distribución. Elevando estas diferencias al cuadrado eliminamos el efecto del signo: (-0.8)2 + (-0.3)2 + 02 + 0.22 + 0.32 + 0.62 = 1.22 La varianza es: s2 = 1.22 / 6 = 0.203 (gr/l)2

4. La varianza muestral es difícil de interpretar como medida de dispersión, ya

que sus unidades son las de la variable original al cuadrado. La medida de dispersión más utilizada es la desviación típica s o desviación estándar, que se define como la raíz cuadrada de la varianza, y en consecuencia, presenta

las mismas unidades que la variable original. 2ss

Al igual que la media, la desviación típica está muy afectada por valores muy extremos (gran desviación respecto de la media). Volviendo al ejemplo, la desviación típica es: s = 0.45 (gr/l)

Cierta distribución que veremos más adelante (Normal o Gaussiana) quedará completamente determinada por la media y la desviación típica.

Figura 2.14 Dispersión en distribuciones normales

150 160 170 180 190

0.0

00

.01

0.0

20

.03

0.0

40

.05

x s

68.5 %

150 160 170 180 190

0.0

00

.01

0.0

20

.03

0.0

40

.05

x 2s

95 %

Page 17: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 17 - 24

Centrado en la media y a una desv. típica de distancia se encuentran aproximadamente el 68% de las observaciones.

El 95% de los valores se situarán en el espacio comprendido por la media + 2 veces la desviación típica.

Algunas propiedades de la varianza y la desviación típica son:

Cambio de origen (traslación). Si se suma una constante a cada uno de los

datos de una muestra, la varianza y la desviación típica no cambian; si yi = xi + c, entonces sy

2 = sx2 y sy = sx.

Cambio de escala (unidades). Si se multiplica cada uno de los datos de una

muestra por una constante, la varianza resultante es igual a la varianza inicial por la constante al cuadrado y la desviación típica es igual a la desviación típica inicial por dicha constante: si yi = cxi, entonces sy

2 = c2 sx2

y sy = csx. Las propiedades del cambio de origen y escala se emplean para la estandarización o tipificación de variables, que consiste en restarle a los valores de una variable su media y dividirlos por su desviación típica. La variable tipificada resultante tiene media 0 y desviación típica 1.

xs

xXZ

La tipificación permite comparar valores procedentes de poblaciones distintas ya que están trasladados a una escala común. 5. El coeficiente de variación (adimensional) se define como el cociente entre la

desviación típica y la media aritmética.

x

SCV

X

Si es menor que 1 indica que la media aritmética es representativa. Es muy útil para comparar la dispersión entre variables. Entre dos poblaciones, la población A es más homogénea (hay menos

dispersión) que la población B si CVA < CVB.

No confundir coeficiente de variación y tipificación: Los coeficientes de variación sirven para comparar la variabilidad de dos conjuntos de valores (muestras o poblaciones), mientras que si deseamos comparar a dos individuos de cada uno esos conjuntos, es necesario, usar los valores tipificados. Ejemplo 2.4. El peso medio de un grupo de chicas es de 52.66 kg con una desviación típica de 8.94 kg. El de los chicos es de 56.91 kg con una desviación típica de 11.91 kg. Para comparar la dispersión entre las dos poblaciones calculamos el CV:

Page 18: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 18 - 24

CV chicos = 11.91 / 56.91 = 0.209 CV chicas = 8.94 / 52.66 = 0.170 Hay mayor dispersión, la media es menos representativa, en el peso de los chicos que en el de las chicas. Figura 2.15 Histogramas de la variable peso en los dos grupos

Figura 2.16 Diagramas de caja que nos permiten comparar la dispersión de la variable peso en ambos grupos

Diagrama de caja (Box-plot) El diagrama de caja permite evaluar la tendencia central, la dispersión y la simetría de la distribución de una variable, así como identificar valores extremos. Además, nos permite comparar gráficamente el comportamiento de una variable en distintos grupos. Es un gráfico muy útil en la primera fase de depuración de una base de datos, cuando queremos comprobar la calidad de los datos que hemos recogido antes de someterlos a un análisis estadístico detallado.

Page 19: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 19 - 24

Figura 2.17 Los límites inferior y superior de la caja corresponden a los percentiles 25 y 75; es consecuencia, la altura de la caja representa el rango intercuartílico e indica la dispersión de la muestra. La línea horizontal dentro de la caja corresponde a la mediana y representa la tendencia central de la muestra. El gráfico se completa con barras verticales a ambos lados de la caja de longitud 1,5 veces el rango intercuartílico. Los valores atípicos, aquellos distanciados de los límites de la caja entre 1,5 y 3 veces el rango intercuartílico, se representan con un círculo y los valores muy extremos, aquellos alejados de la caja más de 3 veces el rango intercuartílico, se denotan mediante un asterisco.

2.2.4 Medidas de forma Las medidas de forma nos permiten conocer la forma de la distribución de frecuencias cuando la representamos mediante un gráfico. Queremos saber si los datos se distribuyen de forma simétrica con respecto a un valor central, o si bien la gráfica que representa la distribución de frecuencias es de una forma diferente del lado derecho que del lado izquierdo. Si la simetría ha sido determinada, podemos preguntarnos si la curva es más o menos apuntada (larga y estrecha). Este apuntamiento habrá que medirlo comparado a cierta distribución de frecuencias que consideramos normal. De esta manera distinguimos entre:

Medidas de ASIMETRÍA: cuantifican si existe algún desequilibrio en una

de las colas de la distribución que puedan distorsionar los resultados obtenidos al extraer información.

Page 20: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 20 - 24

Medidas de CURTOSIS: cuantifican el perfil más o menos puntiagudo de la distribución (miden el grado en que las observaciones están agrupadas en torno al punto central).

1. Para saber si una distribución de frecuencias es simétrica, hay que precisar

con respecto a qué. Un candidato es la mediana, ya que para variables continuas, divide al histograma de frecuencias en dos partes iguales.

Figura 2.18 Podemos basarnos en la Mediana para decir que una distribución de frecuencias es simétrica si el lado derecho de la gráfica es la imagen especular del lado izquierdo (figura 2.18).

Cuando la variable es discreta, decimos que es simétrica, si lo es con respecto a la media.

Como es de esperar en las distribuciones simétricas media y mediana coinciden; si sólo hay una moda también coincide. Dentro de los tipos de asimetría posible, vamos a destacar los dos fundamentales: Asimetría positiva: Si las frecuencias más altas se encuentran en el lado

izquierdo de la media, mientras que en derecho hay frecuencias más pequeñas. La cola de la derecha es más prolongada.

Asimetría negativa: Cuando la cola está en el lado izquierdo.

Aun observando cuidadosamente la gráfica, podemos no ver claro de qué lado están las frecuencias más altas. Para ello nos ayudamos de los denominados índices de asimetría.

Una forma de medir la asimetría es mediante el coeficiente de asimetría de Fisher CA. En función del signo de este coeficiente diremos que la asimetría es positiva (CA>0), negativa (CA<0) o que la distribución es simétrica (CA=0).

Page 21: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 21 - 24

Figura 2.19

En los diagramas de caja, si la distribución es simétrica, los límites superior e inferior de la caja estarán aproximadamente a la misma distancia de la mediana, mientras que si la distribución es asimétrica positiva, el límite superior estará más alejado de la mediana que el inferior y si la distribución es asimétrica negativa, el límite inferior estará más alejado de la mediana que el superior (figura 2.19). 2. El apuntamiento o curtosis es el grado de aplastamiento de una curva.

Para decir si la distribución es larga y estrecha, hay que tener un patrón de referencia. Dicho patrón es la distribución normal o gaussiana.

El coeficiente de curtosis de Fisher CK (adimensional) nos indica el grado de apuntamiento (altura) de una distribución con respecto a la curva normal. En función de su signo tendremos una distribución:

Platicúrtica (si es más aplanada que la normal): CK < 0 Mesocúrtica (si es como la normal): CK = 0 Leptocúrtica (si es más apuntada que la normal): CK > 0

Figura 2.20

Aplanada

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

0.0 0.2 0.4 0.6 0.8 1.0

x s

57 %

Apuntada como la normal

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

-3 -2 -1 0 1 2 3

x s

68 %

Apuntada

-2 -1 0 1 2

0.0

0.2

0.4

0.6

0.8

-2 -1 0 1 2

x s

82 %

Page 22: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 22 - 24

Ejemplo 2.5: Vemos que en el resumen de descriptivos de SPSS (tabla 2.8) obtenemos los coeficientes de asimetría y curtosis. Podemos ver que la variable “cantidad de grasa en el subescapular” es claramente asimétrica positiva (fijándonos tanto en la forma de la distribución, figura 2.21, como en el coeficiente de asimetría 1,837 > 0) y leptocúrtica (K=3,754).

Figura 2.21 Histogramas con curva normal en SPSS

Tabla 2.8 Resumen de estadísticos con SPSS Para obtener las medidas de tendencia central, posición, dispersión y forma con SPSS, podemos seleccionar el botón ESTADÍSTICOS (figura 2.22) dentro de la opción Analizar / Estadísticos descriptivos / FRECUENCIAS.

Estadísticos

1501 1501

0 0

11,4470 17,6963

9,6000 17,2000

5,99136 7,50735

35,896 56,360

1,837 ,520

,063 ,063

3,754 -,203

,126 ,126

Válidos

Perdidos

N

Media

Mediana

Desv. típ.

Varianza

Asimetría

Error t íp. de asimetría

Curtos is

Error t íp. de curtosis

Cantidad de

grasa en el

subescapular

Cantidad de

grasa en el

tríceps

Page 23: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 23 - 24

Figura 2.22 Otra opción es mediante Analizar / Estadísticos descriptivos / EXPLORAR (figura 2.23) que permite obtener medidas de posición, dispersión y forma para todos los individuos de la población, o bien, de forma separada, para grupos de individuos; estudiar e identificar los valores extremos de la distribución; y, representar gráficamente las variables mediante diagramas de caja e histogramas.

Figura 2.23

Variable que sirve

para etiquetar casos

atípicos

Variable cuantitativa

objeto de estudio

Variable que crea

los distintos grupos

Page 24: 2. Estadística descriptiva - ics- · PDF fileLa tabla de frecuencia de datos no agrupados indica las frecuencias con que aparecen ... Figura 2.5 Histograma en SPSS para la variable

Diplomado en Salud Pública

2. Metodología en Salud Pública

02. Estadística descriptiva 24 - 24

Tabla 2.9 Resumen de estadísticos por grupos con SPSS

Descriptivos

540,7919 33,29729

474,9924

606,5915

508,2453

413,0000

165197,747

406,44526

11,0

1823

1812,00

540,00

1,147 ,199

,753 ,395

616,8261 67,24569

481,3863

752,2659

596,2415

487,5000

208011,214

456,08246

11,0

1574

1563,00

558,25

,826 ,350

-,413 ,688

Media

Límite inf erior

Límite superior

Interv alo de conf ianza

para la media al 95%

Media recortada al 5%

Mediana

Varianza

Desv. t íp.

Mínimo

Máximo

Rango

Amplitud intercuart il

Asimetría

Curtosis

Media

Límite inf erior

Límite superior

Interv alo de conf ianza

para la media al 95%

Media recortada al 5%

Mediana

Varianza

Desv. t íp.

Mínimo

Máximo

Rango

Amplitud intercuart il

Asimetría

Curtosis

Sexo del paciente

Hombre

Mujer

Tiempo de superv ivencia

en días desde el

momento del diagnóstico

Estadístico Error típ.