Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del...

54
Capítulo 2: PRINCIPALES ESTADÍSTICOS RESISTENTES. 1991 · 35

Transcript of Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del...

Page 1: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Capítulo 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

1991 · 35

Page 2: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

36 · Hector Monterde i Bort - Manuel Perea Lara.

Page 3: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

2.1.- INTRODUCCIÓN: MEDIANA, CUARTILES E INTERVALO INTERCUARTIL.

La Mediana, los Cuartiles, y por extensión los Percentiles, son cuantiles (puntos en una escala numérica que dividen al conjunto de valores obtenidos en subconjuntos de proporciones establecidas) o índices de posición basados en el cálculo de frecuencias de las clases de un conjunto de datos ordenado o distribución, y por ello1 resistentes, en cierta medida, al efecto de las puntuaciones extremas. Sobre estos índices se desarrollan muchos de los estadísticos resistentes que veremos. Por ello, los conceptos y propiedades con ellos relacionados deben estar suficientemente claros para abordar el estudio de este enfoque de tratamiento estadístico.

Dado un conjunto valores obtenidos de una variable, a los que nos referiremos como datos estadísticos:

El término Mediana se utiliza para referir a aquel valor que divide la distribución, de dichos datos ordenados de menor a mayor o de mayor a menor, en dos subconjuntos de igual número. Es decir, es aquel valor tal que por debajo y por encima de él se encuentra el mismo número de casos, datos o frecuencias, el 50%.

El término Cuartiles se utiliza para referir a aquellos tres valores, de un conjunto de datos, que dividen la distribución, de dichos datos ordenados de menor a mayor, en cuatro partes iguales, conteniendo cada una el 25% de los casos, datos o frecuencias. Son designados con un subíndice, 1, 2 o 3, según la posición de orden que ocupan en la distribución, así, el Cuartil1 (C1

2) referiría al valor que dejara por encima el

75% de los valores o datos obtenidos de la variable en cuestión, el Cuartil2 (C2) al que dejara por encima al 50% (que

1 Al no tener en cuenta las puntuaciones en sí sino el orden de las mismas. 2 Q1 en la literatura anglosajona.

1991 · 37

Page 4: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

coincidiría con la Mediana), y el Cuartil3 (C3) al que dejara

por encima al 25% de los valores obtenidos.

El término Percentiles se utiliza para referir a aquellos valores que corresponden a los diferentes porcentajes en que se puede dividir la distribución de los valores obtenidos de una variable. Normalmente cien, designados por un subíndice (vg., P33) que indica el porcentaje de casos, datos o frecuencias que

dejan igual o por debajo. Algunos autores definen a los Percentiles como aquellos valores o puntos que dividen la distribución (ordenada) en cien partes iguales, bajo esta definición, dichos valores no podrían ser más de 99. Sin embargo, hay incluso algún autor que admite fracciones de unidad, por lo que bajo esta consideración el número de Percentiles existente en una distribución, especialmente si se trata de una variable cuantitativa continua, podría ser infinito...

Otros términos, como Deciles, Quintiles, etc., son también utilizados para referir particiones equivalentes o porcentajes concretos acumulados en la distribución de valores ordenados obtenidos en una variable, pero su comentario rebasa los objetivos de este apartado.

Conviene advertir que los procedimientos más desarrollados de cálculo, para la obtención de estos índices, en la medida que suponen interpolación3, son, y algunos autores así lo consideran expresa o tácitamente, idóneamente aplicables sobre variables cuantitativas continuas. Sin embargo es frecuente en la practica profesional, y en general en la Psicología aplicada, aplicar estos procedimientos sobre variables cuantitativas discretas e incluso cuasi-cuantitativas, concretamente sobre variables ordinales, práctica que aunque podría no ser ortodoxa da razón de la utilidad que estos índices de posición tienen también en el estudio y manipulación de dichas variables, destacando la característica de que aunque estos índices se deben calcular sobre el conjunto de datos o valores obtenidos de una variable, los valores que asumen pueden no coincidir con alguno de los valores obtenidos u observados. En este sentido, es necesario aclarar que estos índices, aunque no algunos procedimientos para

3 Colocar entre dos valores conocidos otros que se calculan con sujeción a ciertas reglas.

38 · Hector Monterde i Bort - Manuel Perea Lara.

Page 5: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

su cálculo, por definición son perfecta y lícitamente aplicables sobre variables ordinales y, por extensión, sobre cuantitativas discretas.

En rigor, el Percentil ρ (ó Pρ) es todo punto m tal que la

probabilidad de escoger aleatoriamente un dato a la izquierda de

m (es decir, menor que m ) es de ρ

100 , y la probabilidad de

escoger un dato a la derecha (es decir, mayor que m ) es de 100-ρ100 .

Sin embargo, para diversas distribuciones de datos de carácter discreto (variables cuasi-cuantitativas o cuantitativas discretas) no existen unos puntos tales que la probabilidad

total se divida exactamente en ρ

100 y 100-ρ100 . Piénsese en el

Percentil 50 (P50) de la serie discreta: 2, 9, 20; en la cual la

probabilidad 50/100=1/2=0'5 no se puede aplicar para dividir el conjunto de datos en dos partes exactas4. Por ello, los matemáticos recurren a la siguiente reformulación:

El Pρ se define como un punto m tal que la:

P(X<=m ) >= ρ

100 y P(X>=m ) >= 100-ρ100

Con esta definición, toda distribución siempre tendrá un punto m que satisfaga el Pρ. Es más, diversas distribuciones

podrán tener varios puntos m que satisfagan tal definición.

Por ejemplo, sea la variable discreta X con valores: 1, 2, 2, 3, 3, 3, 4, 4 y 4. El valor 3 es una mediana de la distribución, ya que P(X<=3) = 6/9 = 0'6̂, que es mayor que 1/2, y P(x>=3) = 6/9 = 0'6̂, que también es mayor que 1/2. Además, en este caso la Mediana es única.

Sin embargo, habrá otras distribuciones discretas donde la Mediana no es única. Así, sea por ejemplo la variable discreta X con valores: 1, 2, 2, 2, 2, 4, 4, 4, 5 y 5. Debido a que P(X<=2) = 5/10 = 1/2 y P(X>=4) = 5/10 = 1/2, todo valor en el intervalo [2,4] será una mediana de la distribución. Aunque por

4 Si tomamos el "9" como Mediana (dado que es el valor central), la probabilidad de obtener un dato por debajo de ella es, como sólo hay un valor que cumple la condición (el "2"), 1/N=1/3=0'33..., y aún incluyendo el "9" sería 2/3=0'66..., lo mismo ocurre con la probabilidad de encontrar un dato por encima del "9". Luego sería imposible cumplir la probabilidad p=50/100.

1991 · 39

Page 6: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

comodidad, en estos casos, se suele calcular la Media Aritmética entre los dos valores (existentes) centrales de la distribución, en este caso 3 que se tomaría como la Mediana.

También puede ocurrir que haya varios puntos que satisfagan la definición de un determinado Percentil en las distribuciones continuas. Por ejemplo, sea la variable continua X con valores: 1, 3, 10 y 11; en este caso, todos los puntos en el intervalo [3'5,9'5]5 satisfacen la definición de P50.

Hechas estas aclaraciones, a nuestro entender necesarias, pasaremos a describir los procedimientos de cálculo "clásicos" para Cuantiles.

Para la obtención de los diferentes Cuantiles pueden seguirse dos estrategias o algoritmos de cálculo: (a) actuar sobre los datos sin agrupar (por frecuencias), que podemos denominar como método abreviado, o (b) actuar sobre la tabla de distribución de frecuencias acumuladas (datos agrupados por frecuencias en clases). A estos dos procedimientos analíticos puede añadirse otro de carácter gráfico, que supone una extensión del segundo, y que está basado en el diagrama de porcentajes acumulados.

El primer procedimiento sería el adecuado para variables de índole discreta (ordinales y cuantitativas discretas), mientras que el segundo lo sería para variables continuas, aunque (sin ser estrictamente correcto) se suele aplicar también a las ordinales y discretas.

EN EL PRIMER CASO, actuando sobre los datos sin agrupar, el algoritmo de cálculo puede describirse en los siguientes pasos:

1º) Ordenar los valores obtenidos, generalmente de menor a mayor.

2º) Multiplicar el número, más una unidad, de valores obtenidos por la fracción correspondiente a la proporción buscada (por 1/4 si se trata del primer Cuartil, por 3/4 si se trata del tercer Cuartil, por 60/100 si se trata del Percentil

5 Una aclaración complementaria asequible, a este ejemplo, puede encontrarse en AMÓN,J. (1991) (13ªEd.): Estadística para Psicólogos, Vol. 1. Madrid: Pirámide; pp. 84 y siguientes.

40 · Hector Monterde i Bort - Manuel Perea Lara.

Page 7: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

60, por 1/2 si se trata de la Mediana,...). El resultado obtenido indicará la posición en la que se encuentra el valor buscado, comenzando a contar desde el menor al mayor los valores de la variable obtenidos.

3º) Si la posición de orden indicada por el resultado del paso anterior cae sobre uno de los valores obtenidos del conjunto, ese valor será el cuantil buscado. Si la posición de orden indicada por el número obtenido cae entre dos valores del conjunto obtenido, en rigor el Cuantil buscado será cualquier punto entre dichos dos valores, ambos incluidos. No obstante en la práctica, para simplificar y/o concretar, procederemos de la siguiente forma:

a) Si la posición (obtenida en paso 2º) cae justo en medio de dos valores (decimal igual a x'5), en ese caso se calculará la media aritmética (aunque en variables ordinales no sería estrictamente correcto, pero ya dijimos que se hace por comodidad) entre los valores anterior y siguiente a dicha posición, y el resultado se tomará como valor del cuantil buscado (caso que se dará con la Mediana si el número de datos o valores obtenidos es par ).

b) Si la posición obtenida cae más cerca de uno de los valores (por ejemplo, decimales iguales a x'2 ó x'7) se tomará el valor existente más cercano como valor del cuantil buscado.

EJEMPLO-2.1.: Cálculo del Cuartil 1 sobre datos sin agrupar.- Sean los siguientes valores los obtenidos en una variable discreta: 4, 7, 4, 5, 9, 8, 3, 11, 5, 6 1º) Ordenar los valores de menor a mayor: Datos obtenidos: 3 4 4 5 5 6 7 8 9 11 Posición-orden: 1º 2º 3º 4º 5º 6º 7º 8º 9º 10º

2º) Calcular la posición de orden:

(N=10) Posición = (10+1) * 1/4 = 2'75 _~ 3 que nos da la posición ordinal.

3º) Contando 3 valores ordenados, de izquierda a derecha, comprobaremos como la posición cae sobre el tercer valor, el segundo 4, por lo que el C1 será 4.

De la misma forma podremos calcular el C3: Posición = (10+1) * 3/4 = 8'25 _~ 8 que, redondeado, también

coincidirá con un valor existente u obtenido, el 8; o la Mediana: Posición = (10+1) * 1/2 = 5'5 {o (10+1) * 2/4 = 5'5, o (10+1) * 50/100 = 5'5}, cuya posición no cae

sobre ninguno de los valores existentes, sino en el medio de dos valores (contando 5'5 posiciones, de izquierda a derecha, cae en medio del 5º y 6º valor, es decir, de los valores, que en este caso coinciden con el orden, 5 y 6), por lo que realizaremos la operación extra de obtener la Media Aritmética de los dos valores contiguos a dicha posición media, resultando la Mediana igual a 5'5.

1991 · 41

Page 8: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

EN EL SEGUNDO CASO, actuando sobre los datos agrupados por frecuencias, un procedimiento cómodo puede ser realizar previamente la conversión del cuantil buscado al Percentil correspondiente (la tabla ofrecida unos párrafos más adelante ilustra las equivalencias más usadas) y aplicar la fórmula siguiente sobre la tabla de frecuencias acumuladas:

Pρ = ⎝⎛

⎠⎞

ρ * N 100 - fai-1

Aifi

+ li

Donde:

Pρ = Percentil buscado (ρ = Rango Percentil

correspondiente). N = Número de casos o valores obtenidos. fai-1 = Frecuencia acumulada hasta la clase anterior a la

que contiene el Percentil buscado. Ai = Amplitud del intervalo de la clase en la que se

encuentra el Percentil buscado. fi = Frecuencia absoluta de la clase en la que se

encuentra el Percentil buscado. li =Límite inferior (real) del intervalo de la clase en

la que se encuentra el Percentil buscado.

Si procedemos de esta forma, el algoritmo de cálculo puede describirse en los siguientes pasos:

1º) Construir la tabla de distribución de frecuencias al menos hasta la columna de frecuencias acumuladas (la columna de porcentajes acumulados nos da ya los Rangos Percentiles correspondientes a los valores obtenidos -existentes en el conjunto de datos-, no obstante, la aplicación de la fórmula nos permitirá estimar los Percentiles correspondientes a Rangos determinados).

2º) Calcular el primer término de la fórmula: ρ * N 100 ,

que nos dará la frecuencia acumulada del intervalo o clase que contiene la puntuación o valor percentil buscado.

42 · Hector Monterde i Bort - Manuel Perea Lara.

Page 9: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

3º) Identificar el intervalo o clase en el que se encuentra el Percentil buscado y proceder a calcular los restantes términos de la fórmula.

La tabla siguiente ilustra las equivalencias entre los cuantiles más empleados (Percentiles6, Deciles y Cuartiles):

Percentil Decil Cuartil P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 ............................................ D1 P11 P12 P13 P14 P15 P16 P17 P18 P19 P20 ............................................ D2 P21 P22 P23 P24 P25 ............................................................................................ C1 P26 P27 P28 P29 P30 ............................................ D3 P31 P32 P33 P34 P35 P36 P37 P38 P39 P40 ............................................ D4 P41 P42 P43 P44 P45 P46 P47 P48 P49 P50 ............................................ D5 ......................................... C2 .......................... Mediana P51 P52 P53 P54 P55 P56 P57 P58 P59 P60 ............................................ D6 P61 P62 P63 P64 P65 P66 P67 P68 P69 P70 ............................................ D7 P71 P72 P73 P74 P75 ............................................................................................ C3

6 Bajo la definición de que son los puntos que dividen la distribución en 100 partes iguales, no pueden existir los Percentiles 0 y 100, aunque es frecuente en la práctica, sobre todo cuando se emplean para tablas de Baremos, encontrar estas (allí llamadas) "Puntuaciones Centiles" por efectos de redondeo, dándose la circunstancia adicional de que en la práctica profesional es útil este (para la definición referida) "error", empleándose estos valores como Percentiles, cuando por redondeo se obtienen, ya que permiten mayores posibilidades clasificatorias en la evaluación.

1991 · 43

Page 10: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

P76 P77 P78 P79 P80 ............................................ D8 P81 P82 P83 P84 P85 P86 P87 P88 P89 P90 ............................................ D9 P91 P92 P93 P94 P95 P96 P97 P98 P99

EJEMPLO-2.2.: Aplicación del segundo procedimiento sobre el mismo ejemplo anterior (Cálculo del Cuartil 1 sobre datos agrupados), aunque bajo la suposición de que la variable es continua. 1º) Construcción de la tabla de distribución de frecuencias: X f fa far %a o RP 11 1 10 1 100 Nota: 9 1 9 0'9 90 (far = fa/N) 8 1 8 0'8 80 (%a = far * 100)

7 1 7 0'7 70 6 1 6 0'6 60 5 2 5 0'5 50 4 2 3 0'3 30 3 1 1 0'1 10 2º) Identificar la clase por cálculo de su frecuencia acumulada (cálculo 1er. término fórmula):

Para C1 = P25 será 25 * 10

100 = 2'5, consultando la columna de frecuencias acumuladas (fa) comprobamos

que la frecuencia acumulada 2'5 rebasa la primera clase (fa=1) pero no supera la segunda (fa=3), por lo que deduciremos que dentro de esta segunda clase (suponiendo variable continua) se encuentra el Percentil 25.

3º) Completar el cálculo de la fórmula propuesta:

P25 = ( ) 2'5 - 1 12 + 3'5 = 4'25

De la misma forma:

el C3 = P75 = ( ) 75 * 10

100 - 7 11 + 7'5 = 8

y la Mediana = P50 = ( ) 50 * 10

100 - 3 12 + 4'5 = 5'5

Se observarán algunas pequeñas diferencias, que podemos considerar irrelevantes, entre los resultados obtenidos de la aplicación uno u otro procedimiento. Concretamente, en algunas ocasiones en las que el Percentil buscado (u obtenido) cae en un valor repetido (clase con frecuencia mayor que 1) o no coincide

44 · Hector Monterde i Bort - Manuel Perea Lara.

Page 11: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

con ninguno de los valores existentes en el conjunto de datos, ello se debe al error que introducimos al establecer la precisión de las medidas, pues aunque la variable sea continua, a efectos de medida es de facto discreta porque en algún punto estableceremos siempre el número de decimales con que representaremos los distintos valores, y a que en el segundo procedimiento el cálculo se realiza tomando los límites reales de los intervalos o clases, límites que en el caso de variables cuantitativas discretas o cuasi-cuantitativas suponen una artefactualidad. Es por ello que referiremos como método "abreviado" al primer procedimiento y método "continuo"7 (aunque supone realmente una estimación, bajo el supuesto de que las frecuencias se distribuyen homogéneamente a lo largo del intervalo) al segundo.

7 Conviene advertir que el empleo del calificativo "continuo" se justifica aquí por la necesidad de disponer de un término simplificado que facilite su referencia en adelante. En ese sentido, la elección del término se ha hecho en base a la circunstancia de que dicho método es el adecuado para las variables continuas, en las que realiza una interpolación más precisa y no porque sea más preciso el resultado con él obtenido (que no lo es), dado que para las variables discretas el método "exacto" sería el abreviado.

1991 · 45

Page 12: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

EJEMPLO-2.3.: Ilustración del error del primer método (abreviado) respecto al segundo (en un caso extremo). Suponiendo que los datos obtenidos en una variable cuantitativa continua fueran los siguientes: 4, 4, 4, 4, 5, 6, 7, 8, 9, 11 en los que sobre los del ejemplo anterior: los 4 primero valores (3,4,4,5), sobre los que caía el C1, han sido sustituidos

por 4 cuatros. Empleando el método abreviado (recuerdese: posición=2'5) la posición de orden recaería justo sobre el tercer cuatro, dando para el C1 el valor de 4. La Mediana y el C3 seguirían siendo iguales.

Empleando el segundo método, la tabla de distribución de frecuencias quedaría: X f fa far %a o RP 11 1 10 1 100 Nota: 9 1 9 0'9 90 (far = fa/N) 8 1 8 0'8 80 (%a = far * 100)

7 1 7 0'7 70 6 1 6 0'6 60 5 1 5 0'5 50 4 4 4 0'4 40 El resultado del cálculo de su frecuencia acumulada (cálculo 1er. término fórmula) seguirá siendo el mismo que en el

ejemplo anterior: para C1 = P25 será 25 * 10

100 = 2'5, consultando la columna de frecuencias acumuladas (fa)

comprobamos que la frecuencia acumulada 2'5 no rebasa, ahora, la primera clase (fa=1), por lo que deduciremos que el Percentil 25, o C1, se encuentra dentro de esta clase.

Y completando el cálculo de la fórmula: P25 = ( ) 2'5 - 0 14 + 3'5 = 4'125

Los datos para el cálculo del C3 ahora no se ven afectados: C3 = P75 = ( ) 75 * 10

100 - 7 11 + 7'5 = 8 , por lo que el

resultado por este procedimiento es el mismo que en el ejemplo anterior (2.2.).

En cuanto a la Mediana, aunque cambian los datos para su cálculo, sin embargo se obtiene el mismo resultado:

C2 = P50 = ( ) 50 * 10

100 - 4 11 + 4'5 = 5'5 .

Veamos otro ejemplo con una frecuencia mayor de repeticiones y para el cálculo de la Mediana ....

EJEMPLO-2.4.: Ilustración del error del primer método (abreviado) respecto al segundo (en un caso extremo). (II). Suponiendo ahora los siguientes datos obtenidos en una variable cuantitativa continua: 7, 7, 8, 8, 9, 9, 9, 9, 10, 10 Empleando el método abreviado la posición de orden, para la Mediana: (N=10) posición= 10*1/2 = 5 , que

caería entre el primero y segundo nueves, dando para la Mediana (C2 o P50) el valor de 9+9

2 = 9.

Empleando el segundo método, la tabla de distribución de frecuencias quedaría: X f fa far %a o RP 10 2 10 1 100 Nota: 9 4 8 0'8 80 (far = fa/N) 8 2 4 0'4 40 (%a = far * 100)

7 2 2 0'2 20 Calculando primero el primer término de la fórmula propuesta, nos dará la clase en la que se encuentra contenida la

Mediana: 50 * 10

100 = 5, consultando la columna de frecuencias acumuladas (fa) comprobamos que la frecuencia

acumulada 5 rebasa la segunda clase (fa=4) pero no la tercera (fa=8), por lo que deduciremos que la Mediana se encuentra dentro de esta clase.

46 · Hector Monterde i Bort - Manuel Perea Lara.

Page 13: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

Calculando el resto de la fórmula nos dará el valor de la Mediana:

Mediana = C2 = P50 = P50 = ( ) 50 * 10

100 - 4 14 + 8'5 = 8'75 (que cae en la clase "9" cuyos límites reales van de 8'5 a

9'5) valor algo diferente del obtenido por el procedimiento abreviado (aunque el valor existente en el conjunto de datos más cercano a dicho valor sería 9).

De lo visto en los ejemplos se podrá concluir que el método, que hemos denominado, abreviado constituye un procedimiento sencillo y rápido para el cálculo de cuantiles, y aceptable también en las variables continuas, pues aunque el segundo método es más utilizado, bajo el supuesto de una mayor exactitud (supuesto equivocado, pues para las discretas el exacto sería el que hemos denominado aquí como "abreviado"), su exactitud no deja de estar también afectada de error. El error que supone la asunción de que los valores, continuos, se distribuyen homogéneamente a lo largo del intervalo de clase, en nuestro ejemplo los cuatro valores medidos como 9 (cuyos respectivos valores reales no se han considerado en la medición, pues si es una variable continua han tenido que ser forzosamente redondeados) se suponen distribuidos homogéneamente a lo largo del intervalo de la clase "9", lo cual puede no ser cierto.

Por otra parte, la exactitud de cálculo, asociado en muchas ocasiones a este segundo método, y por ello la defensa de un método frente a otro, no está, teóricamente ni prácticamente, justificada, pues si queremos una estimación más exacta de un cuantil, aunque éste no coincida con ningún valor existente en el conjunto de datos obtenidos, para poder clasificar mejor un nuevo dato (obtenido con posterioridad), dicho nuevo dato puede, y de hecho habrá que comprobarlo, variar los valores de los cuantiles calculados, invalidándolos, por lo que, en honor a esa pretendida exactitud, habría que volver a calcular los cuantiles cada vez que se dispusiera de nuevos datos, volviendose el proceso redundante y poco práctico. Y en todo caso, solo sería útil considerar los datos existentes en cada ocasión, siendo legítimo, por tanto, redondear los valores de los cuantiles obtenidos a los valores respectivos existentes más cercanos (preferiblemente el superior), característica que, a efectos prácticos, acerca el procedimiento a seguir con variables continuas al seguido con las discretas.

Dado, además, que en la práctica profesional no tiene mucho sentido, e incluso es irrelevante para los efectos clasificatorios o intervencionales (por ejemplo, que en una

1991 · 47

Page 14: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

prueba de inteligencia un sujeto esté en el Percentil 78 o 77'6 es poco relevante...), emplear cuantiles decimales y/o inexistentes en el conjunto de valores o puntuaciones obtenidos. Por ello, a efectos prácticos podría considerarse como cuantil al menor valor superior al porcentaje correspondiente de los datos para dicho cuantil (PEÑA, 1991; p.61)8.

EL PROCEDIMIENTO GRÁFICO para el cálculo de cuantiles está basado en la construcción y empleo del diagrama de porcentajes acumulados, que consiste en la representación de las correspondencias entre las clases y los porcentajes acumulados (o Rangos Percentiles) en un gráfico de coordenadas cartesianas, uniendo cada uno de los puntos, correspondientes a los valores existentes u obtenidos, por líneas. De esa forma, siguiendo las lineas que unen los puntos de correspondencia empírica podemos estimar cualquier Percentil correspondiente con cada punto de las línea. La construcción de dicho diagrama requiere la elaboración previa de la tabla de distribución de frecuencias vista en el segundo procedimiento.

DIAGRAMA DE PORCENTAJES ACUMULADOS (sobre datos del ejemplo 2.2. anterior)

0

10

20

30

40

50

60

70

80

90

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

PERCENTILES

CLASES (puntuaciones)

8 PEÑA,D. (1991-2ªEd.): Estadística: Modelos y Metodos. Vol.1: Fundamentos. Madrid: Alianza Universidad.

48 · Hector Monterde i Bort - Manuel Perea Lara.

Page 15: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

El diagrama-ejemplo de porcentajes acumulados, que se muestra en la figura anterior, ha sido construido con los datos del ejemplo 2.2. visto anteriormente, desde donde, como se verá, por procedimiento gráfico puede conocerse el Rango Percentil correspondiente a cada una de las puntuaciones o clases posibles (existentes o no en el conjunto de datos), así como el Percentil deseado, con solo seguir la correspondencia entre los ejes. De este modo, por ejemplo, se puede observar que la Mediana (o P50)

recae sobre la puntuación 5. Consiguientemente, Md=5.

Vistos los procedimientos de cálculo, y sus características, para cuantiles, nos centraremos en algunos comentarios acerca de los conceptos asociados a estos índices, de interés para abordar el estudio del enfoque exploratorio de datos.

El cuantil Mediana se utiliza como medida de tendencia central, es el estadístico resistente más utilizado, aunque su resistencia no sea particularmente destacable, y su estudio es compartido tanto por el enfoque del A.E.D. (E.D.A.9) como por el clásico.

Los Cuartiles y Percentiles son también medidas de posición muy utilizadas como base para el desarrollo de otros índices descriptivos, tanto en uno como en otro enfoque. Uno de estos índices es el Intervalo o Amplitud Inter-Cuartil , abreviadamente representado por "AIC" (o IQR10) o "IIC", de estudio y uso compartido por ambos enfoques como medida de variabilidad, aunque con ligeras diferencias de cálculo, como se verá.

El término Amplitud (ó Intervalo, ó incorrectamente Rango) Inter-Cuartil se utiliza para referir la distancia entre el primer y tercer Cuartiles de una distribución. Para su cálculo bastará con calcular, en primer lugar, los dos cuartiles, o los Percentiles 25 y 75, y en segundo, la diferencia entre ellos, por simple resta:

AIC = C3 - C1

9 En lengua inglesa. 10 IQR en la literatura anglosajona (Interquartile Range ).

1991 · 49

Page 16: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

Aunque en el enfoque clásico es más frecuente utilizar esta medida dividida por 2, para compararla con la Desviación Típica, es decir, la semidistancia entre ambos Cuartiles, que da origen a otro índice, de variabilidad, denominado Intervalo o Amplitud

Semi-Intercuartil : ASIC ó ASI = C3 - C1

2 , que es un mero

desarrollo del anterior.

El término Amplitud Total se utiliza para referir la distancia entre la puntuación mínima y máxima, del conjunto de datos; distinguiéndose, frecuentemente, entre incluyente y excluyente, según se calcule sobre los límites reales o aparentes del intervalo total.

Incluyente: ATi = Valor_Máximo - Valor_Mínimo +

1*e ,

Excluyente: ATe = Valor_Máximo - Valor_Mínimo .

Donde e es la precisión de la medida (por ejemplo, valores comprendidos entre 0'00 y x'99, la precisión es 0'01, y si los valores van en incrementos de unidades, es decir en valores enteros, la precisión es 1), también aplicable al cálculo de los límites reales de los intervalos en variables continuas.

Ambos tipos de amplitud pueden ser calculados sobre variables cuantitativas continuas, pero con las discretas sólo es adecuada la amplitud excluyente, que será la amplitud considerada en este texto.

Estos índices (Mediana, Cuartiles, Percentiles, Amplitud Inter-Cuartil, ...) desarrollados por el enfoque clásico, han sido incluidos aquí, como primer apartado de este capítulo dedicado a presentar los índices descriptivos resistentes, por dos razones, que ya se habrán podido deducir:

La primera es porque constituyen medidas resistentes, pudiendo ser contenidos también del enfoque A.E.D. En ese sentido, su inclusión en esta obra está plenamente justificada.

La segunda es porque constituyen la base, en unos casos, o la justificación, en otros, de la muchas de las medidas o índices desarrollados por este nuevo enfoque exploratorio, con

50 · Hector Monterde i Bort - Manuel Perea Lara.

Page 17: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

ligeras variaciones. En ese sentido, su inclusión aquí, como apartado previo, permite repasar algunos conceptos de la Estadística clásica, en concreto, las tablas de distribución de frecuencias y los índices de posición con ellas asociados, claves para entender y afrontar el estudio de este enfoque.

En el párrafo anterior se ha hecho referencia a que en otros casos, los índices de posición clásicos constituyen la justificación para el desarrollo de otros índices resistentes. Sin embargo, a pesar de su resistencia a las puntuaciones extremas, son muy sensibles a los errores de truncado, redondeo o agrupamiento (GOODALL, 1983b; SANCHEZ-MECA, ATO, LOPEZ-PINA Y

VELANDRINO, 198911). Pues como afirman estos autores, a propósito de la Mediana, ello se debe a que su cálculo se basa en una o dos de las observaciones centrales desechando el resto (suponiendo el procedimiento "abreviado"). Esta limitación puede ser extendida, sustituyendo la referencia a observaciones centrales por las que rodean en cada caso a la respectiva posición, al resto de los índices de posición vistos. Ello constituye la justificación al desarrollo de otros índices alternativos que caracterizan este nuevo enfoque, algunos de los cuales, los más referidos, serán expuestos en los siguientes apartados.

2.2.- EQUIVALENCIAS EN EL ANÁLISIS EXPLORATORIO DE DATOS: GRADOS, CUARTOS, OCTAVOS, ...

En este apartado se retoman varios de los estadísticos vistos en el anterior apartado, empleados en la Estadística Descriptiva "clásica" y asumibles en el enfoque del Análisis

11 Ver SANCHEZ-MECA,J., ATO,M., LOPEZ-PINA,J.A. Y VELANDRINO,A.P. (1989): Estadística Exploratoria y Confirmatoria con el paquete SYSTAT. Serie: Métodos y Técnicas de Investigación en CC. del Comportamiento. Murcia: Secretariado de Publicaciones de la Universidad de Murcia.

1991 · 51

Page 18: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

Exploratorio de Datos, pero que en éste se redefinen de nuevo, en unos casos, y/o se introducen ligeras variaciones en los procedimientos de cálculo, en otros casos. Estos aspectos diferenciales justifican la inclusión de un apartado específico para tratar dichas equivalencias, en cuanto a los conceptos, variaciones, en cuanto al cálculo, y las nuevas definiciones, propias de este enfoque; a lo que dedicaremos este apartado.

En primer lugar, el enfoque del A.E.D. recomienda ordenar los datos de modo creciente (es decir, de menor a mayor y sin agrupar) y, normalmente, tratar por igual a todas las variables independientemente de su carácter discreto o continuo.

Sean los datos sin ordenar, en un conjunto de N datos,

X1, X

2,..., X

N

una vez ordenados tenemos la siguiente secuencia:

X(1)

, X(2)

,..., X(N)

donde x(i)

es la i-ésima observación más pequeña del conjunto de

N datos (el paréntesis en el subíndice indica que los elementos se hallan ordenados, y el orden respectivo de cada uno de los elementos).

Una vez están ordenados los elementos, podemos definir el "GRADO" 12 de una observación de dos maneras:

a) se puede contar ascendentemente desde el valor más pequeño, o bien,

b) se puede contar descendentemente desde el mayor.

La primera manera se denominará posición o grado ascendente , mientras que la segunda será denominada posición o grado descendente 13. Por ejemplo X

(3) tendrá un "grado

ascendente" igual a 3, mientras que tendrá un "grado descendente" igual a N+1-3 (o en general a N+1-i). Considerando conjuntamente ambos órdenes, resultará (para cada uno de los valores ordenados):

grado ascendente + grado descendente = N+1

12 Rank en la literatura anglosajona. 13 Upward rank y Downward rank respectivamente.

52 · Hector Monterde i Bort - Manuel Perea Lara.

Page 19: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

Veamos ahora la definición de "PROFUNDIDAD" 14, que servirá como base para el cálculo de diversos índices de orden: La Profundidad de una observación en un conjunto de datos es el mínimo entre su grado ascendente y su grado descendente. Por ejemplo, si el grado ascendente de una observación o puntuación es de 6, mientras que su grado descendente es de 8, la Profundidad será igual al menor de los dos, es decir, a 6; igualmente, otra observación que tenga un grado ascendente de 8 y un grado descendente de 6, tendrá también la misma Profundidad de 6.

En segundo lugar se analizarán los índices más sencillos. Se trata de los "EXTREMOS", que son el valor menor (X

(1)) y mayor

(X(N)

) del conjunto de N números. Es decir, como podrá deducirse,

aquellos valores con Profundidad 1.

Seguidamente será analizada la MEDIANA, que es el estadístico que indica el centro de la muestra en cuanto a número de datos, casos o frecuencias. Es decir, deja tantas observaciones por encima suyo como por debajo, independientemente de su cuantía.

La Profundidad de la Mediana es (N+1)/2. Consecuentemente, de forma equivalente a lo expuesto en el apartado anterior para el cálculo de la Mediana (método abreviado), operando con la Profundidad también habrá dos variantes de cálculo, según N sea par o impar:

a) Si N es impar, (N+1)/2 es entero, con lo que la Mediana es el valor que tiene dicha Profundidad (X

((N+1)/2)), en otras palabras, el valor que tenga la

Profundidad máxima.

b) Si N es par, (N+1)/2 no es entero, lo que significa que dos valores tendrán la misma Profundidad máxima. Por convención, en este caso se hace una Media Aritmética entre los dos valores "frontera" que tienen dicha Profundidad (entera) máxima:

Mediana = X(k) + X(k+1)

2 ,

donde: k = resultado entero (truncado) de (N+1)/2,

14 Depth en la literatura anglosajona.

1991 · 53

Page 20: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

N = número de datos, valores o casos. y el resultado entre paréntesis es el grado

ascendente.

En resumen, aunque con conceptos algo diferentes, el procedimiento de cálculo es equivalente al que denominamos "abreviado" de la Estadística "clásica" (ver apartado 2.1). Dos ejemplos ayudarán a comprender los nuevos conceptos expuestos.

EJEMPLO 2.5.: Ilustración nuevos conceptos y equivalencias en A.E.D. (I). Sean los datos 4,5,7,4,3. En este caso, una vez ordenados tenemos: Datos originales: 3 4 4 5 7 Grado ascendente: 1 2 3 4 5 Grado descendente: 5 4 3 2 1 Profundidad: 1 2 3 2 1 Debido a que N (N=5) la Mediana será el valor que tenga la Profundidad (5+1)/2, que será el valor con la Profundidad máxima, concretamente X

(3). Por lo que la Mediana vale 4.

EJEMPLO 2.6.: Ilustración nuevos conceptos y equivalencias en A.E.D. (II). Sean los datos 4,5,7,4,3,6. Una vez ordenados tenemos la secuencia: Datos originales: 3 4 4 5 6 7 Grado ascendente: 1 2 3 4 5 6 Grado descendente: 6 5 4 3 2 1 Profundidad: 1 2 3 3 2 1 Debido a que N (N=6) es par, (6+1)/2 es 3'5, se asignará a la Mediana el valor promedio entre las dos puntuaciones "fronterizas" a dicho Grado, es decir, que comparten la Profundidad del resultado entero 3, que será la Profundidad máxima, concretamente, X

(3) y X

(4). Por lo que se considerará que la Mediana vale (4+5)/2, es decir, 4'5.

Hay que decir, también como diferencia, que en este enfoque no suele emplearse el procedimiento que en el apartado 2.1. convinimos en denominar, para facilitar las referencias, como procedimiento "continuo", ya que se actúa sobre los datos directos, sin agrupar, aunque se sigue abusando de la interpolación.

Otros índices empleados por el A.E.D., que son análogos a los Cuartiles (aunque su forma de cálculo, en este enfoque, varía ligeramente), son los "CUARTOS" 15 . Habrá dos "cuartos" en

15 fourths (cuartos) o hinges ("bisagras") en la literatura anglosajona.

54 · Hector Monterde i Bort - Manuel Perea Lara.

Page 21: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

el conjunto de datos, un Cuarto Superior (que deja por debajo el 75% de puntuaciones) y un Cuarto Inferior (que deja por debajo un 25% de puntuaciones), que abreviaremos como Cs y Ci,

respectivamente, para diferenciarlos de los Cuartiles. Se definen del modo siguiente:

Profundidad de un Cuarto = [Profundidad de la Mediana] +1

2

El signo [x] se refiere a que se escoge la parte entera de x (por ejemplo, [3.5]=3). La regla para obtener el valor de un cuarto es la siguiente: Elimina cualquier fracción de la profundidad de la Mediana (trunca decimales), añade 1, y divide por 2. Este procedimiento, como indica Hoaglin (1983) simplifica la interpolación debido a que de este modo la profundidad de un Cuarto es bien un entero, bien un entero más 0'5. En términos de conteo, cada Cuarto está a medio camino entre la Mediana y el valor Extremo correspondiente. Análogamente, entre ambos Cuartos se hallan aproximadamente la mitad de las observaciones. Veamos un ejemplo.

EJEMPLO 2.7.: Cálculo de Cuartos. Sea el conjunto de 10 datos siguiente: 7,6,3,4,5,4,2,3,4,5. Una vez ordenados, resulta: 2,3,3,4,4,4,5,5,6,7. Pues bien, la Mediana tiene una profundidad de (N+1)/2, es decir, 5'5. Para calcular los Cuartos se efectúa la operación (1/2)([5'5]+1), que dará 3. Consecuentemente, hay dos puntuaciones con Profundidad 3, que son X

(3) y X

(10+1-3) (esto es, X

(8)). Por tanto, el

Cuarto Inferior valdrá 3, mientras que el Cuarto Superior valdrá 5.

Una vez tenemos los dos valores Extremos, la Mediana y los dos Cuartos (Superior e Inferior), tenemos el denominado RESUMEN

DE 5 NÚMEROS, que se representan con las siguientes abreviaturas:

Es: Puntuación extrema superior (valor máximo). Ei: Puntuación extrema inferior (valor mínimo). Cs: Cuarto superior. Ci: Cuarto inferior.

M: Mediana.

En diversas ocasiones, los autores del enfoque del A.E.D. hablan también del RESUMEN DE 7 NÚMEROS. Los dos números restantes

1991 · 55

Page 22: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

son los "OCTAVOS" 16, que se calculan de acuerdo con la fórmula siguiente:

Profundidad de un Octavo = [Profundidad del Cuarto]+1

2

En este caso, cada uno de los dos octavos que se pueden obtener (Oi y Os) es el punto medio entre el Cuarto

correspondiente (Inferior o Superior) y los Extremos.

Estos índices que acaban de ser expuestos y aquellos otros

que pueden ser calculados por extensión de estos procedimientos, bajo la nueva definición y nomenclatura, reciben en el enfoque del A.E.D. la designación global de "INDICES DE LETRAS"17, por utilizarse una letra para su referencia. En este sentido, por convención, se reserva la primera letra del nombre respectivo de los índices que han sido vistos, y se sigue con las restantes letras del alfabeto, en orden inverso, para referir los diferentes índices que pueden ser obtenidos por subdivisión, dado que en inglés la inicial de los nombres de los índices que han sido vistos en este apartado (Mediana -Median-, Cuartos -Fourths-, y Octavos -Eighths-) coinciden en orden inverso con el alfabeto (comenzando por la M: M, F, E,...), siguiendo, para las otras posibles subdivisiones, con el resto de las letras del alfabeto en orden inverso, y al llegar a la "A" se sigue con la "Z"... El cuadro siguiente ilustrará lo expresado:

Letra (abrev. inglesa) Índice Fracción

Profundidad idealÁrea en curva normal (P)

M Mediana (M) 1/2 (N+1)/2 0'5

F Cuartos (C) 1/4 (N+5/3)/4 0'25

E Octavos (O) 1/8 (N+3)/8 0'125

D Dieciseisavos 1/16 (N+17/3)/16 0'0625

C Treinta-y-dos-avos 1/32 (N+11)/32 0'03125

B Sesenta-y-cuatro-avos 1/64 (N+65/3)/64 0'15625

A · 1/128 (N+43)/128 0'0078125

Z · 1/256 (N+257/3)/256 0'00390625

Y · 1/512 (N+171)/512 0'001953125

X · 1/1024 0'0009765625

16 Eighths en la literatura anglosajona. 17 Letter Values en la bibliografía anglosajona.

56 · Hector Monterde i Bort - Manuel Perea Lara.

Page 23: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

Por otra parte, la sustracción del Cuarto Superior y del Cuarto Inferior nos proporciona un índice de dispersión: es la Amplitud-Entre-Cuartos (AEC), que es análogo a la Amplitud Inter-Cuartil de la Estadística Descriptiva clásica, que se vio en el Apartado anterior (2.1.).

Finalmente, y a modo de resumen de este apartado, cabe indicar que dado que tanto el Orden como la Profundidad son realmente valores enteros, puede convenir en el cálculo, en ambos casos, truncar el resultado a número entero. Por otra parte, si se desea, además, un algoritmo definido (que no tenga que distinguir entre si el N es par o impar) para los procedimientos de cálculo de estos índices, útil para aplicarlos a un programa informático, pueden seguirse los siguientes procedimientos:

I) Mediana:

Md = X([P

M]) + X(N+1-[P

M])

2

Siendo:

¬ (......) = Grado ascendente del valor (el valor resultante entre paréntesis).

¬ N = número total de datos, valores o casos.

¬ [PM] = Profundidad Mediana

(entero) = [ ]N+12 .

II) Cuartos (Como ambos tienen la misma Profundidad, el cálculo de ésta es común):

1991 · 57

Page 24: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

¡Error!

¡Error!

Siendo:

¬ (......) = Grado ascendente del valor.

¬ N = número total de datos, valores o casos.

¬ [PM] = Profundidad Mediana

(entero) = [ ]N+12 .

¬ [PC] = Profundidad Cuartos

(entero) = ⎣⎡ ⎦⎤[PM]+1

2 .

A continuación se exponen dos ejemplos de aplicación de estas fórmulas, uno con N par (el conjunto de datos ya utilizado para el Ejemplo 2.1.) y otro con N impar.

EJEMPLO-2.8.: Cálculo de la Mediana, Cuartos y Octavos, con N par.- Tomando el conjunto de datos ya utilizado para el Ejemplo 2.1., ordenado (N=10): Datos obtenidos: 3 4 4 5 5 6 7 8 9 11 Grado Ascendente: (1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

58 · Hector Monterde i Bort - Manuel Perea Lara.

Page 25: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

Profundidad Mediana = [PM

] = [ ]N+12 = [ ]10+1

2 = [5'5] = 5

Mediana = Md =

X([PM

]) + X(N+1-[PM

])

2 = X(5) + X(10+1-5)

2 = X(5) + X(6)

2 = 5+6

2 = 5'5

Profundidad de los Cuartos = [PC] = [ ][P

M]+1

2 = [ ]5+12 = 3

Cuarto Inferior = Ci =

X([PC]) + X([P

M]+1-[P

C])

2 = X(3) + X(5+1-3)

2 = X(3) + X(3)

2 = X(3) = 4

Cuarto Superior = Cs =

X(N-[PM

]+[PC]) + X(N+1-[P

C])

2 = X(10-5+3) + X(10+1-3)

2 = X(8) + X(8)

2 = X(8) = 8

Procedimientos equivalentes pueden desarrollarse para los Octavos, cuya Profundidad será (3+1)/2=2, por lo que

los Octavos, inferior y superior, serán respectivamente los valores 4 y 9 .

Amplitud-Entre-Cuartos: 8 - 4 = 4

EJEMPLO-2.9.: Cálculo de la Mediana, Cuartos y Octavos, con N impar.- Tomando el conjunto de datos ya utilizado para el Ejemplo 2.1., ordenado (N=11): Datos obtenidos: 33 45 47 52 55 61 78 86 94 112 141 Grado Ascendente: (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11)

Profundidad Mediana = [PM

] = [ ]N+12 = [ ]11+1

2 = [6] = 6

Mediana = Md =

X([PM

]) + X(N+1-[PM

])

2 = X(6) + X(11+1-6)

2 = X(6) + X(6)

2 = X(6) = 61

Profundidad de los Cuartos = [PC] = [ ][P

M]+1

2 = [ ]6+12 = [3'5] = 3

Cuarto Inferior = Ci =

X([PC]) + X([P

M]+1-[P

C])

2 = X(3) + X(6+1-3)

2 = X(3) + X(4)

2 = 47+52

2 = 49'5

Cuarto Superior = Cs =

X(N-[PM

]+[PC]) + X(N+1-[P

C])

2 = X(11-6+3) + X(11+1-3)

2 = X(8) + X(9)

2 = 86+94

2 = 90

Y los Octavos, inferior y superior, cuya Profundidad será (3+1)/2=2:

serán respectivamente los valores 45 y 112 .

Dado que los procedimientos vistos en este apartado, son los propuestos por el enfoque A.E.D., la Mediana, los Cuartos (o equivalentemente Cuartiles) y los Octavos, a partir de ahora serán calculados por estos procedimientos y fórmulas, los vistos en este apartado, cuando tengan que ser obtenidos. El resto de los índices de posición (vg., Percentiles) serán calculados por el primero de los procedimientos vistos en el Apartado 2.1., que a efectos de facilitar su referencia convinimos en denominar "abreviado".

1991 · 59

Page 26: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

2.3.- LA MEDIA MÓVIL.

La Media Móvil, más que un índice, es en realidad un método de transformación de datos para producir una suavización (reducir el efecto de las puntuaciones extremas) de la distribución. Consistente en ir sustituyendo consecutivamente un determinado número (referido como orden) fijo de los valores de la distribución, previamente ordenados, por su correspondiente Media Aritmética. El resultado es un nuevo conjunto de datos que presenta menor variabilidad que el original, y en otras palabras, una distribución suavizada.

Una Media Móvil de Orden n (en ocasiones también denominado Movimiento Medio de orden n)18 vendría definida por la sustitución de los valores (ordenados) originales por la sucesión de Medias Aritméticas determinada por la expresión siguiente:

X1+X2+...+Xnn

, X2+X3+...+Xn+1

n,

X3+X4+...+Xn+2n

, .....,

XN-n+1+XN-n+2+...+XNn

Siendo: n = orden (amplitud de los intervalos que se promedia), N = número de datos, frecuencias o casos, en el conjunto original. X = valores o datos originales.

El orden es, normalmente, decidido por el investigador en función de sus objetivos, del tratamiento posterior que se vaya a dar a los datos, y de las características de la distribución original.

18 Por ejemplo, referencia preferentemente utilizada en el análisis de Series Temporales.

60 · Hector Monterde i Bort - Manuel Perea Lara.

Page 27: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

Una limitación de este método es que se pierden los datos del principio y final de la distribución (más a medida que el orden es mayor).

EJEMPLO 2.10.: Cálculo de Medias Móviles. Tomando los datos que han servido para los ejemplos 2.1. y 2.2. anteriores, sin agrupar y ordenados, se presentan a continuación los resultados para varios ordenes diferentes: Datos originales Media Móvil de orden 2 Media Móvil de orden 3 Media Móvil de orden 4 3 3'5 4 3'66 4 4 4 4'33 4'5 4'5 5 4'66 5 5 5 5'33 5'5 5'75 6 6 6'5 6'5 7 7 7'5 7'5 8 8 8'5 8'75 9 9'33 10 11 Como podrá comprobarse, el resultado es una distribución, con menor número de valores, suavizada. Se observará también el efecto de perdida de datos (o casos), mayor a medida que incrementamos el orden.

Una de las mayores aplicaciones de este índice-procedimiento tiene lugar en el análisis de series temporales, concretamente para determinar, y aislar, la tendencia de la serie, en la que los datos observados corresponden a los diferentes momentos, es decir, es el valor que la variable estudiada tiene, o ha tenido, en cada uno de los momentos temporales en que ha sido medida (por ejemplo, en un sujeto sometido a tratamiento), en vez de corresponder al valor que dicha variable tiene en cada uno de los sujetos de un grupo o muestra (contexto más usual en investigación). El siguiente gráfico ilustrará un ejemplo de aplicación de esta técnica a una serie temporal, para lo cual se ha construido una posible situación hipotética (evolución de los resultados de la terapia en un sujeto sometido a tratamiento psicológico) sobre los datos del Ejemplo anterior, usando, por ejemplo, el resultado del movimiento medio de orden 3.

1991 · 61

Page 28: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

0

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9 10

INTENSIDAD RESPUESTA

FÓBICA

SESIONES DE TRATAMIENTO POR DESENSIBILIZACIÓN SISTE

Registro de la respuesta fób

Tendencia (curva suavizad

Veamos otro ejemplo donde se apreciará mejor la utilidad de obtener la Tendencia, en el que se muestra la incidencia (casos nuevos) de clientes en una supuesta consulta privada de Psicología. Con la obtención de la Tendencia se aprecia mejor el ligero incremento de clientes a lo largo del periodo estudiado, neutralizando el efecto perturbador de los movimientos Estacionales (en el ejemplo, el compuesto por los meses de Agosto y Septiembre):

0

50

100

150

200

250

300

ENE FEB MAR ABR MAY JUN JUL AGO SEP OCT NOV DIC ENE

Tendencia.

62 · Hector Monterde i Bort - Manuel Perea Lara.

Page 29: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

Por otra parte, la utilización de este procedimiento en el contexto de muestra o grupo de sujetos a estudiar (donde cada dato representa la puntuación de uno de los sujetos en una de las variables), que hoy por hoy sigue siendo el habitual en la investigación Psicológica, choca con, y hace relevante, el problema de la pérdida de datos, que en este contexto se agrava al suponer, ello, la pérdida de los casos o sujetos (todos, pues en todas las situaciones de aplicación del procedimiento, en el contexto referido, los valores resultantes pierden su correspondencia con los casos o sujetos), quedando en un callejón sin salida el objeto principal de gran parte de la investigación psicológica. No obstante, el procedimiento puede ser también útil, en tal contexto, como paso intermedio para obtener índices de posición, clásicos o propios de este enfoque, más libres del efecto de puntuaciones extremas, en muestras de datos (sin renunciar a seguir trabajando con los datos originales).

Alternativamente, una posible solución al problema de la pérdida de casos o sujetos, en el contexto referido, sin pretender presentarla como definitiva o única, podría ser:

a) trabajar con órdenes impares (Medias Móviles de orden impar), para que el valor resultante recaiga sobre una fila existente,

b) calcular las respectivas Medias Móviles, es decir, sustituir cada uno de los valores centrales del subgrupo promediado, por la Media Aritmética (Móvil) de dicho grupo (en vez de al grupo entero), y

c) sustituir los datos extremos (primeros y últimos, siempre suponiendo el conjunto de valores ordenado) que quedaran sin asignación (su número dependería del orden elegido) por sus respectivos valores originales (de la distribución original). Estos valores se suelen poner entre paréntesis, para indicar que son los originales.

Con lo que se conseguiría el efecto de suavización pretendido manteniendo el mismo número de datos (transformados) que en la muestra original, y lo más importante, continuar disponiendo de una puntuación asignada a cada uno de los casos o sujetos de la muestra, que permitiera seguir trabajando con la muestra de sujetos. El resultado, aplicado sobre el ejemplo anterior, quedaría como se muestra en el ejemplo siguiente.

1991 · 63

Page 30: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

EJEMPLO-2.11.: Aplicación de una solución al problema de la pérdida de datos en procedimiento de Medias Móviles. Los conjuntos de datos resultantes de aplicar la solución propuesta sobre el conjunto original del ejemplo 2.5. podrían ser los siguientes: Nº Identif. del Sujeto Puntuación original Resultado para orden=3 Resultado para orden=5 9 3 (3) (3) 3 4 3'66 (4) 7 4 4'33 4'2 10 5 4'66 4'8 1 5 5'33 5'4 4 6 6 6'2 2 7 7 7 5 8 8 8'2 8 9 9'33 (9) 6 11 (11) (11) A continuación se ofrecen las Medias Aritméticas calculadas sobre cada conjunto de datos, como información

meramente comparativa: x- = 6'2 6'23 6'28

2.4.- LA MEDIANA MÓVIL.

La Mediana Móvil es, al igual que la Media Móvil, un método se transformación de datos para obtener un efecto de suavización en la distribución.

El procedimiento de cálculo de una Mediana Móvil de Orden n , es equivalente al visto con la Media Móvil, con la única diferencia que se calcula la Mediana en vez de la Media de cada n número de valores consecutivos. Siguiéndose, por lo demás, los mismos pasos, si bien, en este caso, es aún más recomendable que el Orden elegido sea impar, para que las Medianas de las series coincidan con valores existentes en el conjunto de datos. No obstante, es de interés indicar que la Mediana Móvil de Orden 2 coincide con la Media Móvil de Orden 2, ya que aquella, al ser orden par, se calculará tomando la Media Aritmética de los dos valores.

Las limitaciones expuestas para la Media Móvil, en cuanto a la pérdida de datos (y la correspondencia de éstos con los casos), y soluciones, son compartidas también por este procedimiento.

64 · Hector Monterde i Bort - Manuel Perea Lara.

Page 31: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

EJEMPLO 2.12.: Cálculo de Medianas Móviles. Tomando los datos que han servido para los ejemplos 2.1. y 2.2. anteriores, sin agrupar y ordenados, se presentan a continuación los resultados para varios ordenes diferentes: Datos originales Mediana Móvil de orden 3 Mediana Móvil de orden 5 3 4 4 4 4 4 5 5 5 5 5 5 6 6 6 7 7 7 8 8 8 9 9 11 Como podrá comprobarse, el resultado es una distribución, con menor número de valores, suavizada. Se observará también el efecto de perdida de datos (o casos), mayor a medida que incrementamos el orden. Para la corrección de dicho efecto son válidas las mismas estrategias propuestas en el caso de la Media Móvil: Nº Identif. del Sujeto Datos originales Mediana Móvil de orden 3Mediana Móvil de orden 5 9 3 (3) (3) 3 4 4 (4) 7 4 4 4 10 5 5 5 1 5 5 5 4 6 6 6 2 7 7 7 5 8 8 8 8 9 9 (9) 6 11 (11) (11)

En el capítulo 4 se verán más detalles sobre la aplicación de este procedimiento, que posee, frente al de Medias Móviles, una mayor resistencia a las puntuaciones extremas.

2.5.- LA MEDIA "WINSORIZADA".

Es un procedimiento de transformación, para suavizar una distribución, a la vez que un índice de la tendencia central, o dicho de otra forma, un índice de tendencia central que lleva implícito un procedimiento de suavización (que puede ser utilizado independientemente para otros fines); consistente en lo siguiente:

1º) sustituir un número determinado n (nivel o grado) de los valores extremos idéntico a un extremo y otro de la

1991 · 65

Page 32: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

distribución, o conjunto de datos ordenado, por los respectivos valores inmediatos inferior y superior, y

2º) calcular la Media Aritmética sobre la distribución resultante (con los valores extremos transformados).

El primer paso constituye un procedimiento de transformación parcial cuyo resultado es una suavización de la distribución en sus extremos, que puede tener otras utilidades, independientemente, y por ello, y en referencia al autor de su propuesta, es denominado como procedimiento de "winsorización".

El segundo paso constituye un procedimiento de obtención de un índice de tendencia central menos afectado por las puntuaciones extremas, que para distinguirlo del calculado sobre los datos originales, y también en referencia al autor de su desarrollo, se denomina Media Winsorizada.

Así, dado un conjunto de datos o valores ordenados (normalmente de menor a mayor), definiremos como Media

"Winsorizada" a nivel n (x-Wn ): a la Media Aritmética calculada sobre el conjunto de datos resultante de haber sustituido los n primeros valores por el valor (existente en el conjunto original) que ocupa la posición n+1, y los n últimos valores por el valor (original) que ocupa la posición N-n. Siendo N el número total de datos, valores o casos.

EJEMPLO-2.13.: "Winsorización" y cálculo de la Media "Winsorizada" (datos del ejemplo 2.2.). Datos originales ordenados A nivel 2 A nivel 3 3 4 5 4 4 5 4 4 5 5 5 5 5 5 5 6 6 6 7 7 7 8 8 7 9 8 7 11 8 7

Media Aritmética: x- = 6'2

Media Winsorizada a nivel 2: x-W2 = 5'9

Media Winsorizada a nivel 3: x-W3 = 5'9

66 · Hector Monterde i Bort - Manuel Perea Lara.

Page 33: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

Una de las ventajas que presenta este método de transformación-suavización, que va más allá del cálculo de la Media "Winsorizada", frente al anterior, es la de no producir pérdida datos, y consecuentemente tampoco de los casos. Por lo que al no perderse la correspondencia de los valores con los casos, puede continuarse el tratamiento estadístico de la muestra con la nueva distribución, suavizada, en lugar de la original, cuando ello sea conveniente o de interés para el estudio.

2.6.- LA MEDIA RECORTADA Y LA "CENTRIMEDIA".

La Media Recortada19 es un índice de tendencia central, consistente en calcular la Media Aritmética sobre un subconjunto central del conjunto de datos, no considerando en el cómputo una determinada proporción p por cada extremo (expresada normalmente en porcentaje) de los datos.

Así, dado un conjunto de datos o valores de una variable

ordenados, definiremos la Media Recortada al P% [x-RP ] como: la Media Aritmética calculada con los valores resultantes de suprimir, a efectos de cálculo, el porcentaje P de cada cola o extremo de la secuencia ordenada. Por ejemplo, una Media Recortada al 40% en una secuencia de 10 datos es la Media Aritmética entre los dos valores centrales, sin tener en cuenta

en el cálculo los (10*40100 = 4) 4 valores mayores y los 4

menores.

De acuerdo con ello, la Media Aritmética sería un Media Recortada al 0%, mientras que la Mediana sería una Media Recortada en la que sólo queda el valor central (caso de que la posición coincidiera con un valor existente) o la media aritmética de los dos valores centrales (caso de que la posición

19 Trimmed Mean en la literatura anglosajona.

1991 · 67

Page 34: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

caiga entre dos de ellos). Así, en caso de que hubieran 10 datos, como en el ejemplo anterior, la Mediana coincidiría con la Media Recortada al 45%20; si hubieran 11 datos la Mediana coincidiría con la Media Recortada al 45'45..%; etc...

Rosenberger y Gasko (1983) ofrecen un fórmula de "recorte" para la Mediana, que nos acercaría al porcentaje de valores a eliminar por cada extremo, del conjunto ordenado de datos, para obtenerla; que sería:

P =

12 -

12N

2 *100 ,

donde: P=porcentaje de datos a eliminar por cada extremo, y N=nº de datos en el conjunto.

Corresponderá al investigador el establecer el punto idóneo de corte, como siempre, en función de sus objetivos, del tratamiento posterior que se vaya a dar a los datos, y de las características de la distribución.

Uno de los criterios de corte más utilizados es el del 25% (Media Recortada al 25%), que, aproximadamente, coincidiría con los Cuartos (versus Cuartiles 1 y 3), por lo que su cálculo se realiza con los valores contenidos en un intervalo aproximadamente equivalente al Intervalo Entre-Cuartos (versus Inter-Cuartil), inclusives, no considerando los valores que estén en el 25% por debajo y por arriba del conjunto ordenado de datos (aproximadamente, más allá de los Cuartos). Este caso particular de Media Recortada es designado con el nombre específico de Centrimedia 21.

Rosenberger y Gasko (1983) señalan que, en ocasiones, el número de datos a eliminar de cada cola no resulta entero, por ejemplo, si se desea eliminar el 5% de cada cola de un conjunto de 10 datos, resulta que habríamos de eliminar "medio dato" de cada cola. El procedimiento aconsejado en tales casos consiste en utilizar una fracción del valor o dato a través de una

20 Aunque podríamos pensarlo, la Mediana no llegará a ser nunca una Media Recortada al 50%, porque en tal caso nos quedaríamos sin puntuaciones sobre las que obtener la media...

21 Midmean en la literatura anglosajona.

68 · Hector Monterde i Bort - Manuel Perea Lara.

Page 35: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

ponderación, calculando una media ponderada, tal y como se expondrá en el próximo ejemplo.

Diversos autores, por otra parte, en lugar de eliminar, a efectos de cálculo, un determinado porcentaje de datos de cada extremo, lo que hacen es eliminar un número fijo de datos de cada extremo, para evitar el problema de que, empleando porcentajes, el número de datos a eliminar no resulte exacto. Por tanto, denominaremos Media Recortada a Nivel n a aquella media recortada en la que, a efectos de cálculo, se eliminan n puntuaciones de cada extremo de la distribución ordenada. Así, una Media Recortada a Nivel 3 significa eliminar, en su cálculo, las tres puntuaciones extremas de cada cola, independientemente del tamaño del conjunto de datos. Por ejemplo, Millán (1983)22 da cuenta de la existencia del siguiente criterio para determinar el número óptimo de valores a eliminar por cada cola: n = 3N/8 (siendo N el número total de datos del conjunto).

EJEMPLO-2.14.: Cálculo de Media Recortada. Datos ordenados (del ejemplo 2.2.): 3, 4, 4, 5, 5, 6, 7, 8, 9, 11

Media Aritmética: x- = 3+4+4+5+5+6+7+8+9+11

10 = 6'2

Media Recortada al 5%: x-R5% =

12*3+4+4+5+5+6+7+8+9+11*

12

9 = 6'11

Media Recortada al 10%: x-R10% = 4+4+5+5+6+7+8+9

8 = 6 Nota: compruébese en tabla de

distr. de frecuencias del Ej. 2.2.

Media Recortada al nivel 2: x-R2 = 4+5+5+6+7+8

6 = 5'83

Centrimedia: x-R25% =

12*4+5+5+6+7+8*

12

5 = 5'8 Nota: compruébese en Ejemplo 2.1.

Aplicación del criterio n = 3N/8 (sobre los datos del ejemplo): 3*10/8 = 3'75 _~ al nivel 4.

22 MILLÁN,M. (1983): Estadística Aplicada a las Ciencias Humanas. I.- El Análisis de los Datos. Valencia: Promolibro.

1991 · 69

Page 36: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

2.7.- LA "TRIMEDIA".

La Trimedia23 es un índice de tendencia central, consistente en calcular una Media Aritmética ponderada de tres medidas, la Mediana, con peso doble, y los Cuartos (o sus equivalentes, Cuartiles 1 y 3).

Definiremos la Trimedia (x-Tri) como la Media Ponderada de la Mediana, con peso 2, el Cuarto Inferior (o su equivalente, Cuartil 1), con peso 1, y el Cuarto Superior (o su equivalente, Cuartil 3), con peso 1; según la siguiente fórmula:

x-Tri = Ci + 2*Md + Cs

4 Siendo: Md =

Mediana.

Su principal ventaja es su rapidez de cálculo.

EJEMPLO-2.15.: Cálculo de la Trimedia. Datos ordenados (del ejemplo 2.2.): 3, 4, 4, 5, 5, 6, 7, 8, 9, 11 Por el Ejemplo 2.8. sabemos que: Ci = 4

Md = 5'5 Cs = 8

Y aplicando la fórmula:

x-Tri = 4+2*5'5+8

4 = 5'75

23 Trimean en la literatura anglosajona.

70 · Hector Monterde i Bort - Manuel Perea Lara.

Page 37: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

2.8.- LA MEDIANA EXTENDIDA.

La Mediana Extendida 24 es un índice de tendencia central, consistente, al igual que la Trimedia, en una Media Aritmética ponderada, calculada, a diferencia de aquella, con un determinado número de valores centrales que depende de ciertas reglas, según sea par o impar el número de datos, frecuencias o casos y según el número de éstos. Por tanto, no tiene una fórmula única.

Definiremos la Mediana Extendida (x-Ext) como,...

1) ...si el número de datos, frecuencias o casos es inferior o igual a 12 (N<=12)...

a) ...y si es Par: la Media Ponderada de los cuatro valores centrales, con pesos respectivos de 1, 2, 2 y 1;

b) ...y si es Impar: la Media Aritmética de los tres valores centrales; o...

2) ...si el número de datos, frecuencias o casos es superior a 12 (N>12)...

a) ...y si es Par: la Media Ponderada de los seis valores centrales, con pesos respectivos de 1, 2, 2, 2, 2 y 1;

b) ...y si es Impar: la Media Aritmética de los cinco valores centrales.

EJEMPLO-2.16.: Cálculo de la Mediana Extendida (sobre datos del Ejemplo 2.2.). Datos ordenados: 3, 4, 4, 5, 5, 6, 7, 8, 9, 11 Como el número de datos del Ejemplo 2.2. es inferior a 12 (N=10) y Par, tendremos que aplicar el procedimiento correspondiente a la situación 1.a., luego:

x-Ext = 5+5*2+6*2+7

6 = 5'67

24 Broadened Median en la literatura anglosajona.

1991 · 71

Page 38: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

2.9.- LA "DEMA" (Media de las desviaciones absolutas de la Mediana).

La Media de las Desviaciones Absolutas de la Mediana (que para abreviar hemos llamado DEMA ) es un índice de variabilidad o dispersión comparable a la Desviación Media25, pero en cuyo cálculo se utiliza la Mediana en vez de la Media Aritmética. Es decir, un procedimiento equivalente a la Desviación Media, pero calculada sobre las puntuaciones diferenciales respecto a la Mediana de los datos originales

Definiremos la DEMA, por tanto, como la Media de las desviaciones absolutas de los datos respecto a su Mediana, según la siguiente fórmula:

DEMA = ∑|Xi - Md|

N

Siendo: Xi = las puntuaciones o datos originales.

Md = Mediana de la distribución original.

N = número de datos, valores o casos.

Frente a la Desviación Media, ofrece una medida equivalente pero algo menos susceptible a la influencia de puntuaciones extremas.

25 La Desviación Media está definida por la fórmula: DM = ∑|Xi-X

-|

N , siendo X- la

Media del conjunto de datos.

72 · Hector Monterde i Bort - Manuel Perea Lara.

Page 39: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

EJEMPLO-2.17.: Cálculo de la DEMA y comparación con la Desviación Media. Tomemos, para el ejemplo, los datos sin agrupar del Ejemplo 2.1.:

Datos X - x- X - Md 11 4'8 5'5 9 2'8 3'5 8 1'8 2'5 7 0'8 1'5 6 -0'2 0'5 5 -1'2 -0'5 5 -1'2 -0'5 4 -2'2 -1'5 4 -2'2 -1'5 3 -3'2 -2'5 ∑=62 |∑|=20'4 |∑|=20

x-=6'2 Md=5'5

DEMA = ∑|Xi - Md|

N = 2010 = 2

Desviación Media = ∑ |X - x- |

N = 20'410 = 2'04

Desviación Típica = 2'4

2.10.- LA "MEDA" (Mediana de las desviaciones absolutas de la Mediana).

La MEDA es otro índice de variabilidad o dispersión de procedimiento semejante al de la DEMA, con la diferencia que al final se calcula la Mediana en vez de la Media.

Definiremos la MEDA como la Mediana de las desviaciones absolutas de los datos respecto a su Mediana, es decir, la Mediana de las puntuaciones diferenciales respecto a la Mediana de los datos originales, según la siguiente fórmula:

MEDA = mediana |Xi - Md|

Siendo: Xi = las puntuaciones o datos originales.

1991 · 73

Page 40: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

Md = Mediana de la distribución original.

Frente a la DEMA, ofrece una medida equivalente pero aún menos susceptible que ésta a la influencia de puntuaciones extremas. El grado de resistencia de la MEDA sitúa a este índice en una posición ventajosa.

EJEMPLO-2.18.: Cálculo de la MEDA y comparación con la DEMA y con la Desviación Media. Tomemos, para el ejemplo, los datos sin agrupar del Ejemplo 2.1.:

Datos X - x- X - Md 11 4'8 5'5 9 2'8 3'5 8 1'8 2'5 7 0'8 1'5 6 -0'2 0'5 5 -1'2 -0'5 5 -1'2 -0'5 4 -2'2 -1'5 4 -2'2 -1'5 3 -3'2 -2'5 ∑=62 |∑|=20'4 |∑|=20

x-=6'2 Md=5'5 MEDA = Md de: 0'5, 0'5, 0'5, 1'5, 1'5, 1'5, 2'5, 2'5, 3'5, 5'5 = 1'5

DEMA = ∑|Xi - Md|

N = 2010 = 2

Desviación Media = ∑ |X - x- |

N = 20'410 = 2'04

Desviación Típica = 2'4

2.11.- LA DESVIACIÓN PSEUDOTÍPICA Y LA PSEUDOVARIANZA.

La Desviación Pseudotípica es un índice de variabilidad que permite estimar la Desviación Típica (muy susceptible a la influencia de puntuaciones extremas) que cabría esperar de la muestra si ésta perteneciera a una población normal con la misma Amplitud Inter-Cuartil. Basado en el conocimiento de que en una

74 · Hector Monterde i Bort - Manuel Perea Lara.

Page 41: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

distribución Normal se cumple la relación: σ = AIC1'349 (siendo

AIC la Amplitud Inter-Cuartil del conjunto de datos obtenidos, y el denominador, la Amplitud Inter-Cuartil de la Distribución Normal26).

Así, referiremos como la Desviación Pseudotípica (DPs) al resultado de aplicar la relación anterior (que se cumple para la distribución Normal) al conjunto de datos obtenidos, es decir: al resultado de dividir, en este caso, la Amplitud Entre-Cuartos de un conjunto de datos (supuestamente no-"normal") por la constante 1'349 (como si fuera "normal"). La fórmula sería:

DPsAEC=

AEC1'349

Siendo: AEC = Amplitud Entre-Cuartos del conjunto de datos obtenidos. Algunos autores refieren la Amplitud Inter-Cuartil (AIC) por su semejanza, dado que los Cuartiles son "casi" lo mismo que los Cuartos (como afirma HOAGLIN, 1983, p. 38; uno de los iniciadores de este enfoque). Nosotros, coherentemente con este enfoque, preferimos utilizar los Cuartos, y consecuentemente la Amplitud Entre-Cuartos, porque no son exactamente lo mismo que los Cuartiles, pues son diferentes los procedimientos de cálculo y los resultados no siempre coinciden.

El resultado, que constituye su más frecuente aplicación en este enfoque, es un ajuste de la distribución obtenida al modelo de distribución Normal, ofreciendo un buen criterio para decidir qué datos o valores del conjunto obtenido pueden ser considerados atípicos, desviados o extremos; a la vez que un criterio de medida del grado de atipicidad o desviación de dichos valores. Condición previa para construir algunos de los

26 Los Cuartiles en la distribución Normal son respectivamente μ-0'6745σ y μ+0'6745σ (aunque si consultamos la tabla al uso veremos que los valores z correspondientes a la proporción 0'25 y 0'75 son, respectivamente, -0'67 y +0'67 por efectos de redondeo. La AIC será, por tanto: 0'6745-(-0'6745)=1'349.

1991 · 75

Page 42: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

modelos de representación gráfica propios de este enfoque (y que serán tratados en el capítulo siguiente).

El cuadrado de la Desviación Pseudotípica nos da la Pseudovarianza , de modo análogo a la Varianza:

PsV= DPs2

EJEMPLO-2.19.: Cálculo de la Desviación Pseudotípica (sobre datos del Ejemplo 2.1.). Los datos del Ejemplo 2.1. eran los siguientes: 3, 4, 4, 5, 5, 6, 7, 8, 9, 11 Del Ejemplo 2.8. sabemos que: el Ci = 4

el Cs = 8

y la Mediana = Md = 5'5 La Amplitud Entre-Cuartos será, por tanto: AEC = 8 - 4 = 4 , luego,

la Desviación Pseudotípica: DPs = 4

1'349 _~ 2'97

y la Pseudovarianza: PsV = 2'972 = 8'8

El cálculo de la Desviación Pseudotípica permite, también, extraer otras conclusiones de interés, como por ejemplo las relaciones que pueden ser deducidas de su comparación con la propia Desviación Típica calculada sobre el conjunto de los datos obtenidos. Así:

I) Si la Desviación Típica, de los datos obtenidos, es mayor que la Desviación Pseudotípica (S>DPs) significará que la distribución obtenida es Leptocúrtica (tiene colas más gruesas en los extremos de lo que las tendría si fuera "normal").

II) Si la Desviación Típica, de los datos obtenidos, es menor que la Desviación Pseudotípica (S<DPs) significará que la distribución obtenida es Platicúrtica (tiene colas más finas -más cercanas a abscisa- en los extremos de lo que tendría si fuera "normal").

Lo que permite comparar la distribución empírica (de los datos obtenidos) con el modelo teórico de la distribución Normal. Con ello se abren nuevas posibilidades de medida, ya que a partir de la comparación diferencial entre la Desviación Típica y la Desviación Pseudotípica pueden desarrollarse, y

76 · Hector Monterde i Bort - Manuel Perea Lara.

Page 43: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

obtenerse, nuevos índices de Curtosis para la distribución empírica y/o de distorsión (o efecto) provocada por las puntuaciones extremas existentes, como por ejemplo:

S - DPs

DPs = ...,

que nos da la proporción de distorsión o influencia (negativa) provocada por las puntuaciones atípicas existentes en el conjunto de datos, sobre, por ejemplo, los estadísticos clásicos que pudieran calcularse con dicha muestra.27

A partir de esta relación con los intervalos observados en la curva Normal, tomando a ésta como modelo, pueden desarrollarse otros índices de variabilidad o dispersión, según la siguiente prefórmula (HOAGLIN, 1983, p. 41):

distancia entre cuantiles determinados del conjunto de datos

distancia equivalente en la curva Normal

Como podrá deducirse, si el resultado da 1 significará que la amplitud del intervalo considerado de la distribución empírica (datos obtenidos) coincide con la del intervalo correspondiente de la distribución Normal, y a medida que se aleje de la unidad, por arriba o por debajo, nos dará una medida de la desviación de la distribución de los datos respecto al modelo de distribución Normal en esa parte o intervalo considerado.

Las posibilidades de este concepto, y principio sobre el que se basa, no terminan aquí. El desarrollo visto con la Desviación Pseudotípica puede también ser extendido a otras medidas o índices descriptivos, como la MEDA, ..., dado que el procedimiento que se ha seguido con la Amplitud Entre-Cuartos consiste, en realidad, en un proceso de tipificación dividiendo dicha medida por el valor equivalente en el modelo de la distribución normal. Así, la Desviación Pseudotípica, más que un índice, puede constituir en realidad una familia de índices de

27 El desarrollo y utilización de este procedimiento puede seguirse en la obra de DURÁ,J.M. y LOPEZ,J.M. (1988): Fundamentos de Estadística. Barcelona: Ariel. Páginas 44 a 50.

1991 · 77

Page 44: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

dispersión, que podremos referir como "Pseudodesviaciones Tipo" (esta es la razón por la que en la fórmula vista unos párrafos más arriba se haya dotado de subíndice -AIC- a la DPs, para indicar que estamos aplicando el cálculo, y el concepto, sobre la Amplitud Entre-Cuartos, que es la definición y procedimiento que hemos decidido seguir por defecto). Para ilustrar lo dicho, a continuación se ofrece la fórmula de la Pseudodesviación Típica aplicada sobre la MEDA, otro índice de dispersión o variabilidad que ya ha sido descrito anteriormente, con su correspondiente coeficiente en el modelo de la distribución Normal:

DPsMEDA

= MEDA

0'6745

Siendo: MEDA = la Mediana de las diferencias absolutas respecto a la Mediana.

2.12.- RESUMEN.

A continuación se ofrece, a modo de resumen, un cuadro comparativo de los distintos tipos de índices más importantes tratados en este Capítulo, calculados sobre el conjunto de datos que ha servido de ejemplo a lo largo del Capítulo.

CUADRO COMPARATIVO DE LOS DISTINTOS ÍNDICES

Calculados sobre el siguiente conjunto de datos (Ejemplo 2.1.):

3, 4, 4, 5, 5, 6, 7, 8, 9, 11

78 · Hector Monterde i Bort - Manuel Perea Lara.

Page 45: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

ÍNDICES DE TENDENCIA CENTRAL: Media Aritmética ............. 6'2 Mediana ...................... 5'5 Media Winsorizada al nivel 2 . 5'9 Media Recortada al nivel 2 ... 5'8 Centrimedia .................. 5'8 Trimedia ..................... 5'8 Mediana Extendida ............ 5'7 ÍNDICES DE VARIABILIDAD O DISPERSIÓN: Desviación Típica ............ 2'4 Desviación Media ............. 2'0 Amplitud Inter-Cuartil (según ej. 2.2) 3'8 Amplitud Semi-Intercuartil ... 1'9 Amplitud Entre-Cuartos ........ 4 DEMA........................... 2 MEDA .......................... 1'5 Desviación Pseudotípica ...... 3

El efecto diferencial de estos estadísticos resistentes podrá apreciarse mejor sobre un ejemplo en el que hay un valor atípico o considerablemente extremo en el conjunto de datos.

1991 · 79

Page 46: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

EJEMPLO 2.20.- Cálculo comparativo de los diferentes índices con una puntuación extrema. Sea un profesor A que ha evaluado a sus 10 alumnos en el examen final de Estadística-I. Las notas obtenidas han sido las siguientes: 10, 9, 8, 8, 9, 9, 10, 9, 1 y 8. Dadas esas calificaciones, nuestro sufrido profesor desea conocer el índice de tendencia central y de dispersión más apropiado. Debido a la existencia de puntuaciones atípicas (el 1), pasa a calcular la Media Aritmética, la Desviación Típica y, no contento con ello, diversos estadísticos resistentes, para lo cual procede de la siguiente forma: 1º) Ordenar los datos en sentido ascendente: 1, 8, 8, 8, 9, 9, 9, 9, 10, 10. 2º) Cálculo de diferentes estadísticos de tendencia central:

Media Aritmética: x- = 1+8+8+8+9+9+9+9+10+10

10 = 8'1

Mediana: Md = 9+9

2 = 9

Media Winsorizada a nivel 2: x-W2 =

8+8+8+8+9+9+9+9+9+910 = 8'6

Media Recortada al 20%: x-R20% = 8+8+9+9+9+9

6 = 8'67

Centrimedia: x-R25% =

12*8+8+9+9+9+9*

12

5 = 8'7

Trimedia (siendo Ci=8 y Cs=9): x-Tri = 8+9*2+9

4 = 8'75

Mediana Extendida: x-Ext = 8+9*2+9*2+9

6 = 8'83

Se aprecia que el estadístico más afectado por la puntuación extrema ha sido la Media Aritmética, por ello, poco resistente. En nuestro ejemplo, se puede apreciar también que el resto de los índices no se ha visto afectado por la puntuación atípica existente (que no ha entrado en los cálculos), por ello, estos estadísticos se consideran resistentes.

3º) Calcular los estadísticos de dispersión (en este caso se ofrecerán solamente los resultados, invitando al lector a su cálculo): Desviación Típica: s = 2'468 Desviación Media: DM = 1'48 Amplitud Entre-Cuartos: AEC = 1 Desviación Pseudotípica: DPs

AEC = 0'74

DEMA = 1'3 MEDA = 1 En este caso, se aprecia el elevado valor del estadístico "menos resistente", es decir, la Desviación Típica. Mientras, estadísticos como la Desviación Media, y algo más ligeramente la DEMA, también se han visto influidos por el valor extremo. En cambio, el resto de los índices muestra únicamente la dispersión del grueso de los datos.

A continuación, se ofrece un esquema clasificatorio de los distintos procedimientos presentados de este enfoque.

ESQUEMA CLASIFICATORIO SOBRE LOS PROCEDIMIENTOS DEL A.E.D.

80 · Hector Monterde i Bort - Manuel Perea Lara.

Page 47: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

A) Procedimientos de Transformación-Suavizada de datos:

- Media Móvil.

- Mediana Móvil.

- Winsorización.

B) Índices de Tendencia Central:

- Mediana.

- Media Winsorizada.

- Media Recortada.

- Centrimedia.

- Trimedia.

- Media Extendida.

C) Índices de Variabilidad o Dispersión:

- Amplitud Inter-Cuartil.

- Amplitud Semi-Intercuartil.

- Amplitud Entre-Cuartos.

- DEMA.

- MEDA.

- Desviación Pseudotípica.

- Pseudovarianza.

2.13.- COMPARACIÓN DE ESTIMADORES ROBUSTOS DE LOCALIZACIÓN.

Como ya se indicó en el primer capítulo, la Media muestral es el estimador 'ideal' de la Media poblacional en la

1991 · 81

Page 48: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

distribución normal, pero ésta es una situación poco habitual en la práctica científica, por lo que hay que buscar estimadores que afronten con garantías diversos tipos de distribución, es decir, estimadores robustos. En este texto se analizarán solamente estimadores robustos para distribuciones simétricas unimodales, así como un único tipo de estimadores, los denominados "L-Estimadores"28.

Rosenberger y Gasko (1983) analizaron la eficiencia relativa de diversos estadísticos de localización en la estimación de valores sobre siete distribuciones poblacionales simétricas unimodales distintas (una, la "normal" o gaussiana, las otras, leptocúrticas en diferente grado, es decir, más apuntadas que la "normal" con diferentes valores de apuntamiento o Curtosis), variando el tamaño de la muestra: Media muestral, Media Recortada (al 5, 10, 20, 30 y 40%), Centrimedia (es decir, la Media Recortada al 25%), Mediana, Mediana Extendida y Trimedia.

El criterio para recomendar uno u otro estimador se basaba, como se ha indicado, en la eficiencia del mismo. El concepto de eficiencia sirve para comparar aquellos estimadores que sean insesgados (que su promedio coincida con el parámetro que estima) y consistentes (que cuando la muestra de la que se extrae el conjunto de datos sea mayor, mayor es la posibilidad de acercarse al valor del parámetro), de manera que se dice que un estimador es más eficiente que otro cuando la Varianza de la Distribución Muestral de ese estadístico sea menor29.

Rosenberger y Gasko (1983) obtienen las siguientes conclusiones, en las cuales se puede apreciar que a mayor apuntamiento de la distribución (más apuntada) de la cual se

28 Los L-Estimadores son combinaciones lineales de los datos a partir de la secuencia ordenada del conjunto de datos (es decir, de los estadísticos de orden).

29 Las Distribuciones Muestrales de la Media y de la Mediana tienen la misma media. Sin embargo la Varianza de la Distribución Muestral de Medias es menor que la de la Distribución Muestral de Medianas. Como podrá deducirse de las

fórmulas respectivas de sus desviaciones tipicas (Errores Típicos): σx_ =

σN

y σMd

= 1'2533σ

N, el numerador es mayor en Md, luego el valor resultante también

será mayor.

82 · Hector Monterde i Bort - Manuel Perea Lara.

Page 49: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

extrae la muestra, le corresponde una mayor cantidad de recorte de datos:

I) El estimador más eficiente para la distribución normal (y también para una platicúrtica) es la Media aritmética.

II) El estimador más eficiente para una distribución apenas leptocúrtica (ligeramente apuntada respecto a

la "normal") es la x-R10% (Media Recortada al 10%).

III) El estimador más eficiente para una distribución moderadamente leptocúrtica (apreciablemente apuntada

respecto a la "normal") es la x-R25% (Centrimedia o

Media Recortada al 25%).

IV) El estimador más eficiente para una distribución marcadamente leptocúrtica (extremadamente apuntada respecto a la "normal") es la Mediana o bien la Mediana Extendida.

Consecuentemente, cuando los datos siguen una distribución normal, el estimador más adecuado es, pues, la Media aritmética. Sin embargo, ésta no es un estimador robusto, ya que es poco eficiente cuando la distribución poblacional, de la que se han extraido los datos, es más apuntada que la distribución Normal (es decir leptocúrtica). Así, cuando se sospecha que los datos no siguen la distribución normal (vg., por la existencia de datos atípicos en las colas de la distribución) no se debe emplear la Media aritmética. Si no se sabe bien cuál es la distribución poblacional subyacente a los datos, lo que se necesita no es ya el mejor estimador para una situación específica, sino aquél que es suficientemente bueno para una amplia variedad de situaciones, es decir, un estimador robusto.

En conclusión, y con fines prácticos, Rosenberger y Gasko (1983), de acuerdo con la eficiencia de los estimadores sobre diferentes tipos de distribuciones y con el tamaño de la muestra, recomiendan el uso de los siguientes estadísticos de localización (tendencia central) como estimadores robustos (siendo N el número de puntuaciones):

a) Si N<7 se recomienda la Mediana.

1991 · 83

Page 50: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

b) Si N=7 se recomienda eliminar 2 observaciones de cada cola (Media Recortada al Nivel 2).

c) Si N>7 se recomienda eliminar el 25% de cada cola (es decir, la Centrimedia).

Por su parte, Goodall (1983b) utiliza otros estimadores (los denominados "M-Estimadores") que resultan más robustos que los analizados en el presente texto, pero de mayor complejidad para una primera introducción al tema, por lo que al referido trabajo remitimos al lector interesado30.

2.14.- COMPARACIÓN DE ESTIMADORES DE DISPERSIÓN.

En este caso, Iglewicz (1983), recoge y realiza una serie de simulaciones a partir de varios tipos de distribuciones poblacionales simétricas y unimodales. Concretamente, estudia tanto la distribución Normal, como otras dos distribuciones más, ambas leptocúrticas, diferenciadas en el grado de Curtosis o apuntamiento.

Los resultados siguientes, pues, no están basados en demostraciones de tipo analítico, sino en una técnica muy flexible denominada simulación, muy utilizada en las disciplinas técnicas, mientras que en Psicología es todavía una herramienta empleada en áreas muy determinadas (vg., simulación de procesos cognitivos). Veamos un ejemplo que ilustra el uso de la simulación de procesos aleatorios:

Supongamos que se tiene la oportunidad de participar en un juego en el que se lanza repetidamente una moneda hasta que la diferencia entre el número de caras y el número de cruces sea de tres. Por cada lanzamiento del dado hay que pagar 100 ptas.,

30 GOODALL ,C. (1983b): M-Estimators of Location: An Outline of the Theory. En HOAGLIN,D.C., MOSTELLER,F. Y TUKEY,J.W. (Eds.): Understanding Robust and Exploratory Data Analysis. N.Y.: John Wiley.

84 · Hector Monterde i Bort - Manuel Perea Lara.

Page 51: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

mientras que al final de cada jugada se reciben 800 ptas. Por otra parte, no se permite abandonar durante una jugada. En consecuencia, si el número de lanzamientos requeridos es menor que ocho se gana dinero, ni ganamos ni perdemos en el caso de ocho lanzamientos, mientras que se pierde dinero en el caso de que haya más de ocho lanzamientos. La pregunta es la siguiente: ¿a la larga conviene o no participar en este juego?.

La primera posibilidad es la solución analítica de acuerdo con la teoría de probabilidades que, sin embargo, es relativamente complicada de realizar. La segunda posibilidad es simular el proceso. En este caso, la cuestión es desarrollar el juego muchas veces, hasta que quede claro si vale o no la pena jugar. Así, si tenemos una calculadora con la función RND (randomize)31, poseemos un generador de números aleatorios en el intervalo [0,1]. Consecuentemente, sabiendo que la probabilidad de que salga cara en un lanzamiento es 0'5, la misma que si sale cruz, podemos simular el lanzamiento de la moneda en la calculadora del modo siguiente:

I) si al ejecutar la función RND se obtiene un número menor que 0'5 se supondrá que ha salido "cara".

II) si al ejecutar la función RND se obtiene un número mayor o igual que 0'5 se supondrá que ha salido "cruz".

Si registramos muchas veces el procedimiento de obtener una diferencia de tres entre el número de "caras" y de "cruces", de acuerdo con la asignación del RND vista obtendremos, una cierta aproximación, cada vez mejor cuanto más veces realicemos el proceso, de cuál es la media del número de lanzamientos requeridos para una jugada. Si el número es mayor que ocho no es conveniente que juguemos. De hecho, si se realiza la simulación en muchas jugadas se observará que el promedio de lanzamientos es de 9, por lo que si realmente apostáramos en dicho juego saldríamos perdiendo a la larga (naturalmente, en una racha de suerte siempre se podría ganar...). Tal proceso se realizaría con suma facilidad una vez escrito el programa en un lenguaje de programación como, por ejemplo, el BASIC. En consecuencia, de esta manera, se ha conseguido "simular" el proceso.

31 En algunas calculadoras esta función está referida como "RAN#", reservándose en estos casos "RND" para la función de redondeo (RouND ) con la que no se tiene que confundir.

1991 · 85

Page 52: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

Volviendo a nuestro tema, los estimadores de dispersión eran, en este caso, la Desviación Típica, la Mediana de las Desviaciones Absolutas sobre la Mediana (MEDA), la Media de las Desviaciones Absolutas sobre la Mediana (DEMA) y la Amplitud Entre-Cuartos.

Los resultados muestran que la Desviación Típica es la más eficiente para la distribución "normal" o gaussiana (lo cual se hace extensivo para las platicúrticas). Sin embargo, la Desviación Típica tiene una eficiencia tanto más baja a medida que la distribución es más leptocúrtica (menos plana o más apuntada). Mientras, la Amplitud Entre-Cuartos se mostró como el estimador más robusto (es decir, más eficiente en promedio para las diferentes distribuciones) de los cuatro. Por otra parte, la MEDA resultó también altamente eficiente para las distribuciones muy leptocúrticas.

En cualquier caso, Iglewicz (1983) indica que los anteriores estimadores no son especialmente robustos (recuérdese que la robustez es un concepto comparativo), y para ello analiza otros estimadores de dispersión más eficientes/robustos que los vistos en el presente texto, pero de bastante mayor complejidad de cálculo, a los cuales remitimos al lector interesado que podrá consultar en el texto del citado autor (pp. 414-425)32.

32 IGLEWICZ (1983): Robust Scale Estimators and Confidence Intervals for Location. En HOAGLIN,D.C., MOSTELLER,F. Y TUKEY,J.W. (Eds.): Understanding Robust and Exploratory Data Analysis. N.Y.: John Wiley. (pp. 414-425).

86 · Hector Monterde i Bort - Manuel Perea Lara.

Page 53: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

Cap. 2: PRINCIPALES ESTADÍSTICOS RESISTENTES.

1991 · 87

Page 54: Capítulo 2 PRINCIPALES ESTADÍSTICOS … · trata del tercer Cuartil, por 60/100 si se trata del Percentil 5 Una aclaración complementaria asequible, ... posición media, resultando

EL ENFOQUE DEL ANÁLISIS EXPLORATORIO DE DATOS.

Capítulo 2: PRINCIPALES ESTADÍSTICOS RESISTENTES. ..........................................35

2.1.- INTRODUCCIÓN: MEDIANA, CUARTILES E INTERVALO INTERCUARTIL. .......................37

2.2.- EQUIVALENCIAS EN EL ANÁLISIS EXPLORATORIO DE DATOS: GRADOS, CUARTOS, OCTAVOS, ... .49

2.3.- LA MEDIA MÓVIL. ...................................................................56

2.4.- LA MEDIANA MÓVIL. .................................................................60

2.5.- LA MEDIA "WINSORIZADA". ...........................................................61

2.6.- LA MEDIA RECORTADA Y LA "CENTRIMEDIA". ............................................63

2.7.- LA "TRIMEDIA". ....................................................................65

2.8.- LA MEDIANA EXTENDIDA. .............................................................66

2.9.- LA "DEMA" (Media de las desviaciones absolutas de la Mediana). ....................67

2.10.- LA "MEDA" (Mediana de las desviaciones absolutas de la Mediana). .................68

2.11.- LA DESVIACIÓN PSEUDOTÍPICA Y LA PSEUDOVARIANZA. ..................................69

2.12.- RESUMEN. .........................................................................73

2.13.- COMPARACIÓN DE ESTIMADORES ROBUSTOS DE LOCALIZACIÓN. .............................76

2.14.- COMPARACIÓN DE ESTIMADORES DE DISPERSIÓN. ........................................78

88 · Hector Monterde i Bort - Manuel Perea Lara.