Unidad 2 datos atipicos

6
¿Por qué no hay datos atípicos? Prueba de Grubbs La sección final de la salida muestra los resultados de una o más pruebas formales para valores atípicos: La primera prueba se debe a Grubbs y se calcula si n ≥ 3. También llamada Prueba de la Desviación Estudentizada Extrema (ESD), se basa en el mayor valor Estudentizado (sin eliminación) tmax. El estadístico de prueba T se calcula de acuerdo con: Se obtiene un valor aproximado de P de dos colas calculando la probabilidad de exceder |T| basada en una distribución t de Student con n - 2 grados de libertad y multiplicando el resultado por 2n. Un pequeño valor de P lleva a la conclusión de que ese punto más extremo es de hecho un valor atípico. Para pequeñas muestras, uno puede en cambio remitirse a Iglewicz y Hoaglin (1993) quienes dan valores al 5% y 1% para tmax en el Apéndice A de su monografía, así como para una prueba generalizada que involucre r > 1 valores atípicos potenciales. En los mismos datos, la fila 15 es el punto más extremo, con un valor Estudentizado igual a casi 3.5. Ya que el valor de P es menor que 0.05, ese punto puede ser declarado como valor atípico estadísticamente significativo a un nivel de confianza del 5%. Esta conclusión se hace sujeta al supuesto de la prueba de Grubbs de que todas los demás valores de los datos provienen de una distribución normal. Prueba de Dixon

Transcript of Unidad 2 datos atipicos

Page 1: Unidad 2 datos atipicos

¿Por qué no hay datos atípicos?

Prueba de Grubbs

La sección final de la salida muestra los resultados de una o más pruebas

formales para valores atípicos:

La primera prueba se debe a Grubbs y se calcula si n ≥ 3. También llamada

Prueba de la

Desviación Estudentizada Extrema (ESD), se basa en el mayor valor

Estudentizado (sin

eliminación) tmax. El estadístico de prueba T se calcula de acuerdo con:

Se obtiene un valor aproximado de P de dos colas calculando la probabilidad de

exceder |T|

basada en una distribución t de Student con n - 2 grados de libertad y

multiplicando el resultado por 2n. Un pequeño valor de P lleva a la conclusión de

que ese punto más extremo es de hecho un valor atípico. Para pequeñas

muestras, uno puede en cambio remitirse a Iglewicz y Hoaglin (1993) quienes

dan valores al 5% y 1% para tmax en el Apéndice A de su monografía, así como

para una prueba generalizada que involucre r > 1 valores atípicos potenciales.

En los mismos datos, la fila 15 es el punto más extremo, con un valor

Estudentizado igual a casi 3.5. Ya que el valor de P es menor que 0.05, ese

punto puede ser declarado como valor atípico estadísticamente significativo a

un nivel de confianza del 5%. Esta conclusión se hace sujeta al supuesto de la

prueba de Grubbs de que todas los demás valores de los datos provienen de una

distribución normal.

Prueba de Dixon

Page 2: Unidad 2 datos atipicos

Para muestras pequeñas con 4 ≤ n ≤ 30, también se realiza la prueba de Dixon.

Esta prueba

comienza ordenando los valores de los datos de menor a mayor. Sea x(j) el j-

ésimo valor más pequeño de los datos, las estadísticas se calculan entonces

para probar 5 situaciones potenciales:

Situación 1: 1 valor atípico a la derecha. Calcule:

Situación 2: 1 valor aberrante a la izquierda. Calcule:

Situación 3: 2 valores aberrantes a la derecha. Calcule:

Situación 4: 2 valores aberrantes a la izquierda. Calcule:

Situación 5: 1 valor aberrante en cualquiera de los dos lados. Calcule:

El estadístico calculado r se compara entonces con valores críticos en tablas

tales como el

Apéndice A.3 de Iglewicz y Hoaglin (1993). Para cada prueba, STATGRAPHICS

indica si el resultado es o no estadísticamente significativo a los niveles de 5%

y 1%. Un resultado

significativo indica la presencia de la situación hipotética.

Page 3: Unidad 2 datos atipicos

Como se determina si una muestra tiene valores atípicos

Un valor atípico es una observación o un subgrupo de observaciones que no coinciden

con el resto de los datos. Estos valores se identifican ya sea por ser extremadamente

grandes o extremadamente pequeños con respecto al cuerpo principal de datos. Si el

conjunto de datos se expresa visualmente en un gráfico, los valores atípicos se ubican

“distantes” a los otros valores.

Ejemplo: Vamos a tomar un conjunto de datos

que representa las temperaturas de 12

objetos diferentes en un cuarto. Si 11 de los

objetos tienen temperaturas cercanas a 70

grados Fahrenheit (21 grados Celsius), pero el

duodécimo objeto, un horno, tiene una

temperatura de 300 grados Fahrenheit (150

grados Celsius), una observación rápida te

indicará que probablemente el horno sea un

valor atípico.

Ordena los datos de menor a

mayor. El primer paso para calcular

los valores atípicos en un conjunto de

datos es encontrar el valor de la

mediana (del medio) del conjunto de

datos. Esta tarea se simplifica mucho

si los valores del conjunto de datos

están en orden de menor a mayor. Por eso,

antes de continuar, ordena los valores del

conjunto de datos de esta forma. Calcula la

mediana del conjunto de datos. La mediana

del conjunto de datos es el dato por sobre el

cual se encuentra la mitad de los datos y por

debajo del cual se encuentra la otra mitad de

los datos; básicamente, es el valor “en el

medio” del conjunto de datos.

Calcula el primer cuartil. Este valor, al

Page 4: Unidad 2 datos atipicos

cual le asignaremos la variable Q1, es el dato debajo del cual se encuentra el 25 por

ciento (o un cuarto) de los valores. En otras palabras, este el dato que está en el

medio de los datos del conjunto de datos que se encuentra por debajo de la mediana.

Si hay un número par de valores por debajo de la mediana, debes promediar

nuevamente los dos valores en el medio para hallar Q1, como tal vez

tuviste que hacerlo para encontrar la

mediana misma.En nuestro ejemplo, 6

datos se encuentran sobre la mediana y

6 datos por debajo de esta. Eso

significa que para hallar el primer

cuartil, vamos a tener que promediar

los datos en el medio de los seis datos

menores, Los datos 3 y 4 son 70. . Por

lo tanto, su promedio es ((70 + 70) / 2),

= 70. 70 será nuestro valor para Q1.

Calcula el tercer cuartil. Este valor, al cual le

asignaremos la variable Q3, es el dato sobre el

cual se encuentra el 25 por ciento de los valores.

El método para hallar Q3 es casi idéntico al usado

para hallar Q1, con la diferencia de que en este

caso se consideran los datos sobre la mediana, en

vez los que se encuentran por debajo de esta.

Siguiendo con nuestro ejemplo, los dos valores en

el medio de los seis datos sobre la mediana son 71

y 72. Al promediar estos dos valores obtenemos ((71 + 72) / 2), = 71,5. 71,5

será nuestro valor para Q3.

Halla los “límites internos” del

conjunto de datos. Los valores

atípicos se identifican al evaluar si se

encuentran o no dentro de unos

límites numéricos llamados “límites

internos” y “límites externos”. Un

valor que se encuentra por fuera de

los límites internos del conjunto de

datos se llama valor atípico leve, y uno

que se encuentra por fuera de los

límites externos se llama valor atípico extremo. Para encontrar los límites internos del conjunto de datos, primero, multiplica

el rango intercuartil por 1,5. Luego, suma el resultado a Q3 y réstaselo a Q1. Los dos

valores que obtendrás de resultado son los límites internos del conjunto de datos.

En nuestro ejemplo, el rango intercuartil es (71,5 -70) o 1,5. Multiplicando esto por 1,5

obtenemos 2,25. Le sumamos este número a Q3 y se lo restamos a Q1 para encontrar

los límites internos como se ve a continuación:

71,5 + 2,25 = 73,75

Page 5: Unidad 2 datos atipicos

70 – 2,25 = 67,75

Por lo tanto, los límites internos son 67,75 y 73,75.

En nuestro conjunto de datos, solamente la temperatura del horno (300

grados) se encuentra por fuera de este rango y por lo tanto podría llegar a ser un

valor atípico leve. Sin embargo, todavía tenemos que determinar si esta temperatura

es un valor atípico extremo, por eso no saquemos conclusiones hasta que lo hayamos

hecho.

Halla los “límites externos” del conjunto

de datos. Estos se calculan de la misma

forma que los límites internos, excepto que

el rango intercuartil se multiplica por 3 en

vez de por 1,5. Luego el resultado se le suma

a Q3 y se le resta a Q1 para hallar los

límites superiores e inferiores externos.

En nuestro ejemplo, al multiplicar el rango

intercuartil mencionado por tres obtenemos

(1,5 * 3) o 4,5. Hallamos los límites externos

superior e inferior al igual que antes:

71,5 + 4,5 = 76

70 – 4,5 = 65,5

Los límites externos son 65,5 y 76.

Cualquier dato que se encuentre por fuera de los límites externos se considera

un valor atípico extremo. En este ejemplo la temperatura del horno, 300 grados, se

encuentra muy por afuera de los límites externos por lo tanto es definitivamente un

valor muy atípico.

Page 6: Unidad 2 datos atipicos

¿Qué es grados de libertad?

Los grados de libertad son una cantidad que permite introducir una corrección

matemática en los cálculos estadísticos para restricciones impuestas en los

datos. Un caso común en estadística es el cálculo de la varianza, donde aparece

en el denominador de dicho cálculo una cantidad denominada grados de

libertad, no del todo distinta de la cantidad de datos que se procesan.

Grados de libertad es un estimador del número de categorías independientes

en un test particular o experimento estadístico. Se encuentran mediante la

fórmula n-1, donde n=número de sujetos en la muestra (también pueden ser

representados por k-1 donde k=número de grupos, cuando se realizan

operaciones con grupos y no con sujetos individuales).

El número de grados de libertad es usado para medir qué tan exacta es la

muestra de la población usada en la investigación para representar a la

población por entero. Mientras más grados de libertad, más seguros podemos

estar de que la población por entero ha sido muestreada correctamente. Los

grados de libertad con frecuencia se representan en estadística con la letra

griega nu.