Modulo 2 Estadistica

101
ESTADÍSTICA EN QUÍMICA ANALÍTICA calidadbioquimica.com.ar/error.htm

Transcript of Modulo 2 Estadistica

Page 1: Modulo 2 Estadistica

ESTADÍSTICAEN QUÍMICA ANALÍTICA

calidadbioquimica.com.ar/error.htm

Page 2: Modulo 2 Estadistica

IMPORTANCIA DE LA ESTADÍSTICA YLA QUIMIOMETRÍA EN LA QUÍMICA ANALÍTICA

Durante la realización de una análisis cuantitativo es muy importante tomar en cuenta todas las variables que pueden afectar nuestro resultado, dentro de estos están los factores provocados por los instrumentos utilizados y los errores provocados por quien maneja el material.

En el reporte de cualquier análisis químico, es importante tomar en cuenta este tipo de errores , hacer un análisis de los resultados y así se podrá concluir sobre él.

Page 3: Modulo 2 Estadistica

¿ Qué es estadística?  La estadística es una colección de métodos para planificar y realizar  experimentos, obtener datos y luego analizar, interpretar, y formular una conclusión basada en esos datos. Es la ciencia encargada de recopilar, organizar, analizar e interpretar información numérica  o cualitativa, de manera que pueda llevar a conclusiones válidas.

Page 4: Modulo 2 Estadistica
Page 5: Modulo 2 Estadistica

Unidad 1: Estadística Descriptiva. Arturo A. Alvarado

S. (ITSY 2006)

La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza.

La Estadística es la Ciencia de la

Sistematización, recolección, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de

deducir las leyes que rigen esos fenómenos,

y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.

Descrip

tiva

Probabili

dad

Infe

rencia

Page 6: Modulo 2 Estadistica

Unidad 1: Estadística Descriptiva. Arturo A. Alvarado

S. (ITSY 2006)

6

DATOS NO AGRUPADOS

• Medidas de tendencia central

Media aritméticaMedianaModaPercentiles (posición)

Rango (amplitud)Rango intercuartílicoVarianzaCoef. de variación

Medidas de dispersión

Page 7: Modulo 2 Estadistica
Page 8: Modulo 2 Estadistica

• Mediana– En una serie de datos ordenados (creciente o

decreciente) es la puntuación o valor central de la distribución estadística

• Datos no agrupados– Si el nº de datos es impar: valor central– Si el nº de datos es par: media aritmética de los 2 puntos

centrales

Medidas de tendencia central

Page 9: Modulo 2 Estadistica

• Mediana– Características

• Menos sensible que la media a la variación de las puntuaciones.

• Se puede calcular aunque algún intervalo carezca de límite.

• Más representativa que la media cuando puntuaciones muy extremas.

Medidas de tendencia central

Page 10: Modulo 2 Estadistica

Medidas de tendencia central

• Moda– Valor de la variable que más veces se

repite en una serie estadística (máxima frecuencia)

• Distribuciones: Unimodales o multimodales• Marca de clase (en intervalos)

– Características:• Sencilla de calcular• Se puede calcular si algún intervalo no tiene límites• Poco representativa

Page 11: Modulo 2 Estadistica

• Media

–Suma de todos los valores de una variable dividida por el número total de valores

–Sólo en variables cuantitativas

Medidas de tendencia central

• X = xi / N

Page 12: Modulo 2 Estadistica

• Media. Cálculo– Datos no agrupados: aplicar fórmula– Datos agrupados

• En tabla de frecuencia: Suma de todos los valores multiplicados por sus frecuencias y dividido por el nº total.

X = xi fi / N

Medidas de tendencia central

Page 13: Modulo 2 Estadistica

• Media– Características

• La media es sensible a la variación de las puntuaciones.

• No se puede calcular si algún intervalo es de límite abierto.

• No es recomendable si valores muy extremos

Medidas de tendencia central

Page 14: Modulo 2 Estadistica

Medidas de dispersión

• Reflejan la dispersión, oscilación de los datos, respecto al fenómeno estudiado.

• Complementan las de tendencia central para la descripción de una distribución

Page 15: Modulo 2 Estadistica

Medidas de dispersión

• Amplitud o rango– Diferencia entre el valor más alto y más bajo

de la distribución.• Ofrece poca información sobre la agrupación de

los datos.• Indica el “campo de variabilidad”.• Suele acompañar a la moda.

Page 16: Modulo 2 Estadistica

Medidas de dispersión

• Varianza– Junto a la desviación típica, la que mejor expresa

la variabilidad del fenómeno– Media de los cuadrados de las diferencias entre

cada valor de la variable y la media aritmética

•S2 = (xi – x)2 / N

– Para datos agrupados:

•S2 = fi(xi – x) 2 / N

•S2 = xi2

/ N – x2

•S2 = fixi2 / N – x2

Page 17: Modulo 2 Estadistica

Medidas de dispersión

• Desviación típica– Es la raíz cuadrada de la varianza

– Para datos agrupados:

•S2 = xi2

/ N – x2

•S2 = fixi2 / N –x2

Page 18: Modulo 2 Estadistica

Medidas de dispersión

• Varianza y desviación típica– Características

• Ambas toman siempre valores positivos.• Si todos los datos de una distribución son

iguales entre sí, toman el valor 0.• Sólo son aplicables a variables cuantitativas

• La que más se suele usar es la desviación típica.• Si los datos están muy dispersos, la desviación típica será

muy grande.

Page 19: Modulo 2 Estadistica

Medidas de dispersión

• Coeficiente de variación de Pearson– Para poder comparar la dispersión entre 2

ó más variables entre sí, o una misma variable en 2 ó más grupos estudiados

– Es una medida relativa: Relaciona la media con la desviación típica

• CV = S / X * 100

Page 20: Modulo 2 Estadistica

giovanni10.wordpress.com/.../

giovanni10.wordpress.com/.../

Page 21: Modulo 2 Estadistica

giovanni10.wordpress.com/.../

Page 22: Modulo 2 Estadistica
Page 23: Modulo 2 Estadistica
Page 24: Modulo 2 Estadistica
Page 25: Modulo 2 Estadistica

DISTRIBUCIO DE FRECUENCIAS• En una distribución de datos estos pueden estar o no

agrupados.

DATOS NO AGRUPADOS EN INTERVALOS:

X

ni Xi

nXi ni4 13 32 71 60 3

Xi ni Xi*ni4 1 43 3 92 7 141 6 60 3 0

33mitjana= 33/5= 6,6

DATOS AGRUPADOS EN INTERVALOS:

SUPUESTO DE CONCENTRACION EN EL PUNTO MEDIO (Xi):

X

ni Xi

nXi ni18-20 2015-17 3012-14 609-11 406-8 303-5 20

Xi ni P. M. PM*ni18 20 20 19 38015 17 30 16 48012 14 60 13 7809 11 40 10 4006 8 30 7 2103 5 20 4 80

2330mitjanna= 2330/200= 11,65

Page 26: Modulo 2 Estadistica

¿CUANDO ELEGIR LA MEDIANA EN LUGAR DE LA MEDIA?:

1. CUANDO LA VARIABLE ESTE MEDIDA EN UNA ESCALA ORDINAL.

2. CUANDO HAYA VALORES EXTREMOS, PUES ESTOS DISTORSIONAN LA INTERPRETACION DE LA MEDIA. EJEMPLO: 3,4,8,5,6,124 Media=25

LA MEDIA ES MUY SENSIBLE A LAS PUNTUACIONES EXTREMAS

3. CUANDO HAYA INTERVALOS ABIERTOS, YA QUE ESTOS CARECEN DE PUNTO MEDIO.

Page 27: Modulo 2 Estadistica

LAS TRES MEDIDAS DE TENDENCIA CENTRAL COINCIDEN CUANDO LA DISTRIBUCION ES UNIMODAL Y SIMETRICA (EJEMPLO: DISTRIBUCION NORMAL).

CUANTO MAS ASIMETRIA, MAS DIFERENCIAS ENTRE ELLAS.

Page 28: Modulo 2 Estadistica

• Datos simétricos: coinciden la media, la mediana y la moda

MediaMediana

Moda

f(X)

X

La distribución normal

Page 29: Modulo 2 Estadistica

Propiedades de la distribución normal:

El área bajo la curva aproximado del promedio μ a más o menos una desviación estándar (1σ) es de 0.68, a más o menos 2σ es de .0 95 y a más o menos 3σ es de 0.99.

(Las propiedades continuan en la próxima lámina)

Page 30: Modulo 2 Estadistica

Propiedades de la distribución normal:

La forma de la campana de Gauss depende de los parámetros μ y σ. 

Tiene una única moda que coincide con su media y su mediana.

La curva normal es asintótica al eje de X. 

Es simétrica con respecto a su media μ .  Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.

Page 31: Modulo 2 Estadistica

En resumen• Podemos concluir que hay una familia de

distribuciones con una forma común, diferenciadas por los valores de su media y su varianza. 

• La desviación estándar (σ ) determina el grado de apuntamiento de la curva.  Cuanto mayor sea el valor de σ, más se dispersarán los datos en torno a la media y la curva será más plana. 

• La media indica la posición de la campana, de modo que para diferentes valores de μ la gráfica es desplazada a lo largo del eje horizontal.

• De entre todas ellas, la más utilizada es la distribución normal estándar, que corresponde a una distribución de media 0 y varianza 1. 

Page 32: Modulo 2 Estadistica

ERRORES EN LOS ANALISIS QUIMICOS

• Es imposible efectuar análisis químicos totalmente libres de errores o incertidumbres.

• La fiabilidad de un resultado se analiza de diferentes maneras

• Se analizan patrones de composición conocida

• Se aplican pruebas estadísticas a los datos

Page 33: Modulo 2 Estadistica

En ciencias e ingeniería, el concepto de error tiene un significado diferente del uso habitual de este término. Coloquialmente, es usual el empleo del término error como análogo o equivalente a equivocación. En ciencia e ingeniería, el error, está más bien asociado al concepto de INCERTEZA, INCERTIDUMBRE, en la determinación del resultado de una medición.

ERROR: es la medida del sesgo en el resultado de una medición.INCERTIDUMBRE: es el intervalo o rango de los valores posibles de una medida. Incluye tanto los errores sistemáticos como aleatorios.La incertidumbre de un resultado es bien diferente de la precisión, ésta da una medida del error aleatorio.

Page 34: Modulo 2 Estadistica
Page 35: Modulo 2 Estadistica

Groseros o accidentalesSon errores que son tan

importantes que no existe alternativa real que abandonar el experimento y

empezar de nuevo por completo. Aleatorio

Estos provocan que los resultados

individuales difieran uno del otro de manera

que caigan a ambos lados del valor medio. Estos errores

afectan la precisión de un experimento.

Este tipo de errores sonlos que comete el operador

del instrumento utilizado.

SistemáticosProvocan que todos los

resultados sean erróneos en el mismo

sentido, son demasiado grandes, y se denomina también sesgo de la medida. Este tipo

de error es responsabilidad

del material empleadoy de su origen y presión

de fabricación.

Errores

Page 36: Modulo 2 Estadistica
Page 37: Modulo 2 Estadistica

Errores experimentales

• Error absoluto.- Nos indica si medimos u obtuvimos mas o menos que el valor experimental, y en qué cantidad excedimos del valor real o qué cantidad nos faltó; esto según el signo de la sustracción.

EA = valor experimental – valor teórico

• Error relativo.- Es una forma de conocer el porcentaje de error que obtuvimos en nuestros resultados.

ER = (valor experimental – valor teórico) x 100 (valor teórico)

Page 38: Modulo 2 Estadistica

Los errores presentes en un estudio analítico modifican:

• Precisión

Es el grado de confianza con que se puede repetir un

experimento y este puede dar los mismo resultados. Es

utilizado como sinónimo de repetitibilidad.

• Exactitud

Es el grado de concordancia entre el resultado de un

ensayo y el valor de referencia aceptado.

Page 39: Modulo 2 Estadistica

TERMINOS IMPORTANTES

Media, Media aritmética y promedio (X) son términos sinónimos. Es la medida de tendencia central mas utilizada .Se obtiene dividiendo la suma de los valores de una serie y dividiendo por el numero de medidas del conjunto.

• Mediana es el resultado alrededor del cual se reparten los demás por igual. Si la serie es un numero impar la mediana es el numero de la mitad. Si la serie es un numero par se toma el promedio del par central después de haber ordenado la serie de menor a mayor.

Page 40: Modulo 2 Estadistica

TERMINOS IMPORTANTES

• Ejemplo: calcular la media y la mediana de 10.06, 10.20, 10.08, 10.10.

• Media = X =10.06+10.20+10.08+10.10 = 10.11 4

Mediana = 10.08 +10.10 = 10.09 2

Page 41: Modulo 2 Estadistica

CIFRAS SIGNIFICATIVAS

•Es el numero necesario de dígitos para expresar los resultados de una medición congruente con la precisión de medida.

237 : 2 centenas, 3 decenas y 7 unidades

• El numero de cifras significativas incluye todos los dígitos que se conocen mas el primer digito incierto.

Page 42: Modulo 2 Estadistica

El numero de cifras significativas en una medición es independiente de la colocación del punto decimal.

Por ejemplo el numero 92.067: Este numero tiene cinco cifras significativas independiente donde se coloque el punto decimal. En este

caso el cero si es una cifra significativa.

En el numero 727.0 el cero no se usa para localizar el punto decimal es significativo

Por ejemplo el numero 92.067: Este numero tiene cinco cifras significativas independiente donde se coloque el punto decimal. En este

caso el cero si es una cifra significativa.

En el numero 727.0 el cero no se usa para localizar el punto decimal es significativo

Page 43: Modulo 2 Estadistica

Ejemplos:

0.216 Tres Cifras significativas.

90.7 Tres cifras significativas.

800.0 Cuatro cifras significativas.

0.0670 Tres cifras significativas

Page 44: Modulo 2 Estadistica

TERMINOS IMPORTANTES

Precisión. • El término precisión describe la reproducibilidad de los

resultados y se puede definir como la concordancia que hay entre los valores numéricos de dos o más mediciones que se han realizado de idéntica manera.

La precisión sólo depende de la distribución

de los errores aleatorios y no se relaciona

con el valor verdadero ni con el valor especificado.

Page 45: Modulo 2 Estadistica

PRECISION

• Para describir la precisión de un conjunto de datos repetidos se utilizan tres términos muy conocidos:

• La desviación estándar, la varianza y el coeficiente de variación.

Page 46: Modulo 2 Estadistica

• La desviación estándar (DS/DE) es una medida de dispersión usada en estadística que nos dice cuánto tienden a alejarse los valores puntuales del promedio en una distribución.

Asi la varianza es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución. Aunque esta fórmula es correcta, en la práctica interesa realizar inferencias poblacionales, por lo que en el denominador en vez de n, se usa n-1

Page 47: Modulo 2 Estadistica

TERMINOS IMPORTANTES

• METODOS ABSOLUTOS PARA EXPRESAR LA PRECISION

• Desviación estándar S= Xi-X n-1 • Desviación respecto a la media es la diferencia

numérica entre un valor experimental y la media

• Varianza: S2

• Coeficiente de variación. C.V = S/Media *100

Page 48: Modulo 2 Estadistica

TERMINOS IMPORTANTES

• Desviación estándar relativa (DER) : se calcula al dividir la desviación estándar entre la media del conjunto de datos.

• DER se expresa en partes por mil o en %.

• DER * 100% = CV.• Dispersión (W): Es la diferencia entre el

valor mas alto y el valor mas bajo del conjunto

Page 49: Modulo 2 Estadistica

TERMINOS IMPORTANTES

• EXACTITUD : El término denota el grado de coincidencia del resultado de una medición con el valor verdadero o aceptado de la misma y se expresa en función del error. La exactitud implica una comparación con el valor verdadero o aceptado como tal.

• Cuando no se conoce el valor verdadero se debe usar un valor aceptado.

Page 50: Modulo 2 Estadistica

TERMINOS IMPORTANTES

• METODOS PARA MEDIR LA EXACTITUD• Error absoluto: Es la diferencia entre el valor

experimental y el valor real.• Error relativo: Es el error absoluto dividido por la

cantidad medida.• Ejemplo:• Una muestra tiene 20.34% de Fe y un analista

encuentra que es 20.44%. • Error Absoluto = 20.44-20.34 = 0.10%• Error relativo = 0.1/20.34 = 0.0049 = 4.9 partes por

mil

Page 51: Modulo 2 Estadistica

TERMINOS IMPORTANTES

• En términos generales la exactitud supone una comparación con un valor verdadero o aceptado como tal, la precisión indica la concordancia entre las medidas que han sido realizadas de una misma forma.

Page 52: Modulo 2 Estadistica

Esquema gráfico para comprender la relación entre exactitud y precisión

En C existe buena precisión, pero no buena exactitud; en A buena exactitud y precisión, y en B mala exactitud y precisión.

www.galeon.com/scienceducation/error00.htm

Page 53: Modulo 2 Estadistica

Diagrama precisión y exactitudwww.galeon.com/scienceducation/error00.htm

Page 54: Modulo 2 Estadistica

EVALUACION DE LOS DATOS ANALITICOS• ESTUDIANTE RESULTADOS COMENTARIO DE UNA TITULACION

A 10.08 Preciso pero 10.11 inexacto 10.09 10.10 10.12 B 9.88 10.14 10.02 Exacto pero 9.80 impreciso 10.21

10.19 C 9.79 Inexacto e 9.69 impreciso 10.05 9.78

Page 55: Modulo 2 Estadistica

EVALUACION DE LOS DATOS ANALITICOS

• ESTUDIANTE RESULTADOS COMENTARIO DE UNA TITULACION

10.04 9.98 D 10.02 EXACTO Y

9.97 PRECISO 10.04

Page 56: Modulo 2 Estadistica

TIPOS DE ERRORES EN DATOS EXPERIMENTALES

ERRORES

• Bruto Aleatorios Sistemáticos Ocurre de manera - = indeterminados - = determinados Ocasional . suele ser -Afectan la presicion - Afectan la exactitud Grandes. Dan como o la reproducibilidad o sea la proxim al valor resultado valores verdadero. atípicos que difieren - Los resultados caen - Todos los

resultados mucho de los demás. a lado y lado de la X son erróneos en el mismo sentido.

Page 57: Modulo 2 Estadistica

ERRORES DETERMINADOS O SISTEMATICOS

FUENTES DE ERRORES SISTEMÁTICOS

• Errores instrumentales: Calibraciones deficientes

• Errores del método: Dificiles de identificar

• Errores personales: Descuido, Falta de atención

Page 58: Modulo 2 Estadistica

EFECTO DE LOS ERRORES SISTEMATICOS EN LOS RESULTADOS ANALITICOS

• Los errores sistemáticos pueden ser constantes o proporcionales

• En los errores constantes el error absoluto es invariable con el tamaño de la muestra ,mientras el error relativo cambia al modificar dicho tamaño.

• Los errores proporcionales aumentan o disminuyen según el tamaño de la muestra. Con los errores proporcionales el error absoluto varia con el tamaño de la muestra, en cambio el error relativo permanece constante.

Page 59: Modulo 2 Estadistica

EFECTO DE LOS ERRORES SISTEMATICOS EN LOS RESULTADOS ANALITICOS

• Los errores sistemáticos pueden ser constantes o proporcionales.

• En los errores constantes, el error absoluto es invariable con el tamaño de la muestra, mientras en el error relativo cambia al modificar el tamaño de la muestra.

• Los errores proporcionales aumentan o disminuyen según el tamaño de la muestra; con estos errores el error absoluto varia con el tamaño de la muestra en cambio el error relativo permanece constante.

Page 60: Modulo 2 Estadistica

EVALUACION DE LOS DATOS ANALITICOS

KAl(SO4)2.12H2O g tomados

Al2O3 g tomados

Al2O3 Encontrados con el NH3 almacenado

Diferencia en g

Al2O3 Encontrados con el NH3 Nuevo

Diferencia en g

1 0.1077 0.1288 0.0211 0.1087 0.001 2 0.2154 0.2384 0.0230 0.2187 0.0024 3 0.3231 0.3489 0.0258 0.3258 0.0027 4 0.4308 0.4588 0.0280 0.4352 0.0044

Page 61: Modulo 2 Estadistica

EVALUACION DE LOS DATOS ANALITICOS

• Los errores ocasionados por el amoniaco envasado durante mucho tiempo fueron constantes por que se utilizo el mismo volumen y el aporte de Si fue el mismo. El NH3 del envase recién utilizado fueron muy pequeños y proporcionales al tamaño de muestra.

Page 62: Modulo 2 Estadistica

ERRORES ALEATORIOS

• Son la principal fuente de incertidumbre en una determinación.

• Muchas variables no controladas y de no fácil identificación causan errores aleatorios.

• El efecto acumulativo de las incertidumbres, aunque estas sean muy pequeñas, hace que las mediciones por duplicado de una serie fluctúen al azar.

Page 63: Modulo 2 Estadistica

FUENTES DE LOS ERRORES ALEATORIOS

Los errores aleatorios obedecen una curva normal de error o curva de gauss.

meted.ucar.edu/nwp/pcu1/ensemble_es/print.htm

Page 64: Modulo 2 Estadistica

meted.ucar.edu/nwp/pcu1/ensemble_es/print.htm

Page 65: Modulo 2 Estadistica

Distribución normal

• Al iniciar el análisis estadístico de una serie de datos, y después de la etapa de detección y corrección de errores, un primer paso consiste en describir la distribución de las variables estudiadas y, en particular, de los datos numéricos.

• Un modo es con la curva de distribución normal que muestra la frecuencia con que se repiten los datos.

Page 66: Modulo 2 Estadistica

TRATAMIENTO ESTADISTICO DEL ERROR ALEATORIO

• Los métodos estadísticos permiten categorizar y caracterizar los datos, y tomar decisiones objetivas en cuanto a su calidad e interpretación.

• Hay que diferenciar entre muestra y población o universo. ( caso del análisis de Ca en agua. La población seria un numero de medidas muy grande cercano al infinito).

• Las leyes de la estadística se dedujeron para usarlas en poblaciones. Para aplicarlas a muestras se debe hacer ajustes.

Page 67: Modulo 2 Estadistica

TRATAMIENTO ESTADISTICO DEL ERROR ALEATORIO

• Las curvas gaussianas se pueden representar por medio de una ecuación que tiene la media de la población µ, y la desviación estándar de la población σ.

• La media de la población es µ y la media de la muestra es X.

Page 68: Modulo 2 Estadistica
Page 69: Modulo 2 Estadistica
Page 70: Modulo 2 Estadistica

EVALUACION DE METODOS ANALITICOS

• Ejemplo 2. La N de una solución se calculo con 4 titulaciones por separado y los resultados fueron 0.2041, 0.2049, 0.2039, y 0.2043. Calcular la X, la Mediana, El rango , La S. la desviación relativa y el C.V.

• X = (0.2041+0.2049+0.2039+0.2043)/4 = 0.2043• Mediana M= (0.2041+0.2043)/2 = 0.2042• Rango R = 0.2049-0.2039 = 0.001• La desviación relativa= Sumatoria de (Xi-X)/4=0.0003 • S= 0.0004• C.V = (0.0004/0.2043)*100 = 0.2%

Page 71: Modulo 2 Estadistica
Page 72: Modulo 2 Estadistica

PRESENTACION DE LOS DATOS CALCULADOS

• Siempre es necesario indicar el nivel de confianza de los datos.

• Es un rango de valores en los que con una probabilidad determinada está un valor verdadero poblacional.

• Generalmente son del 95% o 99%.

• La probabilidad de equivocarnos se llama nivel de significancia y se simboliza α

Page 73: Modulo 2 Estadistica

PRUEBA DE SIGNIFICANCIA

• Se utiliza para comparar el resultado de un análisis realizado por dos métodos diferentes. Se trabaja con las X

• Se aplica el T de student. Plantea la hipótesis de que las dos X son iguales. La prueba T da una respuesta si o no a la hipótesis nula con cierta exactitud como del 95 o 99%

Page 74: Modulo 2 Estadistica

Prueba de significancia

• t = X1 – X2 n1n2

S n1+n2

Si t calculado es mayor que t de la tabla entonces los dos métodos son iguales

Para poder calcular t hay que calcular primero la s de cada serie de datos

Page 75: Modulo 2 Estadistica

• Cuando se escoge el nivel de significación 0,05 (ó 5%),

tenemos un 95% de confianza de que hemos adoptado la decisión correcta y una probabilidad 0,05

de ser falsa.

Page 76: Modulo 2 Estadistica

Cómo determina si un valor es realmente un valor atípico y cómo decide si debe continuar o no con el análisis de datos?

Uno de los problemas en el análisis de datos es manejar los valores atípicos dentro de un grupo de datos.

Un valor atípico es una observación con un valor que no parece corresponderse con el resto de los valores en el grupo de datos.

Por lo general surgen dos preguntas: 1)¿Es este valor realmente un valor atípico? 2)¿Puedo eliminar este valor y continuar con el

análisis de datos?

Page 77: Modulo 2 Estadistica

DATOS ATIPICOS

Con respecto a la pregunta 2, debe saberse que las pruebas estadísticas se utilizan para identificar valores atípicos, no para retirarlos del grupo de datos.

Técnicamente, una observación no debe retirarse a menos que una investigación halle una causa probable para justificar esta acción

Page 78: Modulo 2 Estadistica

DATOS ATIPICOS

Si en la investigación no se encuentra una causa probable, ¿qué debe hacerse?

Un enfoque sería realizar un análisis de datos con el valor atípico y sin él. Si las conclusiones son diferentes, entonces se considera que el valor atípico tiene influencia y esto debería indicarse en el informe.

Otra opción es utilizar estimadores rigurosos para caracterizar los grupos de datos, tal como la mediana de la muestra en lugar de la media.

Page 79: Modulo 2 Estadistica

RECHAZO DE DATOS

• Dos de las pruebas estadísticas utilizadas con mayor frecuencia en un grupo de datos son la prueba de Dixon y la prueba de Grubbs.

• La prueba de Dixon utiliza relaciones de las diferencias entre datos que parecen atípicos comparados con los valores del grupo de datos.

Page 80: Modulo 2 Estadistica

RECHAZO DE DATOS

• Estas técnicas están diseñadas para detectar un único valor atípico en un grupo de datos, y por lo tanto no son adecuadas para la detección de múltiples valores atípicos.

• Una técnica rigurosa y amplia para identificar eficazmente múltiples valores atípicos es el procedimiento para muchos valores atípicos con generalización extrema de la desviación de Student.

Page 81: Modulo 2 Estadistica

DIXON

Por ejemplo, tomemos los datos 5.3, 3.1, 4.9, 3.9, 7.8, 4.7 y 4.3

Ordenando los datos:

3.1, 3.9, 4.3, 4.7, 4.9, 5.3, 7.8

El tamaño de la muestra es 7, y la relación utilizada es el espacio entre el valor atípico (7.8) y su vecino más próximo (5.3) dividido por el espacio entre los valores más grandes y más pequeños en el grupo. Por lo tanto, el índice de Dixon es:(7.8 – 5.3)/(7.8 – 3.1) = 2.5/4.7 = 0.532

Page 82: Modulo 2 Estadistica

RECHAZO DE DATOS

Este valor se compara con un valor crítico de una tabla, y el valor se declara valor atípico si supera ese valor crítico.

Si Dcalculado>Dtabulado se rechaza el dato

El valor tabulado depende del tamaño de la muestra, n, y de un nivel de confianza elegido, que es el riesgo de rechazar una observación válida. La tabla por lo general utiliza niveles de baja confianza tal como 1% o 5%.

Para un n = 7 y un riesgo del 5%, el valor en la tabla es 0.507. El índice de Dixon 0.532 excede este valor crítico, indicando que el valor 7.8 es un valor atípico.

Page 83: Modulo 2 Estadistica

DIXON

La prueba de Dixon se usa en un número

pequeño de observaciones (menor a 26) y

detecta elementos que se encuentren

sesgados o que son extremos.

Para aplicar la prueba de Dixon se requiere de un número de observaciones

igual o mayor a 10. En el caso que lasobservaciones sean menores a 10 se utiliza como valor esperado el valor de

preparación.

Page 84: Modulo 2 Estadistica

GRUBBS

La prueba de Grubbs utiliza una estadística de prueba, T, que es la diferencia absoluta entre el valor atípico, XO, y el promedio de la muestra (X) dividida por la desviación estándar de la muestra, s.

Para el ejemplo anterior, el promedio de la muestra es = 4.86 y la desviación estándar de la muestra es = 1.48. La estadística calculada de la prueba es:

Page 85: Modulo 2 Estadistica

GRUBBS

Para un n = 7 y un riesgo del 5%, el valor tabulado es 1.938 y el TCalculado = 1.99 excede este valor crítico, indicando que el valor 7.8 es un valor atípico.

Page 86: Modulo 2 Estadistica

TEST DE GRUBB PARA DATOS SOSPECHOSOS

Recomendado por las normas ISO

G= Valor Sospechoso – X S

(Con el valor sospechoso incluido)

Si Gcalculada > Gtabulada el valor sospechoso se rechaza

Page 87: Modulo 2 Estadistica

TEST Q DE DATOS SOSPECHOSOS

Aceptar o rechazar un resultado anómaloAceptar o rechazar un resultado anómalo (outlier)Normalmente se producen al cometer errores o fallos

en la metodología aplicada.

Se ordenan los datos en forma creciente y se calcula Q

Q = desvío = Diferencia entre el dato sospechosos y su vecino más cercano recorrido Diferencia numérica entre el dato de mayor valor y el de menor valor

Si Qcalculada > Qtabulada el dato se rechaza

Page 88: Modulo 2 Estadistica

Ejemplo:

Al efectuar una serie de réplicas para determinar la concentración del ión sulfato en una muestra de agua para riego se obtuvieron los siguientes resultados. Determinar si la medida 6.0 es un valor rechazable.

Medida Valor1 5.02 5.23 5.54 5.65 6.0

1. Se ordenan los datos en orden de valor decreciente6.0, 5.6, 5.5, 5.2, 5.02. Se calcula QQ= (6.0-5.6)/ (6.0-5.0) =0.40

3. Se compara Q calculado con Q tabulado para 5 medidas y un nivel de confianza del 90. Qtab=0.640.40<0.64, luego el valor 6.0 no es rechazable

Page 89: Modulo 2 Estadistica

DESCARTE DE DATOS

1. Definir que tan grande es la Diferencia entre el valor sospechoso y los otros datos.

2. Aplicar Prueba Q.a) Ordenar los datosb) Calcular el rangoc) Encontrar la diferencia entre el resultado sospechosos

y su vecino mas cercano3. Dividir la diferencia obtenida en el paso 2 entre el

Rango. Así se obtiene el coeficiente de descartacion Q.

4. Consultar la tabla de valores Q. Si el valor calculado es mayor que el de latabla el resultado se puede descartar con un 90% de confianza de que si se podia.

Page 90: Modulo 2 Estadistica
Page 91: Modulo 2 Estadistica

DESCARTE DE DATOS

• EJEMPLO

• 4 Resultados de N de una solución fueron 0.1014, 0.1012, 0.1019, 0.1016. Se podrá descartar 0.1019?

• X sin el 0.1019 = 0.1014

0.1019-0.01014 =0.0005• Q = 0.1019 - 0.1016 =0.43 0.1019 – 0.1012 • 0.43 es menor que 0.76. NO SE DESCARTA

Page 92: Modulo 2 Estadistica
Page 93: Modulo 2 Estadistica

PRESENTACION DE LOS DATOS CALCULADOS

• Un indicador de la calidad de los datos es la utilización de las cifras significativas.

• Cifras significativas: Son todos los dígitos que se conocen con certeza y el primer digito incierto. Por ejemplo 30.24 tiene 4 cifras significativas (4, el ultimo digito, es incierto)

Page 94: Modulo 2 Estadistica

PRESENTACION DE LOS DATOS CALCULADOS

• El cero puede ser significativo o no según su ubicación en el numero. Un cero rodeado por otros dígitos siempre es significativo.

• Los ceros al final pueden o no ser significativos. 2.0 tiene dos cifras significativas. 2000 tiene una cifra significativa. 2x103 tiene una.

Page 95: Modulo 2 Estadistica

PRESENTACION DE LOS DATOS CALCULADOS

• Para las sumas y las restas el resultado debe tener el mismo numero de decimales que el numero que tiene menos decimales.

• Cuando se suman o restan números con notación científica se debe expresar el resultado en la misma potencia de 10.

• En la multiplicación y la división se debe expresar el resultado con las cifras significativas del numero que tenga menor cifras significativas.

Page 96: Modulo 2 Estadistica

PRESENTACION DE LOS DATOS CALCULADOS

• Redondeo de datos:• Se debe aproximar al numero mayor si el ultimo

es mayor de 5 y al menor si el ultimo es menor de 5.

• 61.555 se aproxima al numero par mas cercano . Queda 61.56

• De todas maneras el resultado debe expresarse con la desviación estándar calculada.

Page 97: Modulo 2 Estadistica

OBJETIVOS DEL MUESTREO

• Estadísticamente los objetivos del proceso de muestreo son:

• 1. Obtener el valor medio

• 2. Obtener una varianza que sea una estimación de la varianza poblacional con limites de confianza validos para la media.

Page 98: Modulo 2 Estadistica

VALIDACION DE METODOS ANALITICOS Calidad de resultados

• Selectividad Analito en medio de interferencias

• Limite de detección Promedio de bcos +3(desviación)

• Limite de cuantificación 5 ò 10 L.D.

• Intervalo de trabajo Rango en que el método es exacto y preciso.

• Rango lineal• Exactitud. Valor de referencia

• Precisión Desviación y CV

• Sensibilidad Pendiente

• % Recuperación. Adición de cantidades conocidas

• GRÁFICOS DE CONTROL.

Page 99: Modulo 2 Estadistica

VALIDACION DE METODOS ANALITICOS

• Curvas de calibración

• Linealidad

• Pendiente

• Sensibilidad

• Residuales

• Coeficiente de correlación

Page 100: Modulo 2 Estadistica

VALIDACION DE METODOS ANALITICOS

• Curvas de calibración: Mínimos Cuadrados

• Modelo de regresión: Y=mx+b

• Cuanto mas cercanos están los datos a la línea que se obtiene del análisis por mínimos cuadrados, menores son los residuales

Page 101: Modulo 2 Estadistica

VALIDACION DE METODOS ANALITICOS

• Variables transformadas.

• Transformaciones para linearizar las funciones.