Aqa estadistica fundamental

20

Click here to load reader

Transcript of Aqa estadistica fundamental

Page 1: Aqa estadistica fundamental

1 FUNDAMENTOS DE ESTADÍSTICA

Objetivos

Familiarizarse con la estadística básica de las medidas repetitivas

Poder hacer una interpretación estadística de los resultados analíticos

Aprender a realizar las pruebas de comparación de los resultados analíticos

Comprender y utilizar el análisis de varianza

Profundizar en el uso estadístico del concepto de incertidumbre

Bibliografía

J.C. Miller y J.N. Miller, Estadística para química analítica, 2a Edición, Addison-Wesley Iberoamericana, EEBB, 1993

M. Otto, Chemometrics, Wiley-VCH, Weinheim, 1999

J.K. Taylor, Quality assurance of chemical measurements, Lewis Publ., CRC Press, Boca Raton, EEBB, 1987

EURACHEM, Quantifying uncertainty in analytical measurement, 2a Edición, Helsinki, 2000 (URL: http://www.eurolab.de)

1.1. Introducción

En la química analítica se utilizan herramientas estadísticas para el tratamiento de datos y resultados analíticos, parasu pretratamiento, para disminuir su tamaño y, sobre todo, para ayudar a su interpretación y comprensión. Por ello, espreciso comprender y dominar los fundamentos del tratamiento estadístico de los datos analíticos. Estos fundamentos seaplicarán posteriormente para mostrar el control estadístico de los datos, para ayudar a la comprensión de los mismos,para planificar las medidas y la toma de muestras así como para poder tomar decisiones de diferente carácter con los datoso resultados.

Para poder aplicar los conceptos estadísticos a las medidas analíticas éstas deben cumplir las siguientes condiciones:

El sistema de medida ha de ser estable.

Cada una de las medidas debe ser independiente del resto.

Cada medida debe ser un representante aleatorio de la población a la que pertenece.

En este sentido, si en vez de medidas se consideran materiales, éstos han de cumplir condiciones similares.

1.1.1. Incertidumbre y Tipos de Error

Las medidas analíticas, al igual que las de otras propiedades físicas, siempre llevan asociada una incertidumbre1 .Esta incertidumbre lleva aparejado el concepto de duda respecto a esa medida lo que implica que, independientementede nuestras pretensiones respecto a esa medida, la utilidad de los resultados puede verse comprometida. El concepto deincertidumbre es básico en Metrología 2: “Un parámetro asociado con el resultado de la medida, que caracteriza la

1En inglés ’uncertainty’.2Ver “Guide to the Expresion of Uncertainty Measurement”. ISO, Geneva, 1993 (ISBN 92-67-10188-9).

1

Page 2: Aqa estadistica fundamental

CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA

dispersión de los valores que, razonablemente, se podrían atribuir a aquello que se mide”3. La incertidumbre toma laforma de intervalo y si se estima para un procedimiento analítico y un tipo de muestra dado puede aplicarse a todas lasdeterminaciones hechas con ese método a ese tipo concreto de muestras. En general, el valor de la incertidumbre no puedeser utilizado para corregir el resultado de una medida.

Por lo que respecta al error, éste es la diferencia entre el valor verdadero de aquello que se mide y el valor medido. Deesta manera, el concepto de error se idealiza dado que el valor verdadero de la medida se suele desconocer. Como ya sesabe, el error puede tener dos componentes: el componente aleatorio y el sistemático.

El primero incluye las diferencias entre los resultados de medidas que se repiten y es un indicador de factores quepueder estar ocultos o resultar evidentes. Este error no se puede corregir pero se puede disminuir aumentando elnúmero de medidas.

Por otra parte, el error sistemático implica una desviación del valor de la medida en un sentido concreto y significala falta de subordinación de dicha medida al conjunto de medidas realizadas. Por tanto, es preciso corregir loscomponentes que tienen una influencia sistemática en el valor de una medida.

La incertidumbre en las medidas analíticas puede tener orígenes diferentes. Entre otros, la toma de las muestras, la purezade los reactivos, las condiciones físicas de la medición (temperatura, humedad, etc.), la influencia de la matriz, así como lapresencia de otros analitos que pueden tener una influencia contaminante. Dado que las medidas analíticas se componende diferentes procesos: la pesada, la preparación de las disoluciones, la calibración, etc. es importante saber de antemanoel grado de incertidumbre que tiene cada uno para poder establecer un resultado analítico definitivo.

Cuando se dan detalles de un método analítico se habla, entre otras cosas, de su precisión, linealidad, límite de detección,fiabilidad-trazabilidad, selectividad y especificidad. Mediante el uso de estos conceptos se trata de denotar la adecuaciónde dicho método a un fin concreto.

Algunos de los conceptos mencionados anteriormente son ya conocidos. Entre ellos está la exactitud, la cual significa elgrado de adecuación entre el valor verdadero de la medida y el resultado que se mide. Por otra parte, la precisión significael grado de proximidad entre medidas independientes realizadas de una manera definida en condiciones específicas. Losdemás conceptos se irán tratando en los temas siguientes.

1.1.2. Estadística de Medidas Repetidas

Una vez que se dispone de un conjunto de medidas se pueden dar una serie de resultados estadísticos comunes relativosa ellos, lo que se suele conocer como estadística descriptiva de un conjunto de medidas repetidas. Por ejemplo, en laTabla 1.1 se han reunido los resultados de las medidas espectrofotométricas (absorbancia) de una disolución.

De los resultados que se recogen no se puede obtener más información ya que no se dispone de nada con que compa-rarlos ni se tiene de antemano ningún tipo de duda especifica sobre la validez de los mismos. De cualquier manera, losresultados que se dan en la Tabla 1.1 son conocidos y se utilizarán a menudo para describir conjuntos de datos de este tipo.En este caso, los valores de los parámetros se han calculado en la hoja de cálculo Excel sin utilizar ningún procedimientomatemático especial.

La representación gráfica de los resultados obtenidos permite varias opciones. De entre ellas, la Figura 1.1 recogedos: la representación del ’Box-and-Whisker’ y la representación de la probabilidad de una distribución normal. En elprimer caso, el diagrama de Box-and-Whisker divide los resultados en función de la frecuencia de los mismos en cuatrocampos: el 50 % de los resultados los incluye en una caja central en donde incluye el valor de la mediana mediante unalínea vertical y el valor medio mediante un punto. Las líneas horizontales o “whiskers” se extienden a ambos lados dela caja y cada extremo recoge el 25 % de los resultados. Mediante esta representación se puede resumir un conjunto dedatos unidimensionales. De hecho, esta representación permite conocer las características de la distribución de los datosy la presencia de puntos marginales así como su comparación con otras distribuciones. La segunda gráfica se utiliza paraconocer si los resultados siguen una distribución normal. Si es así, los datos se ordenan a lo largo de una línea recta. Si

3En inglés original: “A parameter associated with the result of a measurement, that characterizes the dispersion of the values that could bereasonably attributed to the measurand”.

2

Page 3: Aqa estadistica fundamental

1.2. PROPAGACIÓN DE ERRORES

Cuadro 1.1: Estadística descriptiva de una serie de medidas espectrofotométricas

# Medida Parámetro Resultado1 0.34102 0.3350 Media 0.3493 0.3470 Error típico (de la media) 0.00194 0.3590 Mediana 0.3475 0.3530 Moda 0.3476 0.3460 Desviación estándar 0.00737 0.3470 Varianza de la muestra 5.34E-058 0.3460 Coeficiente de Kurtosis 0.0459 0.3430 Coeficiente de Asimetría 0.259

10 0.3420 Rango 0.02811 0.3560 Mínimo 0.33512 0.3500 Máximo 0.36313 0.3630 Suma 5.22914 0.3530 Número de medidas 1515 0.3480 Nivel de Confianza (95.0 %) 0.004

se observaran desviaciones con respecto a esa recta eso indicaría la existencia de puntos marginales o distribuciones nonormales.

a b

Figura 1.1: a) Diagrama de ’Box-and-Whisker’; b) Diagrama de la probabilidad de una distribución normal.

1.2. Propagación de Errores

Como se ha señalado anteriormente, la incertidumbre de las medidas analíticas tiene diferentes orígenes. Entre otros sepueden señalar: el muestreo, las desviaciones instrumentales (i.e., una balanza mal calibrada), impurezas de los reactivos,las condiciones de medida (i.e., la influencia de la temperatura o la humedad), los efectos matriz, los errores de redondeo,la contaminación de las muestras, la influencia del operador y otros efectos aleatorios.

Si se quiere estimar la incertidumbre de un resultado analítico no se puede considerar de forma aislada la propagacióndel error para un único efecto (por ejemplo, la reproducibilidad de la medida instrumental) sino que ha de considerarse

3

Page 4: Aqa estadistica fundamental

CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA

de forma conjunta la incertidumbre de todos y cada uno de los pasos del procedimiento analítico que dan origen a eseresultado.

La incetidumbre de un resultado analítico se obtiene a partir de la ley de Gauss de propagación de errores. De formageneral, se supone que un resultado analítico, y, depende de m factores xm de acuerdo con una función

y = f (x1,x2, ...,xm)

La incertidumbre de y, en términos de desviación de su valor medio, puede describirse en función de la dependencia decada uno de los factores como

dy = d f (x1,x2, ...,xm)

Esta diferencial total puede calcularse de acuerdo con

dy =(

δyδx1

)x2,...xm

dx1 +(

δyδx2

)x1,...xm

dx2 + ...+(

δyδxm

)x1,...xm−1

dxm

Para relacionar la expresión anterior con la varianza de la medida se han de elevar al cuadrado ambos términos

(dy)2 =[(

δyδx1

)x2,...xm

dx1 +(

δyδx2

)x1,...xm

dx2 + ...+(

δyδxm

)x1,...xm−1

dxm

]2

y al desarrollar la operación anterior aparecerán términos cuadráticos del tipo(

δyδxi

)2dx2

i y términos cruzados del

tipo(

δyδxi

)(δyδx j

)dxidx j. Los términos cuadráticos han de considerarse en todos los casos ya que su valor siempre es

positivo mientras que los cruzados pueden omitirse ya que, normalmente, se cancelan unos con otros. De acuerdo con esterazonamiento, se puede expresar la varianza de y mediante la siguiente expresión:

s2y =

(δyδx1

)2s2

x1+

(δyδx2

)2s2

x2+ ...+

(δy

δxm

)2s2

xm

Normalmente, la incertudumbre se expresa mediante la desviación sy.

El cálculo concreto de la incertidumbre de un valor cuando se conocen las incertidumbres de todas las cantidades delas que éste depende puede hacerse mediante una hoja de cálculo como Excel siguiendo el procedimiento de Kragten4.

1.3. Pruebas de Comparación: el Protocolo de Comparación

Como se ha señalado anteriormente, la interpretación y la capacidad de tomar decisiones sobre la utilidad de un conjuntode medidas no puede hacerse de una manera descriptiva sino comparativa. Esto significa que la interpretación de lasmedidas analíticas, en el sentido más amplio, viene dada por la comparación con otros valores que se puedan medir. Paraque esto tenga algún tipo de consistencia estadística es necesario realizar pruebas (tests) estadísticas. El tipo de cuestionesa dilucidar puede ser, a modo de ejemplo, si las medias de los resultados de dos determinaciones son iguales o si unavariable estudiada afecta o no a los resultados obtenidos.

En general, la comparación estadística implica la comprobación de una hipótesis. Para ello, que hay que seguir elsiguiente protocolo:

1. Han de definirse la hipótesis nula (Ho) y la hipótesis alternativa (H1). La mayor parte de las veces Ho significala falta de diferencias entre los elementos o magnitudes que se quieren comparar, esto es, que la diferencia esmeramente aleatoria. H1, sin embargo, significa que hay diferencias, esto es, que además de la desviación aleatorialos elementos o magnitudes comparadas son diferentes.

2. Hay que elegir la prueba estadística. Para ello, la distribución estadística de los resultados a comparar ha de serconocida. Entre otras, se utilizarán las distribuciones t-, F- y χ2.

4J. Kragten, Analyst, 119, 2161-2166 (1994). Este procedimiento se explicará en detalle en las clases prácticas.

4

Page 5: Aqa estadistica fundamental

1.4. COMPARACIÓN ENTRE LOS VALORES VERDADERO Y PROMEDIO: TEST T DE UNA SOLA VARIABLE

3. Es preciso fijar el nivel de confianza (α). Este nivel indicará la posibilidad de contradecir Ho aunque sea verdadera.De alguna forma, indicará el riesgo de anular la hipótesis nula y por lo tanto la posibilidad de aceptar la hipótesisalternativa H1 a pesar de que los elementos o magnitudes que se han comparado tengan una desigualdad aleatoria.

4. Hay que calcular los parámetros estadísticos de los elementos o magnitudes que se quieren comparar. Según sea laprueba estadística, esos parámetros pueden ser tcalc, Fcalc, etc.

5. Según el nivel de confianza de la prueba estadística, los valores críticos de los parámetros anteriores se puedentomar de su correspondiente tabla y se compararán con los valores calculados con anterioridad.

6. Como consecuencia de la comparación se podrá mantener la hipótesis nula Ho o, por el contrario, aceptar la hipótesisalternativa H1.

1.3.1. Conclusiones de la comparación

Como se ha dicho anteriormente, la comparación tiene una base probabilística. Es decir, antes de hacer la comparaciónhay que fijar cual es la probabilidad de negar la hipótesis nula (α = 0.05, por ejemplo) aunque esa hipótesis sea verdadera.Si ésto sucediera se dice que se ha cometido un error de Tipo I o error α. El nivel de confianza establecido (α) no se puedefijar de cualquier manera, dado que la probabilidad de incurrir en los denominados errores de Tipo II aumentará si se haceasí. Los errores de Tipo II (también llamados errores β o errores de aceptación) significan la aceptación de la hipótesisnula aunque esta sea falsa. La Tabla 1.2 puede servir de ayuda para aclarar estos conceptos.

Cuadro 1.2: Relación entre la comparación de hipótesis y los errores de Tipo I y II.

Decisión tomada Situación realH0 es cierta H1 es cierta

H0 es cierta Decisión correcta (P=1-α) Error de Tipo II (P = β)H1 es cierta Error de tipo I (P = α) Decisión correcta (P=1-β)

Hasta ahora, solo se ha tenido en cuenta la probabilidad de negar la hipótesis nula (P = α) pero no hay que olvidarque existe también la probabilidad de admitir la hipótesis alternativa cuando resulta falsa (P = β). De alguna manera,estos dos riesgos son complementarios y no se puede disminuir uno de ellos tanto como se quiera dado que el otro, comoconsecuencia de ello, aumentará. La Figura 1.2 ilustra la relación entre los errores de Tipo I y II cuando se lleva a cabo laprueba de comparación de 2 medias5. Un error del Tipo I indica que las 2 medias se toman como diferentes, aunque solodiscrepen aleatoriamente. Un error de Tipo II indica que se establece erroneamente que las dos medias son comparables.

Se han de tener en cuenta las implicaciones de los dos tipos de errores dependiendo de la prueba que se esté realizandoy si, en su caso, es preciso realizar un mayor número de medidas. Asi, por ejemplo, el fallo a la hora de reconocer unaenfermedad es mucho más peligroso que aconsejar a un paciente una terapia preventiva. En el último caso un error deTipo I sería aceptable (por ejemplo, diagnosticar una enfermedad a una persona a partir de análisis clínicos). Sin embargo,el fallo en el diagnóstico de la enfermedad a partir de esos mismos análisis sería un error de Tipo II.

1.4. Comparación entre los valores verdadero y promedio: test t de una sola

variable

La distribución de un grupo de medidas alrededor de la media (x) se puede comparar con la correspondiente a unadistribución normal (µ) mediante el test t. Esta comparación puede usarse para mostrar la validez de las medidas. Sise sigue el protocolo indicado anteriormente, la hipótesis nula (Ho) dará como bueno que dos muestras (x, s y µ, σ)

5Prueba que se detalla más adelante en el texto.

5

Page 6: Aqa estadistica fundamental

CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA

Figura 1.2: Probabilidades α y β de los errores de tipo I y II.

pertenecen a la misma población, es decir, que si la desigualdad ente ellas es aleatoria, x = µ. Por el contrario, para probarla falsedad de la hipótesis anterior hay que considerar la hipótesis alternativa H1, esto es, que las dos muestras pertenecena poblaciones distintas.

Antes de realizar la comparación, es preciso fijar el nivel de confianza, es decir, hay que delimitar la probabilidad denegar la hipótesis nula cuando realmente ésta es verdadera. En la mayor parte de los casos este nivel es 0.05 (5 %) o 0.01(1 %). Por otra parte, si la desviación estándar (σ) de la muestra de una población es desconocida, habrá de utilizarseel test t de Student para hacer la comparación. Cuando es desconocido, el valor de t se puede calcular con la siguientefórmula:

tcalc =|x−µ|

s√

n (1.1)

donde s es la desviación estándar estimada de un conjunto de medidas n.

De esta manera, el valor calculado de t hay que compararlo que el valor crítico de t que le corresponde. El denominadotcrit depende del nivel de confianza elegido (α = 0.05) y del número de grados de libertad (f = n-1). Por lo tanto, el valorde tcrit (1−α/2, f ) habrá de tomarse de las tablas.

La comparación estadística entre los valores de tcalc y tcrit tendrá las siguientes consecuencias:

si tcalc <tcrit ⇒ habrá de aceptarse H0 y, por tanto, x = µ

si tcalc >tcrit ⇒ habrá de aceptarse H1 y , por tanto, x 6= µ

En el ejemplo precedente se ha realizado el test t de dos extremos (colas), esto es, el nivel de confianza elegido es 1 -α/2. Del mismo modo, se podría hacer la comparación mediante un test t con un solo extremo. Es decir, si se acepta ladesigualdad en sentido único en la hipótesis alternativa (x <µ o x >µ ) el valor de tcrit tabulado será tcrit(1−α, f ).

6

Page 7: Aqa estadistica fundamental

1.5. COMPARACIÓN DE VARIANZAS: TEST-F

Ejemplo 1.1

Supongamos que se realizado una valoración de Ca2+ con los siguientes resultados: 0.0268, 0.0263, 0.0274, 0.0271, 0.0278 y 0.0269

mol·dm−3. Si se quiere saber si la media de estos resultados puede compararse con la concentración verdadera (0.0286 mol·dm−3 )

habrá de realizarse la siguiente comparación:

CCa = 0.0270 mol·dm−3 y s = 0.0005 mol·dm−3

H0 : CCa = 0.0270 mol·dm−3 y el valor verdadero (0.0286 mol·dm−3) son semejantes

H1: La concentración media no proporciona un valor comparable al verdadero

El parámetro adecuado para esta comparación es el valor de tcalc, que se calcula como:

tcalc =|0,0270−0,0286|

0,0005

√6 = 7,383

tcrit(1−α/2, f ) = t(0,975,5) = 2.57

tcalc >tcrit ⇒ si se acepta H1 habrá que concluir que nuestros resultados no dan una concentración comparable con la verdadera.

Ejemplo 1.2

Supongamos que se ha realizado una determinación de nitrato en un agua potable. Los resultados obtenidos son 51.0, 51.3, 51.6 y

50.9 mg.l−1 y según la normativa la concentración máxima permitida es de 50 mg.l−1. Si se quiere saber si el agua examinada tiene

una concentración mayor que la establecida por la normativa habrá de realizarse la siguiente comparación:

CNO−3

= 51.2 mg.l−1 y s = 0.316 mg.l−1

tcalc =|51,2−50,0|

0,316

√4 = 7,59

En esta situación, hay que hacer una comparación de un único extremo (cola) ya que la cuestión es averiguar si la concentración es

mayor que la establecida en la norma.

tcrit(1−α, f ) = t(0,95,3) = 2.35 (un extremo)

tcalc >tcrit ⇒ Habrá de aceptarse H1 y concluir que la muestra tiene una concentración mayor que la permitida.

1.5. Comparación de varianzas: test-F

Para comparar las varianzas de dos grupos de medidas hay que aplicar el test F. Después de seguir el protocolo detalladoanteriormente, la hipótesis nula H0 aceptará que las varianzas son iguales y la hipótesis alternativa H1 que son diferentes.Como antes, después de fijar el nivel de confianza (α) se calculará el valor de Fcalc:

Fcalc =s2

1

s22

(s21 > s2

2) (1.2)

Teniendo en cuenta el nivel de confianza elegido y los valores de f1(= n1-1) y f2 (= n2-1), el valor de Fcrit se puedeencontrar en las tablas. Entonces, para hacer la comparación estadística:

si Fcalc ≤ Fcrit ⇒ habrá de aceptarse H0 y, por tanto, las varianzas son iguales.

si Fcalc > Fcrit ⇒ habrá de aceptarse H1 y, por tanto, las varianzas son distintas.

Ejemplo 1.3a.

Se ha determinado en dos laboratorios distintos el % de contenido de titanio de un acero mediante una técnica instrumental adecuada.

Los resultados obtenidos se muestran en la siguiente tabla y se desea averiguar si los dos laboratorios proporcionan resultados de una

precisión comparable o no.

Lab.1 0.470 0.448 0.463 0.449 0.482 0.454 0.477 0.409

Lab.2 0.529 0.490 0.489 0.521 0.486 0.502

Lab. 1: s1 = %0.0229

Lab. 2: s2 = %0.0182

7

Page 8: Aqa estadistica fundamental

CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA

Fcalc = s21

s22

= 0,02292

0,01822 = 1,58

Fcrit = F(1−α/2, f1, f2) = F(0,975,7,5) = 6.85

Fcalc ≤ Fcrit ⇒habrá de aceptarse H0 y, por tanto, los dos laboratorios muestran una precisión comparable.

1.6. Comparación de dos medias: test t de dos variables

La comparación de las medias de dos muestras se puede hacer de dos modos según sean las varianzas de esas muestras.

Muestra A: xa y s2a

Muestra B: xb y s2b

Cuando las varianzas son comparables: s2a ' s2

b

Es preciso calcular la varianza ponderada :

s2pond =

fas2a + fbs2

bfa + fb

(1.3)

y el valor de tcalc :

tcalc =(xa− xb)

spond

√nanb

na +nb(1.4)

para comparar con el valor tabulado de t(1−α/2, f ). En este caso, f = fa + fb.

Cuando la varianzas son diferentes: s2a 6= s2

b

En estas condiciones, el valor de tcalc se puede calcular directamente como

tcalc =|xa− xb|√

s2a

na+ s2

bnb

(1.5)

pero el numero de grados de libertad ponderado (f) se calcula mediante la ecuación siguiente:

f =

(s2a

na+ s2

bnb

)2

(s2ana

)2

na−1 +

(s2b

nb

)2

nb−1

(1.6)

Ejemplo 1.3b.

Después de concluir que las varianzas de los resultados en los laboratorios antes citados son equivalentes se quiere saber si las

determinaciones del contenido de titanio son equivalentes o no.

Lab 1:xa = %0.467

Lab 2: xb = %0.503

Dado que las varianzas de los dos grupos de medidas son equivalentes, hay que calcular la varianza ponderada:

s2pond =

7 ·0,02992 +5 ·0,01822

7+5= 0,0211

el valor de tcalc se puede calcular como

8

Page 9: Aqa estadistica fundamental

1.7. TEST T DE PAREJAS

tcalc =(0,467−0,503)

0,0211

√6 ·8

6+8= 4,07

Siendo el valor que se puede encontrar en las tablas de tcrit = t(0,975,12) = 2.18 menor que el de tcalc, no se puede mantener la hipótesis

nula. Por tanto, se puede concluir que las medias de ambos laboratorios son diferentes.

Ejemplo 1.4.

En la tabla siguiente se dan concentraciones de tiol (en mmol·dm−3) correspondientes a individuos sanos y enfermos de artritis

reumática.

Sanos 1.84 1.92 1.94 1.92 1.85 1.91 2.07

Enfermos 2.81 4.06 3.62 3.27 3.27 3.76

Según los resultados obtenidos se quiere saber si la concentración de tiol es significativamente más alta entre los enfermos que entre

la gente sana.

Los resultados analíticos se pueden resumir así:

Sanos n1 = 7 x1 = 1.921 s1 =0.076

Enfermos n2 = 6 x2 = 3.465 s2 = 0.440

En primer lugar se compararán las varianzas de ambos grupos de medidas. Para ello, se llevará a cabo el test F:

Fcalc =0,4402

0,0762 = 33,52

El valor encontrado en las tablas de Fcrit = F(0,975,5,6) = 5.988 . Como Fcrit <Fcalc, ha de concluirse que ambas varianzas son

diferentes.

Para hacer la comparación entre las concentraciones de tiol, se han de calcular los valores del numero de grados de libertad ponde-

rados y de tcalc:

tcalc =|1,921−3,456|√

0,0762

7 + 0,4402

6

= 8,44

fpond =

(0,0762

7 + 0,4402

6

)2

(0,0762

7

)2

6 +

(0,4402

6

)2

5

= 5,25' 5

Para ese número de grados de libertad el valor correspondiente de tcrit = t(0,95,5) = 2.02 (un extremo). Por tanto, al ser menor que

tcalc se puede concluir que la concentración de tiol es significativamente más alta.

1.7. Test t de parejas

A menudo, las muestras u objetos que se quieren comparar no son homólogos. Por ejemplo, si se quiere analizar laadecuación de dos procedimientos analíticos y las muestras sobre las que se aplican son de diferente tipo, no tiene ningúnsentido calcular las medias de esas muestras dado que dichas muestras pueden tener un origen y composición diferentes.Debido a ello, para poder realizar un test t significativo no se compararán las medias de los dos grupos sino las diferenciasentre los procedimientos para cada una de las muestras. En general, si estos dos procedimientos son equivalentes lasdiferencias entre las muestras no se desviarán del 0 de una forma significativa. Esta última comparación se puede llevar acabo mediante el test t para una única variable visto anteriormente.

Ejemplo 1.5.

En la siguiente tabla se muestran los resultados de la determinación de Pb efectuada con dos métodos diferentes. Ambos métodos se

han ensayado sobre cuatro muestras diferentes.

9

Page 10: Aqa estadistica fundamental

CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA

Muestra Oxidación por vía húmeda Extracción directa ∆

1 71 76 -52 61 68 -73 50 48 24 60 57 3

La media de las diferencias es de -1.75 y su desviación estándar de 4.99.

En este caso, se aceptará como hipótesis nula que la media de las poblaciones de las diferencias (µ) es cero ya que es la que considera

la ausencia de diferencias.

H0 : x = µ

H1 : x 6= µ

En las tablas se puede observar que tcrit = t(0.975,3) = 3.18 (dos extremos).

Por tanto, al ser este valor mayor que tcalc deberá mantenerse la hipótesis nula.

1.8. Distribución normal de medidas: Test de Kolmogorov- Smirnov

Muy a menudo, las pruebas estadísticas que se quieren aplicar tienen una validez limitada dado que solo se puedenaplicar cuando los resultados presentan una distribución determinada (la denominada distribución Normal o Gaussiana).A diferencia de otras pruebas, en el test de Kolmogorov-Smirnov se compara la función de distribución que se quiereexaminar (F(x)) con la función normal de distribución (F0(x)).

Como anteriormente:

H0 : F(x) = F0(x)

H1 : F(x) 6= F0(x)

Para hacer la comparación se habrá de tener en cuenta la máxima diferencia entre esas dos distribuciones (dmax) yse comparará con el valor crítico dcrit = d(1−α,n). Los valores de dcrit para una distribución normal se pueden encontrartabulados.

Ejemplo 1.6.

Con objeto de saber si las medidas espectrofotométricas recogidas en la Tabla 1.1 tienen una distribución normal o no se puede

realizar el test de Kolmogorov-Smirnov.

Para ello, en primer lugar hay que representar una función de distribución normal F0(x) correspondinete a una distribución de media

µ y desviación estándar σ. Mediante una hoja de cálculo como Excel se puede obtener y representar la correspondiente función F0(x)

una vez obtenidos los valores de la media x y la desviación estándar s de las medidas espectrofotométricas. Los valores de x y s se

utilizan como estimadores de los verdaderos valores de µ y σ de la población cuya normalidad se quiere comprobar, dado que estos

últimos son, en realidad, desconocidos.

Las medidas se han de ordenar en orden creciente y a cada medida se le asigna su orden entre el número total de medidas. De

esta forma se puede obtener el valor de la función F(x) correspondiente a cada una de esas medidas. Esta operación también se puede

realizar en Excel.

Una vez calculadas las dos funciones, la experimental F(x) y la correspondiente función teórica F0(x) habría que calcular su dife-

rencia máxima dmax y compararla con dcrit o, como se muestra en la Figura 1.3, observar si F(x) se encuentra dentro del intervalo de

confianza de F0(X).

1.9. Test de puntos marginales: Test Q de Dixon

De entre las comparaciones estadísticas, una de las más polémicas suele ser la detección de medidas extremas (puntosmarginales). Frecuentemente, se puede pensar que en un grupo de medidas hay una o varias que se alejan del resto ymuchas veces dichas medidas son eliminadas sin más. Existe más de una prueba para llevar a cabo esta eliminación confundamento estadístico. Sin embargo, cuando se sospecha de la presencia de una medida marginal, lo primero que sedebería preguntar es qué ha pasado para que esa medida se aleje del resto. A menudo, tras encontrar algún argumentotécnico que justifique ese resultado marginal, por ejemplo algún error en la medida o alguna mala anotación del resultado,

10

Page 11: Aqa estadistica fundamental

1.10. ANÁLISIS DE VARIANZA (ANOVA)

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

0.33 0.34 0.35 0.36 0.37

x

F(x)

Fo(x)

F(x)

Figura 1.3: Representación gráfica del test de Kolmogorov-Smirnov para comprobar la distribución normal de una serie de medidas.Además de las funciones F0(x) y F(x) se ha incluido el intervalo de confianza de como: F0(x) ± dcrit

antes de hacer la prueba estadística habría que corregir el error. Si no se puede justificar ni fundamentar esa medidamarginal se pueden emplear estas pruebas para dilucidar si la medida es marginal o debe considerarse junto con el restode las medidas.

En cualquier caso, el test de Q de Dixon utilizará el intervalo de las medidas. Por lo tanto, después de organizar las nmedidas en orden ascendente (siendo x1 el resultado más bajo y xn el más alto), únicamente las medidas extremas seránobjeto de análisis. Con esto, los valores de Qcalc se pueden calcular como:

Q1 =|x2− x1||xn− x1|

Qn =|xn− xn−1||xn− x1|

(1.7)

En estas condiciones, la hipótesis nula, por tanto, será que se acepte que esa medida pertenece a la misma poblaciónque el resto si Qcalc <Qcrit = Q(1−α,n).

Ejemplo 1.7.

En el análisis de suelos que contienen hidrocarburos aromáticos policíclicos (PAH’s) se han obtenido los siguientes resultados (en

mg.kg−1) para benzo[a]pireno:

5.30, 5.00, 5.10, 5.20, 5.10, 6.20, 5.15

Se puede utilizar el test Q para averiguar si el resultado más bajo y más alto son valores marginales. Por tanto, tras ordenar en orden

creciente los resultados:

x1 .. .. .. .. .. x7

5.00 5.10 5.10 5.15 5.20 5.30 6.20

y como Qcrit =Q(0,99,7) = 0.64 se puede concluir que el valor más bajo no es marginal mientras que el más alto si lo es.

1.10. Análisis de Varianza (ANOVA6)

El análisis de varianza se puede utilizar para analizar la influencia de una o más variables en un grupo de resultados.En este punto hay que distinguir entre variable y factor. La palabra variable tiene un significado amplio y, en muchoscasos, algunas variables no suelen tener influencia en los sistemas examinados. Aquellas variables que tengan influenciase denominarán, de ahora en adelante, factores. Para saber de antemano si una variable va a tener o no influencia en unsistema hay que examinarla exhaustivamente. Los resultados obtenidos se examinarán mediante ANOVA y la supuesta

6ANalysis Of VARiance

11

Page 12: Aqa estadistica fundamental

CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA

influencia quedará aclarada. En última instancia, es necesario diferenciar entre las variaciones de carácter aleatorio acae-cidas en un sistema y aquellas producidas por variables supuestamente influyentes. Para ello es necesario comparar ambascontribuciones sobre el conjunto de las medidas y decidir su nivel de significancia.

1.10.1. ANOVA de un solo factor

Supongamos que se quiere comprobar la influencia de una variable en un sistema. Para ello, se organizarán los experi-mentos para examinar esa variable en distintas condiciones y para cada una de las condiciones se realizarán una serie demedidas. Los resultados obtenidos de esta forma pueden presentarse de la forma que se indica en la Tabla 1.3:

Cuadro 1.3: Tabla de ANOVA de un solo factor

Niveles o gruposMedidas 1 2 : : : : q

1 y11 y12 y1q2 y21 y22 y2q:N yn1 yn2 ynq

Media y1 y2 yq ytotal

Para comprobar sistemáticamente la influencia entre los niveles o grupos, cada medida (yi j) puede expresarse de lasiguiente forma:

yi j = yo +(y j− ytotal)+ ei j (1.8)

donde

(yj− ytotal) es la variación de cada nivel o grupo

ei j es la variación o error aleatorio

La suma de los cuadrados de las diferencias (SStotal) entre los valores medidos y el valor medio de todas las observacionesytotal puede dividirse en dos grupos: la suma de cuadrados correspondiente a cada nivel o grupo estudiado (SS f act ) y lacorrespondiente a los residuos (SSR).

SStotal = SS f act +SSR (1.9)

Las sumas cuadráticas se definen de la siguiente forma:

SStotal =q

∑j=1

n

∑n=1

(yi j− ytotal)2 (1.10)

SS f act =q

∑j=1

n · (y j− ytotal)2 (1.11)

SSR =q

∑j=1

n

∑n=1

(yi j− y j)2 (1.12)

y las medias utilizadas:

ytotal =1

n ·q

q

∑j=1

n

∑i=1

yi j (1.13)

12

Page 13: Aqa estadistica fundamental

1.10. ANÁLISIS DE VARIANZA (ANOVA)

y j =1n

n

∑i=1

yi j (1.14)

La base de la comparación estadística es la relación entre SS f act y SSR, teniendo en cuenta el número de grados de libertadde cada una. Debido a que la comparación se ha de realizar entre las varianzas correspondientes a cada fuente de variaciónes necesario aplicar el test F. En lo referente al numero de grados de libertad, se puede hacer la descomposición siguiente:

ftotal = f f act + fR (1.15)

donde

ftotal = n·q - 1

f f act = q - 1

fR = q·(n - 1)

De acuerdo con la hipótesis nula, se aceptará que la varianza del factor y la varianza residual corresponden a la mismapoblación y, de acuerdo con la hipótesis alternativa, que la varianza del factor es significativamente más grande que laresidual. Por lo tanto, se podrá expresar Fcalc como:

Fcalc =SS f actq−1SSR

q(n−1)

(1.16)

Para el nivel de confianza elegido se podrá obtener Fcrit = F(1−α ,(q−1)/q(n−1) de la tablas.

Ejemplo 1.8.

Se ha llevado a cabo la determinación de potasio en agua por cuatro laboratorios. Los resultados (en mg.l−1) se han reunido en la

siguiente tabla:

LabMedidas 1 2 3 4

1 10.2 10.6 10.3 10.52 10.4 10.8 10.4 10.73 10.0 10.9 10.7 10.4

Media 10.2 10.77 10.47 10.53

Antes de compilar y examinar los resultados en su totalidad, hay que averiguar la influencia que pueda tener cada laboratorio. Para

ello, se han llevado a cabo los cálculos de ANOVA de un solo factor que se recogen en la siguiente tabla:

Fuente de variación f SS Var. F

Entre Lab. (SS f act ) 3 0.489 0.163 5.02Dentro de cada Lab (SSR) 8 0.260 0.0325

Total (SStotal) 11 0.749 0.0681

Fcrit = F(0,95,3,8) = 4.07 (un extremo). Por tanto, hay que destacar que las diferencias que hay entre laboratorios no se pueden atribuir

a una variabilidad aleatoria.

13

Page 14: Aqa estadistica fundamental

CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA

1.10.2. ANOVA de dos factores

Si se quiere examinar la influencia de dos variables que actúan a la vez en un sistema, habrá de utilizarse el ANOVA dedos factores para extraer conclusiones de los resultados. Si las variables son A y B se puede aceptar el siguiente modelo:

yi j = ytotal +(yAi − ytotal)+(yB

j − ytotal)+ ei j (1.17)

La disposición de los resultados experimentales se puede efectuar de acuerdo con la Tabla 1.4.

Cuadro 1.4: Tabla de ANOVA de dos factores

Variable B1 2 : : : q yA

i1 y11 y12 y1q yA

12 y21 y22 y2q yA

2Variable A :

p yp1 yp2 ypq yBp

yBj yB

1 yB2 yB

q ytotal

En este caso, se tendrá la siguiente distribución de las sumas cuadráticas:

SStotal = SSA +SSB +SSR (1.18)

y los niveles de significancia y numero de grados de libertad de cada elemento se han resumido en la Tabla 1.5.

Cuadro 1.5: Expresiones de las sumas y comparaciones de ANOVA de dos factores

Fuente de variación SS f F

SStotal

p

∑i=1

q

∑j=1

(yi j− ytotal) p·q-1

SSA q ·p

∑i=1

(yAi − ytotal)2 p-1 F =

SSA(p−1)SSR

(p−1)(q−1)

SSB p ·q

∑j=1

(yBj − ytotal)2 q-1 F =

SSB(q−1)SSR

(p−1)(q−1)SSR SStotal-SSA-SSB (p-1)(q-1)

Ejemplo 1.9.

Se quiere determinar la concentración de manganeso en una muestra de referencia de un acero. Para ello, han participado cuatro

laboratorios y cada uno ha utilizado tres procedimientos prefijados. Los resultados de esos ensayos se han recogido (en %) en la

siguiente tabla. Se quiere saber si los laboratorios y los procedimientos utilizados tienen influencia en los resultados obtenidos. Estos

son los siguientes:

Lab1 2 3 4 yproc

i

1 2.01 1.96 1.99 2.03 2.00Proc. 2 1.97 2.05 2.04 1.99 2.01

analítico 3 2.05 2.06 2.11 2.12 2.09

ylabj 2.01 2.02 2.05 2.05 ytotal=2.03

Mediante ANOVA de dos factores se pueden obtener los siguientes resultados:

14

Page 15: Aqa estadistica fundamental

1.11. COVARIANZA Y CORRELACIÓN

Fuente de variación SS f Fcalc Fcrit(0,95, fi, fr)

Total 0.02837 11Procedimiento 0.01752 2 6.67 5.14

Laboratorio 0.00297 3 0.753 4.76Residual 0.00788 6

Como se puede observar, mientras que las diferencias entre laboratorios no son significativas no se puede afirmar que las diferencias

entre los procedimientos sean aleatorias.

El método ANOVA no tiene, en este sentido, límites y puede extenderse a cuantos factores se necesite. Para ello, si seutiliza un programa de ordenador adecuado, los cálculos necesarios no son tan tediosos. Además, cuando existen muchasfuentes de variación se puede utilizar la regresión lineal en lugar de ANOVA.

1.11. Covarianza y correlación

Las métodos para el análisis de datos vistos hasta aquí son, en su mayoría, de aplicación en aquellos casos en los que semide únicamente una variable. Aunque la determinación de un único analito es una parte muy importante de las cienciasanalíticas, cada vez hay un interés mayor en el análisis multicomponente y en la utilización de medidas de múltiplesanalitos en el análisis de los datos. Los problemas asociados con la manipulación e investigación de medidas de múltiplesanalitos en una o varias muestras constituye una rama de la estadística aplicada conocida como análisis multivariante yes uno de los temas de mayor importancia en la quimiometría7. Sin pretender adentrase en procedimientos más avanzadosde esta disciplina se presentarán a continuación dos conceptos importantes como son los de covarianza y correlación.

La representación de datos multivariantes se simplifica bastante utilizando, como es común en la bibliografía científica,una notación matricial. De esta forma los datos se agrupan en matrices de dimensión n×m, donde n pueden ser los objetos(o, comúnmente, muestras) y m las variables (o, comúnmente, las medidas de alguna propiedad físico-química):

X =

x11 x12 ..... x1m

x21 x21 x21

... ...

xn1 xn2 xnm

(1.19)

De este modo, el conjunto de datos multivariantes se representa mediante la matiz X8 y cada uno de sus elementosmediante la notación xi j.

A modo de ejemplo, en la Tabla 1.6 se presentan los resultados del análisis (en mg·kg−1) de Na+, K+, Ca2+ y Mg2+

de 6 muestras diferentes.

Cuadro 1.6: Resultados del análisis de un agua mineral (mg·kg−1)

Muestra Na+ K+ Ca+2 Mg+2

1 10.8 1.6 41.3 7.22 7.1 1.1 72.0 8.03 14.1 2.0 92.0 8.24 17.0 3.1 117.0 18.05 5.7 0.4 47.5 16.46 11.3 1.8 62.2 14.6

Media 11.0 1.7 72.0 12.1Varianza 17.8 0.8 812.8 23.3

7La quimiometría es la disciplina que utiliza métodos matemáticos y estadísticos para (a) el diseño o selección de los procedimientos óptimos demedida y experimentación y (b) para la extracción de la máxima información química mediante el análisis de los datos químicos.

8La notación matricial se suele hacer normalmente con letras mayúsculas y negritas

15

Page 16: Aqa estadistica fundamental

CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA

La información de la tabla anterior se podría resumir dando la media y la varianza por cada muestra o por cada analito.Sin embargo, tal resumen no contiene demasiada información ni permite extraer ninguna conclusión sobre la relación,si la hubiere, entre las muestras y/o los analitos. Aunque se diga que las variables utilizadas son independientes, esto noquiere decir que no haya relación entre ellas. La relación entre las variables se puede indicar mediante su covarianza.

Se puede suponer que hay relación entre dos variables xi y x j si al aumentar el valor de xi el valor x j aumenta o si aldisminuir el valor de xi el de x j también disminuye. En este caso se dice que entre ambas variables hay una covarianzapositiva. Del mismo modo, si al aumentar el valor de una de ellas la otra disminuye se dice que la covarianza es negativa.Cuando la covarianza entre dos variables es grande (en valor absoluto) se pude suponer que existe una relación linealentre ellas. Si la covarianza es pequeña, se puede decir que ambas variables son independientes. La forma más sencilla deaveriguar si hay relación entre dos variables es representando una frente a la otra, como se muestra en la Figura 1.4.

Ur-minelara

R2 = 0.9456

0

1

2

3

4

0 5 10 15 20

Sodioa (mg·kg-1)

Po

tasi

oa

(mg

·kg

-1)

Ur-minerala

R2 = 0.0399

0

5

10

15

20

0 1 2 3 4

Potasioa (mg·kg-1)M

agn

esio

a (m

g·k

g-1

)

Figura 1.4: Ejemplo de correlación (dependencia) entre las concentraciones de sodio y potasio y de independencia entrelas concentraciones de potasio y magnesio de los datos recogidos en la Tabla 1.6.

La covarianza entre dos variables (xi y x j) se puede calcular por medio de la siguiente expresión:

cov(xi,x j) =∑

nk=1(xki− xi)(xk j− x j)

n−1(1.20)

Este cálculo se pude extender a todas las variables xi y x j y expresarlo en forma matricial (lo que se denomina matrizde covarianza) como:

cov(X) =XT Xn−1

(1.21)

donde XT es la matriz traspuesta de X .

Los valores de la covarianza, per se, no son demasiado informativos ni específicos. Por ejemplo, si se dice que unsistema la covarianza entre la presión y la temperatura es de 520 0C·atm, ¿significa ésto que la covarianza es grande? Delmismo modo, si la covarianza entre la concentración y la temperatura es 8.2 0C·mg·kg−1 ¿significa esto que es pequeña?

Sin lugar a dudas, la covarianza es una medida directa de la dependencia entre las variables de un sistema que, por otraparte, no se puede estimar de antemano si no se tiene un conocimiento preliminar del mismo. Aunque en la siguiente tablase recoge la matriz de varianza-covarianza correspondiente a los datos de la Tabla 1.6, éstos no ofrecen, por ahora, másinformación de relevancia.

Sodio Potasio Calcio Magnesio

Sodio 17.81Potasio 3.72 0.82Calcio 93.01 20.59 812.76

Magnesio 3.54 0.91 41.13 23.29

De la misma forma que la varianza depende de las unidades de medida, la covarianza sufre una dependencia similar.Para estimar el grado de interrelación entre las variables, independientemente de las unidades en que éstas se midan, ha

16

Page 17: Aqa estadistica fundamental

1.12. EJERCICIOS

de sustraerse la dependencia de cada una de las variables9. Para ello puede utilizarse el coeficiente de correlación. Elcoeficiente de correlación lineal entre dos variables xi y x j, ri j, se define como:

ri j =cov(xi,x j)

si∆s j(1.22)

La correlación puede expandirse en el intervalo de -1 a +1. Cuanto más cerca de +1, se dice que es más positiva lacorrelación y cuanto más cerca de -1, que es más negativa. En algunas ocasiones, cuando se quiere expresar la relaciónlineal entre dos variables se suele dar el coeficiente de correlación r2. En ese caso, este valor varía entre 0 y 1. En lasiguiente tabla se reune la matriz de correlación para el ejemplo del análisis de agua anteriormente expuesto:

Sodio Potasio Calcio Magnesio

Sodio 1Potasio 0.97 1Calcio 0.77 0.80 1

Magnesio 0.17 0.21 0.3 1

Mediante la correlación, la relación entre las variables se puede expresar muy fácilmente. En el ejemplo anterior sepuede observar una gran correlación entre sodio-potasio y potasio-calcio y una correlación pequeña entre sodio-magnesioy potasio-magnesio

Una última observación. La correlación, como método de expresión de una relación lineal es un concepto estadístico.Sin embargo, no es un parámetro que identifique necesariamente una causa con un efecto. Para establecer esta relación hade tenerse una comprensión más completa del sistema que se estudia ya que si se mezclan ambos conceptos10 se puedecaer en el riesgo de producir más confusión. A modo de ejemplo, se puede señalar un ejercicio estadístico llevado a caboen poblaciones rurales de Dinamarca. En dicho estudio se observó una correlación de 0.75 entre el número de cigüeñasque habitaban en dichas poblaciones y el número de niños nacidos por familia. Hoy día nadie podría pensar que, a pesarde la alta correlación observada, haya ninguna relación entre dichas variables.

1.12. Ejercicios

1. Se quiere determinar el contenido de Ag de los residuos de una mina para saber si la extracción de ese metal puedeser provechosa. Para ello, se realizó un diseño preliminar de la toma de muestras y de los análisis que proporcionólos siguientes resultados:

Análisis : Utilizando un material de referencia de las siguientes características: CAg = 12.18 mg·g−1, sAg = 0.12mg·g−1 (n=20), se obtuvieron los siguientes resultados (para dicho material) con el método empleado:

1 2 3 4 5 6CAg 12.12 12.25 12.60 11.93 12.25 12.07

Recogida de Muestras: Se prepararon tres lotes de residuos (A, B y C) y de cada uno se realizó el análisis de diezsubmuestras. Tras llevar a cabo todo el procedimiento en dos días se obtuvieron los siguientes resultados:

9Se entiende aquí que las variables han de tener la misma escala (operación que, en sentido más amplio, se suele denominar ’escalado’ de un valor ofunción).

10es decir ’gran correlación’ ≈ ’relación causa-efecto’

17

Page 18: Aqa estadistica fundamental

CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA

1er día 2o díaA B C A B C

1 19.63 19.98 18.77 19.72 20.85 19.922 20.22 20.95 19.64 20.11 19.83 18.613 19.87 19.90 18.48 19.80 20.09 18.814 20.43 20.95 19.13 20.46 21.00 18.475 19.54 19.77 19.14 20.41 20.79 19.906 20.26 20.91 19.54 19.98 19.70 18.527 19.52 20.38 19.99 20.02 20.52 19.448 20.39 20.73 18.89 19.71 20.59 19.529 19.83 20.12 18.47 20.07 20.44 18.3310 20.48 20.48 18.91 19.63 20.69 20.16

Sirviéndose de esos resultados se quieren aclarar las siguientes dudas:

a) ¿Es adecuado el método analítico utilizado para determinar Ag? Compara la precisión y exactitud de las

muestras de referencia.

b) ¿Son homogéneos los lotes preparados (A, B y C)? Examina la normalidad de la concentración de Ag de

cualquier lote.

c) ¿Se puede aceptar que los diferentes lotes (A, B y C) son comparables? Se puede saber ésto utilizando ANOVA

para los lotes de un día.

d) ¿Son comparables los resultados obtenidos en días diferentes? Se puede hacer la comparación mediante mues-

tras emparejadas.

e) ¿Cual sería el contenido de Ag de esos residuos que se podría dar?

2. Utilizando dos métodos distintos, se ha medido el contenido de Ti en cinco muestras diferentes con los siguientesresultados:

A B C D E

Met.1 0.0134 0.0144 0.0126 0.0125 0.0137Met. 2 0.0135 0.0156 0.0137 0.0137 0.0136

Al 95 % de confianza, ¿proporcionan ambos métodos resultados comparables?

3. El contenido de calcio de la orina de un enfermo se ha medido en dos días diferentes obteniéndose los siguientesresultados:

Día Media (mg·l−1) No de determinaciones

1 238 42 255 5

Tras examinar un gran número de muestras, este método ha proporcionado una desviación estándar de 14 mg·ml−1.Establecer si los resultados correspondientes a los dos días son comparables con un nivel de confianza del 95 %.

4. Se han comprobado los resultados de un método nuevo para la determinación de Sb en la atmósfera por absorciónatómica con los obtenidos mediante el método habitual espectrofotométrico. Los resultados de distintas muestrasde atmósfera ciudadana se recogen el la siguiente tabla:

18

Page 19: Aqa estadistica fundamental

1.12. EJERCICIOS

Sb mg·m−3

Muestra Met. nuevo Met. habitual

1 22.2 25.02 19.2 16.53 15.7 16.64 20.4 21.35 19.6 20.76 15.7 16.8

¿Se puede afirmar que los resultados de ambos métodos son comparables?

5. Para examinar la persistencia de los pesticidas en suelos agrícolas se han tomado a modo de ejemplo el DDT yun derivado ácido. Para hacer estos análisis, se ha llevado a cabo la extracción asistida por microondas usando dosprocedimientos: uno con agua/n-decano y otro con ácido acético/n-decano como disolventes. Junto con los valoresde CDDT = 49.6 ± 2.6 ng ·g−1 y Cderiv = 26.2 ± 1.5 ng·g−1 (n = 15), obtenidos para una muestra de referenciacertificada, en la siguiente tabla se recogen los resultados obtenidos:

Muestra Agua / n-decano HAc / n-DecanoDDT Derivado DDT Derivado

1 37.2 24.3 49.7 27.22 38.4 27.5 51.3 25.03 38.3 28.7 52.2 26.64 36.5 27.7 48.3 25.75 41.9 23.0 51.2 26.26 37.5 30.9 49.1 24.6

Por otra parte, con objeto de examinar la persistencia, se obtuvieron los resultados recogidos en la siguiente tabla:

Tiempo (días) 1 4 12 20 30 60 90

DDT (ng·g−1) 918 923 939 927 931 923 911Derivado (ng·g−1) 214 212 208 200 191 165 142

a) Usando los fundamentos estadísticos, ¿cual es la técnica de extracción más adecuada para analizar los doscompuestos?.¿Por qué?

b) Teniendo en cuenta los métodos utilizados para tratar las muestras, ¿a que le atribuirías las diferencias entrelas técnicas de extracción?

c) Explicar las conclusiones del análisis de las muestras en función del tiempo.

6. Se sabe que la concentración de ácido bórico de un colirio para los ojos es de 3.0 ± 0.17 mg.ml−1. Dicho esto,si se sabe que debido a las necesidades de producción se obtiene una precisión del 5 %, da algunos ejemplos deresultados de análisis con un nivel de confianza del 95 %.

7. Se han tomado muestras de agua de una ría a diferentes profundidades y además del pH y la conductividad se hanmedido las concentraciones de Fe y Mn con una filtración previa de las mismas (filtro de 0.45mm) y sin ella. losresultados obtenidos se recogen en la siguiente tabla:

19

Page 20: Aqa estadistica fundamental

CAPÍTULO 1. FUNDAMENTOS DE ESTADÍSTICA

Profundidad Mn (ng/ml) Fe (ng/ml) pH λ

(m) φ Filtrada φ Filtrada (mS)

0 0.55 0.43 2.12 1.98 8.03 30.20.5 0.58 0.44 2.15 2.05 7.99 29.81 0.62 0.46 2.17 2.11 7.96 29.6

1.5 0.65 0.45 2.22 2.12 7.97 28.32 0.85 0.58 3.19 2.58 7.68 12.6

2.5 0.89 0.6 3.22 2.6 7.66 8.63 0.88 0.61 3.23 2.61 7.67 7.3

3.5 0.90 0.60 3.22 2.59 7.66 6.9

a) ¿Tiene alguna influencia el proceso de filtrado en los resultados de Fe y Mn?

b) ¿Se puede dar algún resultado analítico representativo de alguna variable o parámetro químico de la muestrade agua?

c) ¿A que atribuirías la variabilidad observada?

8. La determinación de Vitamina E en un aceite vegetal se ha llevado a cabo con el método habitual voltamétrico ypor medio de análisis por inyección en flujo (FIA). Se han obtenido los siguientes resultados (en %):

Método 1 2 3 4 5 6 7

Met. Voltamp. 32.1 32.3 31.9 32.1 32.0 32.1 31.8FIA 31.9 31.8 31.7 31.8 31.6 31.9 31.8

Discutir si ambos métodos proporcionan resultados comparables o no.

20