Quimiometría

5/16/2018 Quimiometr a - slidepdf.com

http://slidepdf.com/reader/full/quimiometria-55b07bcf33691 1/16

Bloque 0: Validación de los métodos analíticos

Validar: establecer mediante estudios sistemáticos de laboratorio que las características técnicas de un

método de análisis cumplen las especificaciones relativas al uso previsto (que el método da un resultado

fiable). Hay que buscar un equilibrio entre exactitud, rapidez, coste y seguridad.

Es necesario validar equipos, instrumentos, material (reactivos), exactitud, precisión, LOD, LOQ, rango lineal

de trabajo, etc., todo cuanto pueda influir en el resultado.Hay que validar hasta donde sea económica y técnicamente factible (demostrar que las cosas se hacen bien

dentro de las posibilidades).

Etapas del proceso analítico:

Definición del problema por el cliente

Definir análisis para el problema

Seleccionar muestras

Estrategia de la muestra (operaciones previas)

Análisis (separación y detección)

Procesamiento y almacenamiento de datos

Evaluación e interpretación de resultados

Control de calidad:

El control de calidad usa herramientas y técnicas de control que hacen que no sea necesario repetir todas

las muestras, sino que, por ejemplo, se repiten solo las muestras de control. Con la repetición del análisis:

Se verifica que sólo han ocurrido errores aleatorios

Se gana confianza en nuestro trabajo

Sabemos que experimentos repetidos nos dan un mejor resultado

Matemáticamente, la tendencia central de una serie es más representativa del valor teórico/verdadero.

Como los resultados no son exactamente los mismos, se puede preparar una medida que evalúe la

dispersión de los valores.

Campana de Gauss:

Si se representan los resultados repetidos en una gráfica:

Se ve si todos están concentrados en una zona

Se puede evaluar la dispersión

Se comprueba que algunos valores aparecen con más frecuencia

La mayoría de los valores están en torno al valor más freucente

Los datos se distribuyen de manera más o menos simétrica

Si aparece un dato alejado de la zona, se evalúa estadísticamente si pertenece o no a la distribución

Para describir estadísticamente un conjunto de datos:

Caracterizar el conjunto de datos en el espacio (hay que fijar la escala de trabajo, unidades)

Caracterizar la localización por un nº que representa todo el conjunto de datos (un promedio). Se

denomina tendencia central

Describir el tamaño del conjunto de datos explicando cuanto se dispersa en torno al valor característico

central (medidas de dispersión)

Esta distribución alrededor de la tendencia central se denomina campana de Gauss (adimensinal)

Casi todos los conjuntos se pueden describir con la ecuación de Gauss. Hacen falta 2 parámetros para



describir una distribución Gaussiana: la desviación estándar (mitad de la anchura de la campana a la

semialtura) y la tendencia central (centro de la campana). La media se escribe con una cifra significativa más

que los datos de origen y la desviación estándar con dos.

Desviación estándar. Existen dos fórmulas diferentes:

DE=Σ(xi-x)2/(n-1) Se utiliza cuando existen más de 30 datos

DE=√(nΣ(xi)2

-Σ(x)2)

/n(n-1) Se utiliza cuando tenemos menos de 30 datosEn muchos casos es habitual dar la desviación estándar relativa (o coeficiente de variación) que es

adimensional. DER=DE/xmedia·100

Tendencia central. Se puede describir con los siguientes parámetros:

Media aritmética

Mediana: valor central tras ordenar los datos de menor a mayor o viceversa. Es un método robusto que

apenas se ve afectado por la existencia de anómalos.

Media geométrica: es la raíz n-ésima del producto de n valores. Debe usarse cuando los resultados sean

porcentajes.

Media de medias: se utiliza si los n son muy diferentes entre si.

x=(n1 x1+n2x2+...+nn xn )/(n1+n2+...+nn)

Hay que tener cuidado con la media y la desviación estándar debido a que son parámetros muy sensibles a

la exictencia de datos anómales y la media aritmética no se puede aplicar siempe, en ocasiones es

necesario usar la media geométrica (porcentajes, distribucciones binomiales,...)Si la campana de Gauss no

es simétrica, se necesitan además otros dos parámetros:

Skewness (g1, simetría). Describe la simetría de la distribución

Simétrica (gaussiana) =0

Asimétrica a la izquierda <0

Asimétrica a la derecha >0

Kurtosis (g2). Describe si la distribución es apuntada o chata.

Distribución gaussiana =0

Distribución apuntada sin colas >0

Distribución chata con colas <0

En ocasiones los datos no se ajustan a una distrubucción Gaussiana pero la estadística está diseñada para la

distribucción gaussiana, por lo que no se podría aplicar la estadística en estos casos. Como nos conviene

trabajar con distrubucciones de Gauss se utiliza el teorema del límite central o de Chevichev que demuestra

que aunque un conjunto de resultados repetidos no siga una distrubucción gaussiana, la distribucción de las

medias que podríamos tener tomando pequeños subconjutos de los datos, sí tienen una distribucciónGaussiana y en caso de no ser así, la distribucción de las medias de las medias si seguiría esta distrubucción.



Bloque 1: Exactitud y precisión

Precisión: Grado de mutua concordancia que existe entre los resultados cuando se evalúa repetidas veces la

misma muestra la misma muestra en las mismas condiciones experimentales. Se interpreta como la

dispersión de los valores experimentales en torno a la media aritmética. Se calcula usando la desviación

estándar (SD). Un bajo valor de SD significa elevada precisión.

La precisión necesaria depende de lo que necesite el cliente. Si un método no es lo suficientemente preciso

hay que descartarlo. En cambio, si es preciso pero poco exacto sí podría usarse, corrigiendo los resultados alsaber cuánto difieren del valor verdadero (error sistemático).

Dentro de la precisión se tiene:

- Repetibilidad (r): Grado de concordancia entre 2 resultados independientes obtenidos por el mismo

trabajador, mismo equipo, mismos reactivos, en condiciones de trabajo idénticas (análisis

consecutivos). Suele considerarse como la SD a corto plazo (hay que hacer más de 2 medidas)

- Reproducibilidad (R): Grado de concordancia entre 2 resultados independientes obtenidos por

diferentes trabajadores, equipos, reactivos, condiciones de trabajo. Se considera como la SD a largo

plazo.

Evaluación de la exactitud

- Exactitud/veracidad: Grado de concordancia entre el valor de las medidas experimentales y el “valorcierto”.

- Sesgo: Diferencia entre el valor experimental calculado (normalmente es la media) y el valor “cierto”.

Evalúa qué diferencia promedio cometemos al aportar nuestros resultados con respecto a un proceso

de medida “perfecto”. (valor verdadero-Valor cierto)

Formas de evaluar la exactitud en el laboratorio

Materiales de referencia certificados: Muestras reales que han sido analizadas por un conjunto elevado

de laboratorios internacionales de prestigio en condiciones de control estadístico. Los resultados paran

por una serie de criterios estadísticos para alcanzar un valor promedio que se certifica como cierto.

Procedimiento:

o Medir CRM con nuestro método de análisis (5-7 réplicas)

o Aplicar t de Student para verificar igualdad.

o Si hay diferencias, revisar el proceso analítico y, si es necesario, modificarlo.

Métodos de referencia: Métodos aceptados a nivel internacional o nacional como buenos si se aplican

correctamente (personal adecuado y con experiencia). Procedimiento:

o Se analizan las muestras por ambos métodos (el oficial y el que se va a evaluar).

o Se establece una correlación entre ambos métodos (regresión). Son estadísticamente iguales sila pendiente es 1 y la ordenada en el origen es 0. Si no es así habrá un sesgo que se puede

evaluar.

o Alternativa: Aplicar test de Student de las diferencias.

Ejercicios interlaboratorio: Si no se pueden aplicar alguno de las opciones anteriores debe buscarse una

integración en procesos de intercomparación que se llevan a cabo entre varios laboratorios. Si se trata

de evaluar cómo trabajamos se usan los “profecity test”: Todos los laboratorios analizan las mismas

muestras y los resultados se analizan por procedimientos estadísticos. Participar en estos ejercicios

cuando se tenga experiencia. Subproducto: No se tiran las muestras porque pueden servir como

materiales de referencia sin certificado.

Porcentaje de recuperación analítica: Muchas veces no se pueden usar ninguna de las opciones

anteriores., por tanto, no se puede hacer una evaluación total de la exactitud. En los estudios de



recuperación analítica se añade una cantidad conocida de analito (sobrecarga) a la muestra y se calcula

cuánto se recupera. La muestra con sobrecarga se denomina muestra fortificada. El analito añadido no

va a comportarse igual que el analito de la muestra (diferentes interacciones con la matriz).

% recuperación = ([Muestra fortificada]-[Muestra])/[sobrecarga]

Se hace para diferentes concentraciones añadidas que abarquen todo el intervalo de trabajo.

Detección de datos anómalos

Test de Dixon (q): Se ordenan los datos de menor a mayor x siendo los datos sospechosos los de los

extremos. Si el estadístico experimental es superior al valor tabulado existen evidencias estadísticas para

rechazar la hipótesis nula (H0= el dato pertenece a la distribución experimental). La fórmula varía según el

número de datos (tablas Dixon):

Test de Grubs (G): Se prefiere al anterior, especialmente cuando hay pocos datos. El proceso es el mismo

pero se calcula el estadístico G: G= (xmedia- sospechoso)/SD.

Cuando las conclusiones del test de Dixon y Grubbs no coinciden, se le da preferencia al test de Grubbs.

Los test de Dixon y Grubbs asumen que los datos siguen una distribución normal (gaussiana) porque:

La mayor parte de la estadística que conocemos está desarrollada considerando distribuciones gaussianas.

Es una evidencia experimental, que cuando se repiten los experimentos muchas veces, la distribución que

se obtiene tiende a la distribución normal.

Teorema del límite central: Aunque un conjunto de resultados repetidos no siga una tendencia gaussiana,

la distribución de las medias que podríamos tener tomando pequeños subconjuntos de datos sí tiende a

seguir una distribución gaussiana. En el caso de que no fuese así, la distribución de las posibles medias

de esas medias sí seguiría una distribución normal.

Comparación de las varianzas

Test de Cochran: Usado para comparar más de dos varianzas, en concreto, si una varianza es mayor que

otra (por ejemplo, si un trabajador presenta más dispersión de resultados que los otros). No hay análogo

para determinar varianzas sospechosamente bajas. En ese caso, se puede usar un subproducto del ANOVA,

que en principio sirve para comparar medias. Procedimientos:

- Se suman todas las varianzas.

- Se calcula es estadístico.

- Si es mayor que el resultado tabulado (5% de error, 1 cola) hay evidencias para rechazar la hipótesis

nula (H0= no hay diferencias entre las varianzas).

Test de cochran= s2

mayor/∑s2

Test de Fisher: Se utiliza para comparar dos varianzas

F= smayor2/smenor

2

Intervalos de confianza

Al repetir las experiencias se obtienen diferentes resultados. ¿Cuál es el valor que damos? No es posible

conocer con total certidumbre los parámetros estadísticos de un conjunto de resultados ya que sólo

tenemos una parte de los datos. Se pueden ofrecer estimaciones y enmarcarlo en un intervalo en el cual se

tiene una alta confianza de encontrar el valor verdadero de ese parámetro (intervalo de confianza).

De una serie de resultados se puede decir que hay un porcentaje de confianza de que el valor promedioverdadero esté dentro del intervalo y que la mejor estimación de dicho valor es el valor medio

experimental.



Student determinó que podía calcularse un factor que corregía la diferencia de la distribución experimental

de los datos y la distribución teórica. Este factor depende de “n” y del porcentaje de error tipo I dispuestos

a asumir. (Error tipo I: falso positivo)

La t de Student es una gaussiana un poco modificada (algo más baja que la distribución de Gauss). Controla

los errores tipo 1 al 5 % pero deja libre los errores tipo 2.

Haciendo uso del factor de Student se puede definir un intervalo en torno al valor medio experimental

(mejor estimación del valor verdadero), de forma que al nivel de confianza elegido estemos “seguros” de que contiene el valor real o el valor medio teórico.

El intervalo de confianza más usado es el de 95%. Esto supone que como mucho nos equivocados (error

tipo 1) un 5% de las veces. El error tipo 2 es del 50%, ya que este test no lo controla.

Si texp<ttab: No se rechaza la hipótesis nula (x media=valor verdadero).

Para hacer esta comprobación se necesitan al menos 5 o 6 valores, ya que con menos valores es más facil

que se acepte la hipótesis nula.

Comparar dos medias experimentales

Los resultados de un método analítico nuevo se pueden contrastar mediante comporación con los

obtenidos utilizando el segundo método (uno de referencia). En este caso tendremos dos medias

muestrales. Tomando como hipótesis nula que los dos métodos proporcionen el mismo resultado, es decir

H: x1=x2, se necesita probar si x1-x2 difiere significativamente de 0. Procedimiento:

1) Comparar las varianzas para elucidar la modalidad del test de Student que hay que aplicar. El test F

de Fisher permite comparar dos varianzas. Como el valor del test F siempre es mayor que 1 (se

divide el valor grande entre el pequeño), el error sólo se puede cometer por exceso, por tanto, las

tablas del test F son tan sólo de una cola.

2) MODALIDAD A: Test de Student para comparar medias con varianzas comparables.

Si n<30 y ambas series siguen una distribución normal, la t experimental se calcula de la siguiente forma:

Los test de Student suelen ser de 2 colas (error tanto por exceso como por defecto). Sin embargo, si nos

preguntan si un valor es mayor o menor que otro, se usa el test de una cola.

El término de S2

es una SD combinada. La forma de combinar las SD es a través de la varianza (sólo se

pueden hacer operaciones con la varianza). Si texp<ttab, no hay evidencias estadísticas para rechazar la

hipótesis nula (H0=las medias son comparables). Consideramos n1+n2 -2 como los grados de libertad paramirar la t tabulada.

- MODALIDAD B: Test Student-Cochran.

Se usa para comparar dos medias cuando las varianzas no son comparables. Es necesario calcular el número

de grados de libertad (se redondea al número más próximo):



Test t de las diferencias (contraste t para datos emparejados)

Es aplicable cuando las muestras están “aparejadas”, típico para comparar si 2 métodos dan resultados

comparables en un rango de valores.

Se calculan las diferencias entre las muestras aparejadas y se reduce a un test de Student clásico donde el

valor teórico es 0, ya que si todo fuera “perfecto” todos los valores de la resta serían 0 (valor verdadero).

Cada miembro de la resta puede ser un valor individual o una media. En este caso, para cada serie las

medias provienen del mismo número de réplicas, aunque no es imprescindible que sea el mismo número

de réplicas que las obtenidas para el método 2. Gdl=nº de parejas – 1.

Si el rango de valores es alto, existen problemas estadísticos para la validez del método, por tanto, es mejor

aplicar la regresión. Al usar la regresión, se representa el método 1 frente al método 2. La pendiente tiene

que ser 1 y la ordenada en el origen 0.

Otras definiciones

- Selectividad: capacidad de un método para determinar un compuesto particular sin interferencias de

los componentes de la matriz. Un método perfectamente selectivo, capaz de determinar unívocamente

el analito, es un método específico.

- Sensibilidad : Es la pendiente de la recta de calibrado. Variación en la intensidad de la señal que se

obtiene por unidad de concentración. Cuanto mayor sea la pendiente de calibrado, mayor sensibilidad.

La mejor forma de incrementar la sensibilidad es preconcentrar (operaciones previas).

- Exactitud: Incluye “veracidad y precisión”. La veracidad se evalúa con un test t de Student. Se

demuestra con un CRM, métodos de referencia, ejercicios interlaboratorio, recuperación analítica. La

precisión se evalúa con la SD, SD2, r y R comprobando que no dependen de la concentración. Incluye

repetibilidad y reproducibilidad. Hay que hacer réplicas para comprobar que no hay anómalos y dar los

resultados con intervalos de confianza.

- Blanco de calibrado: se prepara igual que el resto de las disoluciones patrón, pero sin el analito. Sirve

para comprobar errores durante la determinación analítica. Se restaría a los puntos del calibrado

acuoso en caso de que la ordenada en el origen de la recta de calibrado no fuera estadísiticamente igual

a 0.

- Blanco de procedimiento: se siguen las mismas etapas realizadas con la muestra, pero sin la muestra. Es

útil para comprobar si añadimos pequeñas contaminaciones (cantidades de analito que realmente no

pertenecen a la muestra). La señal obtenida para el blanco de procedimiento se resta siempre a las

señales de las muestras. Sólo se resta a las disoluciones que contienen muestra. Si no se trata la

muestra, no se empleará el blanco de procedimiento

Importante: cuando tenemos blanco de calibrado, hay que evaluar si la ordenada en el origen del calibrado

es estadísticamente cero. La ordenada corresponde al blanco de calibrado, a los reactivos necesarios parahacer la medida. El blanco de procedimiento incluye al blanco de calibrado. Si la ordenada en el origen del

calibrado no fuese estadísticamente cero, estaríamos restando dos veces la contribución del blanco de

calibrado a la muestra.

ANOVA (ANalysis Of Variance)

Se utiliza para comparar más de dos medias. El razonamiento es comparar antes varianzas (no medias,

directamente) para decidir si alguna media tiene asociado un error excesivo; por tanto, concluir que esa

media tiene algún sesgo asociado y no es comparable al resto.

ANOVA no sirve para comparar 2 medias (ya que se quedaría con 1 grado de libertad y eso no vale para

nada)

Formalmente partimos de que:

1. Las series de datos son independientes2. Cada serie de datos sigue una distribución normal

3. Las varianzas de cada serie son comparables



Definiciones:

Factor : fenómeno que puede provocar diferencias entre las medias. Si sólo se considera 1, se llama

ANOVA de una vía; si se consideran 2, ANOVA de dos vías, etc.

Niveles: los diferentes valores del factor a considerar

Replicado: cada dato de la serie, cada nivel del factor tiene sus propios replicados, que dan lugar a las

medias a comparar

Procedimiento:

En primer lugar se calcula la varianza usando todos los datos (de todos los niveles)

Se calcula la varianza de cada nivel

Se calcula la varianza entre los niveles

Se comparan las varianzas de cada nivel con la varianza entre los niveles para determinar si alguna es

estadísiticamente diferente utilizando un test de Fisher.

Factor Replicados Suma por filas Media de cuadrados

Nivel 1 x11 x12 …. x1a R1 R12/a

Nivel 2 x21 x22 …. x2b R2 R22/b

…..

Nivel r xr1 xr2 …. xrz Rr Rr2/z

S2=∑xii

N=a+b+....+z

T=∑R

TC= T2/N

SF=∑Ri2/i

Los resultados se ordenan en la siguiente tabla:

Fuente de variación Suma decuadrados

Grados delibertad

Cuadradopromedio

Fexp Ftab

Total (entre niveles) SQT=S2 - TC VT=N-1 --- --- ---

Total (dentro nivel) SQF=SF -TC VF=r-1 CMF= SQF/VF CMF/CMR F(%;VF,VR)

Residual SQR= SQT - SQF VR=VT -VF CMR = SQR / VR

Incertidumbre

La incertidumbre de un resultado es un parámetro que describe un intervalo dentro del cual se espera que

se encuentre la cantidad medida, teniendo en cuenta todas las fuentes de error (parámetros influenciales).

Los intervalos de confianza se asocian a datos; la incertidumbre no se aplica al resultado, sino al método

analítico

La incertidumbre del método analítico siempre es mayor que el intervalo de confianza (incertidumbre →propagación de errores). En la incertidumbre consideramos todo lo que puede influir en el resultado.



Diferencias básicas entre error e incertidumbre:

El error está asociado a un resultado particular La incertidumbre es de método (aplicable

a todas las muestras

El error/sesgo es un parámetro asociado a unresultado

La incertidumbre es un rango de valores

El sesgo se puede utilizar para corregir los

resultados

La incertidumbre no se puede usar para

corregir los resultados

El error aleatorio disminuye con el número de

muestras

La incertidumbre no disminuye con el

número de muestras

La incertidumbre no se puede interpretar como error asociado a un resultado

Definición rigurosa de incertidumbre:

Rango de valores asociado a la medida mediante un método analítico que caracteriza la dispersión de

valores que, razonablemente, puede ser atribuible al mesurando. La incertidumbre se calcula como una

desviación estándar, a partir de la combinación de la desviación estándar de todos los parámetros

influenciales.

K·uc(x)=U

K es un factor de expansión, que convierte uc(x) en un rango. K es muy parecido al factor t-Student.

Etapas en el cálculo de la incertidumbre:

1) Especificar claramente cual es el mesurando. Equivale a definir un protocolo de trabajo no ambiguo (debe

especificar claramente cada etapa: velocidad y tiempo de agitación, estado de oxidación del metal, equipo

utilizado, instrumentos). Es conveniente buscar relación matemática entre el mesurando y los parámetros

influenciales.

2) Identificar fuentes de incertidumbre (parámetros influenciales). Se hace una lista con todas las posibles

fuentes de incertidumbre, en primer lugar se tienen en cuenta aquellos parámetros que aparecen en la

ecuación y a continuación se buscan otros parámetros que influyan en los que ya tenemos y se construye el

diagrama de Kaoru Ishikawa (diagrama causa-efecto o de espina de pescado).

3) Evaluar la incertidumbre asociada a cada parámetro influencial. Hay dos arpoximaciones:



Se evalúa por separado cada parámetro influencial y se combinan mediante la regla de propagación de

errores.

Se evalúan varios parámetros en conjunto aprobechando validaciones de métodos.

Fórmulas utilizadas:

a) regla general para evaluar la incertidumbre de una función:

b) incertidumbre de la suma (resta):

c) incertidumbre del producto (cociente):

4. Combinar todas las incertidumbres que hemos ido evaluando para calcular la incertidumbre combinada.

Existen dos métodos.

4.1 Calcular cada una de las incertidumbres estándar asociadas a cada uno de los

parámetros influenciales y se combinan. Esto es muy complejo y muy laborioso.4.2 Determinar la incertidumbre estándar de varios parámetros conjuntamente, utilizando

estudios típicos de validación. Así, evitamos calcular la repetibilidad de cada uno.



Ejemplo NaOH

Etapas 1 y 2:

c(NaOH) = 1000.peso(KHP)*pureza(KHP)/V(NaOH) Pm (KHP)

Peso (KHP)=0,511g

Nos ponemos en el peor de los casos:distribución rectangular.

n(m(KHP)=0,15/√3=0,087mg

Volumen (NaOH)= 24,49 ml (medido con bureta) Declaración fabricante (tipo A) 50ml ± 0,05 ml

Conocemos su I.C ¿que es?:SD, I.C. Incertidumbre

En un matráz aforado y en la bureta se asumen distribuciones triangulares

n=0,05/√6=0,02mL

Sesgo presente en la determinación visual del cambio de color en la valoración.

Al ser un método absoluto, y haber descartado el problema del CO 2.No se considera la existencia de sesgo

en el método de trabajo.

Efecto de la temperatura: Expansión vidrio//líquido (agua)

Según el Handbook el coeficiente de expansión del agua (la del vidrio es menor y se desprecia en este

intervalo tan pequeño es 2,1x10-4

Variación Tª : ±

…...



Bloque 2: calibración univariante

Las técnicas instrumentales usadas en Química Analítica son métodos relativos de análisis. El calibrado

permite obtener una relación funcional entre la señal que podemos medir y el producto de interés.

Proceso de calibrado:

1) Preparación de muestras en el laboratorio donde variamos controladamente la magnitud de la

propiedad a medir.

2) Medida de esas muestras con valor conocido de esa propiedad. Se miden del mismo modo que las

muestras problema.

3) Estudiamos la relación empírica medida-propiedad. La formalizamos en una ecuación, para ello se

utiliza el ajuste por mínimos cuadrados.

4) Medimos la señal de las muestras desconocidas y evaluamos la propiedad de interés.

Nunca se puede extrapolar usando un calibrado ya que no conocemos el comportamiento del analito fuera

de la zona del calibrado.

La calibración puede corregir errores sistemáticos (ya que afectan por igual a patrones y reactivos) pero

siempre va a haber errores, al menos, aleatorios.

Ajuste por mínimos cuadrados:

En el calibrado se obtiene una recta que se ajunta a la función……..

En un calibrado siempre se prefiere el ajuste lineal, debido a que:

1) Se trata de explicar una relación causa-efecto. La línea recta es el modelo más sencillo e interpretable.

Sólo se trata de un modelo, no de una realidad. Cuanto más aumenta la dimensionalidad se complica el

comportamiento físicoquímico.2) En la mayor parte de los casos, la línea recta funciona dentro de un cierto rango. Hay excepciones, por

ejemplo la radioactividad es por naturaleza un comportamiento exponencial.

3) La matemática de las rectas es cómoda y sencilla.

4) La estadísitica asociada a la línea recta es muy conocida, fácilmente disponible e interpretable.

5) Tiene significado fisicoquímico inmediato.

6) Muchos sistemas físicos y químicos verfican la relación.

Es un modelo que debe verificarse siempre. Si los datos conforman una curva, no se puede forzar una línea

recta.

La calibración es una etapa fundamental que no se puede acelerar ya que se va a utilizar para predecir la

propiedad de las muestras y sus intervalos de confianza.

A nivel matemático es posible (aunque no recomendable) convertir comportamientos curvos en

comportamientos rectos.

Supuestos del método de ajuste por mínimos cuadrados:

1) Los patrones son similares a las muestras (matriz), en caso contrario, el comportamiento del sistema es

diferentes.

2) No hay interferentes o su efecto ha sido compensado.

3) Estamos trabajando en el rango lineal.

Resulta muy difícil decidir si la representación gráfica es una recta ya que en general, las curvaturas en

química analítica son muy suaves. Se necesitarían muchos puntos para visualizar tal curvatura. Sin embargo,



solemos preparar pocos patrones (5 o 6) por falta de tiempo, dinero…

El ajuste por mínimos cuadrados es un algoritmo matemático usado para ajustar un modelo recto a los

datos:

Y=a+bx; Sumatorio residual al cuadrado es 0; Residual= ycalc-y real

Requisitos para el ajuste por mínimos cuadrados:

1) Todos los errores se acumulan en la señal (Y). Suponemos que en la X no hay error (concentración de los

patrones). En química analítica la X también tiene cierto error. Hay que plantearse si el error en las X es

despreciable frente al error en la Y para poder aplicar el método.

2) Los errores en Y siguen distribuciones gaussianas. Esto se cumple, ya que el error de la Y es un error

aleatorio.

3) Los errores en Y son independientes de X (homocedasticidad). La dispersión no debe variar de un

patrón a otro. Para controlar este requisito hay que hacer réplicas de cada patrón y determinar la

varianza. En el método de adiciones estándar es frecuente que este requisito no se cumpla, es decir,

que el error varíe al aumentar el valor de X (heterocedasticidad). El error varía en el método deadiciones estándar porque se añaden diferentes cantidades de patrón.

El método de mínimos cuadrados minimiza la suma de todos los residuales, por tanto, cualquier dato

anómalo perjudica el ajuste.

∑(ycalculada – y)2 = 0

El método de mínimos cuadrados ajusta la recta a todos los puntos. Si algún punto es anómalo se repite o

bien se elimina explicando por qué.

Los anómalos en los extremos del calibrado son los más peligrosos ya que modifican mucho la pendiente dela recta y afectan a los cálculos porque este parámetro se utiliza en la cuantificación.

Los anómalos en el centro del calibrado a penas afectan a la pendiente, pero varían significativamente la

ordenada en el origen.

Gráficos de residuales:

Para determinar la existencia de datos anómalos es necesario realizar un gráfico de residuales.

En la primera gráfica se observan dos anómalos, uno en cada extremos. Antes de la mitad del calibrado la

recta predice de menos que la real, después predice de más.

En la segunda gráfica se observa un comportamiento parabólico, por lo que no se puede ajustar a una recta.



Puede ocurrir que esté fuera del rango lineal. Se puede corregir eliminando los últimos puntos (sólo cuando

hay bastantes datos).

En la tercera gráfica se observa que el error aumenta con el valor de X (heterocedasticidad). Es el caso típico

de las rectas de adición, el error va aumentando con la concentración. Se debería usar un ajuste por

mínimos cuadrados ponderados porque corrige la heterocedasticidad.

En la cuarta gráfica se observan residuales aleatorios (homocedasticidad). Es la situación ideal.

Mínimos cuadrados ponderados

Consiste en ponderar los valores de las señales de manera que aquellas que tengan mayor error asociado

(varianza) tengan menos peso en la regresión. Bajo la condición de que la varianza de las señales sea

aproximadamente proporcional a los valores de x (=errores relativos aproximadamente constantes) el factor

más adecuado es:

Coeficiente de correlación

El coeficiente de correlación fue introducido por Pearson para evaluar si hay covarianza entre 2 variables.

Valores positivos indican correlación positiva (si uno crece otro también), si es negativa una variable crece y

otra decrece, y si se aproxima a 0 no hay variación común.

Covarianza: Evalúa si varían conjuntamente dos variables.

Correlación: caso particular de la covarianza cuando los datos se escalan usando desviación estándar (se

consiguen eliminar las unidades).

La correlación se interpreta como el coseno del ángulo que forman los vectores x e y, por lo que solo varía

entre -1 y 1. Un coeficiente de correlación elevado indica que la variación entre ambas variables está

relacionada, pero solamente se puede utilizar si anteriormente se ha comprobado que los datos siguen una

distribucción recta y que no existen anómalos.

Errores cometidos en el calibrado:

1) Los valores de Y tienen error, con lo cual los valores medidos que empleamos en el calibrado son una

estimación de los verdaderos. Este error se propaga en la regresión.

2) El cálculo de la ordenada y la pendiente se ven afectados por los errores asociados a la Y. La recta de

regresión calculada es una estimación de la verdadera.

3) No hay una recta de regresión, hay una familia, de la cual la calculada numéricamente mediante el

criterio de mínimos cuadrados es la más probable. Todas las rectas de regresión que se pueden calcular

pasan por los valores x/2 e y/2.

Asociar intervalos de confianza a la ordenada en el origen y a la

pendiente:



Ordenada en el origen α = a ± t·Sa

Pendiente β= b ± t·Sb

La ordenada en el origen es un valor que indica radiación difusa, efectos de fondo, influencia de disolventes,

cubetas… Aunque sea estadísticamente cero no conviene simplificar la ecuación y obviarlo.

Región Hotelling:

Se generan unas bandas de confianza en torno a la recta de regresión más probable (todas las rectas

posibles pasan por el punto medio rectas numéricamente diferentes son la misma)

Los bordes de la región (Hotelling) vienen dados por la ecuación de una hipérbola. Podemos reducir el error

(zona Hotelling más estrecha) incrementando bien el número de patrones o bien el número de réplicas que

se mide cada patrón.

La distancia entre las ramas hiperbólicas (el error) es mínima cuando x xmedio. Por ello siempre se trata de

que las muestras a medir estén situadas entre, al menos, dos patrones y lo más cerca posible de la zonacentral. En los extremos, el error es máximo por lo que bajo ningún concepto se debe extrapolar.

En el caso de un ajuste por mínimos cuadrados, la región de Hotelling tiene la siguiente forma:

En cambio, en el caso de utlizar el ajuste por mínimos cuadrados ponderados, la región de Hotelling tiene la

siguiente forma:

Método del patrón interno:



Cuando se están preparando los patrones, se añade una sustancia, que no es el analito, pero que se

comporta de manera similar a éste (dan señales distintas). Lo que le suceda al analito, le sucederá también

al patrón interno: su relación se mantendrá. Fundamentalmente corrige problemas instrumentales. Podría

corregir también el efecto matriz.

El patrón interno se añade a todas las disoluciones que se vayan a medir (blancos y muestras). En el eje de

las y se representa la señal del analito/señal del patrón

Método de adiciones estándar:

Utiliza la propia muestra como base del calibrado. Tomamos alícuotas iguales de muestra, en las que

añadimos cantidades crecientes de patrón y enrasamos a un mismo volumen. En el punto cero de adición

(muestra sin patrón añadido) la señal es debida a la cantidad de analito que inicialmente hay en la muestra.

Interpolamos: multiplicamos por dos la ordenada y calculamos la x valiéndonos de la recta de adición.

Laborioso, pero necesario. Aún así no es perfecto, hay interferencias que no se pueden corregir. Utilidad del

método:

• Sirve para comprobar si los componentes de la matriz afectan a la determinación del analito

• Cuando la matriz es muy compleja y difícil de reproducir se hace necesario.

Si la pendiente de la recta de calibrado y la de la recta de adición son distintas, los componentes de lamatriz afectan en la determinación del analito.

Para comprobarlo hay que evaluar estadísiticamente si ambas pendientes son iguales, para ello en primer

lugar hay que hacer un test de Fisher para ver si los errores de ajuste (S y/x) de ambas rectas es

estadísiticamente igual y asi alegir la opción A o opción B del test de Student:

Información derivada del calibrado:

LOD: Es la concentración de analito que conduce a una señal cuya magnitud es estadísiticamente diferente

del blanco. Se calcula como:

LOD= (a + 3 Sa) / b siendo Sa el error de la ordenada en el origen de la recta de calibrado y b la pendiente.

Este parámetro es útil para comparar dos métodos. Existen dos métodos para calcularlo:

Límite de detección instrumental : sólo se consideran valores asociados al calibrado (se mide el blanco varias

veces y se calcula el parámetro). Sólo evalúa variaciones instrumentales

Límite de detección del método : tiene en cuenta las diluciones, pesada de muestra, etc. (el blanco se

prepara desde el principio varias veces). Es el preferido porque es más real.

A partir de este concepto se definen dos tipos de errores estadísiticos:

– Error tipo 1 o falsos positivos: sucede cuando se rechaza la hipótesis nula y debería haberse



aceptado, es decir digo que un valor no es el verdadero cuando si lo es (digo que hay error cuando no lo

hay)

– Error tipo 2 o falso negativos: acepto la hipótesis nula cuando no debería. Es decir digo que no hay

error cuando en realidad si que lo hay.

LOQ: es la concentración de analito que conduce a una señal que estadísticamente no puede ser confundida

con un blanco (señal de fondo o aleatoria) y, por tanto, puede ser cuantificada sin riesgo. Igual que para elLOD, exiten dos formas de calcularlo, el límite de cuantificación instrumental y el límite de cuantificación del

método.

Se calcula como: LOQ= (a + 10 Sa) / b

Según esto, se definen 3 zonas en una recta de calibrado:

Por debajo del LOD el analito es no detectable; entre el LOD yLOQ el analito es detectable pero no cuantificable; y por encima

del LOQ el analito es detctable y cuantificable.

Quimiometría

Documents

Transcript of Quimiometría