Tratamiento estadístico de los datos. Dr. Pedro J. … · el gráfico de probabilidad...
Transcript of Tratamiento estadístico de los datos. Dr. Pedro J. … · el gráfico de probabilidad...
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
0
CURSO DE POSTGRADO DEL CSIC: “Tendencias actuales de la investigación en Enología”
Módulo: “Tratamiento estadístico de los datos”
Dr. Pedro J. Martín-Álvarez, Instituto de Investigación en Ciencias
de la Alimentación (CIAL, CSIC-UAM) Grupo: Biotecnología Enológica Aplicada
Madrid, 20-24 de Abril de 2015
ÏNDICE Pág. 1.TRATAMIENTO ESTADÍSTICO DE DATOS UNIVARIANTES............ 1.1 UN SOLO GRUPO DE DATOS ....................................................... 1.2 DOS GRUPOS DE DATOS INDEPENDIENTES ............................ 1.3 DOS GRUPOS DE DATOS RELACIONADOS ............................... 1.4 MAS DE DOS GRUPOS DE DATOS INDEPENDIENTES ....... 1.4.1 Análisis de la Varianza (ANOVA) ............................................ 2. TRATAMIENTO ESTADÍSTICO DE DATOS BIVARIANTES ........... 2.1 ANALISIS DE CORRELACION SIMPLE ....................................... 2.2 ANALISIS DE REGRESION LINEAL SIMPLE ............................. 3. TRATAMIENTO ESTADÍSTICO DATOS MULTIVARIANTES. ....... 3.1 MATRIZ DE DATOS ..................................................................... 3.2 REPRESENTACION GRAFICA DE LOS DATOS........................ 3.3 CLASIFICACION DE LOS METODOS......................................... 3.4 TRATAMIENTO PREVIO DE LOS DATOS ................................... 4. MÉTODOS ESTAD. DATOS MULTIV. NO SUPERVISADOS 4.1 ANALISIS DE COMPONENTES PRINCIPALES............................. 4.2 ANALISIS FACTORIAL .................................................................... 4.3 ANALISIS DE CONGLOMERADOS ....................................... 5. MÉTODOS ESTAD. DATOS MULTIV. SUPERVISADOS ................. 5.1 ANALISIS CANONICO DE VARIABLES (CVA) ............................... 5.2 METODOS DE CLASIFICACION SUPERVISADA .................... 5.2.1 Análisis discriminante ................................................................ 5.2.2 Método SIMCA …….................................................................. 5.2.3 Método kNN ………… ................................................................ 6. MÉTODOS ESTAD. DATOS MULTIV. DE DEPENDENCIA ............ 6.1 ANALISIS DE CORRELACION CANONICA (ACC) ......................... 6.2 MODELOS DE REGRESION MULTIVARIANTE ............................. 6.2.1 Regresión lineal múltiple............................................................ 6.2.2 Diseño de Experimentos ........................................................... 7. BIBLIOGRAFIA .................................................................................. 8. Comandos de los programas SPSS, Statgraphics 5.1 y Statistica 7.1
1 1 2 3 4 5 8 9
10 13 13 14 15 17 17 17 19 20 22 22 22 22 23 23 24 24 24 25 26 28 29
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
1
1. TRATAMIENTO ESTADÍSTICO DE DATOS UNIVARIANTES
1.1 UN SOLO GRUPO DE DATOS
Datos: disponemos de un conjunto de n datos (observaciones), {x1, x2, x3, ..., xn}, de una única variable aleatoria (v.a.) X, procedentes de una cierta población W. Podríamos calcular:
Medidas de centralización (o de posición), que tienen en cuenta el valor de los datos en la muestra pero no dan idea del agrupamiento de los mismos, como
son: la moda, la media aritmética (n
in
ixx
1/ ) y la mediana que es mas robusta
que la media. También las medias recortadas al 5% (eliminando el 5% de los datos extremos).
Medidas de dispersión o variablididad, que dan idea sobre el agrupamiento de los datos observados en torno a los valores centrales, como son: el intervalo,
amplitud o recorrido ( minmax xx ), la varianza muestral (2
s ), la desviación
estándar (o típica) muestral (n
ii nxxs
1
2 )1/()( ), la desviación estándar
relativa (o coeficiente de variación, xsDER / ), el intervalo intercuartílico
(diferencia entre el primer y tercer cuartíl, IQ = Q3 - Q1), y la MEDA (mediana de las desviaciones entorno a la mediana, MEDA= Mediana |xi – Mediana|) más robusta que la desviación típica.
Momentos y coeficientes de asimetría y apuntamiento, que describen aspectos relevantes de la distribución de frecuencias.
Para la detección de datos anómalos o atípicos, se podría utilizar el intervalo de valores admisibles que se define como: )(5.1),(5.1 133131 QQQQQQ . Una representación
gráfica muy utilizada es el diagrama de caja ("box plot"), que incluye información sobre la mediana, los cuartíles Q1 y Q3, y los extremos del intervalo de valores admisibles (los bigotes). Los datos que están fuera cabría pensar en que son atípicos. Desde un punto de vista inferencial, y aceptando
distribución N( , ) de los datos, que puede comprobarse con el gráfico de probabilidad normal(“Q-Q plot”), o con los test de normalidad (Shapiro y Wilks, Kolmogoroff-Smirnov-Lilliefors,...), podemos utilizar la media aritmética y la desviación estándar muestral como estimadores puntuales de los
parámetros poblacionales , y . Otro estimador puntual de es el valor MEDA/0.675.
Fijado el nivel de significación, normalmente = 0.05, podemos:
calcular el intervalo de confianza para la media poblacional , al 100(1- ,
que vendrá dado por: nstxnstx nn /,/ 1,2/11,2/1 , siendo 1,2/1 nt el valor de la
t-Student con n-1 g.l. tal que F( 1 / 2, 1nt ) = 2/1 ,
calcular el intervalo de confianza para 2, al 100(1- )% que vendrá dado por:
1,2/
2
1,2/1
2/)1(,/)1( nn snsn siendo
2
/2 y 2
1 /2 los valores de la función de
distribución 2con n-1 g.l., tal que F(
2
2/ )= 2/ y F(2
2/1 ) = 2/1 , o
realizar el contraste de hipótesis para la media: 0 0
1 0
H
H donde la
hipótesis nula (H0) puede rechazarse tanto si < 0 como si > 0 (región con 2
VARX
0,70
0,60
0,50
0,40
0,30
0,20
9
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
2
colas). El estadístico utilizado para el contraste es: ns
x
calt
/
0 que sigue una
distribución t-Student con n-1 g.l., si H0 es cierta. Fijado el valor de (p.e. =
0.05), se decide en función del valor de calt : si 1,2/1|| ncal tt , se rechaza la
hipótesis nula y se acepta la hipótesis alternativa (H1); en caso contrario
( 1,2/1|| ncal tt ) no hay motivos para rechazar H0. Utilizando probabilidades
asociadas (facilitadas por los programas estadísticos): si P < se rechaza Ho, en
caso contrario (P > ) se acepta Ho. (“Si P es pequeña → corresponde a un suceso raro → hipótesis de partida incorrecta”). Este test para una media puede utilizarse para "comprobar la exactitud de un
método analítico para una muestra con un valor de referencia 0 " o para
“comprobar si la media de determinados valores es diferente un valor fijo (J.
Pozo-Bayón et al., Agric. Food Chem. 2009, 57, 10784-10792)”.
1.2 DOS GRUPOS DE DATOS INDEPENDIENTES
Datos: Disponemos de dos conjuntos de datos independientes: { x11,x12,x13, ..., x1n1} y {x21, x22, x23, ..., x2n2}, formados por n1 y n2 observaciones, de una misma v.a. X, procedentes de dos poblaciones W1 y W2. Podemos calcular: los valores descriptivos
muestrales: jx y js j=1,2, que serán estimadores, si
existe normalidad, de los correspondientes parámetros
poblacionales j y j. Para el tratamiento gráfico podemos utilizar los diagramas de cajas, o los gráficos de barras de error con los intervalos de confianza para la media, si existe normalidad. Desde un punto de vista inferencial, y aceptando
distribuciones N( i, i) de los datos en cada población, podemos estar interesados en:
obtener los intervalos de confianza para los
parámetros poblacionales j, y j, y también en hacer algún contraste de hipótesis sobre dichos parámetros, o
realizar el test para comparar las dos medias, que
se puede definir como: 211
210
H
H donde la hipótesis
nula (H0) puede ser rechazada tanto si 1< 2 como si 1> 2 (dos colas). Aceptando muestras independientes y varianzas iguales ó no, el estadístico utilizado para el contraste sigue una distribución t-Student con ciertos g.l. (n1 + n2 - 2 en el caso de
igualdad de varianzas). Fijado un valor para el nivel de significación, p. e. = 0.05,
se decide en función de las probabilidades asociadas, y si P < se rechaza Ho, en
caso contrario (P > ) se acepta Ho. Este contraste puede utilizarse para "comparar los resultados obtenidos por dos laboratorios para una misma muestra de referencia", “comparar las concentraciones de un cierto compuesto en vinos elaborados con uvas de 2 variedades”, “comprobar si existen diferencias en la composición de quesos elaborados a partir de leche de vaca o leche de cabra”, “comparar las puntuaciones de un descriptor en quesos procedentes de 2 queserías” ...
BA
grupo
20,00
15,00
10,00
5,00
95%
IC
V
ari
ab
le
BA
grupo
18,00
16,00
14,00
12,00
10,00
Vari
ab
le
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
3
realizar el test para comparar dos varianzas: 2
2
2
11
2
2
2
10
H
H. Aceptando
distribuciones normales en los dos grupos, el estadístico utilizado es: 2
2
2
1 / ssFcal (se
acepta 2
2
2
1 ss ), que sigue una distribución F-Snedecor con n1-1 y n2-2 g.l., si H0 es
cierta. Si 1 21 , 1, 1cal n nF F no hay motivos para rechazar H0. En caso contrario
habría que aceptar que las varianzas no son iguales. La mayoría de los programas estadísticos proporcionan el resultado del test de Levene, para el anterior contraste, utilizando un estadístico con distribución F-Snedecor y 1 y n1+n2-1 g.l. Si la
probabilidad asociada (P) es < se rechaza Ho, en caso contrario (P > ) se acepta Ho. Con muestras independientes y no aceptando distribuciones normales, puede utilizarse el test no paramétrico de Mann-Whitney. Si la probabilidad asociada (P)
es menor que se rechaza Ho. Iglesias M.T., P.J. Martín-Álvarez, M.C. Polo, C. de Lorenzo, E. Pueyo. "Protein analysis of
honeys by Fast protein Liquid Chromatography. Application to the differentiation of floral
honeys and honeydew honeys". J. Agric. Food Chem. 2006, 54, 8322-8327
Statistical Analysis. The statistical methods used for data analysis were a two-sample t-test and
Mann-Whitney U test to determine if there were significant differences between both types of
honey samples and … The STATISTICA program….
Results and discussion
Table 3 shows the mean values and standard deviations of the percentages of peak areas in the
two groups of honeys and the results of the t test for comparison of the two means that coincide
with the obtained by means of the Mann-Whitney U test. It can be observed that the samples of
floral honeys have greater values in the variables P7 and P4 and smaller values in P5, as
compared to the samples of honeydew honeys.
1.3 DOS GRUPOS DE DATOS RELACIONADOS
Datos: disponemos de n parejas de valores de 2 variables procedentes de un misma población W: { (x11 , x12), (x21 , x22), ..., (xn1 , xn2)}. A partir de estas n parejas, podemos calcular las n diferencias entre cada par de valores observados en el mismo individuo, es decir: { d1 = x11 - x12, d2 = x21 - x22 ,..., dn = xn1 - xn2}, así como el valor
medio y la desviación estándar de esta nueva variable d (2
dsyd ).
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
4
Aceptando que esta nueva variable sigue una N( d, d), el contraste de
hipótesis para las dos medias: 0
0
211
210
d
d
H
H, utiliza el estadístico:
/d
dtcal s n
, que sigue una t-Student con n-1 g.l.. Fijado el nivel de significación ,
si 1,2/1|| ncal tt se rechaza la hipótesis nula y se acepta la hipótesis alternativa
(H1); en caso contrario no hay motivos para rechazar H0. Si la probabilidad asociada
(P) es menor que se rechaza Ho. Este contraste puede utilizarse para "comparar los resultados obtenidos con 2 métodos analíticos en n muestras", “comprobar si hay diferencias entre concentraciones antes y después de un proceso”, “comparar las puntuaciones asignadas por 13 jueces a cada una de 10 muestras de quesos antes y después de un tratamiento” ...... En caso de no aceptar distribuciones normales, el test no paramétrico de Wilcoxon puede utilizarse para comparar las dos medias en muestras
relacionadas. Si la probabilidad asociada (P) es menor que se rechaza Ho.
Marcobal, A., M.C. Polo, P.J. Martín-Álvarez, M.V. Moreno-Arribas. "Biogenic amine content
of red spanish wines: Comparison of a direct ELISA and an HPLC method for the
determination of histamine in wines". Food Res. Int., 2005, 38, 387-394
Statistical methods The statistical methods used for analysis were as follows: ...; correlation
analysis and t-test for related samples to compare HPLC and ELISA methods. STATISTICA
(Statsoft Inc., 1998) and SPSS (SPSS Inc., 2001) programs were used for data processing.
Results. … Comparison of the quantitative analysis of histamine by HPLC and ELISA
revealed a good correlation (r = 0.91) between both methods (Fig. 3), although the results of the
t-test for related samples revealed slightly higher results for ELISA (P < 0.05).
1.4 MÁS DE DOS GRUPOS DE DATOS INDEPENDIENTES
Datos: disponemos de k (k > 2) conjuntos de datos: { x1,1, x1,2, x1,3, ..., x1,n1} , { x2,1, x2,2, x2,3, ..., x2,n2} ... {xk,1, xk,2, xk,3, ..., xk,nk}, con nj ( j = 1,2,...k ) observaciones de una misma variable X, procedentes de k poblaciones Wj, y podemos calcular los k
valores medios ( jx ) y las k desviaciones estándar ( js ), estimadores de los
correspondientes parámetros yj j . Para el tratamiento gráfico se pueden utilizar
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
5
los histogramas, los diagramas de cajas y las barras de error. El contraste más utilizado es el siguiente.
Test para comparar las k medias. Desde un punto de vista inferencial, y
aceptando distribuciones normales e igualdad de varianzas ( ,( )jN ), para la
comparación de las k medias: 0
1
i jH i j
H no todas iguales, se utiliza el estadístico:
/( 1)/( )
entre
dentro
SS kF
cal SS n k, que sigue una F-Snedecor con k-1 y n-k g.l. (n= ni), si H0 es
cierta. Fijado el valor del nivel de significación , si 1 , 1,cal k n kF F se rechaza la
hipótesis nula H0 (la dispersión entre los grupos es mayor que la que existe dentro de los grupos); en caso contrario no tenemos motivos para rechazarla. De manera
equivalente, si P < se rechaza H0 y se admite que hay diferencias significativas.
Este contraste puede utilizarse para “comparar las concentraciones de un cierto compuesto en vinos elaborados con uvas de k>2 variedades”, “comprobar si existen diferencias en la composición de quesos elaborados a partir de leche de vaca, o leche de cabra o leche de oveja”, y en general para "comparar los k valores medios obtenidos para k tratamientos", “comparar las puntuaciones de un cierto atributo, asignadas a 12 quesos procedentes de 3 procesos de elaboración, por 12 jueces” y se engloba dentro del tratamiento estadístico: Análisis de la Varianza (ANOVA) de una vía.
Si una vez realizado el anterior contraste hay que aceptar que no todas las medias poblaciones son iguales, se pueden utilizar los test de Schefee, de Tukey, de Student-Newman-Keuls, LSD, ... para averiguar cuáles son las diferentes.
En caso de no aceptar normalidad de las poblaciones se puede utilizar el test no paramétrico de Kruskal-Wallis.
Para comprobar si las k varianzas son iguales, 2 2 2
0 1 2 ...¿ ?kH se puede
utilizar el test de Bartlett, el de Levene, o, si el tamaño de las muestras coincide, el test de Cochran.
Cabezas, L., M.A. González-Viñas, C. Ballesteros,· P.J. Martín-Álvarez. “Application of Partial
Least Squares regression to predict sensory attributes of artisanal and industrial Manchego
cheeses”. Eur. Food Res. Technol., 2006, 222 (3-4), 223-228.
Statistical method: The statistical methods used for analysis were: one-way analysis of
variance to determine if there were significant differences between groups and Student–
Newman–Keuls test for means comparisons, using Statistica program ...
1.4.1 Análisis de la Varianza (ANOVA)
El objetivo fundamental del ANOVA, según Fisher, es descomponer la variabilidad de un experimento, en componentes independientes, que puedan asignarse a causas
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
6
distintas. Según Scheffe, el ANOVA permite analizar medidas, que dependen de varios factores, y que operan simultáneamente, para decidir cuáles tienen un efecto significativo sobre la variable estudiada y cuáles no. Una parte de la variabilidad total de la característica analizada podrá ser justificada por los factores estudiados; y la parte no justificada se acepta que se debe al error y a otros posible factores no controlados. ANOVA de un factor. En el caso de un solo factor con k niveles fijos (o
tratamientos), el modelo matemático aceptado, es: (, , , ,)i j i j i j j i jx e e
, ,i j j i jx e donde ,i jx representa el valor i-ésimo de la variable analizada
en el nivel j-ésimo, /n nj j representa el valor de una media global, n j el
número de medidas en el nivel j-ésimo, j la media de la variable en la población j-
ésima, ( )j j serían k cantidades fijas representando el efecto del nivel j-
ésimo sobre la media global , cumpliéndose 0j jj
n , y , ,( )i j i j je x los
errores, que aceptamos independientes y con distribución ,(0 )N . Para comprobar
si el factor influye sobre la variable analizada, podríamos establecer las hipótesis:
0
1
0 1,2,...,
j
H j kjH no todas las son nulas
, equivalente a la anterior 0
1
i jH i j
H no todas son iguales; si todas
las medias son iguales, entonces todas las j serían nulas, y el factor no tiene efecto
significativo sobre la variable observada. El estadístico para el contraste es el mismo
utilizado anteriormente (1,
/( 1)~
/( )factor
cal k n kerror
SS kF F
SS n k), y los resultados se muestran en
forma de tabla (la tabla ANOVA).
Fuente de Variación
Suma Cuadrados
Grados de libertad
Cuadrado Medio
Valor de la Fcal
Probabilidad asociada
Factor aSS 1k aMSS /a wMSS MSS P
Error wSS ( )n k wMSS
Total tSS 1n
Si el valor de la probabilidad asociada (P) es < se rechaza H0 y se admite que el factor influye. En el caso de un solo factor con k niveles aleatorios, el modelo del análisis de la
varianza viene dado por: , ,i j j i jx a e donde se acepta que los efectos ja son v.a.
independientes con distribución (0, )aN , y los errores ,i je , son independientes y con
distribución (0, )N . Para este modelo interesa comprobar la hipótesis 2
0 0aH , es
decir, no existe variación debida al factor. Para este contraste se utiliza el mismo
estadístico calF utilizado en el modelo de efectos fijos, que sigue una F-Snedecor con
k-1 y n-k g.l.
Simó, C., P.J. Martín-Alvarez, C. Barbas, A. Cifuentes. " Application of stepwise discriminant
analysis to classify commercial orange juices using chiral micellar electrokinetic
chromatography-laser induced fluorescence data of amino acids". Electrophoresis, 2004, 25,
2885 -2891
Statistical analysis. The statistical methods used for the data analysis were: ..; one-way
analysis of variance (ANOVA) to test the effect of the factor studied (processing); Scheffé test
for means comparisons; and ….
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
7
Results:
ANOVA de 2 factores. En el caso de 2 factores, con niveles fijos, se acepta que las diferencias observadas en la variable analizada X se deben: a los diferentes niveles de actuación del factor A, a los diferentes niveles de actuación del factor B, a la posible interacción entre ambos factores A y B, o a otras causas no controladas, que incluiremos en el error experimental. El modelo matemático es
, , , , ,( )i j k i j i j i j kx e con i =1,2,...,a; j =1,2,...,b; k=1,2,...,m
repeticiones; y donde .i i es una cantidad fija, que representa el efecto del
nivel i-ésimo del factor A, .j j es una cantidad fija, que representa el efecto
del nivel j-ésimo del factor B, , . .( )i j ij i j es también una cantidad
fija, que representa el efecto de la interacción entre los niveles i-ésimo del factor A
y j-ésimo del B, y , ,i j ke el error, una v.a., con distribución N(0, ) . Las posibles
hipótesis para contrastar son 3: 1
0 ,
1
1
( ) 0 ,i jH i j
H no todos nulos
, 2
02
1
0iH i
H no todos nulos y
3
0
3
1
0jH j
H no todos nulos
, y los estadísticos utilizados siguen la distribución F-Snedecor, con
diferentes grados de libertad. Los resultados se muestran en la correspondiente tabla ANOVA:
Fuente de Variación
Suma cuadrados
Grados de libertad
Cuadrado Medio
Valor de la Fcal
Probabilidad asociada
Factor A ASS 1a AMSS wA MSSMSS / PA
Factor B BSS 1b BMSS wB MSSMSS / PB
Interacción AB
ABSS )1()1( ba ABMSS
wAB MSSMSS / PAB
Error wSS )1(mba wMSS
Total tSS 1mba
Los estadísticos utilizados son:
1 = /cal AB wF MSS MSS para contrastar si existe interacción ( 1
0H ),
2 = /cal A wF MSS MSS para comprobar el efecto del factor A ( 2
0H ) y
3 = /cal B wF MSS MSS para comprobar si el factor B influye en la respuesta ( 3
0H ).
Si PAB> se acepta 1
0H , y el modelo se dice que es aditivo, no hay interacción. Si
PA> se acepta 2
0H , y se dice que el factor A no influye en la variable analizada. Si se
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
8
cumple PB< hay que rechazar 3
0H y se dice que el factor B si influye. Cuando no
existe interacción entre los factores la influencia de uno de ellos no dependerá de los niveles del otro factor (en el gráfico de las medias las líneas serán paralelas). Cuando sólo existe una observación por celda (m=1), el modelo es:
, ,i j i j i jx e . Esta técnica estadística se puede utilizar para comparar las
puntuaciones asignadas por 10 jueces a una cierta cualidad organoléptica en tres diferentes vinos, con el fin de averiguar si hay diferencias entre las puntuaciones asignadas por los jueces, o entre las puntuaciones de los 3 vinos. Hernández, T., I. Estrella, D. Carlavilla, P.J. Martín-Álvarez, M.V. Moreno-Arribas.“Phenolic
compounds in red wine subjected to industrial malolactic fermentation and ageing on lees”. Anal.
Chim. Acta, 2006, 563 (1-2), 116-125.
Statistical analysis. The statistical methods used for data analysis were: …; two way analysis of
variance (ANOVA) to test the effects of the two factors; Student–Newman–Keuls test for means
comparisons; and …
Results:
2. TRATAMIENTO ESTADÍSTICO DE DATOS BIVARIANTES
Datos: En este caso se dispone de un conjunto de n pares de observaciones de dos variables X1, X2: { (x1,1 , x1,2), (x2,1 , x2,2), ..., (xn,1 , xn,2) }, procedentes de una cierta población bivariante W. En esta situación podemos calcular los valores medios y desviaciones estándar muestrales para cada variable, que serán estimadores de los correspondientes parámetros poblacionales. Pero, al tener dos variables, podemos calcular también, los valores muestrales de la covarianza y del coeficiente de
correlación: )1/())((1
22,11,12 nxxxxsn
iii y
)/( 2112 sssr , que tienen en cuenta la variación
60,0050,0040,0030,0020,0010,00
propanol
14,00
12,00
10,00
8,00
6,00
4,00
me
tan
ol
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
9
conjunta de las dos variables X1 y X2, y que serán estimadores de los correspondientes
parámetros poblacionales: 12 y . El tratamiento gráfico más utilizado es el gráfico, o diagrama, de dispersión. Aceptando distribución conjunta normal bivariante, podríamos conocer la región
de confianza al 100(1- )%, para ( 1, 2) mediante la inecuación matricial:
2
222
11
1
212
1212211 ),(
x
xxx siempre que se conozcan los valores de 1,
2 y 12. Esta región no coincide con el producto cartesiano de los correspondientes intervalos para cada media. Más interesante resulta la elipse de confianza definida
por: 2,2,
22
11
1
2212
12112211
)12
(2
)2(),( nF
xx
xx
ss
ssxxxx
n
nn , que
permite decidir si una observación ),( 21 xx procede o no
de una determinada población con distribución normal bivariante (detección de puntos anómalos). Para el estudio de dependencia entre las dos variables, se recurre al Análisis de Correlación (cuando la muestra ha sido obtenida de forma aleatoria) y/o al Análisis de Regresión (lineal o no lineal), cuando aceptamos que los valores de una de las variables no están sujetos a error, y estamos interesados en expresar la
relación de dependencia mediante un modelo matemático (X2 = f(X1) + ).
2.1 ANALISIS DE CORRELACION SIMPLE
Para el caso de variables cuantitativas, y aceptando distribución normal bivariante, el coeficiente de correlación de Pearson, definido por:
1
2 2
1 1
( )( )
( ) ( )
n
i
n n
i i
x x y yi i
x x y yi i
r , mide la relación lineal entre las dos variables y es estimador
del coeficiente de correlación poblacional . Se puede:
calcular el intervalo de confianza para ( 1 , 2 ), y/o
realizar un test de hipótesis sobre para ver si puede aceptarse que es distinto
de 0 (Ho = 0 ). Si la probabilidad asociada (P) es < se acepta 0. En el caso de no aceptar normalidad en los datos se utiliza el coeficiente correlación de Spearman, que utiliza los rangos de los datos, y el correspondiente test no
paramétrico para el contraste de hipótesis Ho = 0 . Como aplicación de esta técnica: correlación: entre parámetros del color y compuestos fenólicos en vinos, entre descriptotes sensoriales y compuestos químicos, ...
Monagas M., P.J. Martín-Álvarez, B. Bartolomé, C. Gómez-Cordovés. "Statistical
interpretation of the color parameters of red wines in function of their phenolic composition
during aging in bottle". Eur. Food Res. Techn., 2006, 222: 702-709. Statistical analysis: The statistical methods used for the data analysis were: two-way analysis of variance
(ANOVA) to test the influence of the two factors studied, “variety” and “aging time” (the interaction and
error terms were pooled); principal component analysis (PCA) from standardized variables to examine the
relationship between the 20 analyzed variables; and correlation and polynomial regression analysis to
describe the relationship between the color parameters and the phenolic components during aging in
bottle in the different wines…..
22 24 26 28 30 32 34 36 38 40 42 44
Glucosa
26
28
30
32
34
36
38
40
42
44
46
48
50
Fru
cto
sa
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
10
Note. All the regression coefficients (a, b, c) presented are significantly different from zero (p<0.05); R2 = determination coefficient; s = residual standard deviation;
CV(%)=( /s y )100% residual standard deviation expressed as percetange of the mean value
Monagas M., P.J. Martín-Álvarez, C. Gómez-Cordovés, B. Bartolomé. "Time course of the colour of
young red wine from Vitis vinifera L. during aging in the bottle". International Journal of Food Science
and Technology, 2006, 41, 892-899.
Statistical analysis: The statistical methods used for the data analysis were: polynomial regression
analysis, to describe the evolution of the different colour parameters during wine ageing in bottle;
forward stepwise multiple regression analysis, to predict the CIELAB variables using the colorimetric
indices …
2.2 ANALISIS DE REGRESION LINEAL SIMPLE
En el caso de regresión lineal simple, se acepta que las dos variables X e Y están
relacionadas mediante el modelo teórico: 0 1i i iy x . Para este modelo
matemático, se aceptan las siguientes hipótesis: la variable dependiente Y, es una v.a., sujeta a error, la variable independiente X toma valores fijos, y no es una v.a.,
o su error es despreciable frente al de la variable Y, y los errores i son
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
11
independientes y con distribución N(0, ) . El modelo teórico se estima, mediante el
procedimiento de mínimos cuadrados ( 210 )( ii xymin ), por el siguiente
modelo: ii xbby 10ˆ , donde iy es el valor esperado de Y (valor calculado o
predicho por el modelo), para un determinado valor xi de la variable X. Los coeficientes de regresión se calculan mediante las expresiones:
n
i
i
n
i
ii XXYYXXb1
2
1
1 )(/))(( y XbYb 10.
La precisión del ajuste de los datos al modelo, se basa en la siguiente descomposición de la suma de los cuadrados de las desviaciones de los valores de la
variable Y respecto su valor medio: n
iyiy
1
2)(
n
iiiyiy
nyiy
1
2
1
2)ˆ()ˆ( , que
supone dividir la variabilidad total, en una parte explicada por el modelo de regresión, y
otra que aceptamos se debe al error ( resYSSregYSStotYSS )()()( ), y que se presenta
en forma de la siguiente tabla, conocida como tabla ANOVA de la regresión: Fuente de
Variación Suma de
cuadrados Grados
de libertad
Cuadrado Medio
Valor de la Fcal
Valor de P
Mod. Regresión
regYSS )( 1 regMSS resreg MSSMSS / )( 2,1 caln FFprob
Residuo resYSS )( 2n
resMSS
Total totYSS )( 1n
El estadístico /cal reg resF MSS MSS sigue una F-Snedecor con 1 y n-2 g.l., y puede
utilizarse para el contraste: 1 1 10; 0oH H (test de linealidad). Fijado ,
aceptar la hipótesis nula (P > ), es aceptar un modelo constante para Y
( iiY 0 ). Si P < se rechaza la hipótesis nula. Este contraste es equivalente al
que veremos más tarde, basado en la t-Student con n-2 g.l.. Medidas de la precisión son: el coeficiente de determinación:
totreg YSSYSSR )(/)(2
, que informa de la proporción de la variabilidad explicada por el
modelo, y la desviación estándar residual: )2/()( nYSSMSSs resres , que
informa sobre el error medio cometido por el ajuste. En el caso de disponer de repeticiones es posible comprobar si el modelo tiene falta de ajuste, y si es así, habría
que probar otro modelo, por ejemplo el polinómico (2
0 1 2i i i iy x x ).
El estudio de los residuos permite comprobar si se cumplen las hipótesis establecidas para los errores: siguen distribución Normal, son homogéneos e independientes (test Durbin-Watson). Si el modelo se acepta como válido, se pueden calcular los siguientes intervalos de
confianza al 100(1 - )%: intervalo de confianza para 0, intervalo de confianza
para 1, y intervalo de confianza para el valor medio esperado E(Y| X=X0) que permite definir las bandas de confianza para la línea teórica de regresión, al variar
X0, utilizando el valor 1 / 2, 2nt de la t-Student con n-2 g.l.
Fijado el valor de , también se pueden contrastar las siguientes hipótesis:
1 0oH mediante el estadístico: 21 ( )ii
bt X Xcal s
que sigue una t-
Student con n-2 g.l..
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
12
0o oH mediante el estadístico:
2
2
0( )
ii
i
n X X
X
btcal s
, que sigue una t-Student
con n-2 g.l..
Fijado , si la probabilidad asociada (P) es < se acepta que el parámetro es
distinto de cero ( 0i ).
Como aplicación de esta técnica: calibrado lineal de un método analítico, regresión lineal entre descriptotes sensoriales y compuestos químicos. Marcobal, A., M.C. Polo, P.J. Martín-Álvarez, M.V. Moreno-Arribas. "Biogenic amine content of red spanish
wines: Comparison of a direct ELISA and an HPLC method for the determination of histamine in wines".
Food Res. Int., 2005, 38, 387-394
Statistical methods: The statistical methods used for analysis were as follows: regression analysis for the
calibration curves; ...
Results: Linear regression analysis of area versus concentration of biogenic amines in the standard solution,
using two replicates at five points in the range indicated in Table 2, was used. Regression parameters and
statistical properties can be found in Table 2. In order to judge the adequacy of the linear models, the F-ratio
for lack of fit was calculated (Massart, Vandeginste, Deming, Michotte, & Kaufman, 1988), and when
significant results were obtained, a second-degree polynomial regression was used. As can be seen in Table 2,
the regression lines obtained for all the amines were linear equations that passed through the origin, except for
putrescine, which corresponded to a second-degree polynomial equation. The values of the coefficient of
determination (R2 in Table 2) were higher than 0.99 and indicated that the fits were acceptable, with a
standard deviation of residuals, expressed as a percentage of the mean value of the response, ( / )s y 12%
for the amines quantified. Table 2 also shows the mean values of the recovery results. Recovery has been
estimated as (the amount found in the spiked sample - the amount found in the sample)*100/the amount
added (Massart et al., 1988). The mean values correspond to the individual values obtained from the recovery
experiments and also to the values obtained for two more different wine samples. The mean values of
recovery obtained range from 88% for tyramine to 118% for methylamine.
Detection limits were estimated from the area corresponding to three times the system noise (IUPAC, 1978),
which was calculated as the mean of the area of the noise of seven injections of a 10% ethanol solution. The
values obtained (Table 1) range from 0.006 mg/l for ethylamine to 0.057 mg/l for putrescine.
Quirós, A., M. Ramos, B. Muguerza, M. A. Delgado, P.J. Martín-Álvarez, A. Aleixandre, and I. Recio.
"Determination of the Antihypertensive Peptide LHLPLP in Fermented Milk by High-Performance Liquid
Chromatography–Ion Trap Tandem Mass Spectrometry". Journal of Dairy Science, 2006, 89, 4527-35,
Statistical Methods: Linear and polynomial regression for the calibration curves and nonlinear
regression for studying the evolution of the concentration with the time of fermentation were calculated
with ……………
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
13
3. TRATAMIENTO ESTADÍSTICO DE DATOS MULTIVARIANTES.
El Análisis Multivariante puede definirse como el conjunto de métodos estadísticos y matemáticos para analizar, describir e interpretar observaciones multidimensionales. Como objetivos a conseguir mediante la utilización de estos métodos se pueden citar los siguientes: 1) Reducción de los datos, es decir simplificar la dimensionalidad de los datos sin
perder información valiosa, 2) Buscar agrupamiento de las observaciones o de las variables basada en
alguna medida de semejanza o similitud, 3) Definir reglas de decisión que permitan asignar un individuo con ciertas
características a un grupo determinado, 4) Estudiar medidas de dependencia entre conjuntos de variables, 5) Predecir los valores de las variables a partir de la información aportada por otras,
mediante un modelo matemático, 6) Construir y contrastar hipótesis sobre algunos parámetros poblacionales. Estos métodos pueden ser aplicados en cualquier campo de la Ciencia, y su utilización tuvo un gran crecimiento durante la década de los ochenta como consecuencia: del crecimiento de la utilización de las técnicas analíticas, de la aparición de los microprocesadores, y de la implementación en programas informáticos. Como limitación habría que indicar la necesidad de disponer de los programas de ordenador que generalmente tienen un coste elevado. Como herramientas de trabajo estos métodos utilizan: la Geometría algebraica, el Cálculo matricial, y el Cálculo numérico.
3.1 MATRIZ DE DATOS
Para la aplicación de estos métodos multivariantes necesitamos, como substrato, una tabla de datos donde se recoge la información correspondiente a n muestras, u observaciones, sobre las cuales se han analizado p variables o características, es decir disponemos de datos correspondientes a p variables (X1, X2,...,Xp) analizadas en n muestras procedentes de una cierta población multivariante W. Entre las variables recogidas en la tabla de datos se pueden distinguir dos tipos: las variables cuantitativas que asignan un único valor a cada observación mediante una escala de intervalo o de razón (pueden ser discretas o continuas), y las variables cualitativas o nominales que permiten clasificar las observaciones en grupos mediante una escala nominal. Dentro de las últimas están las variables binarias (o dicotómicas), que solo pueden tomar dos valores. Las variables cualitativas se suelen codificar numéricamente para su tratamiento posterior. Según esta clasificación nuestra tabla de datos estará formada por ambos tipos de variables: cuantitativas y cualitativas codificadas numéricamente.
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
14
Con nuestra tabla de datos, o matriz de datos, podemos pensar en dos posibles modelos geométricos: a) las n observaciones como n puntos en el Espacio Euclídeo p-dimensional de
las p variables. Podríamos definir la matriz de distancias D(n,n) entre las n observaciones, y pensar en elipsoides de concentración de las mismas en el espacio, y
b) las p variables como vectores del espacio Euclídeo n-dimensional de las n observaciones. Podríamos pensar en la matriz de correlación entre las variables a partir de los cosenos entre los correspondientes vectores. De la proyección de un vector en otro, se obtendría la idea de regresión de una variable en otra.
Con vistas a buscar agrupamiento entre las observaciones se definen medidas de semejanza (similitud) y de desemejanza (distancia), relacionadas con la proximidad o lejanía de las mismas. En el caso de variables cuantitativas se pueden definir
diversas distancias entre dos observaciones ),...,( ,1,
'
piii xxx
y ),...,( ,1,
'
pjjj xxx
: la
distancia Euclídea: k kjkiji xxd 2
,,, )( , la distancia ciudad o Manhattan:
k ,,, || kjkiji xxd , la de Chebychev: || ,,, kjkiji xxmaxd ,..., etc, siendo la distancia
Euclídea la más utilizada. Para variable cualitativas se utiliza como medida de distancia el porcentaje de desacuerdo entre los posibles valores:
pxxdeNd kjkiji /)º( ,,,
3.2 REPRESENTACION GRAFICA DE LOS DATOS
Con vistas a detectar posibles patrones en la tabla de datos se recurre a la representación gráfica de las observaciones y de las variables mediante objetos geométricos (puntos, líneas, polígonos, cuerpos, etc.). La semejanza entre los objetos permitirá encontrar los patrones buscados. La mayor limitación estará en que la representación será bidimensional, sobre una hoja de papel o pantalla del ordenador, y por tanto solo aproximada a la realidad. Los métodos de representación bidimensional más utilizados por los métodos multivariantes son:
Métodos directos: En el caso de p variables los se pueden utilizar los diagramas de dispersión matricial, y los iconos a base de histogramas, de perfiles o de estrellas, o de tela araña.
Métodos de aproximación mediante proyección: En este apartado se incluyen las representaciones gráficas más utilizadas en el tratamiento de datos multivariantes. Se trata, en general, de definir nuevas variables (componentes principales, factores, variables canónicas,... ), cumpliendo algún objetivo, y proyectar las muestras sobre estas nuevas variables. La utilización de solo unas pocas variables, permite una visión general de los datos. Así en el caso de componentes principales (o factores) se trata de buscar una nueva variable Y que recoja la máxima variación de la nube de puntos, y en el caso de variables canónicas se trataría de buscar una nueva variable Y para lograr máxima separación entre los valores medios de los grupos, en la proyección. Métodos de aproximación mediante optimización: Consiste en buscar nuevas variables (generalmente dos), con el objetivo de conservar, al máximo, las distancias
absorbanisoamilimetpro12propanolacetetilmetanol
meta
nol
acete
til
pro
panol
metp
ro12
isoam
ili
absorb
an
5
4
3
2
1
marca
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
15
entre las observaciones. Esta técnica, conocida como representación mediante mapas no lineales (“Non-Linear Mapping”), trata de minimizar la función:
ji, jiji ddL 2
,, )ˆ( , siendo jid y ijd las distancias, entre cada dos muestras, en el
espacio de las variables originales y en el espacio bidimensional de las nuevas variables, respectivamente. Representación gráfica de matrices cuadradas: La mejor representación bidimensional de la matriz de distancias entre muestras, o de la matriz de correlaciones entre variables, es el dendrograma, que informa de la similitud de la muestras o de la variables, véase figura adjunta, y que es el resultado, más importante, obtenido mediante la aplicación del Análisis de Conglomerados.
3.3 CLASIFICACION DE LOS METODOS
A la hora de clasificar los métodos para el tratamiento de datos multivariantes se suele hablar de métodos supervisados y no supervisados, según se utilice o no la información de pertenencia de las observaciones a poblaciones o grupos definidos previamente. Si tenemos en cuenta la procedencia de las observaciones y los grupos de variables analizadas en las observaciones, podemos tener distintas matrices de datos. Una clasificación de esta matrices de datos podría ser la siguiente: a) Una única población y un solo grupo de variables Disponemos de una muestra aleatoria de tamaño n, procedente de una única población W, de p variables, con
vector de medias ),...,(' 1 p
y matriz de covarianzas
11 1
1
...... ... ...
...
p
p pp
, que
representamos en la siguiente tabla de datos:
Variables
X1 X2 ... Xp
1 x1,1 x1,2 ... x1,p
Observ. 2 x2,1 x2,2 ... x2,p
3 x3,1 x3,2 ... x3,p
... ... ... ... ...
n xn,1 xn,2 ... xn,p
Podemos calcular los siguientes valores muestrales: el vector de medias
),...,,(' 21 pxxxx
, y las matrices de covarianzas ( S = (sij) ), y de correlaciones ( R =
(rij)) ). Los tratamientos multivariantes para este tipo de matriz de datos, todos ellos no supervisados, podrían ser: - Análisis de Componentes Principales (PCA), y/o el Análisis Factorial (FA) con vistas a reducir la dimensión de los datos y estudiar la interrelación entre variables y entre observaciones, y - Análisis de Conglomerados (CA) para buscar agrupamientos de la observaciones o de las variables. También, con vistas a la representación gráfica de las observaciones, es posible utilizar la representación de mapas no lineales (''no linear mapping'') (LNM). b) Varias poblaciones y un solo grupo de variables: En este caso se dispone de k muestras, con tamaños ni, procedentes de k poblaciones multivariantes Wi en las
mismas p variables, con vectores de medias i
y matrices de covarianzas i , que
representamos en la siguiente tabla de datos:
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
16
Variables X1 X2 ... Xp
1 x1,1,1 x1,2,1 ... x1,p,1
Observ.
2 x2,1,1 x2,2,1 ... x2,p,1
W1 3 x3,1,1 x3,2,1 ... x3,p,1
... ... ... ... ...
n1 xn1,1,1 xn1,2,1 ... xn1,p,1
--- -------------------------------------------------------
--- -------------------------------------------------------
1 x1,1,k x1,2,k ... x1,p,k
Observ.
2 x2,1,k x2,2,k ... x2,p,k
Wk 3 x3,1,k x3,2,k ... x3,p,k
... ... ... ... ...
nk xnk,1,k xnk,2,k ... xnk,p,k
Se pueden calcular los siguientes valores muestrales: los k vectores de medias
),...,,( 21
'
ipiii xxxx
, las k matrices de covarianzas ( Sj ) y las k matrices de
correlaciones ( Rj ). Los métodos de tratamiento a utilizar para este tipo de matriz de datos, todos ellos supervisados, es decir, utilizan la información de la pertenencia de las muestras a los grupos de partida, podrían ser: - Métodos de Clasificación Supervisada: Análisis Lineal Discriminante (DLA) ó Cuadrático (DQA), que son métodos paramétricos que aceptan distribuciones normales de las poblaciones y matrices de covarianza iguales (DLA) o no (DQA)) Método SIMCA, que utiliza el modelo factorial de componentes principales en cada grupos. Método de los k vecinos más próximos (kNN), que es un método no paramétrico. Todos estos métodos permiten obtener reglas de clasificación para asignar nuevas muestras a las poblaciones o grupos de partida, Análisis Canónico de variables (CVA), con vistas a obtener una representación gráfica de las muestras, maximizando las diferencias entre los k grupos, y Análisis Multivariante de la Varianza (MANOVA), para comprobar diferencias entre los grupos.
A la matriz global de datos formada por las n = ni observaciones, también podemos aplicarle los anteriores métodos no supervisados (PCA, FA y CA), siempre que no utilicemos la información sobre la procedencia de las observaciones. c) Una población y dos grupos de variables: Disponemos en este caso de una muestra de tamaño n procedente de una población multivariante W de p+q variables, con vector de medias
, matriz de covarianzas , que recoge la información de un
total de p+q variables analizadas en las mismas n observaciones, y que representamos en la siguiente tabla de datos:
Variables
Variables X1 X2 ... Xp Y1 Y2 ..
.
Yq 1 x1,1 x1,2 ...
... x1,p y1,1 y1,2 ..
.
y1,q
Observ. 2 x2,1 x2,2 ... x2,p y2,1 y2,2 ...
y2,q
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
17
3 x3,1 x3,2 ... x3,p y3,1 y3,2 ...
y3,q
... ... ... ... ... ... ... ...
...
n xn,1 xn,2 ... xn,p yn,1 yn,2 ...
yn,q
Las variables Y's podrían ser características sensoriales de las muestras, mientras que las X's serían las características químicas de las mismas. El objetivo fundamental sería estudiar la relación de dependencia entre ambos grupos de variables. Para cada grupo de variables podemos calcular los correspondientes vectores de medias
),...,( 1 pxx y ),...,( 1 qyy , las matrices de covarianzas (Sx y Sy) y de correlaciones (Rx y
Ry), pero también las matrices de covarianza y correlaciones entre los dos grupos de
variables (Sxy y Rxy). La matriz completa de covarianzas sería: yyx
xyx
SS
SSS , y la de
correlaciones yyx
xyx
RR
RRR . Los métodos de tratamiento a utilizar para este tipo de
matriz de datos, que se incluyen dentro de los métodos para el estudio de dependencia entre los dos conjuntos de variables, podrían ser: Análisis de Correlación Canónica (ACC) para buscar dependencias entre ambos grupos de variables Análisis de Regresión Multivariada que incluye: Regresión Lineal Múltiple (MLR), Regresión por pasos sucesivos (SMLR), Regresión en Componentes Principales (PCR), y la Regresión por mínimos cuadrados parciales (PLS), con vistas a explicar las variables respuestas (variable Y's del segundo grupo) en función de las variables predictoras (variable X's del primer grupo) mediante un modelo matemático que permita predecir los valores de las variables respuesta.
A la matriz global de datos formada por las n observaciones podemos aplicarle también los anteriores métodos no supervisados (PCA, FA y CA).
3.4 TRATAMIENTO PREVIO DE LOS DATOS.
Con vistas a detectar datos anómalos en las matrices de datos anteriores, y antes de aplicar alguna de las distintas técnicas mencionadas, conviene obtener la información descriptiva de todas las variables (valores:
min max, , / , ,x s s x x x ), y los valores mínimo y
máximo de los correspondientes datos estandarizados. Una simple inspección de estos dos últimos valores permitiría detectar posibles datos anómalos. También, para la detección de este tipo de datos, puede utilizarse el rango de valores admisibles:
)13(5.11)13(5.11 QQQxQQQ . La estandarización de las variables, para lograr
0x y 12
s , suele ser utilizada antes de la aplicación de alguno de los métodos
multivariantes.
4. TRATAM. DE DATOS MULTIVARIANTES. METODOS NO SUPERVISADOS
4.1 ANALISIS DE COMPONENTES PRINCIPALES
El principal objetivo de esta técnica del Tratamiento de Datos Multivariantes, es reducir la dimensionalidad de los datos sin perder información valiosa, a partir de la interrelación de las variables analizadas. Se basa en transformar las variables originales en otras nuevas, que llamaremos componentes principales, cumpliendo: 1) cada nueva variable es combinación lineal, normalizada, de las originales, es
decir: 1;... 2,,2,2,1 k ikpipiiii aXaXaXaY
2) las covarianzas entre cada par de estas nueva variables es cero
( cov( , ) 0Y Y i ji j )
3) las nuevas variables tienen varianzas progresivamente decrecientes
( var( ) var( ) ... var( )1 2
Y Y Yp )
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
18
4) la suma de las varianzas de las p nuevas variables coincide con la varianza
total (VT) de las variables originales, es decir: VTXYp
ii
p
ii
11
)var()var(
Se trata, por tanto, de una transformación que podemos representar en forma matricial
de la manera siguiente: ),(),(),( pppnpn AXY . Como resultado de la aplicación de esta
técnica tendremos dos nuevas matrices que recogen toda la información para un
posterior estudio: la matriz ,( )i jY y , de orden (n,p), con las coordenadas de las
observaciones en las nuevas variables, y la matriz ,( )i jA a , de tamaño (p,p), que
tiene en cuenta la interrelación entre las variables originales así como su contribución en la definición de las nuevas variables. Desde un punto de vista geométrico, se trata de una rotación de los ejes de coordenadas, una vez centradas las variables. Determinación de los coeficientes a i,j. Los coeficientes se determinan mediante el cálculo de los valores y vectores propios de la matriz de correlaciones R si las variables están estandarizadas (La mayoría de los programas proceden a estandarizar
previamente las variables). En general, ja
será el vector propio asociado con el j-
ésimo mayor valor propio j y además se cumple que jjYVar )( . La matriz A
tendrá como columnas los vectores propios asociados con los correspondientes valores propios, ordenados de manera decreciente por su valor, y tiene la siguiente
propiedad: 1 tA A , es decir es una matriz ortogonal. Esta propiedad permite
establecer la ecuación matricial: ( , ) ( , ) ( , )
t
n p n p p pX Y A que será muy útil, como veremos
más adelante. Reducción de la dimensionalidad. Teniendo en cuenta que los valores de las
varianzas son progresivamente decrecientes ( jjYVar )( ) y su suma es VT
( VTVar j )( ), podemos considerar:
Y1 explica un 100( 1 /VT)% del total de la varianza de la matriz original de datos,
Y1 + Y2 explican conjuntamente, un 100(( 1 + 2 )/VT)% del total de la varianza de la matriz original de datos, y en general,
Y1 + Y2 +...+ Yq explican conjuntamente, un 100(( 1 + 2 +...+ q )/VT)% del total de la varianza de la matriz original de datos.
En muchas de las aplicaciones, con estas q (q<<p) primeras componentes principales podemos explicar un elevado porcentaje de la varianza total, lo que equivale a considerar que hemos logrado una reducción de la dimensión original de los datos, sin perder más que una parte pequeña que aceptaremos no es muy valiosa. Este nº q de componentes suele corresponder con el número de valores propios >1.
Matricialmente tendremos: ( , ) ( , ) ( , )n q n p p qY X A donde estas q nuevas variables, están
incorrelacionadas, y explican un elevado porcentaje de VT.
Interpretación de las componentes principales. A partir de la observación de la matriz de coeficientes (A(p,q)), podemos descubrir agrupamientos de las variables originales, según su contribución para definir las q nuevas variables. La matriz de coeficientes A se puede transformar
Matriz de componentesa
,960
,952
,934 -,337
,928 -,269
,910 -,280
,902 ,399
,803 -,502
,929
-,376 ,855
,547 ,810
,606 ,760
,949
hexol
m1but2
metanol
propanol
benol
m1but3
etxol
fenol2
terpin
cisol
linol
isol
1 2 3
Componente
Método de extracción: Análisis de compon. princ.
3 componentes extraídosa.
Varianza total explicada
6,682 55,679 55,679
3,092 25,771 81,450
1,556 12,963 94,412
Componente
1
2
3
Total% de lavarianza % acumulado
Autovalores iniciales
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
19
para lograr que sus coeficientes (los “loadings”) sean las correlaciones entre las componentes principales y las variables originales. A partir de esta matriz resulta mas fácil ver las variables que definen las componentes principales, y conocer el agrupamiento de las mismas, utilizando el porcentaje explicado con las primeras q primeras componentes. Representación de las muestras. A partir de la matriz Y, con las puntuaciones (coordenadas) de las muestras (observaciones) en las componentes principales, se puede obtener la representación bidimensional de las muestras en el plano definido por las dos primeras componentes principales. Esta representación de las muestras en función de las dos primeras componentes principales podría utilizarse para: explorar o confirmar posibles agrupamiento de las muestras, y para detectar posibles muestras anómalas (''outliers'').
4.2 ANALISIS FACTORIAL
El objetivo de este método no supervisado, debido a Pearson, es describir la interdependencia entre las variables analizadas a partir de otras, no observadas, llamadas factores. Se acepta que existen k variables (factores) Fi, no observadas, que son responsables de las variables originales Xi. El planteamiento para el modelo factorial ortogonal supone que cada variable original es combinación lineal de los
factores no analizados, es decir: iqqiiiii FbFbFbX ...2211 , donde {F1,
F2,...,Fq} son los factores comunes, { 1 , 2 ,..., p} los específicos de cada una de las p variables, y bij representa las saturaciones (contribuciones o “loadings” de los
factores). En el modelo se acepta que iEFE ii 0)(,0)( , ,)(,)( ICovIFCov ii
{F1, F2,...,Fq} y { 1 , 2 ,..., p} independientes. Se trata, por tanto, de una transformación de los datos, que en forma matricial, se puede expresar de la siguiente
manera: ),(),(),(
*
),( pnpqqnpn EBFX , siendo *
),( pnX la matriz de datos estandarizada.
Desde un punto de vista geométrico se trata de buscar un subespacio, sobre el que se proyectan los n vectores fila 'x
(puntos), correspondientes a las n observaciones de la
matriz X, para hacer mínima la suma de los módulos de los vectores '
(filas de la
matriz E). Una solución para este modelo factorial sería considerar como factores las componentes principales obtenidas a partir de la matriz de correlaciones (para estar estandarizadas), es decir, Fi = Yi , que se conoce como modelo factorial de componentes principales. La solución en q componentes principales, cumple todos
los anteriores requisitos: basta con considerar: ( , ) ( , )n q n qF Y , ( , ) ( , )
t
q p q pB A y
*
( , ) ( , ) ( , ) ( , )
t
n p n q q p n pX Y A E , que es el modelo factorial en componentes principales.
Esto es posible gracias a que la matriz A es una matriz ortogonal. Los resultados con este modelo serían, por tanto, las matrices Y con las coordenadas de las muestras y la matriz A con las contribuciones, o saturaciones, de las variables. La interpretación de los factores se realiza, como antes, a partir de la observación de la matriz B con las saturaciones (o "loadings"). Para una mejor definición de la contribución de los factores en las variables, es posible realizar una rotación de los q factores extraídos. La representación de las muestras (observaciones), como puntos en el plano definido por los dos primeros factores (rotados o no) informa de los posibles agrupamiento de las muestras y de la presencia o no de muestras anómalas (“outliers”).
1,501,000,500,00-0,50-1,00-1,50
PC1
2,00
1,00
0,00
-1,00
PC
2
V+H+SO2
V+H+SO2
V+H
V+H
V+SO2
V+SO2
VC
VC
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
20
4.3 ANALISIS DE CONGLOMERADOS
Es un método no supervisado que tiene como objetivo buscar agrupamientos naturales entre las n observaciones (individuos) o entre las p variables de la tabla de datos. En el caso de agrupamiento de las observaciones, cada una de ellas es considerada como un punto en el espacio p-dimensional, con coordenadas dadas por los p valores de las variables. Existen dos técnicas de agrupamiento: las jerárquicas que ponen de manifiesto la similitud de las observaciones (o variables) entre sí, y que pueden ser divisivas (se parte inicialmente de un solo grupo con todas las observaciones), o aglomerativas (se parte inicialmente de tantos grupos como observaciones), y las no jerárquicas que sólo informan de la pertenencia de las observaciones a cada uno de los grupos. Para la aplicación de esta técnica son necesario las siguientes consideraciones: a) seleccionar una medida de semejanza entre los individuos (observaciones) o entre las variables, según el tipo de datos, b) seleccionar el algoritmo para unir los conglomerados, c) fijar el nº de conglomerados, que se desean formar, en el caso de los métodos no jerárquicos para el agrupamiento de las observaciones, y d) estandarización de las variables si son de distinta naturaleza.
Métodos no jerárquicos. Fijado el número k de conglomerados ( iC ) que
queremos formar, estos métodos permiten obtener una partición de orden k del
conjunto de los n individuos ( W = {1,2,3,...,n} ), es decir: jiji
k
CC
CCCW ...21 .
Cada conglomerado iC estará formado por ni individuos, y tendrá un centroide
cuyas coordenadas serán los valores medios de las p variables en los ni individuos,
es decir: ),...,,( 21 pi xxxc . Para cada conglomerado podemos definir su dispersión
que viene dada como la suma de las distancias al cuadrado de los ni puntos al
centroide, es decir: ),(2ii cjdE . De esta forma es posible definir, para una
determinada partición (C1, C2, ..., Ck), la dispersión total, definida por: k
iikT ECCCD
121 ),...,,( . El objetivo de estas técnicas será buscar la partición de
W, de orden k, que minimice esta dispersión total. Uno de los algoritmos más utilizado es el de las k-medias de McQueen, que consiste en: 1) asignar aleatoriamente los n individuos a los k grupos, 2) calcular los centroides de cada grupo, 3) asignar cada individuo al grupo con centroide más próximo, y 4) repetir los pasos 2) y 3) hasta lograr estabilidad. Aunque está garantizada lograr la estabilidad en un número finito de pasos, este puede disminuirse si se modifica el paso 3) recalculando los centroides después de cada asignación de los individuos. Como resultado de la aplicación de esta técnica, los programas de ordenador suelen proporcionar, además de la descripción de los k conglomerados, los valores medios de las variables en cada uno de los k conglomerados, y la comparación de dichos valores medios (ANOVA). Métodos jerárquicos aglomerativos. La utilización de estos métodos, válidos tanto para agrupar observaciones como variables, permite conocer la interrelación entre los individuos (o variables) mediante una representación gráfica bidimensional llamada dendrograma. Los algoritmos para aplicar estos métodos, en el caso de agrupamiento de observaciones, tienen en común los siguientes pasos: 1) se parte de tantos conglomerados como individuos (C1={1}, C2={2}, ...,Cn={n}), y se calcula la matriz de distancias, normalmente la Euclídea, entre ellos: D = ( d(Ci , Cj) ) = ( dij ) , 2) se buscan los dos conglomerados (Cp y Cq) con menor distancia ( d(Cp , Cq ) = min d(Ci , Cj ) ), 3) se unen los conglomerados Cp y Cq para formar un nuevo grupo y se calcula la nueva matriz de distancias entre los grupos (D = ( d(Ci , Cj)) ), y 4) se repiten los pasos 2) y 3) hasta lograr un único conglomerado formado por todos los n individuos. En general, la
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
21
matriz de distancias del primer paso, suele ser la distancia Euclídea. Las diversas formas de definir la distancia entre dos conglomerados en el paso 3), dan lugar a los distintos métodos de unión:
método del enlace sencillo ( d(Ci , Cj) = mín d(wi,wj) ; wi Ci, wj Cj )
método del enlace completo ( d(Ci , Cj) = máx d(wi,wj) ; wi Ci, wj Cj ) método del centroide ( d(Ci , Cj) = distancia entre los 2 centroides )
método del enlace en media ( d(Ci , Cj) = media { d(wi,wj) ; wi Ci, wj Cj } ) método de Ward que tiene en cuenta, dentro de cada grupo, la dispersión de las
muestras, con respecto al centroide ( j i jjip xxE 2, )( ). La unión de los
conglomerados Cp y Cq, del paso 3), se realiza si qpqp EEE ),( es mínima. Este
método de unión es muy utilizado. Antes de la aplicación de estos métodos jerárquicos la matriz de datos suele ser estandarizada para dar igual importancia a todas las variables. La secuencia de los pasos del algoritmo, se recoge, de forma gráfica, en el dendrograma, que permite observar los grupos obtenidos. En el caso de agrupamiento de las variables, el algoritmo es similar, utilizando como medida de distancia entre variables el valor 1 - el coeficiente de correlación.
Hernández, T., I. Estrella, D. Carlavilla, P.J. Martín-Álvarez, M.V. Moreno-Arribas.“Phenolic
compounds in red wine subjected to industrial malolactic fermentation and ageing on lees”. Anal.
Chim. Acta, 2006, 563 (1-2), 116-125.
Statistical analysis: The statistical methods used for data analysis were: cluster analysis (Ward’s
method from standardized variables), to discover natural groupings of the wine samples in
relation to the two study factors (technological procedure and ageing time); ….
Results: In an attempt to obtain a preliminary view of the main causes for the change in phenolic
compounds during wine ageing, cluster analysis was carried out on the data of the quantified
compounds of the 47 wines studied. Fig. 2 shows the dendrograma obtained. The squared
Euclidean distance was taken as a measure of the proximity between two samples and Ward’s
method was used as the linkage rule. The variables were standardized previously. As can be
observed in this figure, there are two large groups of wines, one corresponding to wines aged for
14 months and the other to the remaining wines. In this second group, the wines are also grouped,
to some extent, according to the time of ageing. As can be observed in Fig. 2, there was no
grouping according to the technological procedure used to manufacture the wines.
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
22
5. TRATAM. DE DATOS MULTIVARIANTES. METODOS SUPERVISADOS
La matriz de datos para la aplicación de estos métodos está formada por k matrices con ni filas y p columnas, que corresponden a k muestras aleatorias, de tamaño ni, procedentes de k poblaciones Wi, en las mismas p variables Xi, con vectores de
medias i
y matrices de covarianzas i .
5.1 ANALISIS CANONICO DE VARIABLES (CVA)
Esta técnica multivariante, tiene como objetivo, obtener la mejor representación gráfica q-dimensional, de las muestras, maximizando las diferencias entre los k grupos estudiados, a partir de la información proporcionada por las p variables Xi analizadas (q = min (p,k-1)). Para lograr este objetivo se obtienen q nuevas variables Yi, llamadas variables canónicas, que son combinación lineal de las originales, están incorrelacionadas entre sí, y maximizan las diferencias entre los k grupos estudiados. Se trata, por tanto, de transformar la matriz X con n =
ni filas y p columnas, en una mueva matriz con n filas y q columnas ( q = mín (p,k-1) ), mediante la transformación matricial Y(n,q) = X(n,p) A(p,q). La representación de las n observaciones en el plano definido por las dos primeras variables canónicas, es el resultado principal de la aplicación de esta técnica multivariante. La distancia euclidea de las muestras a los centroides de cada grupo podría utilizarse como una regla de asignación de las muestras.
5.2 METODOS DE CLASIFICACION SUPERVISADA
Dos son los objetivos fundamentales de estos métodos: a) encontrar reglas de clasificación para lograr una diferenciación de los grupos, y b) utilizar dichas reglas para asignar nuevas observaciones a alguno de los grupos estudiados. Para ello se parte de la información proporcionada por p variables analizadas en las muestras (observaciones) genuinas de los diferentes grupos. La matriz de datos de partida, estará formada por las k matrices, con las muestras de entrenamiento, indicada anteriormente. También se puede disponer de otra matriz de datos,
tnipiii xxx ,...,2,1,2,1, },...,,{ , formada por nt muestras (grupo test), analizadas en las p
variables, a las que queremos aplicar las reglas de asignación obtenidas con el conjunto de entrenamiento, para conocer su procedencia (podrían ser botellas de whisky de la marca A, abiertas, y sometidas a inspección, para verificar su autenticidad).
5.2.1 Análisis Discriminante
Dentro de los métodos de clasificación supervisada, destaca, por su amplia utilización el Análisis Discriminante. Este método paramétrico, acepta que el vector de variables aleatorias (X1, X2,..., Xp) sigue una distribución normal multivariante en
cada uno de los k grupos ( ),( iiN
), y minimiza la probabilidad de clasificación
errónea de las muestras del conjunto de entrenamiento (regla de tipo bayesiano). Si se
acepta que las matrices de covarianzas en los grupos son idénticas ( ),( iN
), el
Análisis Lineal Discriminante (ALD) calcula k funciones lineales de clasificación,
151050-5-10-15
Función 1
6
3
0
-3
-6
-9
Fu
nc
ión
2
4
3
21
Centroide
4
3
2
1
marca
funciones discriminantes canónicas
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
23
Resultados de la clasificación
18 0 0 0 18
0 12 0 0 12
0 0 15 0 15
0 0 0 8 8
100,0 ,0 ,0 ,0 100,0
,0 100,0 ,0 ,0 100,0
,0 ,0 100,0 ,0 100,0
,0 ,0 ,0 100,0 100,0
18 0 0 0 18
0 12 0 0 12
0 0 15 0 15
0 0 0 8 8
100,0 ,0 ,0 ,0 100,0
,0 100,0 ,0 ,0 100,0
,0 ,0 100,0 ,0 100,0
,0 ,0 ,0 100,0 100,0
marca
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
Recuento
%
Recuento
%
Original
Validación cruzada
1 2 3 4
Grupo de pertenencia pronosticado
Total
una para cada grupo, ki
pj
jjijii Xacd
,...,11
, que
permitirán clasificar las muestras del conjunto de entrenamiento con un elevado porcentaje de clasificación correcta, si las p variables tienen un elevado poder discriminante. La regla de asignación
para la muestra ),...,,(' 21 pxxxw
, será: siWwi
kjparawdmaxwd ji ,...,1)()(
. Las
funciones de clasificación y la matriz de clasificación de las muestras del conjunto de entrenamiento, son los resultados más importantes, incluidos en la mayoría de los programas de ordenador, que tienen implementada esta técnica multivariante. El Análisis Lineal Discriminante por pasos sucesivos permite seleccionar, en cada paso, la variable Xi que más ayuda en la discriminación de los k grupos de muestras, definiendo las funciones lineales de clasificación con las variables seleccionadas (subconjunto de las p originales).
Si las matrices de covarianzas son desiguales ( ),( iiN
), el Análisis Cuadrático
Discriminante (AQD) permite obtener k funciones cuadráticas para la clasificación de las muestras (Martín-Álvarez et al 1988, 1991, Herranz et al 1989, 1990).
5.2.2 Método SIMCA
El método SIMCA calcula el modelo factorial de componentes principales en cada grupo, y asigna las muestras a los grupos según su acoplamiento a los modelos teniendo en cuenta el valor del estadístico F para la asignación. Para la representación gráfica utiliza los gráficos de Cooman.
5.2.3 Método kNN
El método de los k vecinos más próximos (kNN), es un método no paramétrico de clasificación que asigna cada muestra al grupo más representado entre los k vecinos más próximos (según la matriz de distancias euclideas)
Hernández, T., I. Estrella, D. Carlavilla, P.J. Martín-Álvarez, M.V. Moreno-Arribas.“Phenolic compounds
in red wine subjected to industrial malolactic fermentation and ageing on lees”. Anal. Chim. Acta, 2006,
563 (1-2), 116-125.
Statistical analysis: The statistical methods used for data analysis were: …; and stepwise discriminant
analysis to select the variables most useful in differentiating the groups. ….
Results: In order to select the phenolic compounds most useful to differentiate the samples of wines aged on
lees (batches A, B, C, D, E and F), stepwise discriminant analysis was applied. Values of 4.0 and 3.9 were
used for F statistics to enter and to remove variables, respectively. Five of the phenolic compounds quantified
(see Table 4) were selected: cis-resveratrol, cis-p-coumaric acid, vanillic acid, (+) catechin and trans-caffeic
acid. A 100% correct assignment of the wines was obtained either by the standard or the leave-one-out cross
Coeficientes de la función de clasificación
16,983 ,055 5,583 1,004
2,895 -,271 2,116 1,364
1,511 -5,266 -4,767 -1,978
,964 2,516 ,874 1,645
4,069 7,384 6,675 4,908
1551,406 2559,752 2321,896 1557,173
-641,801 -904,519 -776,472 -429,555
metanol
acetetil
propanol
metpro12
isoamili
absorban
(Constante)
1 2 3 4
marca
Funciones discriminantes lineales de Fisher
Grupo 1
Grupo 2
k=9; 5 del 1 y 4
del 2
se asigna al 1
21
3 Grupo 1
Grupo 2
k=9; 5 del 1 y 4
del 2
se asigna al 1
21
3 Grupo 1
Grupo 2
k=9; 5 del 1 y 4
del 2
se asigna al 1
21
3
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
24
validation procedures applied to these selected compounds. Fig. 3 shows the wines on the plane defined by
the first two canonical variables, obtained with the five selected phenolic compounds. The population
canonical ellipses for the five types of wines for a 95% confidence limit are also shown in the figure. Again
the wines are grouped by time of ageing but cannot be differentiated according to the technological variable
used in their manufacture. This suggests that during storage, …..
6. TRATAM. DE DATOS MULTIVARIANTES. METODOS DE DEPENDENCIA
Disponemos de una muestra aleatoria de tamaño n, procedente de una población multivariante W en p+q variables (X1, X2,..., Xp, Y1, Y2, ..., Yq), con vector de medias
matriz de covarianzas . Es decir, se dispone de la información de un total de
p+q variables analizadas en las mismas n observaciones.
6.1 ANALISIS DE CORRELACION CANONICA (ACC)
El objetivo de esta técnica multivariante es buscar dependencias lineales entre ambos bloques de variables (bloque X y bloque Y). Para ello se calculan m nuevas variables (m = min(p,q)), llamadas canónicas, en cada bloque (F1, F2, ..., Fm, S1,
S2, ..., Sm), de manera que estén máximamente correlacionadas entre sí (corr(F1,S1)
corr(F2,S2) ... corr(Fm,Sm)). Se trata, por tanto, de obtener las matrices A y B, que permitan las siguientes transformaciones matriciales: F = XA y S = Y B. Los resultados de aplicar esta técnica serían las matrices F, S, A y B, y los valores de las correlaciones canónicas (corr(Fi,Si)). La observación de las sucesivas columnas de las matrices A y B permitirán descubrir las variables más correlacionadas con cada variable canónica. También es posible obtener la representación gráfica de las sucesivas columnas de las matrices F y S (p.e. el diagrama de dispersión de F1 frente a S1). Este método no puede ser utilizado para la predicción de los valores del bloque Y.
6.2 MODELOS DE REGRESION MULTIVARIANTE
Los elementos a considerar a la hora de aplicar estas técnicas de regresión, son:
Variable respuesta, o variable dependiente Y (cada una de las variables del bloque Y), y
Variables predictoras X1, X2,..., Xp. ( o variables independientes). La finalidad de estas técnicas es modelar la variable respuesta Y, mediante un
modelo matemático: ),...,2,1( pXXXfY . Para ello se dispone de un conjunto de n
muestras, conjunto de aprendizaje o calibración: niiipii yxxx ,...,1,,...,2,1 )}{( , para
estimar los parámetros de la función ),...,2,1( pXXXf . En algunos casos, se dispone
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
25
también, de un conjunto de a muestras, grupo evaluación:
ajjjpjj yxxx ,...,1,,...,2,1 )}{( para validar el modelo estimado. Una vez validado el
modelo estimado, mediante el grupo de evaluación, o por validación interna, puede aplicarse para la predicción del valor de la variable Y en las t muestras del grupo
test: tjjpjj xxx ,...,1,,...,2,1 )}{( .
Los datos del conjunto de calibración pueden haber sido seleccionados mediante un diseño fijo de experimentos, cuando el objetivo fundamental es estimar los coeficientes de regresión del modelo con vista a una posible optimización de la respuesta, o mediante un diseño aleatorio, cuando sólo estamos interesados en utilizar el modelo para realizar predicciones
6.2.1 Regresión lineal múltiple
En el caso de regresión lineal múltiple se acepta que los valores de la variable dependiente Y, obedecen al modelo lineal de primer orden
iippiii xxxy ...22110 , que tiene en cuenta, tanto los valores de las p
variables independientes X1, X2,..., Xp, como el error aleatorio de la determinación analítica y de la posible contribución de otras variables no controladas. Para este modelo matemático, se aceptan las siguientes hipótesis: 1) la variable dependiente Y, es una v.a., sujeta a error, 2) las p variables Xi no son variables aleatorias, o su
error es despreciable frente al de Y, y 3) los errores (o residuos) i son
independientes y con distribución ),0(N (lo que implica que ),0(~ ii xNY )
La estimación de los parámetros i del modelo teórico, puede realizarse mediante el
procedimiento de mínimos cuadrados ( yXXXb
')'(1
, siendo X la matriz con los
valores de las p variables en las n muestras del conjunto de calibración y con una primera columna, añadida, de unos), dando lugar al siguiente modelo estimado:
ippiii xbxbxbby ...ˆ22110 . Como medida de precisión del ajuste se utiliza el
coeficiente de determinación múltiple 2
R , que informa de la proporción de la suma de cuadrados de las desviaciones de Y respecto de su valor medio, explicada por el
modelo ( totreg SSSSR /2
siendo errorregtot SSSSSS ), y la desviación estándar
residual s, que informa del tamaño del error cometido ( 2
1
ˆ( ) /( 1)n
i ii
s y y n p ). En el
caso de disponer de repeticiones, varios valores de Y para los mismos valores de las variables X1, ..., Xp, es posible comprobar si el modelo tiene falta de ajuste mediante la descomposición recogida en la correspondiente tabla ANOVA para la regresión
faltaajpuroerrregerrorregtot SSSSSSSSSSSS .
Para validar el modelo es preciso confirmar las hipótesis establecidas sobre los errores
i (si son homogéneos, independientes y siguen distribución Normal). En caso de
aceptar su validez, se podría obtener un valor para estimar el comportamiento en predicción del modelo al aplicarlo a muestras no utilizadas para estimarlo, que puede medirse mediante el error medio en predicción (RMSEP) y que se calcula a partir de los n datos del conjunto de calibración mediante el procedimiento de validación interna
o "leave one out" ( nyyRMSEPn
iii /)ˆ(
1
2)( siendo )(
ˆiy el valor predicho para la
variable Y en la i-ésima observación al utilizar las n -1 restantes en la estimación del modelo).
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
26
Si el modelo es válido, es posible calcular intervalos de confianza para los parámetros
i , así como realizar test de hipótesis sobre los mismos. Como resultados más
importantes que se pueden obtener mediante la aplicación de esta técnica, podemos citar los siguientes:
los valores de los coeficientes de regresión (bi), las desviaciones estándar de los mismos, los valores del estadístico t-Student para confirmar la hipótesis
00 iH , las probabilidades asociadas a este contraste, y a veces, los intervalos
de confianza para los parámetros,
los valores del coeficiente de determinación 2
R , del coeficiente de correlación múltiple R y de la desviación estándar residual (s) que informan de la precisión,
la descomposición de la variabilidad de los valores de la variable Y (tabla ANOVA), y
la tabla con los valores observados, calculados con el modelo, y los residuos de la variable Y.
Como resultado gráfico del ajuste suele utilizarse la representación gráfica de los valores calculados (
iy ) frente a los observados (iy ) .
Si existe multicolinealidad entre las variables Xi, la matriz de inflación (X'X) será casi singular, y su inversión afectará en las estimaciones e intervalos de confianza para los parámetros, y en las predicciones. En este caso se pueden utilizar otros procedimientos: el método de pasos sucesivos para selección de algunas de las p variables, la regresión sesgada, la regresión en componentes principales o la regresión por mínimos cuadrados parciales.
6.2.2 Diseño de Experimentos
El Diseño de Experimentos trata de cómo dirigir y planificar los experimentos, en orden a extraer la máxima cantidad de información a partir de los datos adquiridos en presencia de ruido, con el menor número de ensayos experimentales. La idea fundamental es variar todos los factores importantes simultáneamente en un conjunto de experimentos planificados, y conectar los resultados con la variable respuesta, mediante un modelo matemático. El modelo estimado se utiliza para interpretar, predecir y optimizar. Los objetivos del diseño de experimentos, incluyen: 1) conocer los factores, que de manera individual o en interacción con otros factores, tienen una influencia real en los valores de las variables respuesta (fundamentalmente para el “screening” de los factores), 2) los niveles de los factores que dan lugar a condiciones óptimas, y 3) predecir los valores de las variables respuesta para ciertos niveles de los factores (fundamentalmente para el modelado mediante superficie de respuesta). Los términos empleados en el Diseño de Experimentos son: 1) los factores o variables independientes (Fi), que se cree influyen en la variable respuesta (Y) de un cierto experimento, son controladas por el experimentador, pueden ser de tipo cualitativo o cuantitativo, y pueden tomar diferentes valores (niveles); 2) la variable respuesta o dependiente (Y) que se pretende estudiar, cuyos valores se cree están influidos por los niveles de los factores, y por otras causas que aceptaremos como error experimental, y que son de tipo cuantitativo; 3) el modelo o superficie de respuesta, que es la función matemática con la que se pretende modelizar la variable respuesta analizada, en función de las variables predictoras o independientes, y con parámetros (coeficientes) que hay que estimar; 4) la matriz de experimentos (E), formada por tantas columnas como factores y tantas filas como experimentos a realizar (n), donde figuran los valores reales de los factores en cada experimento; 5)
la matriz del diseño (D) con los valores codificados para los factores ( ( )i iX f F ) y
que tiene tantas columnas como factores y tantas filas como experimentos hay que realizar; 6) la matriz del modelo (X) donde figuran los valores codificados que toman
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
27
las variables independientes, formada por tantas columnas como parámetros (términos) tiene el modelo y tantas filas como experimentos hay que realizar. Las fases o etapas del Diseño de Experimentos son: I: fase de diseño: para definir los factores y sus niveles, las variables respuestas y los objetivos (cribado de factores o modelo de superficie de respuesta); II: fase de análisis: para explorar, ajustar los datos, revisión del ajuste, diagnósticos, interpretar el modelo, y refinado del mismo; III: fase de utilización del modelo: para interpretar, seleccionar las mejores condiciones, y para predicción. Los diseños se pueden clasificar, teniendo en cuenta el modelo matemático fijado, en: 1) diseños o modelos de primer orden que se utilizan el modelo lineal simple
k
0 i ii 1
y x , que incluyen solo términos lineales, con k factores y
k+1 parámetros (coeficientes), o el modelo lineal con interacciones: k
0 i i ij i ji 1 i j
y X X X . Su objetivo será estimar los parámetros del modelo con la
máxima precisión posible y el menor número n de experimentos a realizar. El valor mínimo de n será el número de coeficientes + 1. Entre los distintos tipo de matrices de experiencias, para la estimación de los parámetros del modelo lineal de primer orden, cabe destacar: las matrices de Hadamard y los planes factoriales a 2 niveles, completos o fraccionarios. Se emplean con fines de cribado para identificar los factores que dan lugar a cambios substanciales en la variable respuesta, o que tienen un efecto significativo sobre la misma. 2) Los diseños o modelos de segundo grado que utilizan el modelo teórico
completo de segundo orden: k k
2
0 i i ij i j ii ii 1 i j i 1
y X X X X , que tiene los k
términos lineales ( i iX ), los k2 términos correspondientes a las interacciones
( ij i jX X ) y los k términos cuadrados ( 2
ii iX ). Entre los diseños de experimentos de
segundo grado cabe citar: los diseños factoriales completos 3k y los diseños compuestos centrados, que los más utilizados, y que se emplean con fines de modelado mediante superficie de respuesta.
Diseños para k
variables:
Niveles:
Objetivo (modelo):
Design:
Factorial completo 2k (k<5) (variables contí. o categór.)
2 (o 3 si todas cont.)
Cribado (Efec. Princ. e Inter.)
Two-level Full factorial
Factorial fraccionado (k 5) (variables contí. o categór.)
2 Cribado (Efec. Princ. e Inter.)
Fractional factorial
Plackett-Burman (4 k 32) (variables contí. o categór.)
2 Cribado (Efec.Princ.) Plackett-Burman
Compuesto central (2 k 6) (ortogonal o rotado) (var. contí.)
5 Optimización (Ef. Prin, Inter. y Cuad.)
Central composite
Factorial completo 3k y
Box-Behnken (3 k 6) (var.cont.)
3 Optimización (Ef. Prin, Inter. y Cuad.)
Three-level Full factorial Box-Behnken
Para mezclas (k 3) (var. contí.)
4 6
Cribado Optimización
Mixture:Simplex-Lattice Mixture: Simplex-Centroid
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
28
7. BIBLIOGRAFIA
A.A. Afifi and S.P. Azen."Statistical analysis. A computer oriented ” Academic Press, Inc. (1979) R.G. Brereton "Chemometrics applications of mathematics and statistics to ... ". Ellis Horwood
(1990) R. Cela et al. "Avances en Qimiometría Práctica". Univ.Santiago de Compostela (1994). C.M. Cuadras “Métodos de análisis multivariante” EUNIBAR (1981) N.R. Draper and H.Smith "Applied regression analysys" John Wiley & Sons, Inc. (1981). W.J. Krzanowski “Principles of multivariate analysis. ...” Oxford statistical science series; v.3,
(1988) M. O’Mahoney “Sensory evaluation of food. Statistical methods and procedures”, Marcel Dekker Inc.(1986) A. Martín y J.D. Luna. "Bioestadística para las Ciencias de la Salud", Edic.Norma, Madrid (1989). P.J. Martín Álvarez "Quimiometría Alimentaria". Ediciones de la UAM (2000). P.J. Martín-Álvarez, "PRÁCTICAS DE TRATAMIENTO ESTADÍSTICO DE DATOS CON EL PROGRAMA SPSS PARA WINDOWS. APLICACIONES EN EL ÁREA DE CIENCIA Y TECNOLOGÍA DE ALIMENTOS". Ed.: CSIC, Colec. Biblioteca de Ciencias, nº 27. Madrid, 258 pags., 2006. ISBN: 84-00-08470-5. P.J. Martín-Álvarez “Statistical Techniques for the Interpretation of Analytical Data”, Chapter 13, pages 677-713 in “Wine Chemistry and Biochemistry”. M.Victoria Moreno-Arribas & M. Carmen Polo Editors, Springer (2009). ISBN: 978-0-387-74116-1. P.J. Martín-Álvarez “Guía práctica para la utilización del programa STATISTICA para Windows (versión 7.1) “. P.J. Martín-Alvarez Ed, 2014. ISBN: 978-84-695-9934-1. D.L. Massart, et al. “Chemometrics: A textbook” Elsevier (1990) J.C.Miller and J.N. Miller "Statistics for analytical chemistry. Ellis Horwood Ltd (1984) D.F. Morrison “Multivariate Statistical Methods” McGraw-Hill, Inc. (1976) D. PEÑA. "Estadística: Modelos y métodos. 2. Modelos lineales y ...”. Alianza Editorial S.A.(1992). M.A.Sharaf, D.L. Illman and B.R.Kowalski. "Chemometrics". John Wiley&Sons, Inc.(1986).
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
29
8. Comandos del programa SPSS:
Con el SPSS, para contrastar la hipótesis Ho = 0 = 0.4, elegir en la barra de menús el procedimiento
Analizar, Comparar medias, Prueba T para una muestra, y colocar el nombre de la variable en el cuadro de
Contrastar variables:, y el valor de referencia 0.4 en el cuadro Valor de prueba:, pulsar en Aceptar.
Para contrastar la hipótesis Ho 1 = 2 y conocer los valores descriptivos de la variable en los 2 grupos,
elegir Analizar, Comparar medias, Prueba T para muestras independientes, y colocar el nombre de la
variable en el cuadro Variable a contrastar, y el nombre de la variable de agrupamiento en el cuadro Variable
de agrupación, con los correspondientes valores en la ventana de Definir los grupos, pulsar en Continuar y en
Aceptar. Para contrastar la hipótesis Ho 1 = 2 en el caso de muestras relacionadas, utilizar Analizar,
Comparar medias, Prueba T para muestras relacionadas; seleccionar las dos variables y colocarlas en el
cuadro Variables relacionadas, y pulsar Aceptar.
Para contrastar la hipótesis de igualdad de k medias (Ho 1 = 2 = … = 6) y conocer los valores
descriptivos en cada uno de los grupos, utilizar Analizar, Comparar medias, ANOVA de un factor, y colocar
el nombre de la variable en el cuadro de Dependientes:, y el nombre de la variable de agrupamiento en el
cuadro Factor:. En la ventana de Opciones, elegir en Estadísticos: Descriptivos, Prueba de homogeneidad de
la varianza, Welch, y seleccionar Gráfico de las medias, pulsar Continuar. En la ventana Post Hoc elegir S-N-
K, y Continuar y Aceptar. También se puede utilizar el procedimiento Analizar, Modelo lineal general,
Univariante, y colocar el nombre de la variable en el cuadro Dependiente:, y la variable de agrupamiento en el
cuadro Factores fijos: y pulsar en Aceptar. En el caso de ANOVA de 2 factores se puede utilizar el
procedimiento Analizar, Modelo lineal general, Univariante, y en la ventana de este comando colocar el
nombre de la variable en el cuadro Dependiente:, y los nombre de los factores en el cuadro Factores fijos: (o
Factores aleatorios:) y pulsar en Aceptar.
Para realizar el análisis de regresión lineal simple/múltiple, utilizar el procedimiento Analizar, Regresión,
Lineal, y colocar la/s variable/s independiente/s (xi) en el cuadro Independientes:, y la variable dependiente
(y) en el cuadro Dependiente: En la ventana Estadísticos... seleccionar Estimaciones e Intervalos de confianza
en Coeficientes de regresión, y Ajuste del modelo, pulse Continuar, para obtener los parámetros estimados y
los intervalos de confianza. Para obtener el gráfico de dispersión de los residuos tipificados frente a los valores
observados, y el gráfico de probabilidad normal de los residuos, hay que abrir la ventana Gráficos... y colocar
la variable DEPENDNT en el cuadro del eje X, y la variable ZRESID en el cuadro de la variable Y, y
seleccionar Gráfico de prob. normal en Gráficos de residuos tipificados, y pulsar Continuar. Para guardar,
como nuevas variables, los valores calculados y los residuos, hay que abrir la ventana Guardar... y seleccionar
No tipificados en Valores pronosticados, y No tipificados en Residuos, y pulsar Continuar. En la ventana
Opciones..., compruebe que está seleccionado Incluir constante en la ecuación del modelo teórico, y pulse
Continuar.
Para realizar el análisis de componentes principales (o el factorial) utilizar el comando Analizar,
Reducción de datos, análisis factorial, y colocar las nombres de las variables en el cuadro de Variables. En la
ventana Descriptivos: en Estadísticos elegir Univariados y Solución inicial; en Matriz de correlaciones elegir
Coeficientes y Nivel significación; pulsar Continuar. En la ventana de Extracción: en Método elegir
Componentes principales, en Analizar elegir Matriz de correlaciones, en Extraer elegir Aautovalores >1, y en
Mostrar elegir Solución factorial sin rotar y Gráfico de sedimentación; pulsar Continuar. En la ventana de
Rotación: en Método elegir Ninguno, y en Mostrar elegir Gráficos de saturaciones; pulsar Continuar. En la
ventana de Puntuaciones: señalar Guardar como variables y Método de regresión, pulsar Continuar. Por
último, en la ventana de Opciones: en Valores perdidos elegir excluir casos según lista, y en Formato
visualización de los coeficientes elegir Ordenar por tamaño y Suprimir valores absolutos menores que 0.25;
pulsar Continuar; y pulsar Aceptar en ventana principal.
Para el análisis de conglomerados utilizar el procedimiento Analizar, Clasificar, Conglomerados
jerárquicos. Colocar los nombre de las variables en el cuadro de Variables, en Conglomerar elegir casos, en
Etiquetar casos mediante elegir el nombre de la variable alfabética que se desea utilizar, y en Mostrar elegir
Estadísticos y gráficos. En la ventana de Estadísticos elegir Historial de conglomeración y Matriz de
distancias; Continuar. En la ventana de Gráficos elegir Dendrograma; en Témpanos elegir todos los
conglomerados, y en Orientación elegir Vertical. En la ventana de Método: en Método de conglomeración
elegir el Método de Ward; en Medida elegir Intervalo y Distancia euclídea al cuadrado, en Transformar
valores elegir Estandarizar: Puntuaciones Z por variable; pulsar Continuar y Aceptar.
Para aplicar el análisis lineal discriminante utilizar el procedimiento Analizar, Clasificar, Discriminante,
y colocar los nombres de las variables en el cuadro Independientes:, el nombre de la variable de agrupamiento
con sus valores, en el cuadro Variable de agrupación, y seleccionar Introducir independientes juntas, o Usar
método de inclusión por pasos.
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
30
Comandos del programa STATGRAPHICS 5.1: Tratamientos: Procedimientos:
I.- Univariante
Un grupo de datos: Valores descriptivos,
Normalidad, Intervalos de confianza,
Contraste para una media
Descripción, Datos Numéricos, Análisis Unidimensional (Resultados:
Valores descriptivos, Intervalos de confianza, Contraste para la media,
histograma, gráfico de cajas, gráfico de probabilidad). Analyze,Variable
Data,One-Variable Analysis en Statgraphics Centurion XV.
Dos grupos de datos:
Contraste para dos medias
independientes
Contraste para dos medias relacionadas
Comparación, Dos muestras, Comparación de dos muestras (Resultados:
Resumen estadístico, comparación: de medias, de desviaciones y de
medianas, histogramas y grafico de cajas ). Analyze,Variable Data,Two-
sample comparisons, Independent samples, en Statgraphics Centurion XV.
Comparación, Dos Muestras, Comparación de Muestras Pareadas (Resultados: Resumen estadístico, intervalos de confianza, contraste de
hipótesis, histogramas, y grafico de cajas, y gráfico de probabilidad
normal). Analyze,Variable Data,Two-sample comparisons, Paired samples,
en Statgraphics Centurion XV.
k>2 grupos de datos:
ANOVA de un factor
Comparación, Análisis de la Varianza, ANOVA Simple (Resultados: Tabla
ANOVA, Tabla de Medias, Contrastes: múltiples, de varianzas, de Kruskal-
Wallis, y Gráficos de medias). Improve,Analyis of variance, One- way
ANOVA, en Statgraphics Centurion XV.
ANOVA dos factores con o sin
interacción
Comparación, Análisis de la Varianza, ANOVA Factorial (Resultados:
Tabla ANOVA (Opciones de análisis para controlar términos), Tabla de
Medias, Contrastes, gráfico de medias y de interacción). Improve,Analyis of
variance, Multifactor ANOVA, en Statgraphics Centurion XV.
II.- Bivariante
Regresión lineal simple Dependencia, Regresión simple (Resultados: Resumen regresión, ANOVA
con falta de ajuste, Intervalos de confianza, Tabla valores estimados, y
gráficos: del modelo ajustado, de observados y calculados, y de residuos).
Improve, Regression Analyis, One Factor, Linear Regression, en
Statgraphics Centurion XV
Regresión polinómica Dependencia, Regresión polinómica (Resultados: Resumen regresión,
ANOVA con falta de ajuste, Tabla valores estimados, y gráficos: del
modelo ajustado, de observados y calculados). Improve, Regression
Analysis, One Factor, Polynomial Regression, en Statgraphics Centurion
XV
Regresión no lineal Avanzado, Regresión avanzada, Regresión no lineal (Resultados:
Resumen regresión y gráfico del modelo ajustado). Improve, Regression
Analysis, Multiple Factors, NonLinear Regression, en Statgraphics
Centurion XV
III.- Multivariante
Análisis Componentes Principales Avanzado, Métodos Multivariables, Componentes Principales (Resultados:
Resumen, Pesos, Coordenadas, gráfico de sedimentación, de dispersión, de
componentes, biplot). Analyze,Variable Data,Multivariate Methods
Principal Components en Statgraphics Centurion XV.
Análisis Conglomerados Avanzado, Métodos Multivariables, Análisis Cluster (Resultados:
Resumen, Procedimiento de aglomeración, dendrograma y gráfico de
dispersión). Control, Classification Methods, Cluster Analysis en
Statgraphics Centurion XV.
Análisis Discriminante Avanzado, Métodos Multivariables, Análisis Discriminante (Resultados:
Resumen, Funciones de clasificación, Funciones discriminantes, Tabla de
clasificación, Resumen estadísticos por grupos, gráfico de dispersión para 2
variables, y gráfico de las funciones discriminantes). Control, Classifi-
cation Methods, Discriminant Analysis, en Statgraphics Centurion XV.
Regresión lineal Múltiple Dependencia, Regresión múltiple (Resultados: Resumen análisis de
regresión, ANOVA, Intervalos de confianza, Informes con valores
estimados y residuos, y gráfico de observados frente a predichos).
Improve, Regression Analysis, Multiple Factors, Multiple Regression, en
Statgraphics Centurion XV
IV.- Diseño de experimentos Gráfico de Pareto estandarizado para vitE
0 2 4 6 8
Efectos estandarizados
BB
AB
B:pres
AA
A:tem +
-
Superficie de Respuesta estimada
tempres
Ren
dim
ien
to
35 45 55 65 75120
160200
240280
320
-1
3
7
11
15
19
23
Avanzado, Diseño experimental, Crear diseño. Introducir valores variable
respuesta. Avanzado, Diseño experimental, Analizar diseño.Resultados:
Resumen, ANOVA, Coeficientes, Predicciones, Optimización, Gráfico de
Pareto, gráficos de superficie de respuesta. Improve,Experimental Design
Creation / Experimental Design Analysis, en Statgraphics Centurion XV.
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
31
Comandos del programa STATISTICA 7.1:
Tratamientos: Procedimientos:
I.- Univariante
Un grupo de datos: Valores descriptivos,
Normalidad, Intervalos de confianza,
Contraste para una media
Statistics, Basic Statistics and Tables, t-test, single sample (Resultados: Valores descriptivos, Intervalos de confianza,
Contraste para la media, histograma, gráfico de cajas, gráfico
de probabilidad)
Dos grupos de datos:
Contraste para dos medias independientes
Contraste para dos medias relacionadas
Statistics, Basic Statistics and Tables, t-test, independent by
groups (Resultados: Resumen estadístico, comparación: de
medias, varianzas, histogramas y grafico de cajas )
Statistics, Basic Statistics and Tables, t-test, dependent
simples (Resultados: Resumen estadístico, contraste de
hipótesis, y grafico de cajas)
Más de 2 grupos de datos:
ANOVA de un factor Statistics, Basic Statistics and Tables,Breakdown & one-way
ANOVA, o Statistics, ANOVA, One-way ANOVA
(Resultados: Tabla ANOVA, Tabla de Medias, Contrastes
múltiples de medias, y Gráficos de medias)
ANOVA dos factores con o sin
interacción
Statistics, ANOVA, Factorial ANOVA or Main effects
ANOVA (Resultados: Tabla ANOVA, Tabla de Medias,
Contrastes, gráfico de medias y de interacción).
II.- Bivariante
Regresión lineal simple Statistics, Multiple regressión (Resultados: Resumen
regresión, Tabla ANOVA, Intervalos de confianza de los
coeficientes, Tabla valores estimados, y gráficos: del modelo
ajustado, de observados y calculados, y de residuos)
Regresión polinómica Statistics, Advanced Linear/Non linear Models, General
Regression Models, Polynomial Regression (Resultados:
Resumen regresión, ANOVA con falta de ajuste, Tabla valores
estimados, y gráficos: del modelo ajustado, de observados y
calculados, y de residuos)
Regresión no lineal Statistics, Advanced Linear/Non linear Models, Nonlinear
Estimation (Resultados: Resumen regresión y gráfico del
modelo ajustado)
III.- Multivariante
Análisis Componentes Principales Statistics, Multivariate Exploratory Techniques. Factor
Analysis (Resultados: Resumen, Loadings, Scores, Scree plot,
salvar scores)
Análisis Conglomerados Statistics, Multivariate Exploratory Techniques. Cluster
Analysis, Joining (Resultados: Dendrograma y matriz de
distancias)
Análisis Discriminante Statistics, Multivariate Exploratory Techniques.
Discriminant Analysis (Resultados: Resumen, Funciones de
clasificación, Funciones discriminantes, Tabla de
clasificación, Resumen estadísticos por grupos, gráfico de
dispersión para 2 variables, y gráfico de las funciones
discriminantes)
Regresión lineal Múltiple Statistics, Multiple regressión (Resultados: Resumen análisis
de regresión, ANOVA, Intervalos de confianza, Informes con
valores estimados y residuos, y gráfico de observados frente
a predichos, y gráfico de residuos)
IV.- Diseño de experimentos
Pareto Chart of Standardized Effects; Variable: VitE
2 factors, 1 Blocks, 10 Runs; MS Residual=7.26911
DV: VitE
-.028251
1.670914
2.480731
6.193008
7.747344
p=.05
Standardized Effect Estimate (Absolute Value)
P(Q)
1Lby2L
(2)P(L)
T(Q)
(1)T(L)
DV: VitE
Statistics, Industrial Statistics, Experimental Design. Analyze
Design. Resultados: Resumen, ANOVA, Coeficientes,
Gráfico de Pareto, Gráfico de efectos, gráficos de superficie de
respuesta, Predicciones, Optimización.
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
32
Tratam.
Estadísticos:
Procedimientos con
STATISTICA v7.1:
Proc. con
Statgraphics 5.1
Proc.
con SPSS v.14:
I.- Univariante
Un grupo de datos:
Valores descriptivos,
Normalidad, Int. de
confianza, Contraste
para una media
Statistics, Basic Statistics
and Tables, t-test, single
sample
Descripción, Datos
Numéricos, Análisis
Unidimensional
Analizar, Estadísticos
Descriptivos, Explorar y
Analizar,Comparar
medias, Prueba T para
una muestra
Dos grupos de datos:
Contraste para dos
medias
independientes
Contraste para dos
medias relacionadas
Statistics, Basic Statistics
and Tables, t-test,
independent by groups
Comparación, Dos
muestras, Comparación de
dos muestras)
Analizar, Comparar
medias, Prueba T para
muestras independientes
Statistics, Basic Statistics
and Tables, t-test,
dependent simples
Comparación, Dos
Muestras, Comparación de
Muestras Pareadas
Analizar, Comparar
medias, Prueba T para
muestras relacionadas
k>2 grupos de datos:
ANOVA de un factor Statistics, Basic Statistics
and Tables,Breakdown &
one-way ANOVA, o
Statistics, ANOVA, One-
way ANOVA
Comparación, Análisis de
la Varianza, ANOVA
Simple
Analizar, Comparar
medias, ANOVA de un
factor ó Analizar, Modelo
lineal general, univariante
ANOVA dos factores
con o sin interacción Statistics, ANOVA,
Factorial ANOVA or Main
effects ANOVA
Comparación, Análisis de
la Varianza, ANOVA
Fatorial
Analizar, Modelo lineal
general, Univariante
II.- Bivariante
Regresión lineal
simple Statistics, Multiple
regressión
Dependencia, Regresión
simple. Avanzado,
Regresión Avanzada,
Modelos de Calibración
Analizar, Regresión,
Lineal.
Regresión polinómica Statistics, Advanced
Linear/Non linear Models,
General Regression
Models, Polynomial Regr.
Dependencia, Regresión
polinómica
Analizar, Regresión,
Estimación Curvilínea.
Regresión no lineal Statistics, Advanced
Linear/Non linear Models,
Nonlinear Estimation)
Avanzado, Regresión
avanzada, Regresión no
lineal
Analizar, Regresión, No
Lineal.
III.- Multivariante
Análisis
Componentes
Principales
Statistics, Multivariate
Exploratory Techniques.
Factor Analysis
Avanzado, Métodos
Multivariables,
Componentes Principales
Analizar, Reducción de
datos, análisis factorial.
Análisis
Conglomerados Statistics, Multivariate
Exploratory Techniques.
Cluster Analysis, Joining
Avanzado, Métodos
Multivariables, Análisis
Cluster
Analizar, Clasificar,
Conglomerados
jerárquicos.
Análisis
Discriminante Statistics, Multivariate
Exploratory Techniques.
Discriminant Analysis
Avanzado, Métodos
Multivariables, Análisis
Discriminante
Analizar, Clasificar,
Discriminante.
Regresión lineal
Múltiple Statistics, Multiple
regressión
Dependencia, Regresión
múltiple
Analizar, Regresión,
Lineal.
IV.- Diseño de
experimentos
Statistics, Industrial
Statistics, Experimental
Design. Analyze Design.
1)Avanzado, Diseño
experimental, Crear
diseño. 2)Avanzado,
Diseño experimental,
Analizar diseño.