Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf ·...

27
©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-1 1 UNIVERSIDAD DE JAÉN Material del curso “Recursos metodológicos y estadísticos para la docencia e investigación” Manuel Miguel Ramos Álvarez, M M M A A A T T T E E E R R R I I I A A A L L L I I I I I I I I I D D D E E E S S S C C C R R R I I I P P P C C C I I I Ó Ó Ó N N N D D D E E E L L L O O O S S S D D D A A A T T T O O O S S S Índice 3. Acercamiento con objeto de resumir la información: análisis descriptivo-exploratorio ....... 2 3.1. Estadísticos descriptivos de utilidad para el resumen descriptivo ............................. 3 3.2. Descripción de los datos a partir de la representación gráfica ................................. 4 3.2.1. Gráficos básicos ........................................................................................ 4 3.2.2. Gráficos de asociación entre variables .......................................................... 5 3.2.3. Nuevos formatos de representación ............................................................. 6 3.3. Los supuestos estadísticos. Resumen de los supuestos implícitos en el análisis estadístico de modelización ......................................................................................... 7 3.4. Análisis de los residuales con fines diagnósticos ................................................... 8 3.5. Transformaciones de datos y recomendaciones para su selección.......................... 10 3.6. Clasificación de las pruebas de análisis no paramétrico........................................ 12 3.7. Identificación de los valores extremos............................................................... 13 3.8. Análisis descriptivo-exploratorio mediante R ...................................................... 15 3.9. Realización de los supuestos de prácticas .......................................................... 22 3.9.1. Supuesto 1.- Completo ............................................................................ 24

Transcript of Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf ·...

Page 1: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-1

1

UNIVERSIDAD DE JAÉN

Material del curso “Recursos metodológicos y estadísticos para la

docencia e investigación” Manuel Miguel Ramos Álvarez,

MMMAAATTTEEERRRIIIAAALLL IIIIIIIII “““DDDEEESSSCCCRRRIIIPPPCCCIIIÓÓÓNNN DDDEEE LLLOOOSSS DDDAAATTTOOOSSS””” Índice

3. Acercamiento con objeto de resumir la información: análisis descriptivo-exploratorio ....... 2

3.1. Estadísticos descriptivos de utilidad para el resumen descriptivo............................. 3 3.2. Descripción de los datos a partir de la representación gráfica ................................. 4

3.2.1. Gráficos básicos ........................................................................................ 4 3.2.2. Gráficos de asociación entre variables .......................................................... 5 3.2.3. Nuevos formatos de representación ............................................................. 6

3.3. Los supuestos estadísticos. Resumen de los supuestos implícitos en el análisis estadístico de modelización ......................................................................................... 7 3.4. Análisis de los residuales con fines diagnósticos ................................................... 8 3.5. Transformaciones de datos y recomendaciones para su selección.......................... 10 3.6. Clasificación de las pruebas de análisis no paramétrico........................................ 12 3.7. Identificación de los valores extremos............................................................... 13 3.8. Análisis descriptivo-exploratorio mediante R ...................................................... 15 3.9. Realización de los supuestos de prácticas .......................................................... 22

3.9.1. Supuesto 1.- Completo ............................................................................ 24

Page 2: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-2

2

3. Acercamiento con objeto de resumir la información: análisis descriptivo-exploratorio La descripción inicial de los datos tiene por objeto reducir la abundante cantidad de

información obtenida en las variables medidas; a partir de la tendencia central, la variabilidad o dispersión y la forma en que los datos se agrupan (apuntamiento y curtosis).

Cuando los datos exhiben puntos extremos, sería preferible optar por una alternativa robusta, como la mediana.

La síntesis de los datos puede realizarse mediante Análisis Exploratorio de Datos (“Exploratory Data Análisis”, EDA).

A veces es necesario llegar más lejos sometiendo los datos a alguna técnica estadística Multivariada de Reducción, como el Análisis Factorial o el Análisis de Cluster.

Ver Convenciones acerca de las representaciones gráficas en el manual En general, será de utilidad:

o Estadísticos descriptivos de utilidad para el resumen descriptivo: según el tipo de acercamiento a los datos y según las propiedades de interés

o Análisis de los supuestos del Modelo mediante técnicas EDA y No Paramétricas o Transformación de los datos para evitar el incumplimiento de los supuestos o Generalidades sobre las técnicas de Análisis de carácter no paramétrico o La aproximación EDA (Exploratory Data Análisis) para análisis de residuales y

valores extremos o Desarrollo de un supuesto de prácticas

Page 3: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-3

3

3.1. Estadísticos descriptivos de utilidad para el resumen descriptivo

CUADRO 6.2. Adaptado a partir de Ramos, M.M.; Catena, A. y Trujillo, H. (2004). Manual de Métodos y Técnicas de Investigación en Ciencias Del Comportamiento. Madrid: Biblioteca Nueva.

C1. Asociación vs. Correlación

Cuantitativas. Pearson Ordinales Rangos Spearman Nominales Kappa de Cohen Cuantitativa-Dicotómica Biserial-puntual Cuantitativa-Dicotomizada Biserial Cuantitativa-Dicotomizada Tetracórica

B1. Tendencia Central Media Robustos: Mediana B2. Variabilidad Desviación típica

Error estándar Media Robustos: Desviación Mediana

Diagramas: Clásico Líneas con medias y

barras de error Robusto Caja y bigotes

Diagrama dispersión Tablas Contingencia/

A1. Descripción previa Extremos: Mín vs. Máx Puntos destacados: Percentiles. A2. Forma Simetría y

Apuntamiento

Histogramas Distribución Frecuencias

Decisión fundamental: ¿Estadísticos clásicos versus robustos?

Analizar Estadísticos descriptivos Explorar Dependientes: Todas Aceptar. Statistics Basic Statistics/Tables Descriptive statistics OK Summary:…Variables: X1-YOK Summary

Interpretación:

Page 4: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-4

4

3.2. Descripción de los datos a partir de la representación gráfica

3.2.1. Gráficos básicos

SIMBÓLICOS Diagrama circular o Gráfico

tarta. Nivel sociocultural padres (1: sin estudios, 2: primarios, 3:

secundarios, 4: superiores)

Pictograma.

Rendimiento en cada niño

POLÍGONO FRECUENCIAS Expectativa profesor

Rendimiento cada niño del aula.

0 10 20 30NIñO

2

3

4

5

6

7

8

9

10

EX

PT

PR

OF

E

0 10 20 30NIñO

2

3

4

5

6

7

8

9

10

EX

PT

PR

OF

E

HISTOGRAMAS Nivel sociocultural padres

(1: sin estudios, 2: primarios, 3: secundarios, 4: superiores)

Para Distribuciones de Frecuencias Analizar Estadísticos descriptivos Frecuencias Variables: X1, X2, X3, X4, FreqY Gráficos: Opción Histogramas con curva normal Aceptar. GraphsHistograms Variables: X1, X2, X3, X4, FreqY; Fit Type:Normal Aceptar.

Para Variables en su escala original: Para el supuesto 3. Si las variables fueran cuantitativas se hace

todo igual pero con el tipo “Líneas”. Gráficos (Cuadros de Diálogos Antiguos) Barras

Agrupado; Resúmenes para distintas variables; Definir Las barras representan: Todas las medidas (i.e. Tiempo80, Tiempo90, Tiempo100); Eje de categorías: Variables de agrupación (i.e. VARX1) Aceptar.

Graphs(2D Grpahs) Means w/Error Plots Graph Type: Columns; Mutiple; Unique values; Variables Dependent…: Todas las medidas (i.e. Tiempo80, Tiempo90, Tiempo100), Grouping…: Variables de agrupación (i.e. VARX1) OK Aceptar.

Interpretación: Interpretación:

Page 5: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-5

5

3.2.2. Gráficos de asociación entre variables Los diagramas de dispersión o nube de puntos [scatterplot] son recomendables para

estudiar la asociación entre dos o más variables. Por ejemplo, respecto a la relación entre el rendimiento y las expectativas del profesor sería,

Diagramas de dispersión o nube de puntos. Variables: Rendimiento de los guiños y expectativas profesor.

Gráficos Dispersion Simple

Eje FreqY: Y; Eje X: X1 Aceptar.

Repetir la operación para todos los pares X-Y (es decir, X2-FreqY, X3-FreqY, etc.).

Rastrear todas las interdependencias si es regresión múltiple: Gráficos Dispersion Matricial Variables en la Matriz: Todas Aceptar.

Interpretación:

Para Regresión (Supuesto 1): Graphs Scatterplots Regular Eje

Y: FreqY; Eje X: X1; Fit Type: Linear OK Aceptar.

Repetir la operación para todos los pares X-Y (es decir, X2-FreqY, X3-FreqY, etc.).

Rastrear todas las interdependencias si es regresión múltiple: Graphs Matriz Plots Square Scatter Matrix Variables en la Matriz: Todas OK Pestaña Advanced Fit: Linear Aceptar.

Page 6: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-6

6

3.2.3. Nuevos formatos de representación Dentro de EDA han surgido representaciones que condensan una mayor cantidad de

información que los precedentes y son más flexibles para alterar el nivel de detalle de la representación.

Los más importantes son los diagramas de tallo y hojas y los diagramas de caja y barbas. El diagrama de caja y barba (“Box Plot”) en el mismo caso de rendimiento en situación cooperativa es,

Para Variables en su escala original: Para el supuesto 3. Gráficos Diagramas de caja

Agrupado; Resúmenes para distintas variables; Definir Las barras representan: Todas las dependientes medidas; Eje de categorías: Variables de agrupación Aceptar.

Graphs 2D GrapasBox PlotsBox-WhiskersMultiple Variables Dependent: Tiempo80, Tiempo90, Tiempo100; Grouping: VarX1 OKAceptar

Interpretación:

Page 7: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-7

7

3.3. Los supuestos estadísticos. Resumen de los supuestos implícitos en el análisis estadístico de modelización

(Cuadro 7.2 adaptado a partir de Ramos, M.M.; Catena, A. y Trujillo, H. (2004). Manual de Métodos y Técnicas de Investigación en Ciencias Del Comportamiento. Madrid: Biblioteca Nueva.).

B) SUPUESTOS GENERALES

1) Normalidad. Las observaciones se extraen de poblaciones distribuidas según la Normal para cada grupo.

Pruebas de Bondad de Ajuste.

2) Homocedasticidad. El numerador y denominador de la razón F son estimaciones de la misma varianza poblacional,

2. De ahí que las varianzas en los diferentes tratamientos tienen que ser iguales.

Prueba de Hartley, Levene, Brown-Forsythe.

Supuesto de Esfericidad respecto a Homogeneidad de Varianzas-Covarianzas según la Prueba de Mauchley.

3) Respecto a cada nivel j, el error Eij ha de cumplir algunas condiciones:

Es independiente del resto de errores. Se distribuye según una Normal dentro de cada población de tratamiento

N(0,2). Es decir con media cero y varianzas equivalentes.

Prueba Rachas, Corr. Intraclases, Durbin-Watson.

4) La ecuación estructural del modelo refleja una composición aditiva de las fuentes de

variación.

Para el supuesto 3. Analizar Pruebas No paramétricas Chi-

Cuadrado, Rachas, K-S para una muestra (Normal, etc.) para cada grupo por separado (DatosSeleccionar casos Si VarX1=1).

En módulos específicos (i.e. Modelo Lineal General que es para ANOVA aparecen las de homocedasticidad, esfericidad y Normalidad).

Sobre Normalidad: Statistics Basics Statistics/Tables Descriptive statistics Variables: FreqY Pestaña Normality y seleccionar Kolmogorov-Smirnov, Shapiro-Wilks' W (también efectúa la prueba de Lilliefors aunque no se menciona explícitamente) Histograms

Sobre homogeneidad Varianzas (Para el Supuesto 2): Statistics Basics Statistics/Tables Breakdown & … Variables: Dependent: Frecuenc; Grouping: Mes, Tipo OK OK Pestaña ANOVA & Tests Levene Brown-Forsythe.

Ver Ramos, Catena & Trujillo (2004) para otras pruebas más específicas.

Interpretación:

Page 8: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-8

8

3.4. Análisis de los residuales con fines diagnósticos

El análisis exploratorio de los gráficos que representan a los residuales nos permitirá una primera aproximación a los supuestos, así como una mejor comprensión de los datos. Por ejemplo, esto facilita la detección de puntos extremos.

La primera impresión nos la puede proporcionar el análisis exploratorio convencional, es decir la representación de la vd frente a la vi así como los histogramas de distribución de frecuencias.

Sin embargo, a veces estos gráficos no son aparentes y de hecho pueden llegar a enmascarar algunos problemas, por lo que son preferibles los de EDA a partir de los residuales (errores) estandarizados, pues tienen ventajas interpretativas al ser libres de escalas. Realizaremos una terna de gráficos residuales.

o Representan los residuales estandarizados (eje Y) en función de las predicciones (Y’) o pronósticos de un modelo.

o Los residuales estandarizados (eje Y) en función de la variable predictora/independiente (X),

o Mejor aún un gráfico basado en la probabilidad normal (normal probability plot) o tipo p-p, que ordena los residuales estandarizados desde el más negativo hasta el más positivo y los representa contra su valor esperado asumiendo una distribución Normal estándar. Este último puede, además servir, para contrastar otros modelos de distribución diferentes.

Interpretación: o Desde el punto de vista del diagnostico de los supuestos, los gráficos de los

residuales deberían exhibir una forma aleatoria, es decir no deberían seguir ningún patrón.

o Igualmente también podríamos detectar puntos extremos, datos para los cuales el error es desproporcionado en relación al conjunto de datos.

o En el gráfico de los errores según la probabilidad normal, deberíamos esperar que éstos se ajustasen a una línea recta con pendiente unidad.

En Statistica Statistics Advanced Linear/… General Linear Models

OK Variables: Dependent Variables: FeqY; Continuous pred: X1, X2, X3, X4 OK OK Pestaña More results Pestaña Residuals 1 Resids for default polots: Standardized Botón Pred & resids; Botón Normal Pestaña Residuals 2 X(var/pred/res): X1; Y(var/pred/res): z Resid. Scatterplot of selected X (Hacer lo mismo para los otros predictores).

Sería recomendable inspeccionarlos conjuntamente para facilitar su interpretación (i.e. pulsando sobre el icono de la izquierda que los agrupa en el Workbook donde están ubicados).

En SPSS (es algo más laborioso) Analizar Regresión lineal Dependiente: FreqY;

Independientes: X1, X2, X3, X4; Guardar Valores pronosticados: No Tipificados; Residuos: No Tipificados, Tipificados; Continuar Aceptar

En el fichero de datos se generan las columnas pre_1, res_1 y zre_1. Realizamos entonces los gráficos de dispersión:

o zre_1 en función de pre_1 o X1- zre_1, X2-zre_1, X3-zre_1, X-zre_1 o Un gráfico p-p para zre_1 [Analizar Regresión lineal

Gráficos Opción Gráfico de prob. normal o alternativamente Analizar Estadísticos descriptivos Gráficos P-P].

Interpretación:

Page 9: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-9

9

Análisis exploratorio de los residuales con fines diagnósticos FIGURA 7.1. Tomada de Ramos, M.M.; Catena, A. y Trujillo, H. (2004). Manual de Métodos y Técnicas de

Investigación en Ciencias Del Comportamiento. Madrid: Biblioteca Nueva.

C

-3,0

-2,0

-1,0

0,0

1,0

2,0

3,0

-3 -2 -1 0 1 2 3

A

-3,0

-2,0

-1,0

0,0

1,0

2,0

3,0

0 20 40 60 80 100 120

Y Pred

Err

Est

and

B

-3,0

-2,0

-1,0

0,0

1,0

2,0

3,0

0 5 10 15 20 25

X

Err

Est

and

Page 10: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-10

10

3.5. Transformaciones de datos y recomendaciones para su selección

Realizamos dos representaciones gráficas, cuya inspección nos proporciona una aproximación al cumplimiento de los supuestos, especialmente aditividad, normalidad y homocedasticidad:

De medias en función de varianzas o desviaciones Distribución de frecuencias de los errores ij ijY Y .

Interpretación: Lo ideal sería que no hubiera un patrón sistemático de relación entre medias y

varianzas/desviaciones y que la distribución de los Errores fuera aleatoria. Por el contrario, tendremos sospechas del incumplimiento de los supuestos si medias y

varianzas/desviaciones exhiben una tendencia lineal y los Errores exhiben una distribución clara, una normal o bien se agrupan de manera asimétrica.

Una vez decidido, realizamos un diagnóstico de Box-Cox para decidir el tipo de

transformación más adecuada, según la función:

0 1log( ) log( )jjS Y

El resto del proceso aparece en el siguiente cuadro:

Page 11: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-11

11

(Cuadro 7.8 adaptado a partir de Ramos, M.M.; Catena, A. y Trujillo, H. (2004). Manual de Métodos y Técnicas de Investigación en Ciencias Del Comportamiento. Madrid: Biblioteca Nueva.).

TRANSFOR- MACIÓN

EXPRESIÓN INVERSA CONDICIONES

Raíz 1

2ij ij ijY Y Y 2

ij ijY Y

* Medias y varianzas iguales. * Distribución de Poisson.

Logarítmica logij a ijY Y

ijYijY a

*Medias y des.típicas proporcionales. * Datos asimétricos.

Recíproca 11

ij ijij

Y YY

1ij ijY Y

*Medias al cuadrado y des.típicas proporcionales.

Arco Seno arcsenij ijY Y 2

ij ijY senY

* Medias y varianzas proporcionales. * Patrón de diamante de los errores.

Logit log1

ijij

ij

YY

Y

1

1 1

ij

ij ij

Y

ij Y

eY

e

Ye

* Alternativa de la angular (arsen).

Z de Fisher 11

log2 1

ijij

ij

YY

Y

2

2

1

1

ij

ij

Y

ij Y

eY

e

* Para variables que se obtienen como correlaciones. * Errores en forma de diamante.

PROPORCIÓN

DESVIACIÓN Y MEDIA 1 11 TRANSFORMACIÓN

RECOMENDADA 2 2 -1 Recíproca

3/ 2 1,5 -0,5 Recíproca Raíz

1 0 Logarítmica 1/ 2 2 0,5 0,5 Raíz

ESTIMAR 1 CON LA FUNCIÓN:

0 1log( ) log( )jjS Y

.cte 0 1 Ninguna

Estimar Medias y Varianzas en Hoja de Cálculo (i.e. Excel), sus

correspondientes logaritmos, aplicar la ecuación de regresión de arriba (i.e. “=PENDIENTE” en Excel) y tantear en la tabla según el valor estimado para la pendiente.

Tantear la(s) transformación(es) sugerida(s) junto con las más destacadas una por una y comprobar si se devuelve una relación lineal donde no la había. Realizamos las tres transformaciones mediante [TransformarCalcular… ó en la caja Functions asociada a la variable en Statistica] y creamos tres nuevas variables, según las expresiones:

o 1/X1, SQRT(X1) y LN(X1) mejor que LG10(X1) Entonces comparamos los gráficos de Diagnóstico para determinar la

ganancia asociada a las transformaciones respecto a la var. sin transformar y decidir finalmente si interesa realmente alguna de ellas o no.

En Statistica hay una prueba específica: Statistics Industrial Statistics & Six Sigma --> Experimental Design (DOE) Central Composite, non-factorial, surface designs Analyze design Variables Dependent Independent OK Pestaña Box-Cox Box-Cox Transformation.

Interpretación:

Page 12: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-12

12

3.6. Clasificación de las pruebas de análisis no paramétrico (Cuadro 7.9 adaptado a partir de Ramos, M.M.; Catena, A. y Trujillo, H. (2004). Manual de Métodos y Técnicas de Investigación

en Ciencias Del Comportamiento. Madrid: Biblioteca Nueva.).

Para el supuesto 3. Analizar Pruebas No

paramétricas … Statistics

Nonparametrics …

Interpretación:

A) GENERAL A.1 Una muestra. A.1.1. Bondad de ajuste y análisis de los supuestos.

Kolmogorov-Smirnov, Prueba 2, Lilliefors. Para Normalidad. Rachas. Para aleatoriedad.

A.1.2. En torno al parámetro de posición. De los signos. De la mediana. De los cuantiles.

A.2. Dos muestras. A.2.1. De carácter independiente.

Sobre la forma general distribución: Prueba χ2. Rachas de Wald-Wolfowitz

En torno al parámetro de posición. Prueba de la Mediana. U de Mann-Whitney.

A.2.2. Relacionadas o dependientes. En torno al parámetro de posición o tendencia central.

De los signos. Wilcoxon.

A.3. k-muestras. A.3.1. De carácter independiente

ANOVA de Kruskal-Wallis A.3.2. Relacionadas o dependientes.

Prueba de Friedman.

Page 13: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-13

13

3.7. Identificación de los valores extremos Este análisis opera en dos pasos:

Los valores que son identificados mediante análisis descriptivo se conocen como puntos extremos. Esto se hace normalmente mediante las representaciones gráficas oportunas (Diagrama de cajas en ANOVA y de dispersión en Correlacional), tal y como se refleja en la siguiente figura:

FIGURA 7.3. Tomada de Ramos, M.M.; Catena, A. y Trujillo, H. (2004). Manual de Métodos y Técnicas de Investigación en

Ciencias Del Comportamiento. Madrid: Biblioteca Nueva.

Para diferenciar entre “outliers” y valores extremos. Los segundos están dos veces más allá del criterio de desviación acotado.

Para Variables en su escala original (Hacerlo para el Supuesto 3): Gráficos Diagramas de caja

Agrupado; Resúmenes para distintas variables; Definir Las barras representan: Todas las dependientes medidas; Eje de categorías: Variables de agrupación Aceptar.

Graphs 2D GraphsBox PlotsBox-WhiskersMultiple Variables Dependent: Tiempo80, Tiempo90, Tiempo100; Grouping: VarX1 OKAceptar

En el supuesto 1, diagramas de dispersión o mejor gráficos de diagnóstico de residuales.

Interpretación:

Page 14: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-14

14

Identificación de los valores extremos-II

Posteriormente se procede a un análisis más exhaustivo si en la etapa previa tenemos sospechas de puntos extremos. Los puntos identificados mediante análisis residual se denominan puntos de influencia indebida y exigen técnicas específicas.

1) Identificación de valores inusuales en el predictor mediante el análisis de la influencia relativa (levers). Un valor elevado nos indicará que se está ignorando al resto de predictores durante la estimación de la observación.

Criterios interpretativos:

2 iiiih h ó 3 iiiih h ó (mm. grandes). 0,2iih

2) Identificación de valores inusuales en el modelo mediante el análisis de los residuales. Distancia de Cook. Residuales que se obtienen al diferenciar un modelo Ampliado que omite el par evaluado

( .i iY

) y otro Compacto que sí lo incluye ( iY).

Criterios interpretativos:

4i

AMP

DNP N

vs. ó (mm.grandes)

y muy distanciados de la masa predominante.

1iD 2iD

Todas las pruebas estadísticas que hemos incluido no se deben de tomar como

instrumentos para descartar automáticamente observaciones sino meramente para detectar puntos extremos y en general puntuaciones indebidas o “sospechosas”, pero la interpretación de las mismas sólo puede corresponder a motivos teóricos.

Si el punto extremo es claramente un error de codificación entonces obviamente habría que corregirlo.

Pero salvo este caso, todos los demás merecen una consideración especial. De hecho, podría suceder que los valores extremos identificados provoquen un cambio en el modelo de partida, lo que evidentemente sería enriquecedor.

Por el contrario, si omitimos observaciones de este tipo evidentemente estamos contribuyendo al sostenimiento de un modelo teórico incompleto.

La conclusión metodológica es clara, se debe de informar de los puntos extremos detectados y efectuar los análisis estadísticos correspondientes con y sin dichos valores. La mera omisión de la información para la que uno no tiene explicaciones es un proceder contradictorio con la motivación que nos llevó a invertir recursos para realizar la investigación. Este principio incrementa la probabilidad de que los resultados publicados no se confirmen y por ende que la propuesta teórica no se persiga en el futuro.

Analizar Regresión lineal Dependiente: FreqY; Independientes: X1, X2, X3, X4; Guardar Distancias: De Cook, Valores de Influencia; Continuar Aceptar Statistics Advanced Linear/… General Linear Models OK Variables: Dependent Variables: FeqY; Continuous pred: X1, X2, X3, X4 OK OK Pestaña More results Predicted and residuals. “STATISTICA will compute the (default) 95%

Prediction intervals and 95% Confidence limits, the Standardized predicted and Standardized residual score, the Leverage values, the Deleted residual and Studentized deleted residual scores, Mahalanobis and Cook distance scores, the DFFITS statistic, and the Standardized DFFITS statistic.”

Interpretación:

Page 15: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-15

15

3.8. Análisis descriptivo-exploratorio mediante R #Preparar el fichero de datos #El decimal tiene que ser punto y no coma, cuidado con Excel.

#M. Selectiva #RCommander library(Rcmdr) Datos --> Importar datos --> desde archivo de texto, ... --> Aceptar --> c:/RMEDI/ADMMRA_SupI1.txt --> Abrir #R Datos <- read.table("c:/RMEDI/ADMMRA_SupI1.txt", header=T) attach(Datos) #Preparar las Variables DepVar<-Datos$FreqY #------------------------------------------------------------------------------------------ M.Experimental #RCommander Datos --> Importar datos --> desde archivo de texto, ... --> Aceptar --> c:/RMEDI/ADMMRA_SupI2.txt --> Abrir #R Datos <- read.table("c:/RMEDI/ADMMRA_SupI2.txt", header=T) attach(Datos) #Preparar las Variables DepVar<-Datos$Frecuencia FactorGrupos <- factor(Mes, labels = c("Diciembre", "Marzo", "Junio", "Septiembre")) attach(Datos) PorGrupos <- Frecuencia[Mes=="Diciembre"] #------------------------------------------------------------------------------------------ #Botón Conjunto de datos: para permutar entre los diferentes ficheros de datos.

Page 16: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-16

16

#Análisis preliminar

# plot densities sm.density.compare(Frecuencia, Mes, xlab="Frecuencia por Grupos") title(main="Funciones Densidad Kernel en el estudio de Esquizofrenia") # la leyenda se añade pulsando con el ratón colfill<-c(2:(2+length(levels(FatorGrupos)))) legend(locator(1), levels(FatorGrupos), fill=colfill)

#M. Selectiva #RCommander Gráficas --> Histograma --> Variable (elegir una): FreqY --> Aceptar #R # Histograma con Curva Normal (http://www.statmethods.net/graphs/density.html) DepVar<-Datos$X3 h<-hist(DepVar, breaks=10, col="red", xlab="Frecuencia por Mes", main="Histograma con curva Normal") xfit<-seq(min(DepVar),max(DepVar),length=40) yfit<-dnorm(xfit,mean=mean(DepVar),sd=sd(DepVar)) yfit <- yfit*diff(h$mids[1:2])*length(DepVar) lines(xfit, yfit, col="blue", lwd=2) #Mejor Funciones de densidad de Kernel # Kernal Density Plot d <- density(DepVar) # returns the density data plot(d) # plots the results #------------------------------------------------------------------------------------------ M.Experimental #RCommander Gráficas --> Histograma --> Variable (elegir una): Frecuencia --> Aceptar #R DepVar<- Frecuencia[Mes=="Diciembre"] Lo demás igual que en M. Selectiva #Mejor Funciones de densidad de Kernel library(sm) #instalarla previamente si aún no se ha hecho

Page 17: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-17

17

#Análisis descriptivo

#M. Selectiva #RCommander Estadísticos --> Resúmenes numéricos --> Variables (selecciones una o más): FreqY --> Aceptar Estadísticos --> Resúmenes --> Conjunto de datos activo #R summary(Datos) #------------------------------------------------------------------------------------------ M.Experimental #RCommander #Si las variables categóricas se codificaron con números Datos Modificar variables … convertir variable numérica en factor variables: Mes Aceptar Sí Valor numérico 1: Diciembre, etc. #Si las variables categóricas se codificaron con números Estadísticos --> Resúmenes numéricos --> Variables (selecciones una o más): Frecuencia; Resumir por grupos: Mes --> Aceptar #R tapply(DepVar, FactorGrupos , mean) tapply(DepVar, FactorGrupos , summary)

Page 18: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-18

18

#Análisis exploratorio

#Gráfico Box-Plot para las medias agrupadas #Grupo a grupo PorGrupos <- Frecuencia[Mes=="Diciembre"] boxplot(PorGrupos) #Todos Grupos Juntos bo plot(split(F ec encia Fato G pos))

for (i in 1:length(aggdata$x)) {ValEje[i]==0.2*i+0.5+(i-1)} errbar(ValEje,aggdata$x,aggdata$x+aggdataSd$x,aggdata$x-aggdataSd$x, add=T)

aggdataSd$x <-aggdataSd$x/aggdataN$x barplot(aggdata$x, names.arg=aggdata$Group.1) ValEje=c(0.2*1+0.5+(1-1), 0.2*2+0.5+(2-1), 0.2*3+0.5+(3-1), 0.2*4+0.5+(4-1))

aggdataN <-aggregate(Frecuencia, by=list(FatorGrupos), FUN=length) aggdataN$x <-sqrt(aggdataN$x)

#M. Selectiva #RCommander Gráficas Diagrama de dispersión variable X (elegir …): X1 variable y (elegir …): Fredy Aceptar Matriz de diagramas de dispersión seleccionar variables (tres o más): fredy, X1, X2, X3, X4 Aceptar #R #Gráfico de dispersión attach(Datos) ModeloLin <- lm(FreqY~X2) CalcR<-cor(X2,FreqY) # to find R CalcR2<-cor(X2,FreqY) # to find R cor(X2,FreqY) ^2 # to find R summary(ModeloLin) plot(X2,FreqY, main=CalcR2) lm(ModeloLin) abline(ModeloLin) #Regres. Multiple pairs(FreqY~X2+X3+X4,data=Datos, main="Simple Scatterplot Matrix") #------------------------------------------------------------------------------------------ M.Experimental #RCommander Gráficas Gráficas de las Medias Factores (elegir..): Mes; Variable explicada (elegi…): Frecuencia Aceptar #R #Gráfico de barras para las medias agrupadas #Gráfico de barras para las medias agrupadas aggdata <-aggregate(Frecuencia, by=list(FatorGrupos), FUN=mean) barplot(aggdata$x, names.arg=aggdata$Group.1) #agregar barras de error SEM #Cargar el paquete Hmisc library(Hmisc) aggdataSd <-aggregate(Frecuencia, by=list(FatorGrupos), FUN=sd)

Page 19: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-19

19

#Diagnóstico de Residuales

rstandard(Gen.lm) #Error Estandarizado summary(Gen.lm) fitted(Gen.lm) #Criterio Pronosticado #para obtener gráficos de análisis puntos extremos par(mfrow=c(1,3), pch=16) plot(fitted(Gen.lm), rstandard(Gen.lm)) plot(X1, rstandard(Gen.lm)) qqnorm(rstandard(Gen.lm)) qqline(rstandard(Gen.lm)) par(mfrow=c(1,1), pch=1) # Restore to 1 figure per page #Alternativa más completa #para obtener gráficos de análisis puntos extremos x11(width=7, height=2, pointsize=10) par(mfrow = c(1, 4), mar=c(5.1,4.1,2.1,1.1)) plot(Gen.lm) par(mfrow=c(1,1)) #------------------------------------------------------------------------------------------ M.Experimental #RCommander Gráficas Gráficas de las Medias Factores (elegir..): Mes; Variable explicada (elegi…): Frecuencia Aceptar #R #Gráfico qqNormal para las medias agrupadas #Grupo a grupo PorGrupos <- Frecuencia[Mes=="Diciembre"]

#M. Selectiva #RCommander Seleccionar un Modelo Modelos Gráficas Gráficas básicas de Diagnóstico #R #Análisis especializados: #Crear objeto Lineal #Análisis especializados: #Crear objeto Lineal Gen.lm <- lm(X1~FreqY, data=Datos) resid(Gen.lm)

Page 20: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-20

20

#Valores de Influencia para detectar puntos extremos

## Analysis of the life-cycle savings data ## given in Belsley, Kuh and Welsch. lm.SR <- lm(X1~FreqY, data=Datos) inflm.SR <- influence.measures(lm.SR) which(apply(inflm.SR$is.inf, 1, any)) # which observations 'are' influential summary(inflm.SR) # only these inflm.SR # all plot(rstudent(lm.SR) ~ hatvalues(lm.SR)) # recommended by some #Incorporarlos al diagrama de dispersión xh <- X1 yh <- FreqY summary(lmH <- lm(yh ~ xh)) (im <- influence.measures(lmH)) plot(xh,yh, main = " L.S. line and influential obs.") abline(lmH); points(xh[im$is.inf], yh[im$is.inf], pch=20, col=2)

# (pulsando ?influence.measures) #Mejora considerable del análisis de los valores de influencia

#M. Selectiva #RCommander Seleccionar un Modelo Modelos Gráficas Gráfica de influencia No #R #Medidas de Influencia Gen.lm <- lm(X1~FreqY, data=Datos) inflm.SR <- influence.measures(Gen.lm)

Page 21: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-21

21

Page 22: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-22

22

3.9. Realización de los supuestos de prácticas

1. Realice los análisis estadísticos más importantes aprendidos a lo largo del tema sobre el Supuesto I.1E, centrando el Modelo: 0 1FREQ.GEN= PRECIP ERROR .

2. Realice los análisis estadísticos más importantes aprendidos a lo largo del tema sobre el Supuesto I.2C, centrando el Modelo: 0 1FREC.ESQUIZ= MES ERROR .

3. Realice los análisis estadísticos más importantes aprendidos a lo largo del tema sobre el Supuesto I.3C, centrando el Modelo: 0 1RENDIM= TIEMPO ERROR .

Page 23: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-23

23

Page 24: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-24

24

3.9.1. Supuesto 1.- Completo

Realice los análisis estadísticos más importantes aprendidos a lo largo del tema sobre el Supuesto I.1E, centrando el Modelo SATURADO que incluye a todos los predictores:

0 1 2 3 4FREQ.GEN= . .ALTITUD PRECIP TEMP MAX TEMP MIN ERROR .

Page 25: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-25

25

Esquema de Análisis para investigaciones del tipo Experimental -Supuesto 2- Etapa de análisis Comandos SPSS Interpretación

1.- Descripción preliminar basada en las frecuencias para captar el comportamiento general

Objetivo: Distribución de Frecuencias respecto a la Normal.

Gráficos Cuadros de diálogo antiguos Interactivas Histogramas Recuento (eje Y) en función de Frecuencia (Eje X), variables del panel: Mes Pestaña Histograma: Curva Normal Aceptar.

2.- Análisis Descriptivo básico. Objetivo: comparar tendencia central y variabilidad. Tantear entre estadísticos clásicos vs. Robustos

Analizar Estadísticos descriptivos Explorar Lista de dependientes: Frecuencia; Lista de Factores: Mes Aceptar. Comparando los dos tipos de estadísticos en el análisis previo

3.- Análisis exploratorio. Objetivo: complementar al análisis previo y ampliarlo. Expresamente evaluar la posibilidad de puntos extremos.

EDA: Por defecto en el anterior. Clásico: Gráficos Cuadros de diálogo antiguos

Interactivas Barras Frecuencia (eje Y) en función de Mes (Eje X) Pestaña Barras de error: Mostrar las barras de error, Unidades: Error típico de la media Aceptar.

4.- Diagnóstico de Residuales. Objetivos: Confirmación de sospechas de incumplimiento de supuestos y presencia de puntos extremos.

Generar y explorar los gráficos de diagnóstico, pero sólo es oportuno el de tipo P-P Normal grupo a grupo (Datos Seleccionar casos Si se satisface … Mes =1; y así sucesivamente): Analizar Estadísticos descriptivos Gráficos P-P Variables: Frecuencia Aceptar.

5.- Análisis estadístico de los supuestos Pruebas No Paramétricas de Normalidad y Rachas grupo a grupo (Datos Seleccionar casos Si se satisface … Mes =1; y así sucesivamente): Analizar Pruebas No paramétricas Rachas, K-S para una muestra ó Analizar Estadísticos descriptivos Explorar Lista de dependientes: Frecuencia; Lista de Factores: Mes Gráficos: Gráficos con pruebas de Normalidad; Estimación de potencia Aceptar

6.- Análisis de posibles transformaciones Realizamos las tres transformaciones mediante [Transformar Calcular] y creamos tres nuevas variables, según las expresiones: 1/Y, SQRT(Y), LN(Y) mejor que LG10() Entonces repetimos los análisis precedentes sobre los supuestos.

Comparar los diagramas de dispersión y de diagnóstico de las transformaciones frente a la variable X original sin transformar, para decidir si hay una ganancia asociada a la transformación. Únicamente se realizará este análisis si en las etapas previas parecía haber un problema con el incumplimiento de los supuestos.

Page 26: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-26

26

Esquema de Análisis para investigaciones del tipo Encuestas -Supuesto 1- Etapa de análisis Comandos SPSS Interpretación

1.- Descripción preliminar basada en las frecuencias Objetivo: Distribución de Frecuencias respecto a la Normal.

Analizar Estadísticos descriptivos Frecuencias Variables: Freqy, X1, X2, X3, X4; Gráficos: Opción Histogramas con curva normal Continuar Aceptar.

Aparentemente no hay puntos extremos destacados y las desviaciones de la normalidad no parecen preocupantes puesto que no son asimétricas, si acaso uniformes; salvo en lo que respecta a la variable Alimentación –X3-.

2.- Análisis Descriptivo básico. Objetivo: comparar tendencia central y variabilidad. Tantear entre estadísticos clásicos vs. Robustos

Analizar Estadísticos descriptivos Explorar Lista de dependientes: Freqy, X1, X2, X3, X4; Aceptar. Comparando los dos tipos de estadísticos en el análisis previo

Al comparar Media y Mediana se aprecian sólo ligeras discrepancias (recurso, pues, a estadísticos robustos tipo la mediana) pero se descarta con una visión general. El caso más pronunciado es el de la variable Alimentación.

3.- Análisis exploratorio. Objetivo: complementar al análisis previo y ampliarlo. Expresamente evaluar la posibilidad de puntos extremos.

* Gráficos Cuadros de Diálogo antiguos Dispersión/Puntos Dispersión Simple Definir Eje Y: FreqY; Eje X: X1 Aceptar

Rastrear todas las relaciones: Y-X1, Y-X2, Y-X3 e Y-X4.

Opción (editando el gráfico): añadir líneas de ajuste total; mostrar trazos de unión. Lineal.

* Diagramas de Tallos y Hojas por defecto en el análisis precedente. * Efectuar también análisis de medidas de influencia: Analizar Regresión lineales Dependiente: FreqY; Independientes: X1, X2, X3, X4; Guardar Distancias: De Cook, Valores de Influencia; Continuar Aceptar.

Respecto a X1-Y, el Modelo Lineal parece adecuado pero en el resto de relaciones no y además en algunas de estas relaciones podría haber puntos extremos.

4.- Diagnóstico de residuales

Objetivos: Confirmación de sospechas de incumplimiento de supuestos y presencia de puntos extremos.

Generar y explorar los gráficos de diagnóstico Analizar Regresión lineales Dependientes: FreqY;

Independientes: X1, X2, X3, X4; Guardar Valores pronosticados: No Tipificados; Residuos: No Tipificados, Tipificados; Continuar Aceptar

Gráficos: Gráficos Dispersión: pre_1 vs zre_1, X1 vs zre_1, X2 vs zre_1, X3 vs zre_1, X4 vs zre_1, p-p para zre_1

Gráficos … Interactiva Diagrama de dispersión zre_1 (eje Y) en función de pre_1 (Eje X) Pestaña Ajuste Método: Regresión Aceptar].

Analizar Estadísticos descriptivos Gráficos P-P Variables: Freqy, X1, X2, X3, X4 Aceptar.

Comprobar lo que sucede con los supuestos: Normalidad, diferencias en dispersión, así como la posibilidad confirmatoria de puntos extremos.

5.- Análisis estadístico de los supuestos Pruebas No Paramétricas de Normalidad y Rachas Analizar Pruebas No paramétricas Rachas, K-S para una muestra o Analizar Estadísticos descriptivos Explorar Lista de dependientes: Fredy; X1, X2, X3, X4 Gráficos: Gráficos con pruebas de Normalidad; Estimación de potencia Aceptar.

Se confirman las sospechas de más arriba respecto a alguna de las variables únicamente.

6.- Análisis de posibles transformaciones Realizamos las tres transformaciones mediante [Transformar Calcular] y creamos tres nuevas variables, según las expresiones: 1/X, SQRT(X), LN(X) mejor que LG10() Entonces repetimos los análisis precedentes sobre los supuestos.

Comparar los diagramas de dispersión y de diagnóstico de las transformaciones frente a la variable X original sin transformar, para decidir si hay una ganancia asociada a la transformación. Únicamente se realizará este análisis si en las etapas previas parecía haber un problema con el incumplimiento de los supuestos.

Page 27: Material del curso “Recursos metodológicos y …mramos/Cursos/RMEDI/T03_Descrip.pdf · Acercamiento con objeto de resumir la información: ... robusta, como la mediana. ... interdependencias

©Manuel Miguel Ramos Álvarez Recursos metodológicos y estadísticos III-27

27

Volver Principio