Análisis de Datos Bivariados 2012

35
Autor: David Gómez Vilaxa Análisis Descriptivo de Datos Bivariados ESTADÍSTICA

description

TEXTO

Transcript of Análisis de Datos Bivariados 2012

Page 1: Análisis de Datos Bivariados 2012

Autor: David Gómez Vilaxa

Análisis Descriptivo de Datos Bivariados

ESTADÍSTICA

Page 2: Análisis de Datos Bivariados 2012

DGV

Datos de Dos Variables (Bivariados)

Datos de Dos Variables

En el campo de la estadística hay muchos problemas que

requieren un análisis combinado de dos variables. En

administración, en educación, en ingeniería y en muchas otras

materias, a menudo es necesario contestar preguntas como las

siguientes:

¿Están relacionadas estas dos variables?

En caso afirmativo, ¿De qué manera?

¿Existe una correlación entre las variables?

Page 3: Análisis de Datos Bivariados 2012

DGV

Datos de Dos Variables (Bivariados)

Observación:

Las relaciones bajo análisis no son de causa y efecto, sino las de

tipo matemático que permiten predecir el comportamiento de una

variable con base en el conocimiento que se tiene sobre otra

Page 4: Análisis de Datos Bivariados 2012

DGV

Datos de Dos Variables (Bivariados)

Algunas ilustraciones específicas:

1. Las opiniones de los electores sobre la posición actual del

presidente de aumentar los impuestos en Estados Unidos,

¿están relacionados con la afiliación a algún partido político?

2. A medida que una persona crece, por lo general aumenta de

peso. Alguien podría preguntar, ¿existe alguna relación entre la estatura y el peso?

Page 5: Análisis de Datos Bivariados 2012

DGV

Datos de Dos Variables (Bivariados)

Algunas ilustraciones específicas:

3. Los médicos que se dedican a la investigación prueban fármacos

nuevos (y obsoletos, también) al prescribir dosis diferentes y

observar las respuestas de sus pacientes. Una pregunta que podría

plantarse es: ¿la dosis del medicamento prescrito determina la cantidad de tiempo de recuperación que necesita el paciente?

4. La orientación vocacional de una preparatoria desea predecir el

éxito académico que tendrán en la universidad los egresados de su

escuela. En este caso el puntaje promedio de las calificaciones

depende de muchos rasgos de los estudiantes: cuán aceptable fue su desempeño en la preparatoria, su inteligencia, su deseo de tener éxito en la universidad, etc.

Page 6: Análisis de Datos Bivariados 2012

DGV

Datos de Dos Variables (Bivariados)

Datos de Dos Variables:

Estos datos constan de los valores de dos variables, respuestas

diferentes que se obtienen del mismo elemento de la población.

Cada una de las dos variables puede ser de naturaleza

cualitativa o cuantitativa. Tres combinaciones de variables:

1. Ambas variables son cualitativas (de atributo).

2. Una variable es cualitativa (de atributo) y otra es cuantitativa (numérica).

3. Ambas variables son cuantitativas (numéricas).

Page 7: Análisis de Datos Bivariados 2012

DGV

Datos de Dos Variables (Bivariados)

Dos Variables Cualitativas:

Cuando los datos bivariados resultan de dos variables

cualitativas (de atributo o categóricas), a menudo los datos se

disponen en una tabla cruzada o de contingencia.

Page 8: Análisis de Datos Bivariados 2012

DGV

Datos de Dos Variables (Bivariados)

Ejemplo:

En la tabla están anotadas las calificaciones en estadística y el sexo de 32 estudiantes universitarios. Construya una tabla de frecuencia para los datos bivariados.

Estudiantes Calificación sexo Estudiantes Calificación sexo

1 B M 17 C F

2 C F 18 E F

3 C F 19 C M

4 C M 20 B F

5 B F 21 D M

6 B F 22 E M

7 A M 23 B M

8 C M 24 B M

9 D F 25 C M

10 C M 26 C F

11 B F 27 D M

12 A F 28 B F

13 C M 29 D F

14 D F 30 A M

15 D F 31 E M

16 A F 32 A F

Page 9: Análisis de Datos Bivariados 2012

DGV

Unidad II: Datos de Dos Variables (Bivariados)

Tabla Bivariada.

Cuenta de Estudiantes Calificaciones

Sexo A B C D E Total

general

F 3 5 4 4 1 17

M 2 3 6 2 2 15

Total general 5 8 10 6 3 32

Page 10: Análisis de Datos Bivariados 2012

DGV

Unidad II: Datos de Dos Variables (Bivariados)

Ejemplo:

Se hizo un estudio entre los miembros del colegio de académicos para considerar sus actitudes hacia el contrato colectivo de trabajo, celebrado entre la administración y el sindicato del personal académico; los resultados se resumen en la tabla siguiente.

Actitud hacia el contrato colectivo

Cargo A favor En contra Abstención Total

Profesor 45 8 2 55

Prof. Asociado 31 16 3 50

Prof. Asistente 42 19 4 65

Instructor 12 4 14 30

Total 130 47 23 200

Page 11: Análisis de Datos Bivariados 2012

DGV

Ejemplo:

1. ¿Qué porcentaje de los académicos está en contra del contrato colectivo?

2. ¿Qué porcentaje corresponde a profesores asociados?

3. ¿Qué tanto por ciento de los profesores están a favor del contrato colectivo?

4. ¿Instructores que están a favor de dicho contrato, en porcentaje?

5. ¿Quiénes se oponen al contrato?¿Qué tanto por ciento corresponde a profesores?

6. ¿Qué porcentaje del total de los académicos representan los profesores, asociados o de rango superior, que están a favor del contrato?

Unidad II: Datos de Dos Variables (Bivariados)

Page 12: Análisis de Datos Bivariados 2012

DGV

Unidad II: Datos de Dos Variables (Bivariados)

Una Variable Cualitativa y Otra Cuantitativa:

Cuando los datos bivariados se obtienen de una variable

cuantitativa y otra cualitativa, los valores cuantitativos se

consideran como muestras ajenas, cada una identificada por

niveles de la variable cualitativa.

Page 13: Análisis de Datos Bivariados 2012

DGV

Unidad II: Datos de Dos Variables (Bivariados)

Tabla: Distancias de frenado (en pies) de Neumáticos

Para comparar la capacidad de frenado de tres diseños de superficie de rodadura de neumáticos, se midió la distancia necesaria para detener un automóvil de 3000 libras de peso que se desplazaba sobre pavimento húmedo (ver tabla). Los neumáticos de cada uno de los diseños fueron probados repetidas veces en el mismo automóvil en un pavimento mojado controlado

Page 14: Análisis de Datos Bivariados 2012

DGV

Unidad II: Datos de Dos Variables (Bivariados)

Tabla: Distancias de frenado (en pies) de tres diseños de superficie de rodadura.

El diseño de la superficie de rodadura es una variable cualitativa con tres niveles de respuesta, y la distancia de frenado es una variables cuantitativa. La distribución de las distancias de frenado para el diseño A de superficie de rodadura ha de compararse con la distribución de distancias de frenado para cada uno de los otros diseños de superficie

de rodadura. Esta comparación se puede hacer con técnicas numéricas y gráficas.

Diseño A (n=6) Diseño B (n=6) Diseño C (n=6)

37 36 38 33 35 38 40 39 40

34 40 32 34 42 34 41 41 43

Page 15: Análisis de Datos Bivariados 2012

DGV

Unidad II: Datos de Dos Variables (Bivariados)

Resumen de 5 Puntos para Cada Diseño.

Diseño A Diseño B Diseño C

Alto 40 42 43

Q3 38 38 41

Mediana 36,5 34,5 40,5

Q1 34 34 40

Bajo 32 33 39

Page 16: Análisis de Datos Bivariados 2012

DGV

Unidad II: Datos de Dos Variables (Bivariados)

Diagrama de Caja y Bigotes para cada diseño de superficie de rodadura.

32,0

34,5

36,5

37,8

40,0

33,0

34,0

34,5

37,3

42,0

39,0

40,0

40,5

41,0

43,0

0 5 10 15 20 25 30 35 40 45 50

Gráfico de caja y bigote para tres variables

Page 17: Análisis de Datos Bivariados 2012

DGV

Unidad II: Datos de Dos Variables (Bivariados)

Media y Desviación Estándar para Cada Diseño.

Diseño A Diseño B Diseño C

Media 36,2 36,0 40,7

Desviación Estándar 2,9 3,4 1,4

Coef. De Variación (CV) 0,08 0,094 0,034

Page 18: Análisis de Datos Bivariados 2012

DGV

Unidad II: Datos de Dos Variables (Bivariados)

Dos Variables Cuantitativas:

Cuando los datos bivariados son el resultado de dos variables cuantitativas, se acostumbra expresar matemáticamente los datos como pares ordenados (x,y), donde x es la variable de entrada (variable independiente) y y es la variable de salida (variable dependiente). Se dice que los datos están ordenados porque un valor, x, siempre se escribe primero. Se llaman pareados porque para cada valor de x siempre hay un valor correspondiente de y de la misma fuente. Por ejemplo, si x es la estatura y y es el

peso, entonces una estatura y un peso correspondiente se registran para cada persona.

Page 19: Análisis de Datos Bivariados 2012

DGV

Unidad II: Datos de Dos Variables (Bivariados)

En problemas que se refieren a dos variables cuantitativas, presentamos gráficamente los datos muestrales en un diagrama de dispersión.

Diagrama de Dispersión:

Es una gráfica de todos los pares ordenados de datos bivariados en un sistema de ejes de coordenadas. La variable de entrada, x, se localiza en el eje horizontal, y la variable de salida, y, se

localiza en el eje vertical.

Page 20: Análisis de Datos Bivariados 2012

DGV

Correlación Lineal:

El objetivo principal del análisis de correlación lineal es medir la

fuerza de una relación lineal entre dos variables.

Cuando x aumenta y no hay cambio definido en los valores de y, decimos que no hay correlación lineal o no hay relación entre x y y.

Cuando x aumenta y hay un cambio en los valores de y, entonces hay una correlación.

La correlación es positiva cuando y tiende a aumentar y negativa cuando y tiende a disminuir.

Unidad II: Datos de Dos Variables (Bivariados)

Page 21: Análisis de Datos Bivariados 2012

DGV

Correlación Lineal:

Si los pares ordenados (x,y) tienden a seguir una trayectoria de línea recta, hay una correlación lineal. La precisión del cambio en y cuando x aumenta determina la fuerza de la correlación lineal.

Unidad II: Datos de Dos Variables (Bivariados)

Page 22: Análisis de Datos Bivariados 2012

DGV

Diagrama de Dispersión

No hay Correlación

Page 23: Análisis de Datos Bivariados 2012

DGV

Correlación Positiva

Diagrama de Dispersión

Page 24: Análisis de Datos Bivariados 2012

DGV

Correlación Negativa

Diagrama de Dispersión

Page 25: Análisis de Datos Bivariados 2012

DGV

Correlación Lineal Fuerte

Diagrama de Dispersión

Page 26: Análisis de Datos Bivariados 2012

DGV

Correlación Lineal Perfecta

Diagrama de Dispersión

Page 27: Análisis de Datos Bivariados 2012

DGV

Coeficiente de Correlación Lineal (r):

Es la medida numérica de la fuerza de la relación lineal entre dos variables. El coeficiente refleja la consistencia del efecto que un cambio en una variable tiene sobre la otra. El coeficiente de correlación lineal, r, siempre tiene un valor entre -1 y +1. Un

valor de +1 significa una correlación positiva perfecta, y un valor de -1 muestra una correlación negativa perfecta.

Unidad II: Datos de Dos Variables (Bivariados)

yx SSn

yyxxr

)1(

))((

Page 28: Análisis de Datos Bivariados 2012

DGV

Coeficiente de Correlación Lineal (r):

Unidad II: Datos de Dos Variables (Bivariados)

)(

)(

)(

2

2

)(

2

2

)(

)(

)()(

)(

yparacuadradosdesuman

yySS

xparacuadradosdesuman

xxSS

xyparacuadradosdesuman

yxxySS

SSSS

SSr

y

x

xy

yx

xy

Page 29: Análisis de Datos Bivariados 2012

DGV

Procedimiento:

1. Construya un diagrama de dispersión de sus datos.

2. Determine si la correlación es lineal positiva o negativa.

3. Calcule el coeficiente de correlación.

4. Determine que tan fuerte es la correlación, a partir del gráfico y r.

Correlación Lineal

Page 30: Análisis de Datos Bivariados 2012

DGV

Causalidad:

Cuando tratamos de explicar el pasado, entender el presente y estimar el futuro, los juicios acerca de una causa y efecto son

necesarios debido a nuestro deseo de imponer orden en nuestro entorno.

La relación de Causa y Efecto es más bien sencilla. Uno puede enfocarse en una situación, el efecto (por ejemplo una

enfermedad o problema social), y tratar de determinar su causa(s), o puede empezar con una causa (condiciones no sanitarias o pobreza) y discutir su efecto(s)

Para determinar la causa de algo, nos preguntamos por qué ocurrió. Para determinar el efecto, nos preguntamos qué paso.

Correlación Lineal

Page 31: Análisis de Datos Bivariados 2012

DGV

Variable Oculta:

Es una variable no incluida en un estudio pero que tiene un efecto sobre las variables del estudio y hace parecer que esas variables están relacionadas.

Si hay una fuerte correlación lineal entre dos variables, entonces una de las siguientes situaciones puede ocurrir entre las dos variables:

1. Hay una relación directa de causa y efecto.

2. Hay una relación inversa de causa y efecto.

3. La relación entre ambas puede ser causada por una tercera variable.

4. La relación entre ambas puede ser causada por las interacciones de varias otras variables.

5. La relación aparente puede ser estrictamente una coincidencia.

Correlación Lineal

Page 32: Análisis de Datos Bivariados 2012

DGV

Regresión Lineal:

El análisis de regresión encuentra la ecuación de la recta que mejor describe la relación entre las dos variables. Un uso de esta ecuación es hacer predicciones. En general, el valor exacto de y

no se puede pronosticar y nos satisface saber que las predicciones son razonablemente cercanas.

La relación entre dos variables será una expresión algebraica que describe la relación matemática entre x y y.

Unidad II: Datos de Dos Variables (Bivariados)

Page 33: Análisis de Datos Bivariados 2012

DGV

Modelos o Ecuaciones de Predicción:

Regresión Lineal

xayaLogarítmic

abylExponencia

cxbxayCuadrática

xbbyrectalíneaLineal

b

x

logˆ:

ˆ:

ˆ:

ˆ:)(

2

10

Page 34: Análisis de Datos Bivariados 2012

DGV

Ecuación de la Recta de Mejor Ajuste:

La ecuación de la recta de mejor ajuste está determinada por su pendiente (b1) y su ordenada en el origen (b0).

Regresión Lineal

xbby

xbybón

xbyb

SS

SSbó

xx

yyxxb

x

xy

10

10

1

0

)(

)(

121

ˆ

)()(

)(

))((

Page 35: Análisis de Datos Bivariados 2012

BIBLIOGRAFÍA

Estadística Elemental Lo Esencial Robert Johnson – Patricia Kuby