Metodología cuantitativa IV · cuantitativa II y III) Requisitos previos. Clase 1: Introducción /...
Transcript of Metodología cuantitativa IV · cuantitativa II y III) Requisitos previos. Clase 1: Introducción /...
Metodología cuantitativa IV
Clase 1: Romper el hielo / repaso relaciones lineales
Bruno Arpino
(Despacho: 20.182; email: [email protected])
Departamento de Ciencias Políticas y SocialesGrado en Ciencias Políticas y de la Administración
Universitat Pompeu Fabra
Clase 1: Introducción / repaso relacione lineales
2
✓Informaciones practicas
✓Objetivos del curso
✓Contenidos del curso
✓Repaso de correlación y regresión lineal simple
¿Que vamos a hacer hoy?
Clase 1: Introducción / repaso relaciones lineales
3
✓ Clases magistrales:
Bruno Arpino ([email protected])
https://sites.google.com/site/brunoarpino
✓ Tutorías:
Previa consulta electrónica
Edificio Jaume I - Despacho: 20.182
✓ Seminarios:
Bruno Arpino, Josep Maria Comellas ([email protected]),
Danilo Serani ([email protected])
Informaciones practicas
Clase 1: Introducción / repaso relaciones lineales
4
✓ Comunicaciones y materiales en el “Aula Global”
✓Modificaciones horarios de las clases
✓Diapositivas utilizadas en las clases
✓Pdf de las partes relevantes del libro “Newbold”
✓Datos, etc.
✓ Cuando nos enviáis un correo electrónico:
✓Utilizad vuestra cuenta upf.
✓Poner en el objeto: MQIV (…+ otras cosas si queréis)
Informaciones practicas
Clase 1: Introducción / repaso relaciones lineales
5
Consejos
✓Antes de cada clase
tomar una
“píldora de la felicidad”
Clase 1: Introducción / repaso relaciones lineales
6
✓ Andy Field: “ …You need stats to answer questions. Scientists are
curious people, and you probably are too. … to answer interesting
questions, you need two things: data and an explanation of those
data…”
✓ Medir el mundo real
✓ Evaluar las relaciones entre variables
✓ Encontrar pruebas para sostener hipótesis de una teoría
✓ Tomar decisiones informadas
✓ El “sexy job” del futuro (Hal Varian, economista de Google)http://flowingdata.com/2009/02/25/googles-chief-economist-hal-varian-on-statistics-
and-data/
¿Por que mi malvado profesor me obliga a usar la estadística?
Clase 1: Introducción / repaso relaciones lineales
7
✓The joy of Stats (en inglés)
http://www.gapminder.org/videos/the-joy-of-stats/
¿Pensáis que la estadística sea aburrida?
Clase 1: Introducción / repaso relaciones lineales
8
✓ No es una asignatura de estadística stricto sensu…
✓ Es una asignatura sobre la lógica y algunas técnicas
de análisis cuantitativas aplicadas a la ciencia
política
Enfoque:
✓ TOMAR CONCIENCIA de las condiciones que se
deben respetar para traer conclusiones causales
✓ INTERPETACCION de los resultados de análisis
estadísticos (sobre todo regresión lineal)
Lo que es y lo que no es esta asignatura ...
Clase 1: Introducción / repaso relaciones lineales
9
✓ Sirve para poner en marcha los conocimientos
adquiridos en las asignaturas previas de metodología
cuantitativas
Lo que es y lo que no es esta asignatura ...
Habéis sacado el carnet
pero hay que practicar!
Clase 1: Introducción / repaso relaciones lineales
10
… para intentar evitar…
Clase 1: Introducción / repaso relaciones lineales
11
✓ Poner en practica los conocimientos teóricos no es
tan simple porque la realidad es compleja
✓ Necesitamos adaptar siempre las técnicas a las preguntas
de investigación y a los datos que tenemos
✓ Necesitamos técnicas mas complejas (p.ej.: regresión lineal
múltiple vs simple)
✓ Hay que saber interpretar los resultados empíricos:
✓ ¿Los resultados confirman las hipótesis de partida?
✓ Limitaciones de los datos y de la metodología
Lo que es y lo que no es esta asignatura ...
Clase 1: Introducción / repaso relaciones lineales
12
✓ Se supone que el estudiante tenga unos
conocimientos básicos de descripción e inferencia
estadística y de manejo de bases de datos
empleando SPSS, proporcionados por las asignaturas
de Análisis de Datos y Estadística (Metodología
cuantitativa II y III)
Requisitos previos
Clase 1: Introducción / repaso relaciones lineales
13
✓ En la primera parte del curso, que corresponde a las
clases magistrales, se desgranarán los principios que
se deben respetar en un diseño de investigación
cuantitativo
✓ En la segunda, las clases prácticas, se aplicarán los
conceptos y técnicas estudiadas en las clases
magistrales a través del uso del paquete estadístico
SPSS. Se utilizarán datos reales de la Encuesta
Social Europea
(http://www.europeansocialsurvey.org/)
Contenidos del curso
Clase 1: Introducción / repaso relaciones lineales
14
✓ Parte “conceptual”: Descripción y explicación; asociación y
causalidad; relaciones espurias
✓ Parte “técnica”: ¿Se pueden estimar efectos causales a través de la
regresión lineal? (Revisión de la regresión simple + regresión
multivariante)
✓ Se utilizaran también materiales como artículos de prensa y
científicos así que los estudiantes observarán la dimensión aplicada
del curso.
✓ La última sesión se dedicará a revisar los contenidos de todo el curso
y a discutir las respuestas a una simulación de examen final. Los
estudiantes sabrán de este modo qué se les exigirá en la prueba
final.
Contenidos de las clases magistrales
Clase 1: Introducción / repaso relaciones lineales
15
✓ Se profundizará el manejo del paquete estadístico SPSS para la
implementación de las técnicas cuantitativas de análisis de datos
estudiadas en las clases magistrales
Contenidos de los seminarios (aula informática)
Clase 1: Introducción / repaso relaciones lineales
16
✓LAGO, Ignacio. La lógica de la explicación en ciencias
sociales: una introducción metodológica. Madrid:
Alianza Editorial, 2008
✓NEWBOLD, Paul; CARLSON, William L.; THORNE,
Betty M. Estadística para Administración y Economía.
Sexta Edición. Madrid: Prentice Hall, 2008 (¡Partes
relevantes disponibles en la Aula Global!)
✓ Véase el Programa en el Aula Global por detalles
Lecturas obligatorias
Clase 1: Introducción / repaso relaciones lineales
17
✓ RIBA, C. y CUXART, A. Regresión lineal aplicada,
Documenta Universitaria, 2013.
✓ MOORE, D. S. Estadística aplicada básica. Barcelona:
Antoni Bosch Editor, 1998.
✓ Materiales on-line sobre SPSS:
http://www.ats.ucla.edu/stat/SPSS/
http://www.statisticshell.com/html/cocytus.html
http://www.spsstools.net/spss.htm
Otros recursos didácticos
Clase 1: Introducción / repaso relaciones lineales
18
La nota final de la asignatura se calculará a partir de dos elementos:
✓ 1) Evaluación continua que consistirá en la calificación de las
actividades de seminario.
Durante el segundo y el cuarto seminario los estudiantes tendrán
que resolver algunos ejercicios utilizando SPSS. Cada uno de estos
dos exámenes de seminario contribuirá al 15% de la nota final (por
un total de 30%). Estas actividades se harán en grupos
establecidos por el profesor.
Evaluación
Clase 1: Introducción / repaso relaciones lineales
19
✓ 2) Un examen escrito que planteará cuestiones teóricas y
prácticas sobre los temas de las clases magistrales. Este examen se
realizará en el período oficial de exámenes y supondrá un 70% de
la nota final.
La nota final es la media ponderada de las calificaciones de las dos
actividades de seminario y el examen escrito siempre y cuando se
alcance al menos un 3.5 en el examen escrito. Es decir, menos
de un 3.5 en lo examen escrito supone un suspenso,
independientemente de las notas en las actividades de seminario.
Evaluación
Clase 1: Introducción / repaso relacione lineales
20
… a vosotros y a mi!
¡¡¡ Suerte !!!
Correlación y regresión simple (repaso)
Clase 1: Introducción / repaso relaciones lineales
22
Repaso de:
✓Diagrama de dispersión
✓Coeficiente de correlación lineal
✓Contraste de hipótesis: el p-valor (p-value)
✓Regresión lineal simple✓ Interpretación
✓ Bondad de ajuste
Clase 1: Introducción / repaso relaciones lineales
23
✓ Imaginemos que tenemos dos variables cuantitativas,
Y y X✓ P.ej.: nivel de instrucción y sueldo; posición en la escala
derecha-izquierda y nivel de satisfacción con el Gobierno
✓Queremos comprobar si hay una relación entre Y y X✓ Gráfico: diagrama de dispersión
✓ Indicador: coeficiente de correlación lineal
✓ ¿Es la relación fuerte o débil?✓ Interpretar el valor del coeficiente de correlación
Correlación: objetivo
Clase 1: Introducción / repaso relaciones lineales
24
✓ http://www.eldiario.es/piedrasdepapel/voto-Podemos-
graficos_6_264983501.html
✓ https://twitter.com/Piedras_Papel/status/4713879216
02592769
✓ http://www.luisarroyo.com/2013/05/10/mas-tuits-
mas-votos-no-tan-rapido/
Correlación: ejemplos de su uso por politólogos
Clase 1: Introducción / repaso relaciones lineales
Diagrama de dispersión
En el eje X se
representa la
tasa de paro
y en el eje Y
el % de voto
a cada
partido en las
elecciones
europeas de
2014.
En este caso
cada punto
representa un
distrito.
http://www.eldiario.es/piedrasdepapel/voto-Podemos-graficos_6_264983501.html
Clase 1: Introducción / repaso relaciones lineales
26
✓ El signo y la fuerza de la relación (lineal) entre las dos
variables es diferente según el partido.
✓ La correlación lineal (positiva) parece ser más fuerte para el
PSOE.
✓ Tampoco en el caso del PSOE la relación lineal es
perfecta: los puntos no se alinean perfectamente sobre una
recta
D. de dispersión: notas
Clase 1: Introducción / repaso relaciones lineales
27
✓ Indica tanto la dirección de la relación (LINEAL!) como su fuerza.
✓ Se indica con “r”
✓ -1 ≤ r ≤ +1
Coeficiente de correlación muestral
Clase 1: Introducción / repaso relaciones lineales
28
Correlación: interpretación
Corr = 1 (relación
lineal + perfecta)
✓ Corr. indica si hay o no relación lineal, su dirección y fuerza.
✓ ¡¡¡Si corr es 0 (o cerca de 0) puede existir una relación no lineal
entre las variables!!!
Corr = +0.9 (relac.
lineal + muy fuerte)
Corr = +0.4 (relac.
lineal + media)
Corr = -1 (relación
lineal - perfecta)
Corr = -0.9 (relac.
lineal - muy fuerte)
Corr = -0.4 (relac.
lineal - media)Corr = 0 (no
relación lineal)Corr = 0 (no
relación lineal)
Clase 1: Introducción / repaso relaciones lineales
29
Relación no lineal: un ejemplo
✓ La correlación es muy baja: relación lineal muy débil!
μX = 6.2
μY = 24.4
✓ El diagrama de
dispersión indica que
hay una relación
parabólica:
la desconfianza
política es alta
en los extremos de
la escala ideológica
Escala izquierda (0) – derecha (10)
Es
ca
la d
e d
es
co
nfi
an
za
po
líti
ca
r = -0.07
Clase 1: Introducción / repaso relaciones lineales
30
Inferencia sobre el coeficiente de correlación
✓ Contraste (test) de hipótesis (o prueba de significación):
✓ Utilizaremos solo el método del p-valor (p-value).
✓ El p-valor es la probabilidad de obtener un resultado al menos
tan extremo como el que realmente se ha obtenido (valor del
estadístico calculado), suponiendo que la hipótesis nula es cierta.
Cuanto más alto es p, más probable es que la hipótesis de
partida (nula) sea cierta.
✓ Regla de decisión: se rechaza H0 si el p-valor es igual o
inferior al nivel de significación establecido (por ejemplo: 0,05).
De cola izquierda:
H0: ρ 0
H1: ρ < 0
De cola derecha:
H0: ρ ≤ 0
H1: ρ > 0
Bilateral:
H0: ρ = 0
H1: ρ ≠ 0
Clase 1: Introducción / repaso relaciones lineales
31
Correlación: ejemplo
✓ Queremos analizar la relación entre el nivel de interés en la
política (de 0 – no interesado a 10 – muy interesado) y el
sueldo. Nuestra hipótesis es que al aumentar del sueldo el
interés en la política disminuye. Utilizando una muestra de
50 personas hemos calculado:
✓ Correlación ( r ) = -0,42
✓ p-valor (contraste unilateral) = 0,027
✓ Interpretar el valor del coeficiente de correlación, escribir las
hipótesis y decir si se rechaza H0.
Clase 1: Introducción / repaso relaciones lineales
32
Correlación: ejemplo
✓ r = -0,42: hay una relación lineal negativa de fuerza media.
✓ Queremos contrastar las dos hipótesis:
✓ El p-valor (0,027) es bajo (menor que el nivel de
significación del 5%). Entonces se rechaza H0.
✓ Hay evidencia estadística suficiente para afirmar que existe
una relación lineal negativa entre las dos variables.
H0: ρ 0
H1: ρ < 0
Clase 1: Introducción / repaso relaciones lineales
33
Se utiliza para:
✓ Predecir el valor de una variable dependiente utilizando los
valores de una o más variables independientes
P.ej.: ¿cual es el nivel predicho de satisfacción con el gobierno
por una mujer casada de 28 años, muy religiosa y con un nivel
de instrucción medio?
✓ Explicar la influencia de cambios en las variables
independientes sobre una variable dependiente
P.ej.: ¿cual es el impacto de los ingresos, el genero y la edad
sobre las actitudes hacia los inmigrantes?
Variable dependiente, Y: una variable cuantitativa (también
llamada endógena);
Variables independientes, X: (cuantitativas o cualitativas;
también llamadas exógenas o explicativas).
Regresión lineal
Clase 1: Introducción / repaso relaciones lineales
34
En general la ecuación de la recta es: Y = b0 + b1 X
Regresión lineal
http://students.brown.edu/seeing-theory/regression/index.html#first
Y = 3 + 0.5 X
Clase 1: Introducción / repaso relaciones lineales
35
✓ Consideremos dos variables cuantitativas: Y (nivel de
confianza en la policía) y X (años de estudio).
✓ Queremos estimar los parámetros de la recta que representa
la relación lineal entre las dos variables.
✓ ¿Entre las infinitas rectas que pasan por los puntos cual es la
mejor?
✓ El método de los mínimos cuadrados nos da las estimaciones
de la constante y pendiente de la recta que minimiza los
errores al cuadrado.
Regresión lineal
Clase 1: Introducción / repaso relaciones lineales
36
✓ b0 = constante
✓ b1 = pendiente
✓ b1 tiene el mismo signo de la la correlación.
✓ b1 = 0 cuando la correlación = 0
Interpretación:
✓ b0 es el valor predicho (medio) de Y cuando X = 0.
✓ b1 mide el cambio predicho (medio) de Y por cada aumento de una
unidad de X.
✓ En un modelo de regresión lineal simple el efecto marginal de X es
constante (no depende del valor inicial de X).
Los estimadores de mínimos cuadrados
Clase 1: Introducción / repaso relaciones lineales
37
✓ Imaginemos que un investigador quiere estudiar la relación entre
nivel de confianza en la policía (de 0=nada a 10=completamente;
variable “trstplc” en la ESS) y años de estudio (“eduyrs” en la ESS).
✓ Consideremos una muestra de 10 casos.
✓ Variable dependiente (Y) = confianza en la policía.
✓ Variable independiente (X) = años de estudio.
Regresión lineal: Ejemplo
Clase 1: Introducción / repaso relaciones lineales
38
✓ Mirando al diagrama de dispersión parece que hay una relación
lineal negativa.
Diagrama de dispersión
Clase 1: Introducción / repaso relaciones lineales
39
✓ Salida de SPSS
Estimaciones
Clase 1: Introducción / repaso relaciones lineales
40
✓ Salida de SPSS
✓ La ecuación estimada de la recta de regresión es:
Interpretación:
✓ Constante: b0 = 7,827 es el valor predicho de la confianza en la
policía por una persona con 0 años de estudio. En este caso tiene
sentido porque hay personas que han estudiado 0 años.
✓ Pendiente: b1 = -0,209 por cada año más de estudio, el modelo
predice que la confianza en la policía disminuye de 0,209 puntos.
Estimaciones
ninstrucció* 0,209827,7c^
onfianza
Clase 1: Introducción / repaso relaciones lineales
41
✓ Normalmente nos interesa el contraste sobre la pendiente:
✓ El p-valor = 0,193 es alto (más alto de los niveles de significaciones
normalmente utilizados) no podemos rechazar H0.
✓ ¡También podemos notar que el intervalo de confianza al 95%
incluye el valor 0!
✓ No hay evidencia de una relación lineal entre las dos variables.
Inferencia sobre los coeficientes de la regresión
H0: β1 = 0 (no hay relación lineal)
H1: β1 ≠ 0 (hay relación lineal)
H0: ρ = 0
H1: ρ ≠ 0Equivalente a:
Clase 1: Introducción / repaso relaciones lineales
42
Interpretación:
✓ R2 es la proporción de la variabilidad de la variable dependiente
explicada por el modelo de regresión (es decir, por la relación lineal
con la variable independiente)
✓ Es una medida de la bondad de ajuste del modelo: cuanto más
cerca de 1 es R2, mejor es el ajuste del modelo.
✓ Solo en la regresión simple el coeficiente de determinación es igual
al cuadrado del coeficiente de correlación:
El coeficiente de determinación R2
1R0 2
22 r)(R
Clase 1: Introducción / repaso relaciones lineales
43
✓ Seguimos con el ejemplo de la confianza en la policía y la
instrucción.
✓ El modelo explica el 20,2% de la variabilidad de la confianza en la
policía.
El coeficiente de determinación R2: ejemplo
202,054,400
10,965
STC
SCRR 2
Clase 1: Introducción / repaso relaciones lineales
44
R2 and r: ejemplos
r = -1
r = +1
r = -0.7
r = +0.4
Relación lineal perfecta.
La recta explica el 100%
de la variabilidad de Y
Varianza explicada de Y
= 49%
Varianza explicada de Y
= 16%
Clase 1: Introducción / repaso relaciones lineales
45
Referencias
Clase 1: Introducción / repaso relaciones lineales
46
✓ Queremos comprobar la hipótesis que en los países menos
corruptos la confianza en el sistema judicial es más alta. Las dos
variable se miden con escalas 0-100 (valores más altos
corresponden a más corrupción o más confianza). Utilizando una
muestra de 70 países hemos calculado:
✓ Correlación ( r ) = -0,74
✓ p-valor (contraste unilateral) = 0,009
✓ Escribir H0 y H1
✓ ¿Cual de las dos aceptamos y por qué?
✓ Escribir la posible recta de regresión (inventar los valores de
constante y pendiente de forma plausible) y dibujarla (solo la
recta, sin los puntos ni los cuadrados).
✓ ¿Cual es la conclusión de este análisis?
Para practicar
Clase 1: Introducción / repaso relaciones lineales
47
Si algo no queda claro…
podéis pedirme tutorías
o escribirme un email
Clase 1: Introducción / repaso relaciones lineales
•48
✓ Buscamos la recta que minimiza los cuadrados de los errores
de predicción:
✓ es la ecuación de la recta en la muestra
Apéndice: Método de mínimos cuadrados
•Error de predicción
por X = Xi
•constante =
b0
•Valor predicho
de Y por X = Xi
•Valor
observado de Y
por X = Xi
•pendiente =
b1
xbby 10
y