¿Qué es la recolección de datos? - openscience.pe · implica seleccionar un instrumento de...
Transcript of ¿Qué es la recolección de datos? - openscience.pe · implica seleccionar un instrumento de...
1
Metodología de la Investigación: por Wilfredo Bulege se encuentra bajo una
Licencia Creative Commons Atribución-NoComercial-CompartirIgual 3.0 Unported
Metodología de la investigación:
Recolección y Análisis de datos
Wilfredo Bulege
¿Qué es la recolección de datos?
Recolectar los datos implica seleccionar un instrumento de medición disponible o desarrollar uno propio, aplicar el instrumento de medición y preparar las mediciones obtenidas para que puedan analizarse correctamente.
2
Wilfredo Bulege
¿Cuáles son las fuentes para la obtención de datos?
Las fuentes de información pueden ser:
Fuentes primarias:
Personas
Organizaciones
Acontecimientos
Ambiente natural
Fuentes secundarias:
Libros, Revistas
Noticieros
Documentos diversos
Wilfredo Bulege
Cuestionario
estructurado.
Cuestionario semi
estructurado.
Prueba
estandarizada.
Observación
estructurada.
Tipos de instrumentos de recolección de datos
3
Wilfredo Bulege
La confiabilidad: se refiere al grado
en que la aplicación repetida de un
instrumento de medición al mismo
sujeto u objeto, produce iguales
resultados.
La validez: se refiera el grado en
que un instrumento de medición
mide realmente la (s) variable(s)
que pretende medir. No hay
medición perfecta, pero el error de
medición debe reducirse a límites
tolerables.
Requisitos que debe cumplir un instrumento de medición
Wilfredo Bulege
Redefiniciones fundamentales. Revisión enfocada de literatura. Identificación del dominio de las variables a medir y
sus indicadores. Toma de decisiones clave. Construcción del instrumento. Prueba piloto. Elaboración de la versión final del instrumento o
sistema y su procedimiento de aplicación. Entrenamiento del personal que va a administrar el
instrumento y calificarlo. Obtener autorizaciones para aplicar el instrumento. Administración del instrumento. Preparación de los datos para el análisis.
Procedimientos para construir un instrumento de medición
4
Wilfredo Bulege
El cuestionario es un conjunto de preguntas sobre los hechos o aspectos que interesan en una investigación y que son contestadas por los encuestados.
Se trata de un instrumento fundamental para la obtención de datos.
Diseño de un cuestionario
Fuente:
http://encuestas.ccp.ucr.ac.cr/camerica/pdf/viv_mas.pdf
Wilfredo Bulege
1. Las preguntas han de ser no más de 30. 2. Las preguntas preferentemente cerradas y numéricas. 3. Redactar las preguntas con lenguaje sencillo. 4. Formular las preguntas de forma concreta y precisa. 5. Preguntas cortas. 6. Las preguntas formularlas de manera neutral. 7. En las preguntas abiertas no dar ninguna opción
alternativa. 8. No hacer preguntas que obliguen a hacer esfuerzos
de memoria. 9. No hacer preguntas que obliguen a consultar
archivos.
Reglas para diseñar un cuestionario
5
Wilfredo Bulege
10. No hacer preguntas que obliguen a hacer cálculos numéricos complicados.
11. No hacer preguntas indiscretas. 12. Redactar las preguntas para que se contesten de
forma directa e inequívoca. 13. Que no levanten prejuicios en los encuestados. 14. Redactar las preguntas limitadas a una sola idea o
referencia. 15. Evitar preguntas condicionantes con palabras que
conlleven una carga emocional grande. 16. Evitar estimular una respuesta condicionada. Es el
caso se preguntas que presentan varias respuestas alternativas y una de ellas va unida a un objetivo altruista.
Wilfredo Bulege
Cerradas: En este el entrevistado puede elegir una o más de las alternativas disponibles.
Dicotómicas: Es la más sencilla y se utiliza como filtro. Sólo
admite como alternativas, Si o No. Ejemplo:
¿Consume carne roja?
Si ( ) No ( )
Tipos de preguntas de un cuestionario
6
Wilfredo Bulege
Politómicas: Presenta varias alternativas de la cual se debe
seleccionar la que mejor responda a su respuesta. Ejemplo:
¿Con que frecuencia consume pescado en una semana?
3 a más veces ( )
2 veces ( )
1 vez ( )
No consumo ( )
Wilfredo Bulege
Ejemplo con escala de Likert.
La principal causa de los accidentes de tránsito es la
falta de respeto del conductor a las reglas de tránsito.
Muy de acuerdo ( )
De acuerdo ( )
Indeciso ( )
En desacuerdo ( )
Muy en desacuerdo ( )
7
Wilfredo Bulege
De respuesta múltiple: Presenta varias alternativas de la cual
se puede seleccionar varias respuestas. Ejemplo:
¿Qué aparatos electrodomésticos tiene en su hogar?
Televisor ( )
Equipo de sonido ( )
Computador ( )
Lavadora ( )
Refrigeradora ( )
Wilfredo Bulege
Abiertas: Deja en libertad al entrevistado de responder lo que considere conveniente. Ejemplo:
¿Qué soluciones puede presentar para reducir los
problemas de salud asociados a la mala alimentación?
…………………………………………………………………………..
…………………………………………………………………………..
…………………………………………………………………………..
…………………………………………………………………………..
8
Wilfredo Bulege
Análisis de datos
En primer término, se
describe los datos;
posteriormente se
efectúa análisis
estadísticos para
relacionar las variables;
es decir, realizar análisis
de estadística descriptiva
para cada una de las
variables, luego se
describe la relación entre
éstas.
Wilfredo Bulege
Recolecta, ordena, analiza y representa un conjunto
de datos, con el fin de describir apropiadamente las
características de ese conjunto.
Este análisis es básico. Aunque hay tendencia a
generalizar a toda la población, las primeras
conclusiones obtenidas tras un análisis descriptivo,
es un estudio calculando una serie de medidas de
tendencia central, para ver en qué medida los datos
se agrupan o dispersan en torno a un valor central.
Estadística descriptiva
9
Wilfredo Bulege
Medidas de tendencia
central:
Media aritmética:
Es la suma de todos los
valores dividido por su
número.
X = X1+X2+X3+X4+⋯+Xn
n
Estadígrafos más utilizados
Fuente:
http://www.universoformulas.com/estadistica/descripti
va/media/
Wilfredo Bulege
Mediana:
Es el valor en el medio de
la selección, si todos los
valores están dispuestos
de menor a mayor.
M = n+1
2
Moda:
Es el valor más común en
nuestro conjunto de datos.
Mo
Fuente:
http://www.universoformulas.com/estadistica/descripti
va/mediana/
Fuente:
http://www.universoformulas.com/estadistica/descripti
va/moda/
10
Wilfredo Bulege
Ejemplo:
Un fabricante de baterías para linternas tomó una muestra de
13 baterías en un día de producción y las usó hasta que se
agotaron. Las horas que funcionaron sin fallar fueron las
siguientes:
342 426 317 545 264 451 1049
631 512 266 492 317 298
¿Cuál es la media de duración de las baterías de la muestra?
¿Cuál es la mediana de duración de las baterías de la muestra?
¿Cuál es la moda de duración de las baterías de la muestra?
Wilfredo Bulege
X = 342+426+317+545+264+451+1049+631+512+266+492+317+298
13
X = 5910
13 = 454.62
M = 13+1
2 = 7
M = 264, 266, 298, 317, 317, 342, 426, 451, 492, 512, 545, 631, 1049.
Entonces el 7mo. valor es la mediana, es decir 426. Si el
resultado es un valor fraccionario, la mediana es el promedio
entre los valores que se encuentran en las posiciones de los
enteros más cercanos al resultado de la fórmula.
Mo = 317 317 es el valor que aparece dos veces.
11
Wilfredo Bulege
Medidas de variabilidad:
Rango: Es igual al valor máximo menos el valor mínimo y se
denota con la letra R.
R = valor máximo – valor mínimo
Varianza: Es una clase de promedio al cuadrado de las
desviaciones de cada dato respecto a la media.
Desviación estándar: Es la raíz cuadrada de la varianza.
Wilfredo Bulege
Ejemplo con R Project:
Se han presentado durante un mes 41 personas para
consultas psicológicas en una clínica privada. Hallar la media,
mediana, rango, varianza y desviación estándar de las edades
de este grupo de personas:
Edades:
22, 22, 23, 24, 25, 25, 26, 27, 28, 29, 29, 29, 29, 29, 31, 31, 32,
33, 34, 35, 35, 35, 36, 38, 39, 39, 42, 42, 44, 44, 45, 45, 45, 47,
48, 52, 59, 66, 67, 69, 69.
12
Wilfredo Bulege
edad <- c(22,22,23,24,25,25,26,27,28,29,29,29,29,29,31,31,32,
33,34,35,35,35,36,38,39,39,42,42,44,44,45,45,45,47,48,52,59,
66,67,69,69)
Asigna valores de un vector al objeto edad.
mean(edad)
Determina la media aritmética de las edades del vector edad.
median(edad)
Determina el valor medio de las edades del vector.
range(edad)
Determina los valores mínimo y máximo de edad.
var(edad)
Determina la varianza de edad.
sd(edad)
Determina la desviación estándar de las edades del vector.
Wilfredo Bulege
Coeficientes de
asimetría y curtosis:
Asimetría: Es la medida
que indica la simetría de la
distribución de
una variable respecto a
la media aritmética. Los
coeficientes de asimetría
indican si hay el mismo
número de elementos a
izquierda y derecha de
la media.
13
Wilfredo Bulege
Existen tres tipos de curva
de distribución según
su asimetría:
Asimetría negativa: la
cola de la distribución se
alarga para valores
inferiores a la media.
Simétrica: hay el mismo
número de elementos a
la izquierda y derecha
de la media.
Asimetría positiva: la
cola de la distribución se
alarga para valores
superiores a la media.
Fuente:
http://www.universoformulas.com/estadistica/descriptiva/asime
tria/
Wilfredo Bulege
Curtosis: Es una medida
de forma que mide cuán
escarpada o achatada está
una curva o distribución.
Este coeficiente indica la
cantidad de datos que hay
cercanos a la media, de
manera que a mayor grado
de curtosis, más
escarpada (o apuntada)
será la forma de la curva.
Fuente:
http://www.universoformulas.com/estadistica/descriptiva/curto
sis/
14
Wilfredo Bulege
Distribución de
frecuencias y
representaciones
gráficas: Histograma de
frecuencia: es una
representación
gráfica de una variable
en forma de barras,
donde la superficie de
cada barra es
proporcional a
la frecuencia de los
valores representados.
Ejemplo con MS Excel:
Wilfredo Bulege
Polígono de
frecuencia: es un
gráfico de líneas de las
frecuencias absolutas
de los valores de una
distribución en el cual
la altura del punto
asociado a un valor de
las variables es
proporcional a la
frecuencia de dicho
valor.
Ejemplo con MS Excel:
15
Wilfredo Bulege
Ejemplos con R Project:
Elaborar un histograma con las
edades ingresadas en el vector
edad.
edad <- c(22,22,23,24,25,25,
26,27,28,29,29,29,29,29,31,31,
32,33,34,35,35,35,36,38,39,39,
42,42,44,44,45,45,45,47,48,52,
59,66,67,63,69)
hist(edad,main="Ingresantes
a Bioestadística, UC",
xlab="Edad",
ylab="Frecuencia",col=10)
Wilfredo Bulege
Elaborar un polígono sobre la relación de dos variables,
independiente y dependiente.
x <- c(1,2,3,4,5,6,7,8,9,10,11,
12,13,15)
y <- c(20,24,30,45,38,32,21,
34,23,24,15, 18,13,24)
Se define objetos con valores de
la VI y VD.
plot(x,y,type="n",xlab="Hora
s",ylab="Distancia")
Se genera el gráfico.
polygon(x,y, col="green",
border = "blue")
16
Wilfredo Bulege
Elaborar un gráfico de barras sobre la intención de voto para la
elección del presidente regional de Junín.
sele <- c(37.91,27.03,10.08,
6.55,6.43,2.9)
eele <- c("Perú Libre",
"Junín S.","Caminemos J.",
"Fuerza P.","Junín Emp.",
"Alianza PP")
barplot(sele, width=1, col=
rainbow(6), lwd=3, main=
"Elecciones Regionales
Junín, votos Huancayo,
2015", xlab= "Partidos",
ylab="%", names.arg=eele)
Wilfredo Bulege
Son métodos y
procedimientos que por
medio de la inducción
determinan propiedades
de una población
estadística, a partir de
una pequeña parte de la
misma.
La estadística inferencial
se utiliza para probar
hipótesis y estimar
parámetros.
Estadística inferencial
17
Wilfredo Bulege
Distribución muestral: Es un conjunto de valores sobre una estadística calculada de todas las muestras posibles de determinado tamaño.
Nivel de significancia e intervalo de confianza: Son niveles de probabili-dad de cometer un error o equivocarse en la prueba de hipótesis o la estima-ción de parámetros.
Repaso de conceptos
Wilfredo Bulege
Una hipótesis en el
contexto de la
estadística inferencial es
una proposición respecto
a uno o varios
parámetros, y lo que el
investigador hace a
través de la prueba de
hipótesis es determinar
si la hipótesis es
congruente con los datos
obtenidos en la muestra.
Prueba de hipótesis
18
Wilfredo Bulege
Para realizar análisis paramétricos debe partirse de los
siguientes supuestos:
La distribución poblacional de la variable dependiente
es normal: el universo tiene una distribución normal.
El nivel de medición de la variable dependiente es por
intervalos o razón.
Cuando dos o más poblaciones son estudiadas,
tienen una varianza homogénea: las poblaciones en
cuestión tienen una dispersión similar en sus
distribuciones (Wiersma y Jurs, 2008).
Análisis paramétrico
Wilfredo Bulege
Coeficiente de correlación de Pearson: Analiza la
relación entre dos variables medidas en un nivel por intervalos o de
razón. Se simboliza como r. La hipótesis a probar es de tipo
correlacional.
El coeficiente de correlación de Pearson se calcula a partir de las
puntuaciones obtenidas en una muestra en dos variables. Se
relacionan las dos puntuaciones recolectadas de una variable con
las puntuaciones obtenidas de la otra, con los mismos participantes
o casos.
El coeficiente de Pearson puede tomar valores entre -1 y 1. La
correlación de una variable con ella misma siempre es=1. El valor 0
indica ausencia de covariación lineal, pero NO si la covariación es
de tipo no lineal.
Pruebas estadísticas paramétricas más utilizadas
19
Wilfredo Bulege
Ejemplo con MS Excel:
Se tiene las siguientes
puntuaciones en las variables X
(inteligencia) e Y (rendimiento
académico):
X: 105, 116, 103, 124, 137, 126,
112, 129, 118, 105.
Y: 4, 8, 2, 7, 9, 9, 3, 10, 7, 6.
Calcular el coeficiente de
correlación de Pearson en
puntuaciones estandarizadas. Fuente:
http://kovachi.sel.inf.uc3m.es/@api/deki/files/141/=correlacion.
Wilfredo Bulege
20
Wilfredo Bulege
Wilfredo Bulege
Regresión lineal: Estudia la relación entre dos variables
(regresión simple) o, más de dos variables (regresión múltiple)
permitiendo explorar y cuantificar la relación entre una variable
dependiente (Y) y una o más variables independientes (X1, X2 …).
Algunas aplicaciones son:
Investigación social: para predecir un amplio rango de fenómenos,
desde medidas económicas hasta diferentes aspectos del
comportamiento humano.
Investigación de mercados: para determinar en cuál de diferentes
medios de comunicación puede resultar más eficaz invertir o para
predecir el número de ventas de un determinado producto.
En física para caracterizar la relación entre variables o para
calibrar medidas, etc.
21
Wilfredo Bulege
Prueba t - Student: Evalúa
si dos grupos difieren entre sí
respecto a sus medias en una
variable.
También proporciona resultados
aproximados para los contrastes
de medias en muestras
suficientemente grandes cuando
estas poblaciones no se
distribuyen normalmente
(aunque en este último caso es
preferible realizar una prueba no
paramétrica).
Fuente:
https://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Studen
t#/media/File:Student_densite_best.JPG
Wilfredo Bulege
Prueba de diferencia de
proporciones: Analiza si dos
proporciones o porcentajes
difieren significativamente entre
si.
Ejemplo: si dos empresas
consultoras ofrecen datos de
proporciones de personas que
van a votar por el PRI y al hacer
dos estudios diferentes salen
resultados ligeramente diferentes
¿qué tanta diferencia se requiere
para que sea estadísticamente
significativo? De eso trata.
Fuente:
http://www.bvs.sld.cu/revistas/ped/vol71_1_99/f101199.jpg
22
Wilfredo Bulege
Análisis de Varianza
(ANOVA) one-way: Analiza
si más de dos grupos difieren
significativamente entre si en
cuanto a sus medias y varianzas.
El ANOVA de un factor sirve para
comparar varios grupos en una
variable cuantitativa. Las
hipótesis del contraste son las
siguientes:
Ho: µ1=µ2= …=µk . Las medias
poblacionales son iguales
Ha: Al menos dos medias
poblacionales son distintas.
Fuente:
https://en.wikipedia.org/wiki/Analysis_of_variance
Wilfredo Bulege
ANOVA two ways: Evalúa el
efecto de dos o mas variables
independientes sobre una
variable dependiente.
Ejemplos: en agricultura se
puede estudiar qué efectos
tendrán, sobre el crecimiento de
papas, variaciones en los niveles
de potasio y nitrógeno de la
tierra; en medicina, estudiar los
efectos, sobre el dolor de
cabeza, del medicamento y de
las dosis empleadas.
23
Wilfredo Bulege
Análisis de covarianza
(ANCOVA): Analiza la relación
entre una variable dependiente y
dos o más independientes, al
eliminar y controlar el efecto de al
menos una de estas variables
independientes.
El ANCOVA es una fusión
del ANOVA y de la regresión
lineal múltiple. Permite eliminar la
heterogeneidad causada en la
variable dependiente por la
influencia de una o más variables
cuantitativas (covariables).
Fuente:
http://erre-que-erre-paco.blogspot.pe/2013/12/analisis-de-la-
covarianza-con-r.html
Wilfredo Bulege
Análisis multivariado de
varianza (MANOVA): Analiza la relación entre dos o
más variables independientes y
dos o más variables
dependientes. Además identifica
si los cambios en las variables
independientes tienen efectos
significativos en las variables
dependientes, la técnica también
intenta identificar las
interacciones entre las variables
independientes y su grado de
asociación con las dependientes.
24
Wilfredo Bulege
Análisis lineal de
patrones (PATH): Determina
y representa interrelaciones entre
variables a partir de regresiones,
asimismo analiza la magnitud de
la influencia de algunas variables
sobre otras, influencia directa e
indirecta.
Wilfredo Bulege
Análisis discriminante: Es
una técnica estadística
multivariante cuya finalidad es
describir (si existen) las
diferencias significativas
entre g grupos de objetos (g > 1)
sobre los que se observan p
variables (variables
discriminantes). Más
concretamente, se comparan y
describen las medias de las p
variables clasificadoras a través
de los g grupos.
25
Wilfredo Bulege
Para realizar análisis no paramétricos debe partirse de
los siguientes supuestos:
La mayoría de estos análisis no requieren de
presupuestos acerca de la forma de la distribución
poblacional. Aceptan distribuciones no normales.
Las variables no necesariamente tienen que estar
medidas en un nivel de intervalos o de razón; pueden
analizar datos nominales u ordinales. De hecho, si se
requieren aplicar análisis no paramétricos a datos por
intervalos o razón, éstos se resumen a categorías
discretas. Las variables deben ser categóricas.
Análisis no paramétrico
Wilfredo Bulege
Pruebas estadísticas no paramétricas más utilizadas
Prueba Propósito
Chi cuadrada o X2. Determina si dos o más distribuciones de
frecuencia difieren significativamente entre
ellas.
Coeficientes de co-
rrelación e indepen-
dencia para tabula-
ciones cruzadas.
Son coeficientes adicionales a la Chi
cuadrada: Phi, C de Pearson, V de Cramer,
Lambda de Goodman.
Coeficientes de co-
rrelación por rangos
ordenados de
Spearman y Kendall.
Correlacionan variables en un nivel de
medición ordinal (ambas); los objetos de la
muestra pueden ordenarse por rangos.
Coeficiente eta para
relaciones no
lineales.
Define la “correlación perfecta” (1.00) como
curvilineal y a la “relación nula” (0.00) como
la independencia estadística de las variables.
26
Wilfredo Bulege
Prueba Propósito
U de Mann Whitney Determina si dos medias no correlacionadas
difieren en forma significativa entre ellas.
Wilcoxon (test de
signos)
Determina si dos medias correlacionadas
difieren en forma significdativa entre ellas.
Kruskal Wallis Determina si tres o más medias sobre un
factor único difieren en forma significativa
entre ellas.
Wilfredo Bulege
Mg. Wilfredo Bulege Gutiérrez
http://www.wbulege.blogspot.com
http://www.twitter.com/wbulege
http://www.youtube.com/wbulege
http://www.researchgate.net/profile/Wilfredo_Bulege_Gutierrez/publications
Recuerda: Reduce el consumo de hojas.
Imprime este documento solo si es necesario; utiliza ambas caras.
En nosotros está el cuidar el medio ambiente.