¿Qué es la recolección de datos? - openscience.pe · implica seleccionar un instrumento de...

1

Metodología de la Investigación: por Wilfredo Bulege se encuentra bajo una

Licencia Creative Commons Atribución-NoComercial-CompartirIgual 3.0 Unported

Metodología de la investigación:

Recolección y Análisis de datos

Wilfredo Bulege

¿Qué es la recolección de datos?

Recolectar los datos implica seleccionar un instrumento de medición disponible o desarrollar uno propio, aplicar el instrumento de medición y preparar las mediciones obtenidas para que puedan analizarse correctamente.

mailto:[email protected]

http://creativecommons.org/licenses/by-nc-sa/3.0/deed.es














2

Wilfredo Bulege

¿Cuáles son las fuentes para la obtención de datos?

Las fuentes de información pueden ser:

Fuentes primarias:

Personas

Organizaciones

Acontecimientos

Ambiente natural

Fuentes secundarias:

Libros, Revistas

Noticieros

Documentos diversos

Wilfredo Bulege

Cuestionario

estructurado.

Cuestionario semi

estructurado.

Prueba

estandarizada.

Observación

estructurada.

Tipos de instrumentos de recolección de datos

3

Wilfredo Bulege

La confiabilidad: se refiere al grado

en que la aplicación repetida de un

instrumento de medición al mismo

sujeto u objeto, produce iguales

resultados.

La validez: se refiera el grado en

que un instrumento de medición

mide realmente la (s) variable(s)

que pretende medir. No hay

medición perfecta, pero el error de

medición debe reducirse a límites

tolerables.

Requisitos que debe cumplir un instrumento de medición

Wilfredo Bulege

Redefiniciones fundamentales. Revisión enfocada de literatura. Identificación del dominio de las variables a medir y

sus indicadores. Toma de decisiones clave. Construcción del instrumento. Prueba piloto. Elaboración de la versión final del instrumento o

sistema y su procedimiento de aplicación. Entrenamiento del personal que va a administrar el

instrumento y calificarlo. Obtener autorizaciones para aplicar el instrumento. Administración del instrumento. Preparación de los datos para el análisis.

Procedimientos para construir un instrumento de medición

4

Wilfredo Bulege

El cuestionario es un conjunto de preguntas sobre los hechos o aspectos que interesan en una investigación y que son contestadas por los encuestados.

Se trata de un instrumento fundamental para la obtención de datos.

Diseño de un cuestionario

Fuente:

http://encuestas.ccp.ucr.ac.cr/camerica/pdf/viv_mas.pdf

Wilfredo Bulege

1. Las preguntas han de ser no más de 30. 2. Las preguntas preferentemente cerradas y numéricas. 3. Redactar las preguntas con lenguaje sencillo. 4. Formular las preguntas de forma concreta y precisa. 5. Preguntas cortas. 6. Las preguntas formularlas de manera neutral. 7. En las preguntas abiertas no dar ninguna opción

alternativa. 8. No hacer preguntas que obliguen a hacer esfuerzos

de memoria. 9. No hacer preguntas que obliguen a consultar

archivos.

Reglas para diseñar un cuestionario

5

Wilfredo Bulege

10. No hacer preguntas que obliguen a hacer cálculos numéricos complicados.

11. No hacer preguntas indiscretas. 12. Redactar las preguntas para que se contesten de

forma directa e inequívoca. 13. Que no levanten prejuicios en los encuestados. 14. Redactar las preguntas limitadas a una sola idea o

referencia. 15. Evitar preguntas condicionantes con palabras que

conlleven una carga emocional grande. 16. Evitar estimular una respuesta condicionada. Es el

caso se preguntas que presentan varias respuestas alternativas y una de ellas va unida a un objetivo altruista.

Wilfredo Bulege

Cerradas: En este el entrevistado puede elegir una o más de las alternativas disponibles.

Dicotómicas: Es la más sencilla y se utiliza como filtro. Sólo

admite como alternativas, Si o No. Ejemplo:

¿Consume carne roja?

Si ( ) No ( )

Tipos de preguntas de un cuestionario

6

Wilfredo Bulege

Politómicas: Presenta varias alternativas de la cual se debe

seleccionar la que mejor responda a su respuesta. Ejemplo:

¿Con que frecuencia consume pescado en una semana?

3 a más veces ( )

2 veces ( )

1 vez ( )

No consumo ( )

Wilfredo Bulege

Ejemplo con escala de Likert.

La principal causa de los accidentes de tránsito es la

falta de respeto del conductor a las reglas de tránsito.

Muy de acuerdo ( )

De acuerdo ( )

Indeciso ( )

En desacuerdo ( )

Muy en desacuerdo ( )

7

Wilfredo Bulege

De respuesta múltiple: Presenta varias alternativas de la cual

se puede seleccionar varias respuestas. Ejemplo:

¿Qué aparatos electrodomésticos tiene en su hogar?

Televisor ( )

Equipo de sonido ( )

Computador ( )

Lavadora ( )

Refrigeradora ( )

Wilfredo Bulege

Abiertas: Deja en libertad al entrevistado de responder lo que considere conveniente. Ejemplo:

¿Qué soluciones puede presentar para reducir los

problemas de salud asociados a la mala alimentación?

…………………………………………………………………………..

…………………………………………………………………………..

…………………………………………………………………………..

…………………………………………………………………………..

8

Wilfredo Bulege

Análisis de datos

En primer término, se

describe los datos;

posteriormente se

efectúa análisis

estadísticos para

relacionar las variables;

es decir, realizar análisis

de estadística descriptiva

para cada una de las

variables, luego se

describe la relación entre

éstas.

Wilfredo Bulege

Recolecta, ordena, analiza y representa un conjunto

de datos, con el fin de describir apropiadamente las

características de ese conjunto.

Este análisis es básico. Aunque hay tendencia a

generalizar a toda la población, las primeras

conclusiones obtenidas tras un análisis descriptivo,

es un estudio calculando una serie de medidas de

tendencia central, para ver en qué medida los datos

se agrupan o dispersan en torno a un valor central.

Estadística descriptiva

9

Wilfredo Bulege

Medidas de tendencia

central:

Media aritmética:

Es la suma de todos los

valores dividido por su

número.

X = X1+X2+X3+X4+⋯+Xn

n

Estadígrafos más utilizados

Fuente:

http://www.universoformulas.com/estadistica/descripti

va/media/

Wilfredo Bulege

Mediana:

Es el valor en el medio de

la selección, si todos los

valores están dispuestos

de menor a mayor.

M = n+1

2

Moda:

Es el valor más común en

nuestro conjunto de datos.

Mo

Fuente:


va/mediana/

Fuente:


va/moda/

10

Wilfredo Bulege

Ejemplo:

Un fabricante de baterías para linternas tomó una muestra de

13 baterías en un día de producción y las usó hasta que se

agotaron. Las horas que funcionaron sin fallar fueron las

siguientes:

342 426 317 545 264 451 1049

631 512 266 492 317 298

¿Cuál es la media de duración de las baterías de la muestra?

¿Cuál es la mediana de duración de las baterías de la muestra?

¿Cuál es la moda de duración de las baterías de la muestra?

Wilfredo Bulege

X = 342+426+317+545+264+451+1049+631+512+266+492+317+298

13

X = 5910

13 = 454.62

M = 13+1

2 = 7

M = 264, 266, 298, 317, 317, 342, 426, 451, 492, 512, 545, 631, 1049.

Entonces el 7mo. valor es la mediana, es decir 426. Si el

resultado es un valor fraccionario, la mediana es el promedio

entre los valores que se encuentran en las posiciones de los

enteros más cercanos al resultado de la fórmula.

Mo = 317 317 es el valor que aparece dos veces.

11

Wilfredo Bulege

Medidas de variabilidad:

Rango: Es igual al valor máximo menos el valor mínimo y se

denota con la letra R.

R = valor máximo – valor mínimo

Varianza: Es una clase de promedio al cuadrado de las

desviaciones de cada dato respecto a la media.

Desviación estándar: Es la raíz cuadrada de la varianza.

Wilfredo Bulege

Ejemplo con R Project:

Se han presentado durante un mes 41 personas para

consultas psicológicas en una clínica privada. Hallar la media,

mediana, rango, varianza y desviación estándar de las edades

de este grupo de personas:

Edades:

22, 22, 23, 24, 25, 25, 26, 27, 28, 29, 29, 29, 29, 29, 31, 31, 32,

33, 34, 35, 35, 35, 36, 38, 39, 39, 42, 42, 44, 44, 45, 45, 45, 47,

48, 52, 59, 66, 67, 69, 69.

12

Wilfredo Bulege

edad <- c(22,22,23,24,25,25,26,27,28,29,29,29,29,29,31,31,32,

33,34,35,35,35,36,38,39,39,42,42,44,44,45,45,45,47,48,52,59,

66,67,69,69)

Asigna valores de un vector al objeto edad.

mean(edad)

Determina la media aritmética de las edades del vector edad.

median(edad)

Determina el valor medio de las edades del vector.

range(edad)

Determina los valores mínimo y máximo de edad.

var(edad)

Determina la varianza de edad.

sd(edad)

Determina la desviación estándar de las edades del vector.

Wilfredo Bulege

Coeficientes de

asimetría y curtosis:

Asimetría: Es la medida

que indica la simetría de la

distribución de

una variable respecto a

la media aritmética. Los

coeficientes de asimetría

indican si hay el mismo

número de elementos a

izquierda y derecha de

la media.

13

Wilfredo Bulege

Existen tres tipos de curva

de distribución según

su asimetría:

Asimetría negativa: la

cola de la distribución se

alarga para valores

inferiores a la media.

Simétrica: hay el mismo

número de elementos a

la izquierda y derecha

de la media.

Asimetría positiva: la

cola de la distribución se

alarga para valores

superiores a la media.

Fuente:

http://www.universoformulas.com/estadistica/descriptiva/asime

tria/

Wilfredo Bulege

Curtosis: Es una medida

de forma que mide cuán

escarpada o achatada está

una curva o distribución.

Este coeficiente indica la

cantidad de datos que hay

cercanos a la media, de

manera que a mayor grado

de curtosis, más

escarpada (o apuntada)

será la forma de la curva.

Fuente:

http://www.universoformulas.com/estadistica/descriptiva/curto

sis/

14

Wilfredo Bulege

Distribución de

frecuencias y

representaciones

gráficas: Histograma de

frecuencia: es una

representación

gráfica de una variable

en forma de barras,

donde la superficie de

cada barra es

proporcional a

la frecuencia de los

valores representados.

Ejemplo con MS Excel:

Wilfredo Bulege

Polígono de

frecuencia: es un

gráfico de líneas de las

frecuencias absolutas

de los valores de una

distribución en el cual

la altura del punto

asociado a un valor de

las variables es

proporcional a la

frecuencia de dicho

valor.


15

Wilfredo Bulege

Ejemplos con R Project:

Elaborar un histograma con las

edades ingresadas en el vector

edad.

edad <- c(22,22,23,24,25,25,

26,27,28,29,29,29,29,29,31,31,

32,33,34,35,35,35,36,38,39,39,

42,42,44,44,45,45,45,47,48,52,

59,66,67,63,69)

hist(edad,main="Ingresantes

a Bioestadística, UC",

xlab="Edad",

ylab="Frecuencia",col=10)

Wilfredo Bulege

Elaborar un polígono sobre la relación de dos variables,

independiente y dependiente.

x <- c(1,2,3,4,5,6,7,8,9,10,11,

12,13,15)

y <- c(20,24,30,45,38,32,21,

34,23,24,15, 18,13,24)

Se define objetos con valores de

la VI y VD.

plot(x,y,type="n",xlab="Hora

s",ylab="Distancia")

Se genera el gráfico.

polygon(x,y, col="green",

border = "blue")

16

Wilfredo Bulege

Elaborar un gráfico de barras sobre la intención de voto para la

elección del presidente regional de Junín.

sele <- c(37.91,27.03,10.08,

6.55,6.43,2.9)

eele <- c("Perú Libre",

"Junín S.","Caminemos J.",

"Fuerza P.","Junín Emp.",

"Alianza PP")

barplot(sele, width=1, col=

rainbow(6), lwd=3, main=

"Elecciones Regionales

Junín, votos Huancayo,

2015", xlab= "Partidos",

ylab="%", names.arg=eele)

Wilfredo Bulege

Son métodos y

procedimientos que por

medio de la inducción

determinan propiedades

de una población

estadística, a partir de

una pequeña parte de la

misma.

La estadística inferencial

se utiliza para probar

hipótesis y estimar

parámetros.

Estadística inferencial

17

Wilfredo Bulege

Distribución muestral: Es un conjunto de valores sobre una estadística calculada de todas las muestras posibles de determinado tamaño.

Nivel de significancia e intervalo de confianza: Son niveles de probabili-dad de cometer un error o equivocarse en la prueba de hipótesis o la estima-ción de parámetros.

Repaso de conceptos

Wilfredo Bulege

Una hipótesis en el

contexto de la

estadística inferencial es

una proposición respecto

a uno o varios

parámetros, y lo que el

investigador hace a

través de la prueba de

hipótesis es determinar

si la hipótesis es

congruente con los datos

obtenidos en la muestra.

Prueba de hipótesis

18

Wilfredo Bulege

Para realizar análisis paramétricos debe partirse de los

siguientes supuestos:

La distribución poblacional de la variable dependiente

es normal: el universo tiene una distribución normal.

El nivel de medición de la variable dependiente es por

intervalos o razón.

Cuando dos o más poblaciones son estudiadas,

tienen una varianza homogénea: las poblaciones en

cuestión tienen una dispersión similar en sus

distribuciones (Wiersma y Jurs, 2008).

Análisis paramétrico

Wilfredo Bulege

Coeficiente de correlación de Pearson: Analiza la

relación entre dos variables medidas en un nivel por intervalos o de

razón. Se simboliza como r. La hipótesis a probar es de tipo

correlacional.

El coeficiente de correlación de Pearson se calcula a partir de las

puntuaciones obtenidas en una muestra en dos variables. Se

relacionan las dos puntuaciones recolectadas de una variable con

las puntuaciones obtenidas de la otra, con los mismos participantes

o casos.

El coeficiente de Pearson puede tomar valores entre -1 y 1. La

correlación de una variable con ella misma siempre es=1. El valor 0

indica ausencia de covariación lineal, pero NO si la covariación es

de tipo no lineal.

Pruebas estadísticas paramétricas más utilizadas

19

Wilfredo Bulege


Se tiene las siguientes

puntuaciones en las variables X

(inteligencia) e Y (rendimiento

académico):

X: 105, 116, 103, 124, 137, 126,

112, 129, 118, 105.

Y: 4, 8, 2, 7, 9, 9, 3, 10, 7, 6.

Calcular el coeficiente de

correlación de Pearson en

puntuaciones estandarizadas. Fuente:

http://kovachi.sel.inf.uc3m.es/@api/deki/files/141/=correlacion.

pdf

Wilfredo Bulege

20

Wilfredo Bulege

Wilfredo Bulege

Regresión lineal: Estudia la relación entre dos variables

(regresión simple) o, más de dos variables (regresión múltiple)

permitiendo explorar y cuantificar la relación entre una variable

dependiente (Y) y una o más variables independientes (X1, X2 …).

Algunas aplicaciones son:

Investigación social: para predecir un amplio rango de fenómenos,

desde medidas económicas hasta diferentes aspectos del

comportamiento humano.

Investigación de mercados: para determinar en cuál de diferentes

medios de comunicación puede resultar más eficaz invertir o para

predecir el número de ventas de un determinado producto.

En física para caracterizar la relación entre variables o para

calibrar medidas, etc.

21

Wilfredo Bulege

Prueba t - Student: Evalúa

si dos grupos difieren entre sí

respecto a sus medias en una

variable.

También proporciona resultados

aproximados para los contrastes

de medias en muestras

suficientemente grandes cuando

estas poblaciones no se

distribuyen normalmente

(aunque en este último caso es

preferible realizar una prueba no

paramétrica).

Fuente:

https://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Studen

t#/media/File:Student_densite_best.JPG

Wilfredo Bulege

Prueba de diferencia de

proporciones: Analiza si dos

proporciones o porcentajes

difieren significativamente entre

si.

Ejemplo: si dos empresas

consultoras ofrecen datos de

proporciones de personas que

van a votar por el PRI y al hacer

dos estudios diferentes salen

resultados ligeramente diferentes

¿qué tanta diferencia se requiere

para que sea estadísticamente

significativo? De eso trata.

Fuente:

http://www.bvs.sld.cu/revistas/ped/vol71_1_99/f101199.jpg

22

Wilfredo Bulege

Análisis de Varianza

(ANOVA) one-way: Analiza

si más de dos grupos difieren

significativamente entre si en

cuanto a sus medias y varianzas.

El ANOVA de un factor sirve para

comparar varios grupos en una

variable cuantitativa. Las

hipótesis del contraste son las

siguientes:

Ho: µ1=µ2= …=µk . Las medias

poblacionales son iguales

Ha: Al menos dos medias

poblacionales son distintas.

Fuente:

https://en.wikipedia.org/wiki/Analysis_of_variance

Wilfredo Bulege

ANOVA two ways: Evalúa el

efecto de dos o mas variables

independientes sobre una

variable dependiente.

Ejemplos: en agricultura se

puede estudiar qué efectos

tendrán, sobre el crecimiento de

papas, variaciones en los niveles

de potasio y nitrógeno de la

tierra; en medicina, estudiar los

efectos, sobre el dolor de

cabeza, del medicamento y de

las dosis empleadas.

23

Wilfredo Bulege

Análisis de covarianza

(ANCOVA): Analiza la relación

entre una variable dependiente y

dos o más independientes, al

eliminar y controlar el efecto de al

menos una de estas variables

independientes.

El ANCOVA es una fusión

del ANOVA y de la regresión

lineal múltiple. Permite eliminar la

heterogeneidad causada en la

variable dependiente por la

influencia de una o más variables

cuantitativas (covariables).

Fuente:

http://erre-que-erre-paco.blogspot.pe/2013/12/analisis-de-la-

covarianza-con-r.html

Wilfredo Bulege

Análisis multivariado de

varianza (MANOVA): Analiza la relación entre dos o

más variables independientes y

dos o más variables

dependientes. Además identifica

si los cambios en las variables

independientes tienen efectos

significativos en las variables

dependientes, la técnica también

intenta identificar las

interacciones entre las variables

independientes y su grado de

asociación con las dependientes.

24

Wilfredo Bulege

Análisis lineal de

patrones (PATH): Determina

y representa interrelaciones entre

variables a partir de regresiones,

asimismo analiza la magnitud de

la influencia de algunas variables

sobre otras, influencia directa e

indirecta.

Wilfredo Bulege

Análisis discriminante: Es

una técnica estadística

multivariante cuya finalidad es

describir (si existen) las

diferencias significativas

entre g grupos de objetos (g > 1)

sobre los que se observan p

variables (variables

discriminantes). Más

concretamente, se comparan y

describen las medias de las p

variables clasificadoras a través

de los g grupos.

25

Wilfredo Bulege

Para realizar análisis no paramétricos debe partirse de

los siguientes supuestos:

La mayoría de estos análisis no requieren de

presupuestos acerca de la forma de la distribución

poblacional. Aceptan distribuciones no normales.

Las variables no necesariamente tienen que estar

medidas en un nivel de intervalos o de razón; pueden

analizar datos nominales u ordinales. De hecho, si se

requieren aplicar análisis no paramétricos a datos por

intervalos o razón, éstos se resumen a categorías

discretas. Las variables deben ser categóricas.

Análisis no paramétrico

Wilfredo Bulege

Pruebas estadísticas no paramétricas más utilizadas

Prueba Propósito

Chi cuadrada o X2. Determina si dos o más distribuciones de

frecuencia difieren significativamente entre

ellas.

Coeficientes de co-

rrelación e indepen-

dencia para tabula-

ciones cruzadas.

Son coeficientes adicionales a la Chi

cuadrada: Phi, C de Pearson, V de Cramer,

Lambda de Goodman.

Coeficientes de co-

rrelación por rangos

ordenados de

Spearman y Kendall.

Correlacionan variables en un nivel de

medición ordinal (ambas); los objetos de la

muestra pueden ordenarse por rangos.

Coeficiente eta para

relaciones no

lineales.

Define la “correlación perfecta” (1.00) como

curvilineal y a la “relación nula” (0.00) como

la independencia estadística de las variables.

26

Wilfredo Bulege

Prueba Propósito

U de Mann Whitney Determina si dos medias no correlacionadas

difieren en forma significativa entre ellas.

Wilcoxon (test de

signos)

Determina si dos medias correlacionadas

difieren en forma significdativa entre ellas.

Kruskal Wallis Determina si tres o más medias sobre un

factor único difieren en forma significativa

entre ellas.

Wilfredo Bulege

Mg. Wilfredo Bulege Gutiérrez

http://www.wbulege.blogspot.com

http://www.twitter.com/wbulege

http://www.youtube.com/wbulege

http://www.researchgate.net/profile/Wilfredo_Bulege_Gutierrez/publications

Recuerda: Reduce el consumo de hojas.

Imprime este documento solo si es necesario; utiliza ambas caras.

En nosotros está el cuidar el medio ambiente.

http://www.wbulege.blogspot.com/

http://www.twitter.com/wbulege

http://www.youtube.com/wbulege

http://www.researchgate.net/profile/Wilfredo_Bulege_Gutierrez/publications

¿Qué es la recolección de datos? - openscience.pe · implica seleccionar un instrumento de...

Documents

Transcript of ¿Qué es la recolección de datos? - openscience.pe · implica seleccionar un instrumento de...