ANALISIS DE DATOS CON EXCEL Mag. Julián Suquilvide Montevideo, Mayo-Junio 2005.
-
Upload
valeriano-constante -
Category
Documents
-
view
215 -
download
0
Transcript of ANALISIS DE DATOS CON EXCEL Mag. Julián Suquilvide Montevideo, Mayo-Junio 2005.
ANALISIS DE DATOS CON EXCEL
Mag. Julián Suquilvide
Montevideo, Mayo-Junio 2005
La matriz de datos
Es la forma en que tenemos la información luego de su recolección y procesamiento
864738
875337
962316
1076285
651834
678333
777332
866321
P5P4P3P2P1
Estructura tripartita de los datos: para cada individuo o unidad
se relevan variables y se obtienen diferentes valoresAnálisis centrado en la unidad Análisis centrado en la variable
Tablas dinámicas con Excel
• El primer paso es entrar en Datos - Asistente para Tablas Dinámicas que nos guiará en todo el proceso.
• El segundo paso es indicar donde se encuentra la matriz de datos con la que vamos a trabajar.
• El tercer paso es indicar donde vamos a ubicar los resultados: hoja nueva o actual.
La matriz de datos en Excel
• Tablas dinámicas: el comienzo
Dónde están los datos?
Dónde ubicar los resultados?
Distribución de frecuencias
• Tres tipos de frecuencia:– Simple o absoluta– Relativa (%)
Ej: 2/20x100=10%– Acumulada
• Dos tipos de distribución:– Con valores no
agrupados– Con valores
agrupados en intervalos
100%20Total
20 20%47
16 40%86
8 10%25
6 20%44
2 10%23
acumulada%SimpleValor
100%20Total
20 70%145 a 7
6 30%63 a 4
acumulada%SimpleValor
Es una transformación de la matriz centrada en la variable
Distribución de frecuencias con Excel
• Al terminar el paso anterior aparecen con forma de botones los nombres de las variables de la base.
• Paso 1: arrastrar la variable seleccionada a “Coloque campos de fila aquí”
• Paso 2: arrastre la misma variable a “Coloque datos aquí”
• Va a aparecer la distribución de frecuencias absolutas de la variable seleccionada
• Debe decir “Contar de”. Si dice “suma de” ir a un elemento de la barra de herramientas llamado “Configuración de campo” que controla las salidas de los cuadros.
Configuración de campo
• Controla la forma de salida de los datos
• Para generar distribución de frecuencias absolutas se debe marcar “Contar de”
• Para generar distribución de frecuencias relativas, ir a “opciones” y cambiar donde dice “normal” en “mostrar datos como” por % de la columna.
• Si queremos modificar formato de decimales vamos a “número”.
Distribución de frecuencias en Excel
Configuración de campo
Configuración de campo
Agrupación en intervalos
• Con que criterios generar intervalos:– Criterio aritmético: se generan
intervalos iguales para distribuir las frecuencias
– Criterio teórico: diferenciación por alguna causa. P.ej. Notas de promoción o no
• Marca de clase: es la semisuma de los límites de cada clase.
Generación de intervalos en Excel
• Generación de intervalos desiguales– Marcar los valores de la tabla dinámica que se
quieren agrupar.– Ir a datos - agrupar y esquema - agrupar– Aparece una nueva columna y los valores se
agrupan como grupo 1– Se repite hasta completar todos los intervalos. – De esta forma se genera una nueva variable,
cuyo nombre será el mismo con un 2 después.
– Generación de intervalos iguales– Posicionado en el primer valor de la variable,
ir a Datos - Agrupar y Esquema - Agrupar.– Donde dice por, escribir el tamaño de los
intervalos.
Generación de intervalos desiguales
• El diseño de un gráfico depende de dos elementos:– El nivel de
medición de la variable
• Nominal u ordinal: barras, tortas, pictogramas
• Interval: histograma y polígono de frecuencias
– El objetivo del gráfico (qué es lo que queremos resaltar)
a b c
Gráficos de frecuencias
020406080
Medidas de tendencia central
MODO: Valor mas repetido Se puede observar para todas las
variablesMEDIANA: Valor que divide la
distribución en dos partes iguales Se puede calcular sólo para
ordinales e intervalesMEDIA: Promedio Se usa sólo para variables
intervales Cálculo de la media: Sobre la matriz de datos
Promedio simple: Sobre distribución:
Media ponderada
Cálculo de medidas de tendencia central con
Excel
Medidas de dispersión• Describe una variable en función del
grado de homogeneidad que tengan sus valores Dos conjunto de datos con una misma media puede tener una distribución muy diferentes
• En general sólo se calculan medidas de dispersión para variables intervales pues están basadas en desviaciones respecto de la media
• La varianza y el desvío estandar son las dos medidas de dispersión mas importantes.
• La idea básica es medir cuanto se separan de la media los datos individuales. Cuanto más se separen mas dispersión van a tener los datos. Cuanto más cerca de la media se encuentren, más homogénea va a ser la distribución.
• El coeficiente de variación (desvío sobre media por cien) se expresa en porcentaje.
Cálculo de medidas de dispersión con Excel
Fórmulas para el cálculo de medidas descriptivas
Medidas de tendencia central
N
xx
i
N
fxx
ii
Primedio simple
Media ponderada
Medidas de dispersión: desvío estandar
Sobre la matriz
Fórmula de cálculo
Nxxsi
/)( 2
22 )(/)(
xNxsi
Fórmula de cálculo
Sobre la distribución
Nxfxsii
/)( 2
22 )(/)(
xNfxsii
Análisis bivariadoAsociación de
variablesCuando formulamos una hipótesis,
tenemos en definitiva una probable relación entre dos categorías o variables. P. Ej. Los ingresos del trabajo femenino es menor que el del masculino. Lo que estamos proponiendo es una asociación entre ingreso por trabajo y sexo
Podemos entonces además de analizar cada variable por separado, como hemos hecho hasta ahora, analizar la variación conjunta y ver si se cumple lo que planteamos en la hipótesis.
• Distribución bivariante conjunta (matriz)
• Tabla de contingencia
Tablas de contingencia• Se diseña una tabla de doble entrada. Los
valores de una de las variables en columnas y los valores de la otra en filas. En las celdas resultantes se anota la cantidad de casos que presentan ambas características.
• Generalmente en las filas se anota la variable dependiente, pero depende de la cantidad de valores de ambas variables. En el ej.en fila irían los tramos de ingreso y en columnas, sexo.
• Se anotan además los totales, tanto para filas como para columnas y se les llama marginales.
• Los datos pueden estar dados en frecuencias absolutas o en porcentajes.
• Tres formas de presentación de porcentajes– Sobre el total– Sobre las filas– Sobre las columnas
Elaboración y lectura de tablas de contingencia
Elaborar tablas de contingencia• Estudiar la distribución de cada variable y
ver si en algunos valores hay tan pocos casos que no permita su cruce. En este caso se deberán agrupar valores.
• Si la variable es ordinal, los valores deben estar ordenados. Si la variable es interval, se deben crear tramos según algún criterio
• Calcular porcentajes en función de la variable independiente para poder comparar los grupos de esa variable en cuanto su variación respecto de la otra.
Lectura de tablas:• Leer el título, fuentes y notas al pié• Ver la variabilidad que existe entre los
datos
Elaboración de tablas bivariadas con EXCEL
• Arrastrar una variable a campo de filas y la otra a campo de columnas
• Arrastrar una de ellas a campo de datos.
• A partir de configuración de campo se modifica la orientación de los porcentajes, filas o columnas o total.
• Se puede eliminar columnas o filas que no interesen para el análisis y se vuelve a calcular los totales.
• Se puede utilizar la variable original o la variable recodificada.