Gestion de archivos

8
Pablo Cáceres – Taller de Análisis Estadístico Aplicado – 24 de Abril de 2015 Apuntes clase gestión de archivos Fundir archivos Fundir archivos permite unir en una sola base de datos, información de distintos archivos de datos. Es un procedimiento sumamente común, que se utiliza especialmente en dos casos: cuando una encuesta de corte transversal ha sido segmentada en varias bases de datos; cuando se trata una encuesta de tipo longitudinal, que implica acoplar bases de datos en distintos puntos del tiempo. Añadir casos Se combinan archivos con las mismas variables, pero con distintos casos. Pasos: 1. Datos 2. Fundir archivo 3. Añadir casos 4. Seleccionar la base de datos externa que se pretende fundir con la base de datos de trabajo 5. Seleccionar variables que se deseen incluir, y que se deseen excluir. 6. Seleccionar si se quiere indicar el origen del caso como variable. Esta opción crea una nueva variable de identificación, en la que asigna un 0 a los casos provenientes originalmente del archivo de trabajo, y un 1 a los casos provenientes del archivo externo. 7. Aceptar Variables desemparejadas: Muestra las variables que no se van a fundir en el nuevo archivo combinado, por 3 motivos: a) Son variables que se encuentran sólo en uno de los archivos b) Variables definidas como numéricas en un archivo y como cadenas en el otro c) Variables de cadena de distinto ancho Las variables desemparejadas es posible incluirlas en el nuevo archivo combinado, traspasándolas a la subventana de variables del nuevo conjunto de datos. Dado que

description

Apuntes

Transcript of Gestion de archivos

  • Pablo Cceres Taller de Anlisis Estadstico Aplicado 24 de Abril de 2015 Apuntes clase gestin de archivos Fundir archivos Fundir archivos permite unir en una sola base de datos, informacin de distintos archivos de datos. Es un procedimiento sumamente comn, que se utiliza especialmente en dos casos: cuando una encuesta de corte transversal ha sido segmentada en varias bases de datos; cuando se trata una encuesta de tipo longitudinal, que implica acoplar bases de datos en distintos puntos del tiempo.

    Aadir casos Se combinan archivos con las mismas variables, pero con distintos casos. Pasos: 1. Datos 2. Fundir archivo 3. Aadir casos 4. Seleccionar la base de datos externa que se pretende fundir con la base de datos de trabajo 5. Seleccionar variables que se deseen incluir, y que se deseen excluir. 6. Seleccionar si se quiere indicar el origen del caso como variable. Esta opcin crea una nueva variable de identificacin, en la que asigna un 0 a los casos provenientes originalmente del archivo de trabajo, y un 1 a los casos provenientes del archivo externo. 7. Aceptar Variables desemparejadas: Muestra las variables que no se van a fundir en el nuevo archivo combinado, por 3 motivos: a) Son variables que se encuentran slo en uno de los archivos b) Variables definidas como numricas en un archivo y como cadenas en el otro c) Variables de cadena de distinto ancho Las variables desemparejadas es posible incluirlas en el nuevo archivo combinado, traspasndolas a la sub-ventana de variables del nuevo conjunto de datos. Dado que

  • Pablo Cceres Taller de Anlisis Estadstico Aplicado 24 de Abril de 2015 la variable desemparejada se encuentro en solo uno de los archivos, los casos del archivo que no contienen la variable, quedan como casos perdidos. Variables del nuevo conjunto de datos activo: muestra las variables que sern parte del nuevo archivo de datos combinado. Incluye las que tienen el mismo nombre y formato. Si no desea combinar todas las variables del listado, se pueden seleccionar y traspasar tales variables a la sub-ventana de variables desemparejadas.

  • Pablo Cceres Taller de Anlisis Estadstico Aplicado 24 de Abril de 2015 Aadir variables Se combinan archivos con los mismos casos, pero con distintas variables. Pasos: 1. Ordenar los casos de forma ascendente, en las variables que sern utilizadas como criterio de emparejamiento 2. Datos 3. Fundir archivo 4. Aadir variables 5. Seleccionar la base de datos externa que se pretende fundir con la base de datos de trabajo 6. Seleccionar asignar casos en variable clave (procedimiento ms comn) 7. Seleccionar variable clave 8. Seleccionar la casilla que sea acorde a las caractersticas de los datos para realizar el acoplamiento de datos 9. Aceptar Variables excluidas: muestra las variables que tienen el mismo nombre y formato en ambas archivos de trabajo, por lo cual no sern incluidas en el nuevo archivo combinado. Si se las quiere incluir, se les debe cambiar el nombre y traspasar a la sub-ventana de nuevo conjunto de datos activo. Estas se identifican con un signo +. Nuevo conjunto de datos activo: muestra las variables que sern parte del nuevo archivo combinado. Incluye a) Todas las variables del archivo de trabajo b) Todas las variables del archivo externo que no se encuentren duplicadas en el archivo de trabajo. Si ambos archivos contienen la misma cantidad de casos, se selecciona aceptar y los archivos de trabajo y externo se funden correctamente. En caso de que los archivos no contengan la misma cantidad de casos (lo ms frecuente), es necesario seleccionar una variable clave para emparejar correctamente los archivos. La variable clave debe ser idntica en ambos archivos y estar ordenada de forma ascendente. La variable clave, al estar duplicada, se encuentra en la sub-ventana de variables excluidas.

  • Pablo Cceres Taller de Anlisis Estadstico Aplicado 24 de Abril de 2015 Para emparejar los casos segn una variable clave: 1. Selecciona asignar casos en variables clave 2. Seleccionar la variable clave y pasarla a la casilla variables clave 3. Seleccionar procedimiento de emparejamiento: a. Ambos archivos proporcionan casos: se utiliza cuando cada archivo tiene asociado un caso nico a la variable clave, de modo que al funcionar los archivos no se dupliquen los casos. b. El que no es un conjunto de datos es una tabla de claves: cada caso del archivo externo puede emparejarse con ms de un caso del archivo de trabajo. c. El conjunto de datos activos es una tabla de claves: cada caso del archivo de trabajo puede emparejarse con ms de un caso del archivo externo.

  • Pablo Cceres Taller de Anlisis Estadstico Aplicado 24 de Abril de 2015 AGREGAR DATOS Consiste en agregar varios casos para conformar uno o varios grupos. Esta funcin permite generar un nuevo archivo, compuesto por los grupos creados anteriormente a travs de una variable de segmentacin y una de agregacin Este comando es til cuando se quiere cambiar la unidad de anlisis. Por ejemplo, podramos querer agrupar el promedio de ingreso por provincia, por lo que podramos agrupar todos los casos por provincia e indicarle que agregue segn la media de ingreso. Pasos: 1. Datos 2. Agregar 3. Seleccionar variable de segmentacin 4. Agregar variable 5. Seleccionar funcin (o dejar defecto) 6. Seleccionar mtodo de guardado 7. Ordenar archivo antes de agregarlo 8. Aceptar Variable de segmentacin: en este cuadro hay que introducir la variable que ser utilizada como criterio para agrupar los datos. La variable de segmentacin puede ser numrica o de cadena. Agregar variables: las nuevas variables agregadas, se obtienen al aplicar alguna funcin u operacin a las variables del archivo original. Si no se indica alguna en particular, el SPSS asume la media. Nombre y etiqueta: se puede dejar el nombre por defecto que otorga el SPSS o modificarlo y agregar una etiqueta de identificacin. Funcin: la agregacin de variables se obtiene al aplicar una funcin, la cual por defecto el SPSS asume que es la media. Es posible modificar esta funcin segn los propsito particulares de investigacin.

  • Pablo Cceres Taller de Anlisis Estadstico Aplicado 24 de Abril de 2015 SEGMENTAR O DIVIDIR ARCHIVO Consiste en dividir la base de datos en grupos, de modo que todo anlisis de datos que se realice con el archivo segmentado, se repite para cada grupo producto de la segmentacin. Este comando es til cuando se tiene un segmento especfico de la poblacin sobre la que se quieren realizar todos los anlisis. Por ejemplo, para un reporte, nos podra interesar hacer varios anlisis para las mujeres trabajadoras de cada una de las regiones del pas. Esta funcin permite ir obteniendo automticamente los anlisis para este grupo segmentado por regin. Pasos: 1. Datos 2. Dividir archivo 3. Seleccionar el mecanismo de divisin de archivos 4. Seleccionar variable o variables de segmentacin 5. Seleccionar si requiere el archivo ordenado por las variables de segmentacin 6. Aceptar Analizar todos los casos, no crear grupos: es el estado por defecto del SPSS, es decir, cuando se encuentra activada esta opcin el SPSS opera con la base de datos sin segmentar. Comparar los grupos: esta opcin activa la segmentacin. Si se corren anlisis simultneos, el SPSS ordena los resultados mostrando el primer anlisis solicitado para todos los grupos, el segundo anlisis para todos los grupos, el tercer anlisis para todos los grupos, etc. Organizar los resultados por grupo: esta opcin activa la segmentacin. Si se corren anlisis simultneos, el SPSS ordena los resultados mostrando todos los anlisis para el primer grupo, todos los anlisis para el segundo grupo, todos los anlisis para el tercer grupo, etc. Grupos basados en: se selecciona la o las variables de segmentacin. Estas pueden tener ser un mximo de 8. En caso de incluir ms de una variable de segmentacin, el anlisis va ir siendo segmentado en el orden de inclusin de las variables. Ordenar los archivos segn variables de agrupacin: ordena la base de datos segn las variables de segmentacin. Recomendado.

  • Pablo Cceres Taller de Anlisis Estadstico Aplicado 24 de Abril de 2015 Seleccionar casos Selecciona un subconjunto de datos especfico para el anlisis, el cual es determinado segn si cumple determinada condicin (if). Tambin permite generar una muestra aleatoria de casos que por definicin es tiene un N menor a la base de datos original. Es recomendable cuando se tiene una gran base de datos (como la CASEN) y se est interesado en un grupo especfico. A diferencia de la segmentacin de datos, no repite necesariamente todos los anlisis para todos los grupos del nuevo conjunto de datos seleccionados. Tambin es til cuando se tienen bases de datos con un gran nmero de casos, para ahorrar tiempo en procesamiento. Por ejemplo, una base de datos administrativa suele contener de miles a millones de casos, por lo que sera ms conveniente seleccionar una sub-muestra aleatoria para los anlisis. Pasos: 1. Datos 2. Seleccionar casos 3. Seleccionar mecanismo de divisin de casos 4. Seleccionar resultado 5. Aceptar Todos los casos: es el estado por defecto del SPSS, es decir, cuando se encuentra activada esta opcin el SPSS opera con la base de datos completa. Si satisface la condicin: selecciona casos que cumplen una determinada condicin, la cual puede estar basada en una o ms operaciones lgicas, aritmticas, etc. Es til cuando se requiere combinar varios criterios de seleccin. Muestra aleatoria de casos: crea una muestra aleatoria de casos en base a dos criterios: a) Tomando un % de los casos; b) Tomando un rango de casos. Basndose en el rango del tiempo o de los casos: si los casos cuentan con una variable que indique tiempo (meses, das u horas), es posible solicitar al SPSS que seleccione casos que se encuentren dentro de cierto marco temporal, tomando esa variable por referencia. Usar variable filtro: opera con variables numricas. Selecciona los casos que tienen valores distintos de cero en la variable de filtro. Los casos con valor cero, no son seleccionados. Descartar casos no seleccionados: descarta (los tacha) los casos seleccionados para el anlisis, pero sin borrarlos de la base de datos activa.

  • Pablo Cceres Taller de Anlisis Estadstico Aplicado 24 de Abril de 2015 Copiar casos seleccionados a un nuevo conjunto de datos: crea una nueva base nicamente con los casos seleccionados: Eliminar no casos seleccionados: literalmente elimina de la base de datos activa los casos no seleccionados. Se recomienda utilizarse slo si se guarda con un nombre distinto la nueva base generada.