Bioestadística (Grado en Medicina) Curso 2013/14 Guión de...

34
- 1 - Bioestadística (Grado en Medicina) Curso 2013/14 Guión de la Práctica I SPSS I.1. Introducción. El SPSS es un paquete estadístico constituido por un conjunto de procedimientos (programas) para el manejo y análisis estadístico de un conjunto de datos. SPSS dispone (en el entorno Windows) de varias ventanas. Las básicas (y las que habitualmente usamos) son: el Editor de datos SPSS (es la ventana principal de SPSS, y contiene al conjunto de datos que vamos a analizar) y el Visor de SPSS (donde se van a ir acumulando todos los resultados de los análisis estadísticos que vayamos realizando). Aunque SPSS nos puede ayudar en el proceso de extracción de la muestra (datos), no cabe duda de que está pensado para el manejo y, sobre todo, para el análisis estadístico de los datos. Por ello, el trabajo con SPSS comienza realmente cuando ya hemos recogido los datos. A partir de ese momento: 1.- Construiremos un fichero de datos con SPSS, y lo haremos en la ventana del Editor de datos. Después dicho fichero se podrá editar, realizando sobre él las correcciones y/o transformaciones o cambios deseados. Además, para que sea reconocido como un fichero de datos de SPSS, debe tener la extensión .sav: al guardarlo, SPSS le pone automáticamente dicha extensión. 2.- Aplicaremos los procedimientos de SPSS apropiados para el análisis estadístico de los datos. Dicha aplicación se lleva a cabo de forma fácil, sobre cuadros de diálogo que van apareciendo, y utilizando fundamentalmente el ratón. 3.- Observaremos los resultados de los análisis que irán apareciendo en el Visor de SPSS. Dichos resultados se pueden editar en el propio Visor y, lógicamente, se pueden guardar en un fichero o exportarlos a otra aplicación. El fichero de resultados, para que sea reconocido como tal por SPSS, debe tener la extensión .spv; al guardarlo, SPSS le pone automáticamente dicha extensión. 4.- Interpretaremos los resultados obtenidos y sacaremos las conclusiones correspondientes. Los cuatro puntos anteriores son los objetivos de estas Prácticas. En esta primera práctica abordaremos el primer punto, más concretamente, la construcción (y edición) de un fichero de datos. Para ello comentaremos, en primer lugar, la ventana donde se va a construir el fichero: el Editor de datos. I.2. El Editor de datos SPSS (la ventana principal de SPSS). Al abrir SPSS accedemos a la ventana del Editor de datos (ventana principal de SPSS). Esto lo podemos hacer a través del apartado Programas del menú Inicio o mediante un acceso directo en el escritorio (si existe). Dicha ventana (sin datos) se muestra en la siguiente figura. Esta es una ventana Windows con los elementos básicos de este tipo de ventanas: menús desplegables, barra de herramientas, etc. En esta ventana construiremos el fichero de datos. También, si el fichero de datos está ya construido y guardado, lo podemos abrir en esta ventana (con el icono correspondiente de la barra de herramientas). Igualmente se puede abrir el fichero de datos haciendo doble clic con el ratón sobre el nombre del fichero, en cuyo caso se abrirá automáticamente una ventana del Editor que lo contendrá. Abrid el fichero de datos osteo.sav, y la ventana quedará como se muestra en la siguiente página. Observamos que el nombre del fichero figura en la barra de título de la ventana, y los datos aparecen (en la parte central de la ventana) en forma de matriz (en adelante le llamaremos matriz de datos): están

Transcript of Bioestadística (Grado en Medicina) Curso 2013/14 Guión de...

Page 1: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 1 -

Bioestadística (Grado en Medicina) Curso 2013/14 Guión de la Práctica I SPSS I.1. Introducción.

El SPSS es un paquete estadístico constituido por un conjunto de procedimientos (programas) para el manejo y análisis estadístico de un conjunto de datos. SPSS dispone (en el entorno Windows) de varias ventanas. Las básicas (y las que habitualmente usamos) son: el Editor de datos SPSS (es la ventana principal de SPSS, y contiene al conjunto de datos que vamos a analizar) y el Visor de SPSS (donde se van a ir acumulando todos los resultados de los análisis estadísticos que vayamos realizando).

Aunque SPSS nos puede ayudar en el proceso de extracción de la muestra (datos), no cabe duda de que está pensado para el manejo y, sobre todo, para el análisis estadístico de los datos. Por ello, el trabajo con SPSS comienza realmente cuando ya hemos recogido los datos. A partir de ese momento:

1.- Construiremos un fichero de datos con SPSS, y lo haremos en la ventana del Editor de datos. Después dicho fichero se podrá editar, realizando sobre él las correcciones y/o transformaciones o cambios deseados. Además, para que sea reconocido como un fichero de datos de SPSS, debe tener la extensión .sav: al guardarlo, SPSS le pone automáticamente dicha extensión.

2.- Aplicaremos los procedimientos de SPSS apropiados para el análisis estadístico de los datos. Dicha aplicación se lleva a cabo de forma fácil, sobre cuadros de diálogo que van apareciendo, y utilizando fundamentalmente el ratón.

3.- Observaremos los resultados de los análisis que irán apareciendo en el Visor de SPSS. Dichos resultados se pueden editar en el propio Visor y, lógicamente, se pueden guardar en un fichero o exportarlos a otra aplicación. El fichero de resultados, para que sea reconocido como tal por SPSS, debe tener la extensión .spv; al guardarlo, SPSS le pone automáticamente dicha extensión.

4.- Interpretaremos los resultados obtenidos y sacaremos las conclusiones correspondientes.

Los cuatro puntos anteriores son los objetivos de estas Prácticas. En esta primera práctica abordaremos el primer punto, más concretamente, la construcción (y edición) de un fichero de datos. Para ello comentaremos, en primer lugar, la ventana donde se va a construir el fichero: el Editor de datos.

I.2. El Editor de datos SPSS (la ventana principal de SPSS).

Al abrir SPSS accedemos a la ventana del Editor de datos (ventana principal de SPSS). Esto lo podemos hacer a través del apartado Programas del menú Inicio o mediante un acceso directo en el escritorio (si existe). Dicha ventana (sin datos) se muestra en la siguiente figura. Esta es una ventana Windows con los elementos básicos de este tipo de ventanas: menús desplegables, barra de herramientas, etc. En esta ventana construiremos el fichero de datos.

También, si el fichero de datos está ya construido y guardado, lo podemos abrir en esta ventana (con el icono correspondiente de la barra de herramientas). Igualmente se puede abrir el fichero de datos haciendo doble clic con el ratón sobre el nombre del fichero, en cuyo caso se abrirá automáticamente una ventana del Editor que lo contendrá.

Abrid el fichero de datos osteo.sav, y la ventana quedará como se muestra en la siguiente página.

Observamos que el nombre del fichero figura en la barra de título de la ventana, y los datos aparecen (en la parte central de la ventana) en forma de matriz (en adelante le llamaremos matriz de datos): están

Page 2: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 2 -

estructurados en filas y columnas. Las filas son los casos o individuos. Cada fila o caso tiene a la izquierda el número de registro del caso, propio de la matriz de datos; pinchando sobre él se selecciona toda la fila o caso. Las columnas son las variables. Situando el cursor en la cabecera de columna (nombre de la variable) se despliega una etiqueta (etiqueta de variable), si previamente se ha introducido, que da una descripción más

detallada de esa variable. Además pinchando en el nombre se selecciona toda la columna o variable. Los datos de variables cualitativas con varias categorías se suelen introducir (al construir la matriz de

datos) con códigos numéricos; por ejemplo, para el sexo se pueden asignar los códigos 1 y 2 (u otros distintos) a “varón” y “hembra”, respectivamente, e introducir los datos de sexo utilizando dichos códigos. En estos casos se suelen introducir etiquetas que expliquen el significado de cada código (etiquetas de valor). Lógicamente a los datos de variables como edad, talla,… no se les asignan etiquetas. Los datos introducidos con códigos pueden verse en la matriz de datos, de manera alternativa, con los códigos o con las respectivas etiquetas de valor; para ello simplemente pinchar en el icono correspondiente de la barra de herramientas (el cuarto por la derecha). Probadlo.

La ventana del Editor de datos tiene dos vistas: la Vista de datos (la que acabamos de ver) y la Vista de variables (que aparece a continuación). En esta última se muestran las características de todas las variables de la matriz de datos. Ahora, cada fila representa una variable, con todas sus características, y tiene a su izquierda el correspondiente número de registro de la variable. Las columnas definen dichas características: nombre, tipo de variable, anchura, etiquetas,… (las veremos después). De una vista a otra se cambia pinchando con el ratón

en la pestaña correspondiente en la parte inferior izquierda de la ventana. Por último, los procedimientos para el manejo y análisis de los datos los encontramos en los menús

desplegables Datos, Transformar, Analizar y Gráficos. En los dos primeros encontramos los procedimientos de manejo y transformación de los datos (en las prácticas veremos algunos de ellos). En el menú Analizar están los métodos para el análisis estadístico de los datos, aunque algunos procedimientos de Datos y Transformar también son útiles en el análisis estadístico. En el menú Gráfico encontramos los gráficos estadísticos. De los menús Analizar y Gráficos veremos lo que corresponda al programa de la asignatura.

Terminamos este apartado presentando el fichero osteo.sav que utilizaremos en todas las prácticas. Contiene los datos correspondientes a un estudio acerca de la densidad mineral ósea en pacientes diabéticos insulin-dependientes. En la tabla de la siguiente página se describen todas las variables: especificando nombre y etiqueta explicativa de cada una de ellas (indicando las variables introducidas con códigos numéricos).

Page 3: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 3 -

Nombre Etiqueta de variable

num Número del paciente sexo Sexo del paciente (1 = varón ;2 = mujer) edad Edad del paciente (años)

grupo_edad Grupo de edad del paciente: 1=(<25 años), 2=(de 25 a 33años), 3=(>33 años) peso Peso del paciente (Kg) talla Talla del paciente (cm) imc Índice de masa corporal tevol Tiempo de evolución de la enfermedad (años)

tabaco Consumo de tabaco (1 = sí; 2 = no) alcohol Consumo de alcohol (1 = no; 2 = sí, pero no en exceso; 3 = sí, en exceso) ingca Ingesta de calcio (1 = suficiente; 2 = insuficiente) acfis Actividad física (1 = sí; 2 = no) retin Presencia de retinopatía (1 = no; 2 = leve; 3 = grave) nefro Presencia de nefropatía (1 = no; 2 = leve; 3 = grave) neuro Presencia de neuropatía (1 = no; 2 = leve; 3 = grave) hba1c Hemoglobina glicoxilada

ca Calcio p Fósforo cr Creatinina

pthm Pth media tpi Pth intacta

bmdcue Densidad de masa ósea en el cuello del fémur szl24 Valor tipificado de la densidad de masa ósea en L24 sztri Valor tipificado de la densidad de masa ósea en triángulo de Ward szcue Valor tipificado de la densidad de masa ósea en el cuello del fémur

osteo_cue Presencia de osteoporosis en el cuello del fémur (1=Sí, 2=No) osteo_tri Presencia de osteoporosis en el triángulo de Ward (1=Sí, 2=No)

I.3. Construcción de un fichero de datos (matriz de datos).

Para construir un fichero de datos SPSS hemos de construir la correspondiente matriz de datos en la ventana del Editor de datos de SPSS. Para ello podemos distinguir dos pasos fundamentales (el caso de importación de datos de otras aplicaciones no lo consideraremos aquí): la definición de las variables (especificando todas sus características) y la introducción de los datos. Lógicamente, una vez construida la matriz de datos, la podremos editar haciendo las correcciones y/o cambios oportunos.

I.3.1. Definición de las variables.

Para comenzar a definir las variables de la matriz de datos hemos de partir de una ventana del Editor de datos vacía (sin datos ni variables definidas). Si se tiene una matriz de datos activa en la ventana actual, se puede abrir una nueva ventana del Editor vacía mediante el menú Archivo (Archivo → Nuevo → Datos).

Abridla y probad a definir algunas variables como se indica a continuación.

Hemos de situarnos en la Vista de variables. En cada fila de la ventana definiremos una variable, escribiendo su nombre y sus características en las diferentes columnas. Repasemos dichas características.

Probad cada característica con alguna(s) variable(s) sencilla(s) como sexo, talla,…

Columna 1: Nombre. Nombre de la variable: sin espacios en blanco, comas, puntos y coma, dos puntos ni guión alto,

empezando siempre por una letra, @, # o $, y no terminando con un punto. Aunque se permite hasta 64 caracteres, se suele poner un nombre reducido, dando una explicación más detallada en la etiqueta de variable.

Columna 2: Tipo. Tipo de la variable. Por defecto, SPSS considera tipo Numérico. Para cambiarlo, pinchar en la casilla y,

después, en el pequeño botón que aparece a la derecha de dicha casilla. Entonces se muestra el cuadro Tipo de variable (ver la figura en la página siguiente) y se elige el tipo. Utilizaremos los tres tipos señalados en la figura. Siempre que sea de tipo numérico habrá que especificar la anchura y las cifras decimales, igualmente habrá que especificar la anchura si es de tipo cadena. Estas características son las mismas que aparecen en las

Page 4: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 4 -

columnas 3 y 4 (ver más abajo), y en ellas puede ser más cómodo introducirlas. Finalmente, si es una fecha, habrá que especificar el formato de fecha entre los muchos disponibles; incluso hay formatos que incluyen tiempos (horas, minutos,…); los formatos son intuitivos y fáciles de entender.

Columna 3: Anchura Anchura máxima (en número de caracteres) que tendrá asignada la variable. Se establece pinchando en la

casilla y utilizando las flechas que aparecen. Debe ser suficiente para contener cada dato: numérico (tener en cuenta que signo y separación decimal ocuparían dos caracteres) o de cadena (texto). Si se especifica más anchura de la necesaria no importa, pero si es menor de la necesaria, el dato no se podrá ver correctamente.

Columna 4: Decimales Número de decimales que se mostrarán si el dato es numérico. Se establece de igual forma que la anchura.

Columna 5: Etiqueta (Etiqueta de variable) Se puede introducir (es opcional) una etiqueta de variable (máximo 256 caracteres) que describa a la

variable de forma más detallada de lo que lo hace el propio nombre. Podemos corregir la ortografía de este tipo de etiquetas con el icono correspondiente de la barra de herramientas (el último).

Columna 6: Valores (Etiquetas de valor) Podemos introducir etiquetas explicativas

(máximo de 120 caracteres) de los distintos valores que toma la variable. Estas etiquetas, aunque son opcionales, conviene ponerlas si la variable es de naturaleza cualitativa y se va a introducir con códigos numéricos. Por ejemplo, si el sexo se va a introducir con los códigos 1 (varón) y 2 (hembra), a cada código habrá que asignarle su etiqueta correspondiente. Para ello, se abre el cuadro Etiquetas de valor pinchando en la casilla correspondiente y, después, en el pequeño botón que aparece a la derecha de dicha casilla. En él se van escribiendo cada valor y su etiqueta y se pulsa Añadir, como se muestra en la figura. Los ya introducidos se pueden cambiar o eliminar con los botones correspondientes. También se dispone del botón Ortografía para revisar la ortografía de las etiquetas.

Igualmente se pueden asignar etiquetas a datos cualitativos introducidos con iniciales (una o varias letras), por ejemplo, si se introducen los datos de sexo con las letras V y H, se les asignarían las etiquetas “varón” y “hembra”, respectivamente.

Columna 7: Perdidos Si el dato de una casilla de la matriz de datos no existe, se dice que tenemos un dato faltante o dato

perdido. El usuario puede definir códigos que, colocados en una casilla con dato perdido (en la matriz de datos), la identifica como tal. Si no los define (en las prácticas no los definiremos), aparecerá “Ninguno” en la casilla correspondiente de esta columna 7, y SPSS utiliza como código (por defecto) una coma (si el dato es numérico) o deja la casilla en blanco (si el dato es de cadena). Esto se conoce como datos perdidos del sistema.

Columna 8: Columnas Anchura de la columna de datos en la matriz de datos. Poner la necesaria para una correcta visualización

de los datos y del nombre de la variable. La anchura de la columna se puede modificar también (es lo más usual) pinchando y arrastrando sobre los bordes del nombre de la variable en la Vista de datos. Probadlo.

Para datos cuantitativos, o cualitativos introducidos

con códigos numéricos.

Para fechas.

Para datos cualitativos, introducidos como texto.

Page 5: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 5 -

Columna 9: Alineación Tipo de alineación (izquierda, centro o derecha) de los datos en la columna. Pinchar en la casilla y elegir

la opción deseada. Por defecto, SPSS alinea a la izquierda los datos de cadena y a la derecha los numéricos.

Columna 10: Medida Escala de medida de los datos. Tiene tres opciones: Nominal (para datos cualitativos nominales), Ordinal

(para datos en escala ordinal) y Escala (para datos numéricos). SPSS coloca automáticamente la escala de medida en función del tipo de variable que hayamos definido; sólo en casos excepcionales lo cambiaremos.

Columna 11: Rol El Rol indica el papel que se asigna a la variable, el cual podrá ser utilizado en determinados métodos de

SPSS (no lo utilizaremos). En la definición de las características de las variables puede ser muy útil el uso de las acciones Cortar,

Copiar y Pegar, típicas de Windows. La manera más cómoda de acceder a ellas es a través del menú contextual (pulsando el botón derecho del ratón). Se puede cortar, copiar y pegar cualquier característica o grupo de características (de la misma columna). También se pueden cortar, copiar y pegar variables completas; para ello hemos de seleccionarlas pinchando en sus números de registro. En cualquier caso, el nombre de la variable se puede cortar y copiar, pero no se puede pegar, ya que SPSS no admite nombres duplicados (al pegar se asignarían nuevos nombres provisionales: VAR00001, VAR00002,…). Probad estas acciones.

I.3.2. Introducción de los datos.

Es el paso más sencillo: se trata simplemente de introducir los datos por teclado. Normalmente esto se hace con las variables ya definidas, aunque se podrían introducir datos con las variables aún sin definir por el usuario (en tal caso, SPSS definiría automáticamente las variables provisionales necesarias). Lógicamente, la introducción de los datos se lleva a cabo en la Vista de datos. Los datos se pueden introducir por casillas, por filas o por columnas.

Para introducir un dato por casillas, situar el cursor en la casilla correspondiente, teclear el dato y pulsar la tecla Intro, la tecla Tab o una de las teclas de flechas.

Para introducir los datos por columnas (variables), situar el cursor al inicio de la columna, teclear el dato y pulsar Intro o la tecla de flecha abajo. Así hasta el final de la columna.

Para introducir los datos por filas (casos), situar el cursor al inicio de la fila, teclear el dato y pulsar la tecla Tab o la tecla de flecha a la derecha. Así hasta el final de la fila.

En la introducción de los datos, al igual que en la definición de variables, puede ser muy útil el uso de las acciones Cortar, Copiar y Pegar. Se puede cortar, copiar y pegar una casilla (dato) individual, o un grupo de casillas (datos) siempre que formen un cuadrado o rectángulo. También se pueden cortar, copiar y pegar filas o columnas completas, seleccionándolas pinchando en su número de registro o cabecera (según el caso).

Introducid algunos datos y probad estas acciones.

I.4. Edición de la matriz de datos.

Sobre la matriz de datos ya construida, siempre podremos realizar cualquier corrección o cambio, ya sea sobre las variables, los casos o los propios datos. Como es natural, tendremos la opción deshacer si queremos volver atrás en el cambio realizado.

Para cambiar cualquier característica de cualquier variable, hacerlo directamente en la Vista de variables, del mismo modo que se explicó en el apartado I.3.1.

Para cambiar cualquier dato, situar el cursor en la casilla correspondiente de la Vista de datos y cambiarlo. En la edición de los datos, en la Vista de datos, son útiles las acciones Cortar, Copiar y Pegar.

Igualmente son útiles en la Vista de variables para cortar, copiar y pegar características de las variables. El uso de estas acciones ya se ha comentado en párrafos anteriores.

Para editar casos completos (filas) se han de seleccionar pinchando en sus números de registro. Después se pueden utilizar las acciones Cortar, Copiar, Pegar como ya se ha indicado con anterioridad. También se puede Borrar el caso o grupo de casos seleccionados (con el menú contextual o con la tecla Supr del teclado). Igualmente se puede Insertar un nuevo caso (en blanco) justo delante del caso seleccionado (con el menú contextual o el icono de la barra de herramientas). Finalmente, se puede cambiar la posición (dentro de la matriz de datos) de un caso o grupo de casos completos; para ello se seleccionan y, después, se arrastran con el ratón hasta la posición deseada (aparece una línea roja que nos ayuda en esta tarea).

Las operaciones indicadas para casos completos las podemos llevar a cabo también para variables completas (columnas) de forma completamente similar, seleccionándolas pinchando en sus nombres, si se está en la Vista de datos, o en sus números de registro, si se está en la Vista de variables.

Probad las opciones de edición anteriores sobre la matriz de datos que tenga en la pantalla.

Page 6: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 6 -

Bioestadística (Grado en Medicina) Guión de la Práctica II SPSS

II.1. Introducción.

Los objetivos de esta práctica son los métodos de la Estadística Descriptiva: tablas de frecuencias, gráficos y resumen o síntesis de datos. Para la Estadística Descriptiva, SPSS dispone de diferentes procedimientos: estudiaremos aquí el procedimiento Frecuencias (del menú Analizar), el procedimiento Agrupación visual (del menú Transformar) y algunos gráficos estadísticos (del menú Gráficos). Seguiremos utilizando el fichero de datos osteo.sav.

Para cada procedimiento de SPSS se abrirá un cuadro de diálogo propio del procedimiento, donde habrá que especificar los detalles de la aplicación de dicho procedimiento. Ya vimos el primero de ellos en el procedimiento Ponderar casos de la Práctica I. Estos cuadros son similares de unos procedimientos a otros; existiendo elementos comunes a casi todos ellos y elementos específicos de cada procedimiento. El tamaño de los cuadros se puede cambiar pinchando con el ratón en los bordes y arrastrando. En el siguiente apartado veremos el procedimiento Frecuencias, y aprovecharemos para comentar el cuadro de diálogo con mayor detalle, destacando los elementos comunes.

Por último, los resultados que se generan al aplicar los procedimientos estadísticos se van acumulando en una nueva ventana de SPSS: el Visor de SPSS. Introduciremos las posibilidades que ofrece dicha ventana.

El alumno/a deberá ir haciendo los ejemplos que se van explicando.

II.2. Procedimiento Frecuencias.

Frecuencias es un procedimiento de SPSS típico de la Estadística Descriptiva, y lo utilizaremos para el cálculo de medidas de resumen de datos. Accedemos a él a través de Analizar → Estadísticos descriptivos → Frecuencias. El cuadro de diálogo del procedimiento se muestra en la figura adjunta.

Como elementos comunes a casi todos los cuadros de diálogo encontramos una caja a la izquierda con todas las variables de la matriz de datos, y otra a la derecha vacía (en otros procedimientos aparecerán varias cajas vacías), donde hemos de colocar las variables que realmente vamos a utilizar en el procedimiento, pasándolas desde la caja de la izquierda. En la figura ya se han pasado a la caja de la derecha 4 variables: sobre ellas se harán los cálculos de Estadística Descriptiva que después indicaremos. También, las variables ya pasadas a la caja de la derecha se pueden devolver a la de la izquierda. Para pasar variables de una caja a otra, hay que seleccionarlas y pulsar el botón que hay entre ambas cajas (o haciendo doble clic en la variable, si no existe duda sobre la caja de destino).

También son elementos comunes a los cuadros de diálogo los botones Aceptar, Pegar, Restablecer, Cancelar y Ayuda, que se explican resumidamente en la siguiente tabla:

Como elementos específicos del procedimiento Frecuencias tenemos:

* Opción Mostrar tablas de frecuencias. Si está marcada, nos muestra (como resultado) las tablas de frecuencias de las variables analizadas. Generalmente la dejaremos marcada.

* Botón Estadísticos. Pulsándolo se despliega el cuadro de diálogo Frecuencias: Estadísticos (ver página siguiente), donde marcaremos todas las medidas descriptivas que deseemos calcular. De las que aparecen, no veremos: Puntos de corte para…, Asimetría y Curtosis. Por otro lado, la opción “Los valores son puntos…” habría que marcarla si el dato de cada individuo fuesen en realidad la marca de clase del intervalo al que pertenece el individuo, o si los datos fuesen marcas de clase ponderadas con sus frecuencias respectivas (ver apartado I.5). Al terminar, pulsando el botón Continuar volveremos al cuadro Frecuencias.

Botón Función Aceptar Llevar a cabo el análisis con los detalles especificados en el cuadro de diálogo. Pegar (No lo veremos). Restablecer Borrar todas las especificaciones hechas en el cuadro para elegir otras nuevas. Cancelar Salir del cuadro, dejándolo como está, sin llevar a cabo ninguna acción. Ayuda Desplegar la ayuda contextual correspondiente al procedimiento.

Page 7: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 7 -

* Botón Gráficos. Nos permite hacer algunos gráficos. No lo utilizaremos: los gráficos mejor hacerlo mediante el menú Gráficos.

* Botón Formato. Al pulsarlo se despliega el cuadro Frecuencias: Formato, que nos permite, en primer lugar, elegir la forma de ordenar la tabla de frecuencia (lo usual es Valores ascendentes); en segundo lugar, elegir entre mostrar los resultados de todas las variables analizadas en una misma tabla (opción Comparar variables) o en tablas separadas para cada variable (opción Organizar resultados según variables) y, finalmente, poder suprimir las tablas de frecuencias que tengan un número de categorías (filas) superior al especificado por nosotros. Al final, pulsando Continuar volveremos al cuadro Frecuencias.

Cuando lo hayamos especificado todo, pulsamos el botón Aceptar y nos aparecerán en el Visor de SPSS los resultados de los análisis solicitados. En la siguiente figura se muestra dicho Visor con los resultados de las medidas solicitadas de las variables especificadas en el cuadro de diálogo. Aunque en la figura no se ven, también deben aparecer las tablas de frecuencias correspondientes (sin agrupar en intervalos). Dichas tablas de frecuencias tienen una columna de “Porcentaje” y otra de “Porcentaje válido”: siempre utilizaremos esta última, en la que los porcentajes están calculados sobre el total de datos que se tiene (los datos perdidos no se consideran). En el apartado II.5 haremos algunos comentarios para conocer algo más este Visor de SPSS.

II.3. Procedimiento Agrupación visual.

El procedimiento Frecuencias siempre construye las tablas de frecuencias como en el caso de datos cualitativos o discretos: cada categoría o valor posible, con su frecuencia, sería una fila de la tabla. Así, si el número de valores distintos de una variable es elevado (por ejemplo, edad, peso,...) la tabla tendría un gran número de filas y no sería adecuada para la descripción de dichos datos. En estos casos lo que se hace es dividir en intervalos el rango total de los datos: así tendremos una tabla de frecuencias con intervalos (datos agrupados en intervalos).

Una forma cómoda de construir estos intervalos es utilizar el procedimiento Agrupación visual de SPSS. Algunas opciones de este procedimiento no las veremos y, por tanto, no las comentaremos. Accedemos a él a través de Transformar → Agrupación visual. El primer cuadro de diálogo que aparece se muestra en la página siguiente (a la izquierda). En él pasamos a la caja vacía de la derecha la(s) variable(s) para la(s) que deseemos hacer tal agrupación en intervalos (en la figura se ha pasado el peso). Después pulsamos Continuar y nos aparecerá el cuadro de diálogo principal del procedimiento (ver figura de la derecha).

Page 8: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 8 -

En la caja de la izquierda de este nuevo cuadro están la(s) variable(s) especificada(s) en el cuadro anterior (en la figura, sólo el peso). Seleccionando una de estas variables se muestra a la derecha, de forma automática, el correspondiente histograma de frecuencias, y encima de él se muestra el dato mínimo y el máximo: el rango entre ese mínimo y máximo es el que hemos de dividir en intervalos. Al llevar a cabo este procedimiento se genera (de forma automática) una nueva variable (variable agrupada): hay que asignarle nombre y etiqueta en la parte superior del cuadro. Esta variable se incorporará a la matriz de datos como última variable, y tomará automáticamente los valores enteros 1, 2, 3,…, de tal manera que si un individuo tiene el valor 3 (por ejemplo) en dicha variable, quiere decir que tal individuo pertenece al tercer intervalo.

La construcción de los intervalos se hace especificando los puntos de corte entre los intervalos: k puntos de corte generarían k+1 intervalos. Una forma de especificar los puntos de corte es introducirlos manualmente en las casillas Valor de la Rejilla que hay debajo del histograma. Conforme se van introduciendo puntos de corte, se van ordenando de menor a mayor, van apareciendo dichos puntos como líneas verticales en el histograma y van surgiendo nuevas líneas en blanco en la Rejilla.

Introducid manualmente en la Rejilla los puntos de corte 50, 60, 70, 80 y 90 para el ejemplo del peso. Se crearan 6 intervalos: 1º) menor o igual a 50 kg, 2º) de 50,1 a 60 kg, etc. (observarlos sobre el

histograma). Esto es así si está marcada la opción Límites superiores incluidos (en la parte derecha del cuadro). Si se marca la opción excluidos, los intervalos serían lógicamente: 1º) menor de 50 kg, 2º) de 50 a 59,9 kg, etc. Notemos también que cada línea de la Rejilla se corresponde con un intervalo (la línea donde aparece SUPERIOR representa al último intervalo: desde el último punto de corte en adelante). Además se nos permite colocar a la derecha etiquetas apropiadas para dichos intervalos. Tales etiquetas se pueden escribir manualmente en las casillas correspondientes, pero es muy cómodo colocarlas todas a la vez (de forma automática) pulsando el botón Crear etiquetas.

En la Rejilla, tanto los puntos de corte (y, por tanto, los intervalos) como sus etiquetas se pueden editar. Sobre la Rejilla, pulse el botón derecho del ratón y en el menú contextual aparecerán algunas opciones al respecto. Los puntos de corte también se pueden cambiar pinchando y arrastrando con el ratón sobre las líneas verticales correspondientes en el histograma. Si se hacen cambios en los puntos de corte, y deseamos actualizar las etiquetas automáticamente, borrar las etiquetas actuales y pulsar otra vez el botón Crear etiquetas.

Otra forma de especificar los puntos de corte (y, por tanto, los intervalos) es de manera automática, pulsando el botón Crear puntos de corte. Al hacerlo se abre un nuevo cuadro de diálogo (verlo en la figura adjunta) que nos ofrece tres opciones para llevarlo a cabo: en las prácticas sólo veremos la primera (Intervalos de igual amplitud, que ya viene marcada). En el mismo cuadro nos dice que hay que rellenar al menos dos de los campos (recuadros) en blanco, pero podemos escribir en los tres recuadros, y cambiar los valores ya escritos, hasta obtener una división en intervalos más acorde a lo que se desea. Para obtener lo que aparece en la figura: introducid 50 como primer punto de corte y 10 como anchura; entonces, simplemente pinchando en el campo en blanco que queda, se termina de

Page 9: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 9 -

rellenar todo automáticamente. Por último, pulsando en el botón Aplicar volveremos al cuadro anterior, y tendremos los intervalos en la Rejilla.

Cuando se tenga completo el cuadro de diálogo principal (no olvidar poner nombre a la nueva variable agrupada; por ejemplo, peso_interv), se pulsa el botón Aceptar y se creará dicha variable y los intervalos. Ahora, para obtener la tabla de frecuencias con los intervalos hay que utilizar el procedimiento Frecuencias (ver apartado II.2), pasando a la caja de la derecha la nueva variable agrupada generada, y dejando marcada la opción Mostrar tablas de frecuencias. Hacedlo y observad el resultado en el Visor de SPSS.

II.4. Gráficos estadísticos con SPSS.

Los gráficos estadísticos en SPSS están en el menú Gráficos. De las tres opciones que aparecen al desplegar el menú, sólo veremos en las prácticas la de Cuadros de diálogo antiguos, la cual nos permite realizar gráficos estadísticos básicos, con bastantes posibilidades respecto a su construcción y posterior edición.

En la mencionada opción se nos ofrece una lista de los gráficos que podemos hacer. Pinchando en el tipo de gráfico deseado, se abrirá el cuadro de diálogo correspondiente a dicho tipo de gráfico, donde especifica-remos las características que deseemos para el gráfico. Al final, dicho gráfico aparecerá en el Visor de SPSS, donde puede ser editado (lo veremos después). Como los cuadros de diálogo de los distintos tipos de gráficos son muy parecidos, comentaremos con más detalle el del primer gráfico. Además, en adelante, no insistiremos en los elementos comunes de los cuadros de diálogo (ya explicados en el apartado II.2).

II.4.1. Gráficos de barras.

Accedemos mediante Gráficos → Cuadros de diálogo antiguos → Barras, y se nos despliega el cuadro de diálogo Gráfico de barras (se muestra debajo). En él seleccionamos el tipo de gráfico: Simple (gráfico de barras de una sola variable), Agrupado (representa un gráfico de barras de una variable para cada una de las categorías de otra variable) o Apilado (no lo veremos). También hay que dejar marcada la opción Resúmenes para grupos de casos (las otras opciones no las vemos). Finalmente, pulsando el botón Definir se abrirá el cuadro de diálogo de definición del gráfico (ver figura al lado).

Este cuadro de diálogo corresponde a la opción Simple (gráfico de barras simple). En él:

* Pasamos a la caja Eje de categorías la variable que queramos representar en el gráfico (en la figura se ha pasado la variable Presencia de neuropatía).

* En el apartado Las barras representan marcamos la opción deseada: Nº de casos (frecuencia absoluta), % de casos (porcentaje),… La última opción la utilizaremos en la Práctica V.

* El recuadro Plantilla (para cuando se disponen de plantillas de gráficos) no lo veremos. Tampoco veremos el recuadro Panel mediante (útil para confeccionar un panel de gráficos pequeños según variables filas y columnas).

* Pulsando el botón Títulos podemos escribir un título, subtítulo y pie de gráfico: espacio más que suficiente para describir adecuadamente el gráfico.

* El botón Opciones permite, entre otras opciones, representar a los valores perdidos como una categoría más de los datos (no se suele marcar), o representar barras de error (lo utilizaremos en la Práctica V).

Page 10: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 10 -

* Pulsando Aceptar obtendremos el gráfico de barras en el Visor (el gráfico se muestra al lado).

Si elegimos la opción Agrupado para el tipo de gráfico de barras, el cuadro de definición del gráfico es igual al anterior, salvo que tiene una caja en blanco adicional (Definir grupos por) donde hay que colocar la variable que va a determinar los grupos o categorías para las que se va a representar un gráfico de barras de la variable que figura en la caja Eje de categorías. Este tipo de gráficos se debe hacer con los porcentajes: marcar la opción “% de casos”.

Como ejemplo, introducid Presencia de neuropatía en la caja Eje de categorías y sexo en la caja Definir grupos por, pulsad Aceptar y observad el resultado en el Visor: tendremos un gráfico de barras de la presencia de neuropatía por sexos. Interpretadlo.

II.4.2. Gráficos de líneas. (Polígonos de frecuencias)

Accedemos mediante Gráficos→Cuadros de diálogo antiguos→Líneas, desplegándose a continuación el cuadro de diálogo del gráfico de líneas, completamente similar al del gráfico de barras, sólo que las opciones de tipo de gráfico son ahora: Simple (representa un polígono de frecuencia para una sola variable), Múltiple (representa un polígono de frecuencias de una variable para cada una de las categorías de otra variable) y Líneas verticales (no lo vemos). Los cuadros de diálogo de definición del gráfico (opciones Simple y Múltiple) son iguales a los respectivos del gráfico de barras (opciones Simple y Agrupado).

Haced un polígono de frecuencias simple para la variable Tiempo de evolución (colocad dicha variable en la caja Eje de categorías), y un polígono de frecuencias múltiple del Tiempo de evolución (caja Eje de categorías) por sexo (caja Definir líneas por). Observad los gráficos, que aparecerán en el Visor, e interpretadlos.

II.4.3. Gráfico de sectores.

Accedemos mediante Gráficos → Cuadros de diálogo antiguos → Sectores, abriéndose el cuadro de diálogo Gráfico de sectores (ver figura al lado), donde hemos de dejar marcada la opción Resúmenes para grupos de casos (las otras no las veremos). Pulsamos el botón Definir y se abrirá el cuadro de diálogo de definición del gráfico, que es similar al del gráfico de barras (ver figura debajo). En él colocaremos la variable a representar en la caja Definir sectores por, y marcaremos la opción % de casos (lo habitual). Como siempre, pulsando Aceptar se nos mostrará el gráfico en el Visor.

Haced un gráfico de sectores para la Presencia de neuropatía (dicho gráfico se muestra debajo).

Page 11: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 11 -

II.4.4. Histograma.

Accedemos mediante Gráficos → Cuadros de diálogo antiguos → Histograma. Se abre entonces el cuadro de diálogo de definición del gráfico (ver figura adjunta). En él: * Colocamos la variable a representar en la caja Variable. * Marcamos la opción Mostrar curva normal si deseamos

superponer una curva de densidad Normal al histograma. * Pulsando el botón Títulos podremos escribir un título o pie

de gráfico. * Finalmente, pulsando Aceptar obtendremos el gráfico en el

Visor de SPSS.

Haced un histograma para la variable peso del paciente, y comentarlo.

II.5. El Visor de SPSS.

El Visor de SPSS es una ventana de SPSS donde se van acumulando los resultados de los análisis estadís-ticos que se realizan. Los resultados que aparecen en dicho Visor pueden copiarse o exportarse a otras aplica-ciones, editarse, imprimirse o ser guardados en un fichero, que debe tener la extensión .spv. El aspecto del Visor ya se vio en el apartado II.2, con ocasión de mostrar los resultados del procedimiento Frecuencias.

La zona principal del Visor (la de resultados) tiene dos partes: un índice (parte izquierda) con todos los resultados que contiene, y los propios resultados (parte derecha). El tamaño relativo de ambas partes se puede modificar pinchando en la barra de separación vertical y arrastrando.

Los resultados están constituidos por una serie de elementos de resultados (tablas, gráficos, títulos, notas de texto,…). En el índice, estos elementos tienen estructura arborescente, pudiéndose expandir o contraer las ramas a voluntad, pinchando en los signos + ó ─ que aparecen a la izquierda. Pinchando en un elemento, éste queda seleccionado y aparecerá en la parte derecha. El índice es de utilidad cuando se tiene un elevado número de elementos de resultados en el Visor.

Al seleccionar un elemento de resultado (en el índice o pinchando sobre el propio resultado), éste quedará enmarcado y con una flecha roja a su izquierda. Ahora, dicho resultado se puede cortar, copiar, exportar,… (con el menú contextual: botón derecho del ratón), borrar (con la tecla Supr. del teclado), cambiar su posición (pinchando con el ratón y arrastrando hasta la posición deseada) y editar (con el editor que corresponda).

En los editores de los respectivos elementos entramos a través del menú contextual o, más cómodo, haciendo doble clic sobre el propio elemento de resultado. Estos editores son bastante intuitivos y fáciles de manejar: en las prácticas no tenemos tiempo de profundizar sobre ellos, nos limitaremos a hacer algunos comentarios y a describir algunas herramientas de estos editores que nos pueden ser útiles.

El alumno/a practicará un poco con ellos para realizar algunos cambios elementales sobre los resultados.

II.5.1. Editor de Títulos y Notas.

Los Títulos y las Notas son en realidad cuadros de texto, y el editor es de hecho un editor de texto elemental. En unos casos, al entrar en dicho editor aparece un marco punteado alrededor del cuadro de texto, la barra de herramientas de la ventana cambia convenientemente y el cursor se muestra en modo edición de texto. En otras ocasiones, el editor se abre en una ventana nueva. Podemos elegir la forma del editor mediante el menú contextual. Después de llevar a cabo los cambios deseados sobre el texto, pinchamos fuera del marco del elemento editado o cerramos la ventana del editor (según el caso) y volveremos al Visor de SPSS.

II.5.2. Editor de Tablas.

Al entrar en el editor de tablas, en unos casos aparecerá un marco punteado sobre parte del borde de la propia tabla a editar, y en otras ocasiones se abrirá una nueva ventana (ventana del editor) con la tabla a editar. Podemos elegir la forma del editor si entramos en él mediante el menú contextual.

Sobre alguna de las tablas del Visor, probad los cambios que se comentan a continuación.

Seleccionada una fila, columna o grupo de casillas, se pueden efectuar cambios utilizando el menú contextual. En él encontramos, además de las opciones Cortar, Copiar, Pegar y Borrar (cuya utilidad es ya conocida), otras opciones como: Propiedades de tabla (al pinchar en ella se abre un cuadro de diálogo con varias pestañas y multitud de opciones de cambio para la tabla), Propiedades de casilla (igual que la opción anterior, pero con opciones de cambio para las casillas seleccionadas; en particular nos permite, usando la pestaña Valor de formato y la categoría Todo del cuadro de diálogo, cambiar el número de decimales visibles

Page 12: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 12 -

en la fila, columna o casillas seleccionadas), Aspectos de tabla (nos permite cambiar el aspecto general de la tabla) y otras opciones sobre Insertar, Eliminar y Ocultar/Mostrar notas al pie de la tabla.

La anchura de las columnas y de la tabla se modifica fácilmente con el ratón, pinchando en la separación entre columnas y arrastrando. La anchura de las filas se modifica seleccionando sus casillas y cambiando los márgenes superior e inferior de casilla, haciendo uso de la opción Propiedades de casilla (pestaña Alineación y márgenes) del menú contextual.

Para editar el contenido de cualquier casilla, título o pie de tabla, haced doble clic y aparecerá el cursor en modo edición de texto para poder realizar los cambios deseados.

Se puede cambiar la posición de filas (o columnas) seleccionando el título de la(s) fila(s) (o columnas) y arrastrándolas con el ratón a la posición deseada (aparece una línea roja que nos ayuda en esta tarea).

Finalmente, para eliminar filas o columnas enteras, en primer lugar debe estar marcada la opción Ocultar filas y columnas vacías, de la opción Propiedades de tabla (pestaña General) vista antes. Después hay que seleccionar la(s) fila(s) (o columnas) completas que se van a suprimir, y por último eliminarlas con la tecla Supr del teclado o con Eliminar del menú contextual.

Al terminar la edición, pinchamos fuera de la tabla editada o cerramos la ventana del editor (según el caso) y volveremos al Visor de SPSS.

II.5.3. Editor de Gráficos.

Cuando se entra en el Editor de gráficos, éste se abre en una nueva ventana con el gráfico a editar (se muestra al lado). Un gráfico está constituido por elementos de gráfico (título, barras, ejes, leyenda,…). Para editar cualquier elemento hay que seleccionarlo previamente pinchando sobre él. Si se selecciona un grupo de elementos del mismo tipo, pinchando otra vez sobre uno de ellos, sólo él quedaría seleccionado (por ejemplo, seleccionar las barras, y luego seleccionar una sola de ellas). Una vez seleccionado el elemento, se hacen sobre él los cambios deseados.

La mayor parte de los cambios se llevan a cabo sobre el cuadro Propiedades, que se abre auto-máticamente al hacer clic (o doble clic) sobre el elemento a editar, o lo abrimos nosotros con el correspondiente icono de la barra de herramientas. Este cuadro suele tener varias pestañas, y cambia dependiendo del elemento que esté seleccionado.

En general, en el cuadro Propiedades corres-pondiente a un elemento del gráfico, podremos cambiar cualquier característica de dicho elemento relativa al tamaño, color, relleno, líneas, marca-dores,… En particular, en los elementos de texto, se puede cambiar la fuente y formato del texto en su cuadro Propiedades. No obstante, el texto propia-mente dicho se edita haciendo clic dos veces (sin hacer doble clic) sobre dicho texto: entonces, el cursor aparecerá en modo edición de texto, y se podrán hacer los cambios que se deseen.

Probad algunos de los cambios comentados sobre alguno de los gráficos propuestos en los apartados anteriores (que el alumno/a debe tener en su Visor de SPSS).

Por último, de las herramientas disponibles en la barra de herramientas del Editor (pasando el cursor aparecen etiquetas explicativas) destaquemos: Insertar título, cuadro de texto,…(con ellas se pueden insertar dichos elementos en el gráfico), Mostrar/Ocultar etiquetas de datos (con ella se pueden colocar los % que les corresponden a las barras o sectores), Desgajar sector (con ella se puede desgajar -esto es, cortar y separar un poco- uno, varios o todos los sectores de un gráfico de sectores) y Deshacer (deshace la acción anterior).

Al terminar la edición, cerramos la ventana del editor y volveremos al Visor de SPSS.

El alumno/a debe conseguir que el gráfico de sectores, hecho en el apartado II.4.3, quede como el que se muestra al lado.

Page 13: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 13 -

Bioestadística (Grado en Medicina) Guión de la Práctica III SPSS

III.1. Introducción.

En una matriz de datos podemos llevar a cabo la tarea de generar nuevas variables a partir de las ya existentes. Las nuevas variables pueden ser generadas: como resultado de la aplicación de una fórmula en la que interviene, generalmente, una o varias de las variables existentes en dicha matriz (procedimiento Calcular variable), o como resultado de una transformación (recodificación) de los códigos o valores de una de las variable de esa matriz (procedimientos Recodificar). Ambos procedimientos se encuentran en el menú Transformar. A las nuevas variables generadas, que se añadirán al final de la matriz de datos, se les podrá aplicar cualquier procedimiento estadístico. En esta práctica estudiaremos estos procedimientos Recodificar y Calcular variable, y veremos también (como una aplicación de este último) la generación de números aleatorios para extraer una muestra aleatoria.

III.2. Procedimiento Recodificar en distintas variables.

Pongamos dos ejemplos muy simples para aclarar el propósito de la recodificación. En primer lugar, la variable sexo tiene los códigos 1=varón y 2=hembra. Mediante la recodificación podemos cambiar dichos códigos, asignando, por ejemplo, 2=varón y 1=hembra (o cualesquiera otros), generándose una nueva variable igual que la original, pero con los nuevos códigos. Otro ejemplo; la variable alcohol indica el nivel de consumo de alcohol en tres valores o códigos (1=No, 2=Moderado y 3=Excesivo), pero puede ser de interés disponer de una variable (llamémosle, por ejemplo, alcohol_sn) que exprese el consumo en dos categorías (0=No consume y 1=Sí consume). Recodificando alcohol podemos obtener alcohol_sn: sólo habría que cambiar el código actual 1 por el nuevo código 0, y los actuales códigos 2 y 3 transformarlos en el nuevo código 1.

En el menú Transformar encontramos tres procedimientos para recodificar: Recodificar en las mismas variables (la variable original que se recodifica se pierde, la nueva variable generada con la recodificación la reemplazará), Recodificar en distintas variables (la variable original que se recodifica no se pierde, la variable generada con la recodificación será una nueva variable; éste será el procedimiento que estudiaremos aquí) y Recodificación automática (realiza la recodificación de forma automática, generando también una nueva variable).

Al procedimiento accedemos a través de Transformar→Recodificar en distintas variables; entonces se despliega el cuadro de diálogo Recodificar en distintas variables (ver figura adjunta).

La variable que queremos recodificar (variable de entrada) hay que pasarla a la caja Var. numérica→Var. de resultado (según el tipo de la variable a recodificar, cambiará el título de esta caja). En la figura se ha pasado la variable alcohol. Se pueden recodificar varias variables a la vez (pasándolas a esa caja), pero la recodificación (transformación) a efectuar debe ser la misma para todas. Después, a la derecha del cuadro, en el recuadro Variable de resultado, para cada variable a recodificar hay que escribir el nombre de la nueva variable que generaremos con la recodificación (variable de resultado) y, opcionalmente, una etiqueta para ella. Por último pulsamos el botón Cambiar. En la figura se ha puesto el nombre alcohol_sn, y al pulsar Cambiar, aparecerá alcohol alcohol_sn en la caja Var. numérica → Var. de resultado, indicando que la variable alcohol se va a transformar (recodificar) en la nueva variable alcohol_sn, la cual aparecerá como última variable de la matriz cuando se efectúe la recodificación.

Según lo explicado, la recodificación supondrá la realización de una serie de cambios sobre los valores (o códigos) de la variable a recodificar. Dichos cambios se especifican en un nuevo cuadro de diálogo (se muestra en la figura de la próxima página), al que accedemos pulsando el botón Valores antiguos y nuevos. Para cada cambio hemos de indicar el valor actual (o valores actuales) que vamos a cambiar y su correspondiente valor nuevo. A los valores o códigos actuales, SPSS les llama Valor antiguo, y se especifican en la parte izquierda del cuadro. El correspondiente valor nuevo se especifica en la parte superior derecha del cuadro. Los cambios especificados se van añadiendo (pulsando el botón Añadir) a la caja Antiguo→Nuevo de la parte derecha.

Page 14: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 14 -

En la parte izquierda del cuadro encontramos varias opciones para especificar lo que hemos llamado Valor antiguo; se resumen en la siguiente tabla:

A cada especificación hecha de valores antiguos tendrá que corresponderle un valor nuevo, que lo indicamos en el recuadro Valor nuevo. Hay tres opciones: 1º) escribir un único valor nuevo, 2º) tomar como valor nuevo el perdido por el sistema y 3º) copiar los valores antiguos, esto es, no cambiar el(los) valor(es) antiguo(s) (se tomaría como valor nuevo el mismo antiguo). En la figura de arriba, para el ejemplo del alcohol aludido antes, aparece ya el cambio “1→0” en la caja Antiguo→Nuevo, y se ve escrito el próximo cambio: cualquier valor antiguo desde el 2 hasta el mayor que exista (es decir, el 2 y el 3) se transformará en el nuevo valor 1; sólo falta pulsar Añadir para que aparezca en la caja Antiguo→Nuevo. Nota: Los valores perdidos antiguos generalmente no se suelen cambiar, por ello es aconsejable marcar las opciones Perdido por el sistema o usuario (en Valor antiguo) y Copiar valores antiguos (en Valor nuevo), pulsando después Añadir (sobre todo si se ha utilizado antes la opción Todos los demás valores).

Una vez especificados todos los cambios, hemos de comprobar en la caja Antiguo→Nuevo que están correctamente escritos (aparecen en inglés; esto no está traducido). Si no lo están, siempre podremos editar cualquiera de los cambios, seleccionándolo y utilizando los botones Cambiar o Borrar.

Las dos opciones que están debajo de la caja Antiguo→Nuevo no las vemos en las prácticas. Al finalizar, pulsar Continuar y volveremos al cuadro Recodificar en distintas variables.

El botón Si la opción nos permite poder efectuar la recodificación sólo en un subconjunto de casos: los que cumplan una determinada condición. La condición habrá que introducirla en un nuevo cuadro que se abre al pulsar dicho botón, y se introduce de la misma manera que en el procedimiento Seleccionar casos, que veremos en la próxima práctica.

Finalmente, pulsando Aceptar se lleva a cabo la recodificación y la nueva variable generada aparecerá al final de la matriz de datos, y será una variable más de dicha matriz.

Terminad el ejemplo del alcohol, y comprobad que la nueva variable se ha obtenido correctamente. Para dicha variable: construid la tabla de frecuencias y haced un gráfico.

Opción Valores antiguos a los que se refiere

Valor Valor antiguo individual.

Perdido por el sistema Valores antiguos que son valores (datos) perdidos del sistema.

Perdido por el sistema o usuario Como en las prácticas no se han definido valores perdidos por el usuario, esta opción coincide con la anterior.

Rango Rango que incluye a todos los valores antiguos entre los dos especificados (incluidos ambos).

Rango, INFERIOR hasta valor Rango que incluye a todos los valores antiguos desde el menor registrado hasta el valor especificado (incluido éste).

Rango, valor hasta SUPERIOR Rango que incluye a todos los valores antiguos desde el valor especificado (incluido éste) hasta el mayor valor registrado.

Todos los demás valores Cualquier valor antiguo no incluido en la lista de especificaciones que aparece en la caja Antiguo→Nuevo.

Page 15: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 15 -

III.3. Procedimiento Calcular variable.

Al procedimiento accedemos mediante Transformar → Calcular variable, desplegándose entonces el cuadro de diálogo correspondiente (ver figura adjunta).

Como hemos dicho en la introducción, este procedimiento nos permite generar (calcular) una nueva variable, cuyo nombre hemos de escribir en la caja Variable de destino. Pulsando Tipo y etiqueta, podemos especificar el tipo y una etiqueta para esa variable. La nueva variable se calcula para todos los casos o individuos (si no se especifica lo contrario), y el cálculo se hace mediante una fórmula que hemos de escribir en la caja Expresión numérica. Dicha fórmula combina variables, números y funciones, con operadores matemáticos y/o lógicos tal y como se indica a continuación. En el ejemplo de la figura se va a calcular la talla del paciente expresada en metros. La fórmula es: la talla (que en la matriz de datos está expresada en cm) dividida por 100. Como nombre de la nueva variable se ha escrito talla_m.

Para escribir la fórmula podemos utilizar el teclado, pero es muy cómodo utilizar el bloque de botones situado en el centro del cuadro. De este bloque, fundamentalmente utilizaremos los dígitos del 0 al 9, el punto decimal, el botón Eliminar (borra la parte de la expresión que se tenga seleccionada), el doble paréntesis, los operadores matemáticos (+, −, *, / y **) y el operador = (igual). Las variables de la matriz de datos que intervengan en la fórmula hay que pasarlas de la caja de las variables al lugar que le corresponda en la fórmula (pulsando en el botón de flecha existente entre ambas cajas, o con doble clic en la variable).

Además, en la fórmula pueden intervenir funciones. Una relación de las mismas aparece, por grupos, en la caja Grupo de funciones. En dicha caja encontramos grupos de funciones aritméticas, estadísticas, y muchos otros grupos. Pulsando uno de los grupos, aparecen las funciones en la caja inferior. Pulsando una de las funciones, se muestra (justo a la izquierda) una etiqueta explicando su significado, y podemos pasar dicha función al lugar correspondiente en la fórmula, de la misma manera que las variables. En la figura se ha seleccionado el grupo de funciones “Estadísticas”, y dentro de él, se ha seleccionado la función “Mean” (media de varios valores), pero simplemente para mostrarla, no para colocarla en la fórmula.

En la parte inferior del cuadro aparece el botón Si la opción, que es el mismo, y funciona de la misma manera, que el correspondiente del procedimiento Recodificar del apartado anterior, esto es, nos permite realizar los cálculos de la nueva variable sólo en un subconjunto de casos: los que cumplan una determinada condición.

Finalmente, pulsando Aceptar se lleva a cabo el cálculo de la nueva variable, la cual aparecerá al final de la matriz de datos, y será una variable más, a la que se le puede aplicar cualquier procedimiento de Estadística.

Terminad el ejemplo de la figura, y comprobad que la nueva variable expresa correctamente la talla de los pacientes en metros.

Practicad con otro ejemplo: aunque el índice de masa corporal ya está calculado en la matriz de datos (variable imc), volved a calcularlo (llamadle imc2). El imc se calcula como el peso en kg dividido por la talla (expresada en metros) elevada al cuadrado. Así pues, utilizando la variable talla_m calculada antes, la fórmula sería: peso/talla_m**2. Comprobad que los valores de la nueva variable imc2 son iguales que los de imc.

III.4. Extracción de una muestra aleatoria. Generación de números aleatorios.

Lo usual es que la matriz de datos esté constituida por una muestra de datos, pero si la matriz de datos fuese toda la población, y de ella tuviésemos que extraer una muestra aleatoria, el procedimiento es sencillo: utilizaríamos la opción Muestra aleatoria de casos del procedimiento Seleccionar casos (lo veremos en la próxima práctica).

Para el caso general de una población, en la que a sus unidades se les puedan asignar códigos numéricos, el procedimiento habitual para extraer una muestra aleatoria está basado en el método de los números

Page 16: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 16 -

aleatorios. Más concretamente, y utilizando un ejemplo, si disponemos de una población de 9000 unidades (suponemos que cada unidad tiene asignado un código numérico entre 1 y 9000), y deseamos extraer una muestra aleatoria de 40 unidades de dicha población, necesitaríamos generar 40 número aleatorios entre 1 y 9000, los cuales determinarán las 40 unidades de la muestra.

Para la generación de los números aleatorios es aconsejable abrir una nueva ventana del Editor de datos: se abre mediante Archivo → Nuevo → Datos. En ella, la primera variable (primera columna) representará el orden de la extracción. Podemos dar un nombre a esta primera variable, por ejemplo orden (si no lo hacemos SPSS pondrá un nombre por defecto). Si vamos a extraer 40 unidades, los datos de esa variable serían 1, 2, 3,....., 40. Cada fila de la matriz de datos representará a una unidad de la muestra; por ejemplo la fila 3 será la tercera unidad que entrará en la muestra. De todas formas, no hace falta introducir todos esos datos en la primera columna, basta con introducir algún valor intermedio (si es necesario) y el último. En el ejemplo bastaría con que el 40 esté en su casilla correspondiente (fila 40, columna 1). La segunda variable (segunda columna) se rellenará con los 40 números aleatorios que se generen, como veremos después.

Antes de generar los números aleatorios, debemos establecer el tipo de generador y el punto inicial. Esto se establece en la opción Generadores de números aleatorios del menú Transformar. Al acceder a dicha opción, se nos abre el cuadro de diálogo correspondiente (ver figura adjunta). En él hemos de marcar Definir generador activo, eligiendo la opción Tornado de Mersenne (generador recomendado). Igualmente, hemos de marcar Establecer punto inicial, eligiendo la opción Aleatorio. Finalmente pulsamos Aceptar.

La generación de los números aleatorios la lleva a cabo SPSS mediante el procedimiento Calcular variable (ver apartado anterior), calculando una nueva variable (será la segunda variable de la matriz de datos). Los valores calculados de esta variable serán los números aleatorios generados (y ocuparán la segunda columna de la matriz de datos). En el cuadro de diálogo de dicho procedimiento hay que escribir nombre de la variable y fórmula. Un nombre apropiado para esta nueva variable puede ser num_aleatorio (lo escribimos en la caja variable de destino). La fórmula para calcular (generar) los números aleatorios es en realidad una función: la función Rv.Uniform, que está en el grupo de funciones Números aleatorios. Seleccionamos dicha función y la llevamos a la caja Expresión numérica. Entonces, en dicha caja aparecerá RV.UNIFORM(?,?), y hemos de cambiar los signos de interrogación por los límites entre los cuales han de estar los números aleatorios generados; en el ejemplo anterior debe quedar RV.UNIFORM(1,9000). Esta función generará números aleatorios entre 1 y 9000. Después de pulsar Aceptar, se generarán los 40 números aleatorios solicitados. SPSS, por defecto, los escribe con dos decimales: entramos en la Vista de variables y le quitamos los decimales. Estos números aleatorios determinarán las 40 unidades que formarán la muestra aleatoria.

Nota final: en previsión de que pudiera salir algún número aleatorio repetido (cosa muy improbable), podemos solicitar algunos números aleatorios más de los que se necesiten. Por ejemplo, si se necesitan 40, generar 41 o 42 números aleatorios.

Haced el mismo ejemplo anterior, pero generando 41 números aleatorios.

Page 17: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 17 -

Bioestadística (Grado en Medicina) Guión de la Práctica IV SPSS

IV.1. Introducción.

En la primera parte de esta práctica estudiaremos procedimientos para el manejo de los datos o casos de la matriz de datos. Veremos cómo se pueden ordenar los casos (procedimiento Ordenar casos), cómo se puede seleccionar un grupo de casos (procedimiento Seleccionar casos) y cómo se puede dividir la matriz en varios grupos de casos (procedimiento Dividir archivo). Los tres procedimientos pertenecen al menú Datos.

En la segunda parte de esta práctica trataremos la estimación por intervalos de confianza de una media y los tests de normalidad; para ello utilizaremos el procedimiento Explorar (del menú Analizar). También veremos el test para una proporción, el cual podemos llevar a cabo mediante el procedimiento Binomial (del menú Analizar).

IV.2. Procedimiento Ordenar casos.

El procedimiento Ordenar casos permite ordenar los casos (filas) según una o varias variables de la matriz de datos. Accedemos a él a través de Datos → Ordenar casos. El cuadro de diálogo del procedimiento se muestra en la figura adjunta.

Hemos de pasar a la caja Ordenar por la(s) variable(s) respecto a la(s) que se desea hacer la ordenación, y para cada una de ellas marcar la Ordenación (ascendente o descen-dente). También, marcando la opción Guardar archivo con datos clasificados podremos guardar la matriz de datos ordenada en un fichero. Según la figura adjunta, los casos se van a ordenar por edad, y de forma ascendente. Al pulsar Aceptar se hará visible en la matriz de datos la nueva ordenación de los casos: observad que ahora están ordenados de menor a mayor edad.

Si se ha pasado más de una variable a la caja Ordenar por, primero ordena los casos respecto a la primera variable, después, para cada valor o categoría de esta primera variable, ordena los casos respecto a la segunda variable, y así sucesivamente. Por ejemplo, si se pasan sexo y edad (en este orden, y especificando el orden ascendente), al pulsar Aceptar, los casos quedarán ordenados por sexo (ascendente), y dentro de cada sexo, quedarán ordenados por edad (ascendente).

En cualquier caso, simplemente para ordenar respecto a una sola variable no es necesario el procedi-miento anterior: basta con pinchar en el título de la variable y efectuar la ordenación con el menú contextual.

Hay que advertir que una vez hecha una ordenación, ésta no se puede deshacer. Así que si queremos volver al orden original hemos de tener previsto una variable que contenga el orden original (por ejemplo, una variable con el número identificativo del caso: 1, 2, 3,…). En este caso, para volver al orden original, simplemente habría que ordenar respecto a dicha variable. En nuestra matriz de datos, la variable num nos serviría a tal efecto: ordenando respecto a num (ascendente), tendremos el orden original de los casos.

Ordenad los casos por sexo y edad, volviendo después al orden original de la matriz de datos.

IV.3. Procedimiento Seleccionar casos.

El procedimiento Seleccionar casos permite seleccionar un grupo de casos (filas) para su estudio. Los no seleccionados no serán contemplados en los análisis posteriores que se realicen. Accedemos a él a través de Datos → Seleccionar casos, o simplemente pulsando el icono correspondiente de la barra de herramientas. El cuadro de diálogo del procedimiento se muestra en la siguiente página (a la izquierda).

En el cuadro vemos que hay varias opciones de selección de casos, además de la opción Todos los casos, con la que no se realizaría ninguna selección particular de casos, sino que se considerarían todos los casos de la matriz. La opción Si se satisface la condición nos permite seleccionar todos los casos que satisfagan una condición, la cual tendremos que introducir.. Para ello sólo tendríamos que especificar (pulsando el botón Ejemplo del cuadro de diálogo) el tamaño de la muestra: indicando el número exacto (o el porcentaje aproximado) de casos a extraer. Las otras tres opciones, que no veremos en las prácticas, son: Muestra aleatoria de casos (selecciona una muestra aleatoria de casos de la matriz de datos), Basándose en el rango... (selecciona un grupo de casos consecutivos de la matriz de datos) y Usar variable de filtro (permite hacer una selección de casos completamente personalizada). En el resto del apartado veremos con más detalle la opción Si se satisface la condición.

Marcad la opción Si se satisface la condición.

Page 18: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 18 -

Para introducir la condición, pulsamos el botón Si la op, y se abre el cuadro de diálogo Seleccionar

casos: Si la opción; se muestra en la figura arriba a la derecha. La condición la escribimos en la caja en blanco de la derecha, y para ello podemos utilizar las variables (las pasaríamos desde la caja de la izquierda), las funciones matemáticas y estadísticas (no las utilizaremos con este fin) y el bloque de botones de la parte central del cuadro. Entre esos botones encontramos los dígitos del 0 al 9, el punto decimal, el botón Eliminar (borra la parte de la expresión que se tenga seleccionada), el doble paréntesis, los operadores matemáticos (+, −, *, / y **) y los operadores lógicos: < (menor), > (mayor), <= (menor o igual), >= (mayor o igual), = (igual), ~= (distinto), & (Y lógico), | (O lógico) y ~ (No lógico).

La condición que se impone puede estar compuesta por una o varias condiciones simples. En la figura anterior se ha escrito la condición simple “edad < 30”, en la que se ha utilizado el operador lógico <. Con esta condición se seleccionarían todos los individuos (casos) menores de 30 años. Si la condición está compuesta por varias condiciones simples, éstas estarán unidas por operadores lógicos; los más usuales son: Y lógico (botón &) y O lógico (botón |). En estos casos es conveniente encerrar entre paréntesis cada condición simple (utilizar el botón doble paréntesis). Por ejemplo, la condición “(sexo =1) & (edad < 30)” consta de dos condi-ciones simples unidas por el operador lógico Y, e indicaría que el individuo debe ser varón (código 1 de la variable sexo) y tener menos de 30 años, esto es, quedarían seleccionados todos los varones menores de 30 años de la matriz de datos. Si en el ejemplo anterior se cambia el operador Y por el operador O, tendríamos la condición “(sexo =1) | (edad < 30)”, y con ella quedarían seleccionados todos los individuos que sean varones o que tengan menos de 30 años (observad la diferencia entre ambos ejemplos).

Escrita la condición, se pulsa Continuar y volvemos al cuadro del procedimiento: dicha condición se mostrará junto al botón Si la op. En este cuadro conviene dejar marcada la opción Descartar casos no seleccionados, para que los casos no seleccionados no los borre (sólo los descartaría temporalmente), con lo que se podrán recuperar después. La opción Eliminar casos no seleccionados los borraría (y, por tanto, los perderíamos). También tenemos la opción de Copiar casos seleccionados a un nuevo conjunto de datos, la cual no necesita explicación.

Marcada la opción aconsejada en el párrafo anterior, al pulsar Aceptar veremos en la matriz de datos que los casos no seleccionados están marcados con una diagonal sobre su número de registro (están “tachados”), pero no se han eliminado. También se crea automáticamente una nueva variable al final de la matriz (filter_$) con códigos: 1 para los casos seleccionados y 0 para los no seleccionados (aunque no la utilizaremos). Además, en la parte inferior derecha de la ventana aparece Filtro activado, que nos indica que tenemos una selección de casos activa. A partir de ese momento, sólo los seleccionados intervendrán en los análisis que se realicen. Finalizado dichos análisis, si queremos recuperar a todos los casos en la matriz de datos, no hay más que volver al procedimiento Seleccionar casos y marcar la opción Todos los casos.

Probad algunas de las condiciones comentadas antes (u otras distintas) y, al final, recuperad todos los casos.

Page 19: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 19 -

IV.4. Procedimiento Dividir archivo.

El procedimiento Dividir archivo (también llamado Segmentar archivo) divide la matriz de datos (archivo de datos) en varios grupos, basándose en los valores de una o más variables de agrupación. Una vez formado los grupos, los análisis que se soliciten se llevarán a cabo en cada uno de estos grupos por separado. Accedemos al procedimiento a través de Datos → Dividir archivo. El correspondiente cuadro de diálogo se muestra en la figura adjunta.

A la derecha del cuadro aparecen tres opciones incompatibles. Analizar todos los casos, no crear grupos: desactiva el procesamiento y se consideran todos los casos en un único grupo (todos los casos se analizarán juntos). Comparar los grupos: se forman los grupos, y los resultados de los análisis de los grupos se presentarán juntos en una tabla, para que sea más cómoda la comparación entre ellos. Organizar los resultados por grupos: se forman los grupos, pero los resultados de los análisis de los grupos se presentarán por separado para cada grupo.

Cuando se ha elegido una de las dos últimas opciones se pueden seleccionar las variables (variables de agrupación) que permitirán establecer la división en grupos (segmentación). Estas variables hay que pasarlas, en la forma habitual, a la caja Grupos basados en. En la figura se ha pasado sólo la variable sexo, con lo que se dividirá la matriz de datos en dos grupos según el sexo. Si se pasan varias variables de agrupación a la caja Grupos basados en, los casos se agruparán por cada variable dentro de las categorías de la variable anterior de la lista. Por ejemplo, si se pasan las variables sexo y acfis, los casos se agruparán según que realicen o no actividad física dentro de cada sexo, con lo que se formarán en total 4 grupos: hombres que realizan actividad física, hombres que no realizan actividad física, mujeres que realizan actividad física y mujeres que no realizan actividad física.

En la parte inferior habrá que marcar la opción Ordenar archivo según variables de agrupación, si la matriz de datos (archivo) no está previamente ordenada respecto a las variables de agrupación, o la opción El archivo ya esta ordenado, si ya lo está. Esto es importante, porque para que el procedimiento funcione correctamente la matriz debe estar ordenada respecto a las variables de agrupación. Finalmente pulsando Aceptar se producirá la división (segmentación) y se formarán los grupos. Entonces, en la línea de estado (parte inferior derecha de la ventana) se indicará que efectivamente se ha producido tal división.

Si queremos desactivar la división, volviendo a considerar todos los casos juntos (grupo único), hemos de acceder nuevamente al procedimiento Dividir archivo, marcar la opción Analizar todos los casos, no crear grupos y pulsar Aceptar.

Haced la división (segmentación) por sexo y actividad física, ya aludida antes. Aplicad algún procedimiento de Descriptiva (por ejemplo Frecuencias), observando los resultados en el Visor. Después, desactivad la división.

IV.5. Procedimiento Explorar.

Con el procedimiento Explorar podemos llevar a cabo un análisis de los datos, que nos permitirá realizar una exploración y descripción de los datos, y hacer algunas inferencias simples. Aquí lo utilizaremos, fundamentalmente, para calcular un intervalo de confianza para la media y para hacer tests de normalidad. Accedemos a él a través de Analizar → Estadísticos descriptivos → Explorar. El correspondiente cuadro de diálogo se muestra en la figura adjunta.

La variable que deseamos explorar, o de la que vamos a calcular el intervalo de confianza, o sobre la que vamos a aplicar el test de normalidad, hay que llevarla a la caja Lista de dependientes. A esta caja podemos llevarnos más de una variable, si queremos analizarlas todas a la vez.

Si el análisis (exploración, intervalo y/o tests) lo queremos llevar a cabo (de forma separada) sobre cada una de las categorías de otra variable, habría que llevar esta última variable a la caja Lista de factores. Según lo colocado en las cajas del cuadro de diálogo (ver la figura), se va a proceder al análisis de la variable “Índice de masa corporal (imc)”, y

Page 20: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 20 -

dicho análisis se realizará en varones y mujeres, por separado (igual que si previamente se hubiese aplicado Dividir archivo por sexo). Si en la caja Lista de factores no colocamos ninguna variable, el análisis de la variable imc lo haría para todos los individuos (globalmente). La tercera caja en blanco (Etiquetar los casos mediante) no la utilizaremos.

En el recuadro Visualización dejamos marcada la opción Ambos, para que nos muestre como resultados, tanto los estadísticos como los gráficos. Si marcamos una de las otras dos opciones, SPSS sólo nos mostrará como resultados, o bien los estadísticos calculados o bien los gráficos.

El análisis que deseamos llevar a cabo lo especificaremos con los botones de la parte derecha del cuadro. En primer lugar, pulsando el botón Estadísticos se despliega un pequeño cuadro de diálogo (ver figura abajo a la izquierda), donde sólo dejamos marcada la opción Descriptivos, que incluye el intervalo de confianza para la media (la confianza por defecto es el 95%, pero se puede cambiar), además de otras medidas descriptivas. Las otras opciones no las utilizaremos aquí. Como siempre, pulsando Continuar volvemos al cuadro principal. En segundo lugar, pulsando el botón Gráficos se abre un nuevo cuadro de diálogo (ver figura a la derecha) donde principalmente dejaremos marcada la opción Gráficos con

pruebas de normalidad, para que nos proporcione las pruebas (tests) de normalidad y gráficos de normalidad. En la parte superior del cuadro aparecen otras opciones gráficas que no hemos visto en clase, salvo el histograma (éste sí lo podemos marcar). Las opciones de la parte inferior del cuadro tampoco las hemos visto en clase. Pulsando Continuar, volvemos al cuadro principal. Finalmente, en el pequeño cuadro que se abre al pulsar el botón Opciones, dejaremos marcada la opción (sobre valores perdidos) que ya aparece marcada.

Una vez especificado todo, pulsamos Aceptar y nos aparecerán los resultados en el Visor de SPSS. Para el ejemplo mostrado en las figuras anteriores, además de una tabla con el resumen de los casos analizados, en el Visor aparecerá una tabla (parte de ella se muestra a continuación), donde en la columna Estadístico se muestra la estimación de la media del índice de masa corporal (tanto puntual como por intervalo de confianza), y tanto en hombres como en mujeres. Además, aparecen calculadas muchas otras medidas descriptivas, algunas de las cuales no se han visto en clase (estas últimas no las consideraremos). Finalmente, en la columna Error tip. se muestra el error estándar de la media.

Page 21: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 21 -

A continuación encontraremos (en el Visor) otra tabla con los resultados de los tests de normalidad (ver

figura debajo). SPSS realiza dos tests de normalidad: el de Kolmogorov-Smirnov y el de Shapiro-Wilk (éste último no lo da si el número de casos es muy elevado). De los dos, en general es preferible el segundo. Como vemos en la tabla, los tests de normalidad se han hecho tanto para hombres como para mujeres (así se solicitó en los cuadros anteriores). De los resultados de los tests de normalidad nos interesa fundamentalmente su valor P, para poder decidir, aplicando la regla de decisión vista en clase. SPSS denota al valor P mediante “Sig.” (abreviatura de “Significación estadística”), y siempre lo hace así, en todos los tests de hipótesis. Según los valores P obtenidos en este ejemplo, concluiremos (para el α habitual) que el índice de masa corporal no se ajusta a un modelo Normal, ni en hombres ni en mujeres.

SPSS también construye gráficos de normalidad: gráficos Q-Q Normal (con y sin tendencia). Éstos nos permiten chequear gráficamente el grado de ajuste de la variable (o los datos) al modelo Normal. La forma de construirlos no se ha visto en clase, pero siempre están constituidos por un grupo de puntos y una recta, y la interpretación es muy simple: mientras más ajustados estén los puntos a la recta, mejor será el ajuste de la variable al modelo Normal. De todas formas, para decidir sobre la normalidad, nos fijaremos fundamental-mente en el test de normalidad.

Estimad la media, y haced el test de normalidad, del índice de masa corporal para todos los individuos (globalmente), interpretando después los resultados.

IV.6. Procedimiento Prueba Binomial (Test para una proporción).

El procedimiento Prueba Binomial nos permite realizar el test para una proporción. Accedemos a través de Analizar → Pruebas no paramétricas → Cuadros de diálogo antiguos → Binomial. El cuadro de diálogo correspondiente se muestra en la figura adjunta.

Siempre que trabajamos con proporciones tendremos una característica dicotómica y dos grupos: los que presentan y los que no presentan dicha caracte-rística. Estos grupos están determinados por una variable, la cual hay que pasar a la caja Lista Contrastar variables, y hay que definirlos explícita-mente mediante Definir dicotomía. Si la variable sólo tiene dos valores posibles, la opción Obtener de los datos es la apropiada (el valor más pequeño determinaría el grupo 1; el mayor sería el grupo 2). Si la variable tiene más de dos valores hay que especificar un Punto de corte (los menores o iguales al punto de corte constituyen el grupo 1; los mayores el grupo 2). Con el punto de corte que aparece en el ejemplo de la figura, el grupo 1 lo constituirían los que no presentan neuropatía, y el grupo 2 los que la presentan.

Definidos los dos grupos, SPSS considera como grupo 1 los que presentan la característica. Si llamamos p a la proporción de los que presentan la característica, SPSS contrasta la hipótesis 0 0H p p , donde 0p hay

que especificarlo en la pequeña caja Proporción de prueba, haciendo el test de 1 cola (con 1 0H p p si no

se especifica lo contrario al pie de la tabla de resultados), salvo cuando p0=0,50 que realiza el test de 2 colas. Pulsando Aceptar, aparecerá el resultado del test en una tabla del Visor de SPSS, donde figuran los dos grupos definidos y el valor P exacto del test. Si SPSS hace el tests de 1 cola y deseamos hacer el test de dos colas, hay que multiplicar por 2 el valor P del test de 1 cola que da SPSS, para obtener el valor P del test de 2 colas.

En el ejemplo de la figura, se contrastaría la hipótesis de que la proporción de los que no presentan neuropatía (grupo 1) es del 80% 0(H 0 80)p , ó, lo que es igual, la de los que la presentan (grupo 2) es del

Valor P Valor P

Page 22: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 22 -

20%, y el test lo hace de 1 cola con 1H 0 80p , . Los resultados aparecen en la tabla debajo. Si deseamos

que el test sea de dos colas ( 1H 0 80p , ), el correspondiente valor P sería 0,0052 = 0,01.

Haced el ejemplo de la explicación, comprobando los resultados e interpretándolos.

Valor P

Page 23: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 23 -

Bioestadística (Grado en Medicina) Guión de la Práctica V SPSS

V.1. Introducción.

Los objetivos de esta práctica son los estudios comparativos en los que se comparan dos medias. El análisis estadístico de dichos estudios podemos realizarlo con SPSS utilizando varios procedimientos, dependiendo del diseño de las muestras y del test a aplicar (paramétrico o no paramétrico). También veremos en esta práctica los gráficos de Barras de error. Empezaremos por estos últimos.

V.2. Gráficos de Barras de error.

Este tipo de gráfico nos permite representar las medias de varios grupos o muestras, con una medida de la dispersión o error (generalmente la desviación típica o el error típico), con el fin de hacer una comparación visual entre dichos grupos o muestras. Estos gráficos pueden hacerse como gráficos de barras (donde la altura de la barra representa ahora la media del grupo) al que se le añaden las barras de error (que representarán la desviación típica o el error típico). El gráfico se puede hacer Simple o Agrupado. Veremos aquí un ejemplo de gráfico simple.

Accedemos a los gráficos de barras (ver apartado II.4.1) y seleccionamos la opción Simple. Ya en el cuadro de definición del gráfico, colocamos en la caja Eje de categorías la variable que determina los grupos que vamos a considerar (por ejemplo, Sexo), y en Las barras representan seleccionamos la opción Otro estadístico, llevándonos a la caja en blanco (que hay justo debajo) la variable de la que queremos representar la media y el error (por ejemplo, Densidad de masa ósea en el cuello del fémur). Auto-máticamente aparecerá en la citada caja MEAN(Densidad de masa…) indicando que la altura de la barra representará la media de dicha variable. Se puede cambiar este estadístico por otro con el botón Cambiar estadístico, pero no lo haremos. Finalmente, las barras de error se especifican en el cuadro que se abre al pulsar el botón Opciones. En él se marca la opción Mostrar las barras de error, opción Error típico (como se ha visto en clase) y se pone 1 como multiplicador. Al final tendremos el gráfico en el Visor (se muestra en la figura adjunta), donde se representan las medias y errores típicos de la densidad de masa ósea en el cuello del fémur, para hombres y mujeres.

V.3. Estudios comparativos: Comparación de dos medias.

Para comparar dos medias existen diferentes tests; el tipo de test a aplicar depende, entre otras cosas, del diseño de las muestras (independientes o apareadas) y del supuesto de normalidad de la variable considerada. En esta práctica estudiaremos cinco tests diferentes para comparar dos medias (los vistos en clase): tres tests paramétricos (Student muestras independientes, Welch y Student muestras apareadas) y dos tests no paramétricos (Mann-Whitney y Wilcoxon para muestras apareadas). Para saber el test que hemos de aplicar en cada caso, seguiremos las indicaciones explicadas en clase. SPSS lleva a cabo estos cinco tests en cuatro procedimientos diferentes, los cuales vamos a ver a continuación.

V.3.1. Procedimiento Prueba T para muestras independientes (test t de Student m. indep. y test de Welch).

Este procedimiento realiza el test t de Student y el test de Welch para comparar dos medias con muestras independientes. Accedemos a él a través de Analizar → Comparar medias → Prueba T para muestras independientes. El cuadro de diálogo se muestra en la siguiente página.

A la caja Variables para contrastar llevamos la variable respecto a la que deseamos hacer la comparación, y a la caja Variable de agrupación, la variable que va a definir los dos grupos (muestras) que vamos a comparar. Por ejemplo, si deseamos comparar los que han tenido un tiempo de evolución de la enfermedad (variable tevol) inferior a 11 años con los que lo han tenido igual o superior a 11 años, y si

Page 24: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 24 -

queremos compararlos respecto al nivel de calcio (variable ca), la variable que define los grupos a comparar sería tevol. Al llevar esta última variable a su caja correspondiente aparecerán dos signos de interrogación, que indicarán que hemos de definir concretamente los dos grupos a comparar.

Para definir dichos grupos pulsamos el botón Definir grupos, y se nos abre un pequeño cuadro (ver figura adjunta), que nos ofrece dos opciones para ello: la primera (Usar valores especificados) especificando los códigos o valores de ambos grupos, y la segunda (Punto de corte) escribiendo un punto de corte de la variable. En el ejemplo propuesto antes, hemos de utilizar la segunda opción, y escribiremos el punto de corte 11; así, los que tengan tiempo de evolución inferior a 11 formarán un grupo o muestra, y los que lo tengan igual o superior a 11 constituirán el otro grupo o muestra.

Otro ejemplo, si se desease comparar hombres con mujeres, la variable de agrupación sería el sexo, y para definir los grupos utilizaríamos la opción Usar valores especificados, definiendo el Grupo 1 con el código 1 (hombres) y el Grupo 2 con el código 2 (mujeres).

De vuelta en el cuadro de diálogo principal, los signos de interrogación se habrán cambiado por la definición de los grupos que se ha hecho (verlo en la figura de arriba). Por otro lado, pulsando el botón Opciones se abre un nuevo cuadro, donde podemos especificar la confianza del intervalo para la diferencia de medias que calcula el procedimiento. En Valores perdidos se deja la opción que está marcada.

Finalmente, pulsamos Aceptar y nos aparecerán los resultados en dos tablas (en el Visor de SPSS). En la primera se muestra un resumen (media, desviación típica y tamaño) de los dos grupos o muestras que se comparan. La segunda tabla (ver figura debajo) incluye todos los resultados de la comparación. En la parte izquierda de la tabla se muestra la Prueba de Levene de igualdad de varianzas (esta prueba no es la misma que la dada en clase, pero cumple la misma función). Si el valor P de esta prueba es superior a 0,20, podemos admitir varianzas iguales y podemos utilizar el test t de Student (los resultados de este test figuran en la primera línea del resto de la tabla); en caso contrario (P ≤ 0,20), hemos de utilizar el test de Welch (los resultados aparecen en la segunda línea de la tabla). También, si los tamaños de las muestras son claramente diferentes, podríamos olvidarnos (no considerar) la Prueba de igualdad de varianzas y aplicar el test de Welch. Para ambos tests se dan una serie de resultados; los más fundamentales son el valor P del test (se da en el caso de dos colas) y el intervalo de confianza para la diferencia de medias.

Haced el ejemplo de la explicación, comprobando los resultados e interpretándolos.

V.3.2 Procedimiento Prueba T para muestras relacionadas (test t de Student para muestras apareadas).

Este procedimiento realiza el test t de Student para muestras apareadas. Accedemos a él a través de Analizar → Comparar medias → Prueba T para muestras relacionadas. El cuadro de diálogo del procedi-miento se muestra en la siguiente página.

Estadístico t (sin valor absoluto), g.l. y valor P del test t de Student

Estadístico t (sin valor absoluto), g.l. y valor P del test de Welch

Valor P

Valor P

Page 25: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 25 -

En la matriz de datos de SPSS, dos muestras apareadas equivalen a dos columnas de dicha matriz (que, como sabemos, corresponden a dos variables). Por ejemplo, tanto el valor tipificado de la densidad de masa ósea en el l24 (variable szl24) como el del triángulo (variable sztri) se han medido en todos los individuos, por lo que las dos columnas de la matriz de datos, szl24 y sztri, constituyen dos muestras apareadas (auto-apareadas en este caso). Así pues, la comparación de dos muestras apareadas equivale en SPSS a comparar dos columnas (o un par de variables) de la matriz de datos, por lo que para llevar a cabo la comparación, hemos de pasar (utilizando el botón de la flecha) las dos variables implicadas a la caja Variables emparejadas. Como vemos en la figura, a esta caja se nos permite llevar más de un par de variables: cada par de variables se compararía por separado. A la derecha de la caja Variables emparejadas, encontramos un botón con doble flecha para intercambiar el orden de las variables dentro del par, y dos botones de flecha para cambiar el orden de los pares (si hay más de un par). En el ejemplo propuesto, donde deseamos comparar la media del valor tipificado de la densidad de masa ósea en el l24 con la del triángulo, el cuadro de diálogo debería quedar al final como el de la figura.

El botón Opciones es igual que en la Prueba T para muestras independientes. Finalmente, pulsamos Aceptar y nos aparecerán los resultados en tres tablas. La primera muestra una

descriptiva de las dos muestras que se comparan. La segunda da la correlación entre las dos variables del par: lo deseable es que ésta sea positiva y alta, lo que indicaría que el diseño de muestras apareadas realizado ha sido eficiente (más eficiente que si el diseño hubiese sido de muestras independientes). La tercera (que podemos ver a continuación) presenta: la media y desviación típica de las diferencias en la muestra (szl24 – sztri), el intervalo de confianza para la diferencia de medias y los resultados del test t de Student.

Haced el ejemplo de la explicación, comprobando los resultados e interpretándolos.

V.3.3 Procedimiento Pruebas (no paramétricas) para dos muestras independientes (test de Mann-Whitney).

Este procedimiento realiza, entre otros, el test de Mann-Whitney (equivalente al test de Wilcoxon para muestras independientes). Accedemos a él a través de Analizar → Pruebas no paramétricas → Cuadros de diálogo antiguos → 2 muestras independientes. El cuadro de diálogo del procedimiento se muestra en la siguiente página.

La selección de la variable a contrastar y la definición de los dos grupos (muestras) es igual que en el caso de la prueba T para muestras independientes (ver apartado V.3.1), salvo que aquí no tenemos la opción punto de corte para definir los dos grupos.

Veamos un ejemplo en las mujeres: para ello seleccionamos previamente a las mujeres (ver procedi-miento seleccionar casos). En ellas vamos a comparar las que realizan actividad física (código 1 de la variable acfis) con las que no la realizan (código 2 de la variable acfis), y se van a comparar respecto al índice de masa corporal (variable imc). Esto es, compararemos la media del imc de las que realizan actividad física con la de las que no la realizan. El cuadro de diálogo debe quedar como el de la figura.

Estadístico t (sin valor absoluto), g.l. y valor P del test t de Student m. apareadas

Valor P

Page 26: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 26 -

Como vemos en el cuadro de diálogo, se ofrecen cuatro tests para la comparación. Dejamos marcado el que ya lo está por defecto: el test U de Mann-Whitney (el más utilizado). Por último, en la parte derecha, encontramos el botón Opciones: en el pequeño cuadro que se abre al pulsarlo, se nos ofrece hacer una descriptiva de las variables, que no utilizaremos (en dicho cuadro no cambiaremos la opción marcada sobre valores perdidos). Si junto a ese botón aparece, además, el botón Exactas (estará o no según la licencia que se tenga de SPSS; en la figura no aparece), pulsándolo se abrirá un nuevo cuadro que nos permite realizar el test de forma exacta (si el número de datos no es demasiado grande), por el método de Montecarlo (no visto en clase) o de forma asintótica (aproximada). Aunque SPSS siempre nos da los resultados de la versión asintótica (aproximada), como es lógico, utilizaríamos la versión exacta del test, si ésta está disponible. Si el botón Exactas no está disponible (como es nuestro caso), SPSS sólo nos dará la versión asintótica (aproximada) del test, salvo con tamaños de muestras pequeños que también da la versión exacta.

Como siempre, al final pulsamos Aceptar y nos aparecerán los resultados del test en dos tablas (ver la figura de más abajo). La primera tabla presenta una pequeña descriptiva de las dos muestras que se comparan, y esta descriptiva se hace en términos de los rangos (se da el rango promedio en lugar del promedio de los datos), ya que este test trabaja con los rangos de los datos en lugar de con los propios datos (el rango de un dato es el número de orden, o posición, que ocupa dicho dato dentro del conjunto total de los datos ordenados de menor a mayor). Lógicamente, aquella muestra que tenga un rango promedio mayor tendrá valores que, en general, serán mayores que los de la otra y, por tanto, su media será (generalmente) mayor que la de la otra.

La segunda tabla nos da el estadístico del test de Mann-Whitney (U de Mann-Whitney), el del test de Wilcoxon para muestras independientes (W de Wilcoxon) (W es la suma de rangos de la muestra con rango promedio menor), el estadístico del test de Wilcoxon aproximado (Z) (Z es el W tipificado), el valor P del test de Wilcoxon aproximado (Sig.) y, en su caso, el valor P del test de Wilcoxon exacto. Si finalmente el valor P nos lleva a que el resultado es significativo, concluiremos que tendrá mayor media aquel grupo (población o tratamiento) que haya dado un rango promedio mayor. En el ejemplo, concluiremos (para las mujeres, que son las que tenemos seleccionadas) que la media del índice de masa corporal será mayor en las que no realizan ejercicio físico.

Haced el ejemplo de la explicación, comprobando los resultados e interpretándolos.

V.3.4 Procedimiento Pruebas (no paramétricas) para dos muestras relacionadas (test Wilcoxon m. apareadas)

Este procedimiento nos permite hacer, entre otros, el test de Wilcoxon para muestras apareadas. Accedemos a él con Analizar → Pruebas no paramétricas → Cuadros de diálogo antiguos → 2 muestras relacionadas. El cuadro de diálogo se muestra en la figura de la siguiente página.

Como vimos en el apartado V.3.2, cuando se han de comparar dos muestras apareadas con SPSS, habrá que especificar las dos columnas de la matriz (o las dos variables) implicadas, y esto se hace de la misma manera que en la prueba T para muestras relacionadas, de hecho los cuadros de diálogos de ambos procedimientos son casi iguales (ver apartado V.3.2).

Veamos un ejemplo. Sigamos con las mujeres seleccionadas del ejemplo del apartado anterior. En ellas vamos a comparar la media del valor tipificado de la densidad de masa ósea en el triángulo (variable sztri) con

Estadístico Z sin valor absoluto (test aproximado)

Valor P (test aproximado)

Page 27: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 27 -

la del cuello del fémur (variable szcue). Pasamos dichas variables a la caja Contrastar pares, y el cuadro de diálogo debe quedar como el de la figura.

En el cuadro se ofrecen varios tests para realizar la comparación. Dejamos marcado el que ya lo está por defecto: el test de Wilcoxon (el más utilizado). El botón Opciones es igual que el del anterior procedimiento Pruebas para dos muestras independientes (ver apartado V.3.3), pero en este caso sí lo utilizaremos, ya que la descriptiva de las dos variables es la descriptiva de las dos muestras apareadas que se comparan. Si junto a ese botón aparece, además, el botón Exactas (estará o no según la licencia que se tenga de SPSS; en la figura no aparece), pulsándolo se abrirá un nuevo cuadro que nos permite realizar el test de forma exacta (si el número de datos no es demasiado grande), por el método de Montecarlo (no visto en clase) o de forma asintótica (aproximada). En tal caso, como es lógico utilizaríamos la versión exacta del test. Si el botón Exactas no está, SPSS sólo nos dará la versión asintótica (aproximada) del test.

Pulsando Aceptar, los resultados se nos muestran en tres tablas, la primera con la descriptiva de las muestras apareadas (si se ha solicitado) y las otras dos (ver la figura de más abajo) con los resultados del test. Este test, al igual que el de Mann-Whitney, trabaja con los rangos (ver apartado anterior), pero como son muestras apareadas, considera los rangos de las diferencias (en el ejemplo utilizará los rangos de las diferencias szcue sztri). Las diferencias que valen 0 no se utilizan en el test (SPSS les llama empates). El resto de las diferencias (positivas y negativas) sí tendrán sus correspondientes rangos, que SPSS llama rangos positivos y rangos negativos (según el signo de la diferencia). Aquí, el rango de una diferencia es el número de orden, o posición que ocupa dicha diferencia dentro del conjunto de todas las diferencias ordenadas de menor a mayor, sin considerar el signo de la diferencia. La primera tabla de resultados nos muestra los rangos promedios y las sumas de rangos, tanto para las diferencias negativas como para las positivas (ver la figura). En este ejemplo, la suma de rangos de las negativas es mayor que la de las positivas, lo que querrá decir que las diferencias negativas prevalecen sobre las positivas en la muestra y, por tanto (en el ejemplo), la media muestral de szcue será (generalmente) menor que la de sztri.

La segunda tabla nos muestra el estadístico del test de Wilcoxon aproximado (Z) y su correspondiente valor P (y, en su caso, el valor P del test exacto). En el ejemplo, como el valor P nos lleva a que el resultado es claramente significativo, concluiremos (para las mujeres, que son las que tenemos seleccionadas) que la media del valor tipificado de la densidad de masa ósea en el cuello del fémur será menor que la del triángulo, ya que como se ha dicho antes, la suma de rangos de las negativas es mayor que la de las positivas.

Haced el ejemplo de la explicación, comprobando los resultados e interpretándolos.

Estadístico Z sin valor absoluto (test aproximado)

Valor P (test aproximado)

Page 28: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 28 -

Bioestadística (Grado en Medicina) Guión de la Práctica VI SPSS

VI.1. Introducción.

Los objetivos de esta práctica son, por una parte, las aplicaciones o problemas que se resuelven con el test Chi-cuadrado (procedimiento Tablas de contingencia de SPSS), y por otra parte, el problema de la rela-ción (regresión y correlación) entre dos variables cuantitativas (procedimientos Regresión lineal y Correla-ciones bivariadas de SPSS). Como una herramienta útil en este último problema, también veremos los Gráficos de dispersión.

VI.2. Procedimiento Tablas de contingencia.

El procedimiento Tablas de contingencia nos permite resolver el problema de homogeneidad de varias muestras cualitativas independientes (incluido la comparación de dos proporciones con muestras indepen-dientes) y el problema de la asociación entre dos variables cualitativas. Además nos permite comparar dos proporciones con muestras apareadas. En todos estos problemas se aplica el test Chi-cuadrado.

Accedemos al procedimiento a través de Analizar → Estadísticos descriptivos → Tablas de contin-gencia. El correspondiente cuadro de diálogo se muestra en la figura adjunta.

En cualquiera de los tipos de pro-blemas señalados antes, los datos han de figurar en una tabla r×c (en particular una tabla 2×2): una variable determinará las filas de la tabla y otra las columnas. Hemos de pasar, pues, a las cajas Filas y Columnas las variables que correspondan. La parte que hace referencia a las Capas no la veremos.

En primer lugar veamos un ejemplo de tablas r×c. Sea el caso de investigar si el grado de neuropatía (variable neuro) está asociada al sexo (variable sexo). Este sería el mismo problema que el de com-parar hombres con mujeres respecto al grado de neuropatía. En la figura adjunta se muestran las variables que determinan las filas y columnas.

En la parte inferior izquierda tenemos las opciones Mostrar los gráficos de barras agrupadas (marcar si se desea que aparezcan, aunque estos gráficos ya se vieron en la Práctica II) y Suprimir tablas (conviene no marcar para que nos dé la tabla de contingencia).

Pulsando el botón Estadísticos se nos abre el cuadro de diálogo Tablas de contingencia: Estadísticos (ver figura debajo a la izquierda), donde marcaremos la opción Chi-cuadrado (para que nos haga el test Chi-cuadrado) y la opción Riesgo (cuando se trate de una tabla 2×2 y deseemos calcular las medidas de asociación). La opción McNemar sólo la marcaremos si tenemos una tabla 2×2 y deseamos realizar el test de McNemar para comparar dos proporciones con muestras apareadas. Las demás opciones no las veremos.

Page 29: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 29 -

De vuelta en el cuadro de diálogo principal, pulsando el botón Casillas se nos abre el cuadro Tablas de contingencia: Mostrar en las casillas (ver figura en página anterior, a la derecha), donde marcaremos lo que deseemos que aparezca en las casillas de la tabla de contingencia: frecuencias observadas, frecuencias esperadas (observar que en este cuadro SPSS llama Recuentos a las frecuencias), porcentajes por filas, por columnas o respecto al total. Siempre marcaremos las frecuencias observadas (de hecho vienen marcadas por defecto). También es conveniente marcar los porcentajes por filas o por columnas, según corresponda. Las frecuencias esperadas serán útiles para verificar las condiciones de validez del test Chi-cuadrado. El resto de las opciones del cuadro no se ven.

Por último, con el botón Formato sólo podemos cambiar el orden de las filas de la tabla (el orden de las columnas es siempre ascendente). Si aparece, además, el botón Exactas (estará o no según la licencia que se tenga de SPSS; en la figura no aparece), pulsándolo se abrirá un nuevo cuadro que nos permite realizar el test de forma exacta (si la tabla, y el número de casos en ella, no son demasiado grandes), por el método de Monte-carlo (no visto en clase) o de forma asintótica (aproximada) (test Chi-cuadrado visto en clase). Aunque SPSS siempre nos da esta última versión del test, como es lógico, utilizaríamos la versión exacta del test, si ésta está disponible. Si el botón Exactas no está (como es nuestro caso), SPSS sólo nos dará la versión asintótica del test (test Chi-cuadrado), salvo en tablas 2×2 que también nos dará la versión exacta (test exacto de Fisher).

Al final, en el cuadro de diálogo principal, pulsamos Aceptar y aparecerán los resultados en el Visor de SPSS. Si se trata de una tabla r×c (como en el ejemplo propuesto), aparte de la tabla de resumen de los casos, primero aparece la tabla de contingencia, con las frecuencias y porcentajes solicitados. En la figura de abajo (a la izquierda) se muestra dicha tabla para el ejemplo anterior, con las frecuencias observadas (Recuento) y esperadas, y los porcentajes por filas. Después aparecerá otra tabla (Pruebas de chi-cuadrado; verla debajo a la derecha) con el test Chi-cuadrado, y otros tests que no hemos visto en clase. Al pie de la tabla nos informan sobre las casillas con frecuencias esperadas inferiores a 5, para la verificación de las condiciones de validez del test Chi-cuadrado.

Haced el ejemplo de la explicación, comprobando los resultados e interpretándolos. Veamos ahora un ejemplo de tablas 2×2. Deseamos conocer si la osteoporosis en el cuello del fémur

(variable osteo_cue) está relacionada o asociada al consumo de tabaco (variable tabaco): ¿es el consumo de tabaco un verdadero factor de riesgo para la osteoporosis en el cuello del fémur? Este problema es equivalente a comparar las proporciones de osteoporosis en el cuello del fémur entre los “fumadores” y “no fumadores” (con muestras independientes). Pasamos la variable tabaco a la caja Filas y la variable osteo_cue a la caja Columnas. En el cuadro Tablas de contingencia: Estadísticos marcaremos la opción Chi-cuadrado (para que nos haga el test Chi-cuadrado) y la opción Riesgo (para que nos dé las medidas de asociación). Por último, para las casillas marcamos las opciones recuentos (frecuencias) Observados y porcentajes por Filas.

Los resultados que finalmente nos da SPSS son algo más amplios que en el caso de tablas r×c. En la siguiente página se muestran para el ejemplo del párrafo anterior. La tabla de contingencia es como la del caso r×c. En la tabla Pruebas de chi-cuadrado, como resultado del test consideraremos el que aparece en la línea Corrección por continuidad (que es el test Chi-cuadrado de Yates: el visto en clase) o, mejor aún, el correspondiente a la línea Estadístico exacto de Fisher (que es el test exacto de Fisher). Además nos aparecerá, si hemos marcado la opción Riesgos, una nueva tabla (Estimación de riesgo) con las medidas de asociación. Dicha tabla nos da el valor de la medida (estimación puntual) y el correspondiente intervalo de confianza. ¡OJO!, para la correcta interpretación de estas medidas, el factor de riesgo debe figurar en filas (la exposición al factor debe ser la primera fila) y la enfermedad en columnas (la presencia de la enfermedad debe

Estadístico 2 , g.l. y valor P del test Chi-cuadrado

Para comprobar las condiciones de validez del test Chi-cuadrado

Page 30: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 30 -

ser la primera columna): compruébelo en el ejemplo. La primera medida que da la tabla (Razón de las ventajas…) es la razón del producto cruzado. La segunda es el riesgo relativo (tal como lo hemos estudiado en clase). La tercera es el riesgo relativo para no padecer la enfermedad (no lo vemos).

Haced el ejemplo de la explicación, comprobando los resultados e interpretándolos.

Para terminar, si el objetivo es hacer una comparación de dos proporciones con muestras apareadas, los

datos se resumirán finalmente en una tabla 2×2, donde filas y columnas estarán determinadas por dos variables dicotómicas de la matriz de datos de SPSS. Dichas variables hay que introducirlas en Filas y Columnas del cuadro Tablas de contingencia, y después, en el cuadro Tablas de contingencia: Estadísticos hay que marcar la opción McNemar. Por ejemplo, para comparar las proporciones de osteoporóticos en el cuello de femur con la de osteoporóticos en el triángulo, como tenemos dos variables dicotómicas, osteo_cue y osteo_tri, que indican la presencia de osteoporosis en esos huesos, no tenemos más que llevar una de ellas a Filas y la otra a Columnas, y marcar McNemar. Los resultados aparecen en dos tablas (ver figura debajo). La primera es la tabla 2×2 con los datos, y en la segunda aparece el valor P del test (que es el valor P exacto).

Haced el ejemplo de la explicación, comprobando los resultados e interpretándolos.

Razón del producto cruzado

Riesgo relativo

Valor P del test exacto de Fisher (2 colas y 1 cola)

Para comprobar las condiciones de validez del test Chi-cuadrado

Estadístico 2 , g.l. y valor P del test Chi-cuadrado de Yates.

Valor P exacto.

Page 31: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 31 -

VI.3. Regresión y Correlación.

Lo referente a la regresión y la correlación entre dos variables lo resuelve SPSS mediante los procedi-mientos Regresión lineal y Correlaciones bivariadas. Esta metodología requiere del cumplimiento de unos supuestos (que conocemos como modelo de regresión lineal). En este sentido, para la verificación de dos de estos supuestos (linealidad e igualdad de varianzas), son útiles los gráficos de dispersión: empezaremos viendo este tipo de gráficos.

VI.3.1. Procedimiento Gráfico de Dispersión/Puntos.

Nos permite obtener, entre otros, un gráfico de dispersión (simple), con la nube de puntos y la recta de regresión. Accedemos al procedimiento a través de Gráficos → Cuadros de diálogo antiguos → Dispersión/Puntos. Primero se abre un pequeño cuadro, donde seleccionamos la opción Dispersión simple y pulsamos Definir. Se abre, entonces, el cuadro de diálogo del procedimiento (ver figura debajo, a la izquierda), que es similar al de otros gráficos (ver Práctica II).

Pasamos a las cajas Eje Y (eje de ordenadas: el vertical) y Eje X (eje de abscisa: el horizontal) las variables que queremos representar en dichos ejes. El resto de las cajas no las veremos. Según la figura (aunque no se ven los nombres completos de las variables), vamos a representar un gráfico de dispersión del “Valor tipificado de la densidad de masa ósea del L24” (szl24) (eje Y) frente al “Valor tipificado de la densidad de masa ósea del triángulo” (sztri) (eje X). En la parte derecha del cuadro aparecen los botones Títulos y Opciones, que funcionan igual que en los demás gráficos (ver Práctica II). Finalmente, pulsando Aceptar nos mostrará el gráfico en el Visor de SPSS.

Una vez que tenemos el gráfico, entrando en el editor de gráficos (hacer doble clic en el propio gráfico: ver Práctica II) podemos, entre otras cosas, dibujar la recta de regresión. Para ello (ya dentro del editor) utilizamos la opción Línea de ajuste total (del menú Elementos, del menú contextual o con el correspondiente icono de la barra de herramienta). También en el editor, utilizando el Modo de etiquetas de datos (del menú Elementos, o con el correspondiente icono de la barra de herramienta) podemos etiquetar a los individuos (puntos del gráfico) con su número de registro. Al utilizar este “modo” el cursor cambia de aspecto y sólo hemos de pulsar en los puntos deseados. La etiqueta que aparece junto al punto nos ayudará a localizar al individuo que corresponde en la matriz de datos. Esto es útil para localizar individuos (puntos) extremos, los más alejados de la recta. En la figura de la página anterior (a la derecha) se muestra el gráfico para el ejemplo anterior, ya editado (con la recta de regresión y la etiqueta de uno de los puntos).

Haced el gráfico, comentando (sobre él) la verificación de los supuestos de linealidad e igualdad de varianzas.

Page 32: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 32 -

VI.3.2. Procedimiento Regresión Lineal.

El procedimiento Regresión lineal de SPSS nos permite llevar a cabo análisis complejos de regresión lineal (simple y múltiple), aunque la mayor parte de las opciones no las veremos. Aquí utilizaremos este procedimiento sólo para la regresión lineal simple (la vista en clase): haremos cálculos y estimaciones en regresión (fundamentalmente la recta de regresión) y el test para probar si existe relación lineal (test de independencia). Accedemos mediante Analizar → Regresión → Lineales. El cuadro de diálogo del procedi-miento se muestra al lado.

Hemos de pasar la variable Y (la del eje Y) a la caja Dependientes y la variable X (la del eje X) a la caja Independientes, dejando la opción Introducir en la pequeña caja Método, donde aparece. El resto de las cajas no las vemos. Según la figura adjunta (aunque no se ven las etiquetas completas de las variables) se va a llevar a cabo un análisis de regresión lineal simple del “Valor tipificado de la densidad de masa ósea del L24” (szl24) (Y) frente al “Valor tipificado de la densidad de masa ósea del triángulo” (sztri) (X). Para este mismo ejemplo ya se obtuvo antes el gráfico de dispersión, y se verificaron los supuestos de linealidad e igualdad de varianzas. También supondremos ya comprobado el supuesto de normalidad.

Pulsando el botón Estadísticos, nos aparece el cuadro Regresión lineal: Estadísticos (ver abajo a la izquierda), donde hemos de marcar sólo las opciones Estimaciones e Intervalos de confianza (para que nos estime la recta de regresión, incluyendo IC para sus coeficientes, y nos haga el test de independencia mediante la pendiente) y, si se quiere, la opción Descriptivos, que nos da una tabla con la descriptiva de las dos variables y otra con la correlación entre ambas. El resto de las opciones no las vemos.

Pulsando el botón Guardar, nos aparece el cuadro Regresión lineal: Guardar (ver figura a la derecha), que nos ofrece muchas opciones de cálculo, cuyos resultados podemos guardar. Nosotros sólo marcaremos los Valores pronosticados No tipificados (predicciones) y los Residuos No tipificados (residuales), los cuales aparecerán al final de la matriz de datos como dos columnas (variables) adicionales. Estos valores permitirán luego obtener un gráfico de las residuales frente a las predicciones, de utilidad en la verificación de los supuestos (aunque no lo utilizaremos). También, las residuales determinarán los puntos más extremos (los más alejados de la recta).

Pulsando Opciones se abre un nuevo cuadro, donde únicamente hemos de comprobar que quede marcada la opción Incluir la constante en la ecuación, para que nos dé la altura de la recta (coeficiente a de la recta). Las otras opciones no se modifican. Por otro lado, el botón Gráficos no lo consideraremos aquí. Finalmente, pulsamos Aceptar y se nos muestran los resultados en el Visor de SPSS.

Page 33: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 33 -

Lo fundamental de los resultados es la tabla Coeficientes (en la figura de abajo se muestra la tabla correspondiente al ejemplo anterior). En dicha tabla se dan las estimaciones de los coeficientes de la recta de regresión: la estimación puntual (coeficientes a y b de la recta) (la ecuación de la recta estimada será Y = a + bX) y los respectivos intervalos de confianza. El coeficiente tipificado (beta) no lo vemos.

La tabla también muestra los resultados de los tests que contrastan si dichos coeficientes son significativamente distintos de 0. La primera línea de la tabla (Constante) corresponde al coeficiente a (la altura de la recta, o término independiente de la ecuación), y la segunda línea al coeficiente b (la pendiente de la recta). Por último, hay que observar que el test para la pendiente es el test de independencia: así, si éste es significativo, se concluye que existe relación lineal entre las dos variables, y podemos interpretar la ecuación de la recta como expresión de dicha relación.

Haced el ejemplo de la explicación, comprobando los resultados e interpretándolos. VI.3.3. Procedimiento Correlaciones bivariadas.

El procedimiento Correlaciones bivariadas calcula el coeficiente de correlación entre dos variables cuantitativas, y realiza el test para probar si dicho coeficiente es significativamente distinto de 0 (test de independencia). Si se introducen más de dos variables, realiza lo anterior para cada pareja de variables.

Accedemos al procedimiento mediante Analizar → Correlaciones → Bivariadas. El cuadro de diálogo del procedimiento se muestra debajo (a la izquierda). Primero hemos de pasar a la caja Variables las variables que deseemos correlacionar. Siguiendo el ejemplo del apartado anterior, en el cuadro de la figura se han pasado las variables szl24 y sztri, para que SPSS nos calcule la fuerza de la relación (coeficiente de correlación) entre el “Valor tipificado de la densidad de masa ósea del L24” y el “Valor tipificado de la densidad de masa ósea del triángulo”.

Después marcamos el tipo de correlación que queremos calcular. Si se cumplen los supuestos del modelo lineal, como en el ejemplo anterior, marcaremos Pearson: nos dará el coeficiente de correlación lineal (o de Pearson). Si no se cumplen dichos supuestos, y la relación es de tipo monotónica, marcaremos Spearman: nos dará el coeficiente de correlación de Spearman. El coeficiente Tau-b de Kendall no lo vemos. También hemos de elegir el tipo de test (Bilateral o Unilateral): generalmente el test lo hacemos bilateral (2 colas). Por otro lado, si dejamos marcada la opción Marcar las correlaciones significativas, en los resultados SPSS pondrá

Coeficientes de la recta: a=0,859 y b=0,057.Ecuación de la recta: Y = 0,859 + 0,057X

Estadístico t (sin valor absoluto) y valor P del test de independencia (mediante la pendiente)

Intervalo de confianza para la pendiente

Coeficiente de correlación lineal r

Valor P del test de independencia (a través del coeficiente de correlación)

Page 34: Bioestadística (Grado en Medicina) Curso 2013/14 Guión de ...bioest/mtrabajo/PracticasSPSS.pdfacumulando todos los resultados de los análisis estadísticos que vayamos realizando).

- 34 -

una marca en las correlaciones cuyo test dé significativo. Por último, con el botón Opciones podemos solicitar una descriptiva sobre las variables (no lo utilizaremos).

Finalizado todo, pulsamos Aceptar y se nos muestran los resultados en el Visor de SPSS. En esencia nos da una tabla con las correlaciones solicitadas (nos da el coeficiente de correlación, el valor P del test de independencia correspondiente y el número de casos). La tabla de resultados para el ejemplo se muestra arriba (página anterior) a la derecha. Observemos que, por la estructura de la tabla, los resultados aparecen en dicha tabla dos veces (correlaciones de szl24 con sztri y de sztri con szl24, ambas lógicamente iguales). También, en la tabla podemos ver la marca (dos asteriscos) que indica que la correlación es significativa. Además, la tabla incluye la correlación de cada variable consigo misma que, como es natural, vale 1.

Haced el ejemplo de la explicación, comprobando los resultados e interpretándolos.