Bioestadística. Curso 2012-2013 Práctica 1: Análisis...

14

Transcript of Bioestadística. Curso 2012-2013 Práctica 1: Análisis...

Page 1: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Curso 2012-2013

Práctica 1: Análisis descriptivo

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro

Índice

1. Objetivos de la práctica 2

2. Introducción 2

3. El programa Statistix 2

3.1. Introducir datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3.2. Importar datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

4. Estadística descriptiva con Statistix 5

4.1. Tablas de frecuencias y representaciones grá�cas para variables cualitativas . . . . . . . . . . . 5

4.2. Tablas de frecuencias y representaciones grá�cas para variables cuantitativas . . . . . . . . . . 6

4.2.1. Variables cuantitativas discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

4.2.2. Variables cuantitativas continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4.3. Análisis descriptivo por grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

5. Medidas características 9

5.1. El diagrama de caja o Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

6. Otras opciones para el manejo de datos en Statistix 12

6.1. Transformación de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

6.1.1. Obtención de nuevas variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

6.1.2. Recodi�cación de variables en rangos . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

7. Ejercicios 14

1

Page 2: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Grado en Medicina Práctica 1: Análisis descriptivo

1 Objetivos de la práctica

El objetivo de esta práctica es familiarizarse con el funcionamiento del programa Statistix, conocer los procedi-

mientos de estadística descriptiva que nos ofrece y aplicarlos a conjuntos de datos. Estudiaremos:

Procedimientos para crear e importar datos con Statistix.

Tablas de frecuencias para variables cualitativas y cuantitativas (discretas o continuas).

Representaciones grá�cas.

Medidas características.

2 Introducción

Son muchos los paquetes estadísticos que podemos encontrar en la actualidad, desde software comercial como

Statistix, SPSS, SAS, MATLAB, Statistica, Stata, hasta software libre como el Lenguaje R, de gran aplicación

en investigación Biomédica. Muchas de estas propuestas son aplicaciones e�cientes que se basan en el uso de

potentes interfaces grá�cas (GUI Graphical User Interface) con sistemas de menús y ventanas desplegables que

facilitan al usuario el proceso de modelización estadística.

Statistix es un programa de análisis estadístico que podemos utilizar de forma sencilla para analizar datos. Este

programa nos ofrece procedimientos estadísticos básicos y avanzados. Como veremos, el entorno de trabajo que

proporciona Statistix es muy amigable y similar al de otros programas. En este sentido, aprendiendo a manejar

Statistix, no deberías encontrar di�cultad para adaptarte a otros paquetes estadísticos.

3 El programa Statistix

Para comenzar a trabajar con Statistix, pulsa en el menú de Windows Inicio I Programas I Statistix.

El programa se abre como se muestra en la Figura 1. En el menú principal superior, se encuentran las siguientes

opciones:

Figura 1: Programa Statistix

File: A través de este menú podremos leer datos de un

�chero, guardar datos, imprimir, y acceder a otras opciones

de manejo de �cheros usuales en cualquier programa.

Edit: A través de este menú podremos copiar, cortar y

pegar datos seleccionados con el ratón.

Data: Nos permite introducir variables y datos. También

están disponibles a través de este menú diversas opciones

para el manejo de datos que iremos viendo en la prácti-

ca (seleccionar casos, recodi�car variables, poner etique-

tas,...).

Statistics: A través de este menú accederemos a los di-

ferentes métodos estadísticos que veremos a lo largo del

curso.

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 2 de 14

Page 3: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Grado en Medicina Práctica 1: Análisis descriptivo

Preferences: Nos permitirá modi�car las opciones por defecto del tratamiento de datos y grá�cos.

Window: A través de este menú podemos cambiar la organización de ventanas.

Help: Nos permite acceder a la ayuda del programa.

El paquete de ayuda de Statistix: Para acceder al paquete de ayuda de Statistix pulsa en el menú

superior Help I Statistix Help... Una vez desplegada la ayuda selecciona en la pestaña de Contenidos

el tema que deseas consultar.

3.1 Introducir datos

La ventana que encontramos al entrar en Statistix (ventana del editor de datos) tiene una estructura similar a

la de una hoja de cálculo y se utiliza para introducir los datos que se quieren analizar. Veremos como introducir

datos en Statistix a través de un ejemplo práctico.

Ejemplo: En la última hora han acudido al servicio de urgencias de un hospital ocho pacientes, cuyos datos

de ingreso se encuentran resumidos en la siguiente tabla. Clasi�ca las variables recogidas (sexo,

peso, estatura, temperatura y número de visitas previas al servicio de urgencias) e introduce los

datos en Statistix.

Sexo Peso Estatura Temperatura Visitas

M 63 1.74 38 0

M 58 1.63 36.5 2

H 84 1.86 37.2 0

M 47 1.53 38.3 0

M 70 1.75 37.1 1

M 57 1.68 36.8 0

H 87 1.82 38.4 1

M 55 1.46 36.6 1

Cuadro 1: Datos del servicio de urgencias de un hospital

En primer lugar, introduciremos los datos de la variable Sexo. Para introducir datos pulsa en el menú superior

Data I Insert I Variables. Escribe en el cuadro de diálogo el nombre de la variable que quieres crear y pulsa

Ok. Fíjate que en el editor de datos aparece una columna con el nombre de la variable que has creado.

La variable Sexo es una variable cualitativa que toma dos valores (mujer y hombre). Lo más cómodo para

trabajar con variables cualitativas en Statistix es codi�car las variables y después ponerles etiquetas. En este

caso utilizaremos la codi�cación:

Mujer=1

Hombre=0

Una vez añadidos los datos (unos y ceros) de la variable Sexo debemos poner etiquetas para recordar la forma

en que hemos hecho la codi�cación. Para poner etiquetas a los valores de una variable pulsa en el menú superior

Data I Labels I Value labels.... Selecciona la variable Sexo como Source Variable y en el cuadro De�ne

Variable escribe cada valor de la variable y su correspondiente etiqueta. Asegúrate de que las etiquetas de�nidas

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 3 de 14

Page 4: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Grado en Medicina Práctica 1: Análisis descriptivo

Figura 2: Cuadro de diálogo para insertar etiquetas en Statistix

han pasado (botón I) al cuadro de la derecha Value Labels, ver Figura 2. Para que los cambios tengan efecto

no olvides pulsar el botón Save antes de cerrar el cuadro de diálogo.

Etiquetas en Statistix: A través de su menú Data I Labels, Statistix permite poner etiquetas al

conjunto de datos (Data Set Label...), a las variables (Variable Label...) y a los valores de las

variables (Value Labels...). Estas etiquetas se utilizan en los informes y grá�cos de Statistix.

Guarda los datos en Statistix: Es aconsejable guardar los datos en un �chero después de su intro-

ducción. Para guardar los datos usa la opción File I Save. También puedes usar File I Save as.

Como en cualquier otro programa de Windows podrás elegir la carpeta en donde guardar el �chero.

Los datos se guardarán con la extensión .sx. Si deseas guardar los datos en otro formato (�chero de

texto, �chero Excel,...) tendrás que utilizar el menú File I Export.

Ejercicio: Crea un �chero de Statistix urgencias.sx con los datos de la Tabla 1. Ponle la etiqueta �Servicio

de urgencias de un hospital� al conjunto de datos y una etiqueta a cada variable indicando lo que

representa.

3.2 Importar datos

Desde el menú File I Open podremos abrir �cheros de datos .sx creados previamente con Statistix. El cuadro

de diálogo es similar al de otras aplicaciones Windows. Puedes encontrar algunos �cheros de ejemplo en la

carpeta Sample Data que se crea en el directorio de instalación del programa.

Ejemplo: Abre el �chero de Statistix urgenciasCompleto.sx. En este �chero se encuentran todos los datos

de entrada a urgencias de un día.

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 4 de 14

Page 5: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Grado en Medicina Práctica 1: Análisis descriptivo

Abrir datos en Statistix: En Statistix no se pueden tener abiertos simultáneamente dos archivos de

datos. Si se desea crear uno nuevo, Statistix cerrará automáticamente el archivo anterior preguntando

previamente si se desea guardar los cambios.

En muchas ocasiones dispondremos de datos en �cheros creados por otros programas, por ejemplo, �cheros de

texto, �cheros Excel, etc. Para abrir �cheros de otros formatos en Statistix usaremos el menú File I Import.

Por este procedimiento añadiremos variables a un nuevo conjunto de datos de Statistix o a uno ya existente.

Ejercicio: El �chero urgenciasCompleto.txt contiene los datos del ejercicio anterior en formato texto .txt.

Importa los datos desde Statistix.

4 Estadística descriptiva con Statistix

Aprenderemos ahora a realizar el análisis descriptivo de un conjunto de datos con Statistix. Veremos como

calcular tablas de frecuencias, realizar grá�cos representativos y calcular medidas características. Como ejemplo

utilizaremos el conjunto de datos del servicio de urgencias, que encontrarás en el �chero urgenciasCompleto.sx.

4.1 Tablas de frecuencias y representaciones grá�cas para variables cualitativas

Veamos en primer lugar como obtener las frecuencias absolutas, relativas y acumuladas de la variable Sexo, que

es una variable cualitativa.

Vete al menú Statistics I Summary Statistics I Frequency Distribution... En el cuadro de diálogo selecciona

la variable Sexo y pásala (botón I) al cuadro de la derecha Frequency Variables. Pulsa Ok. Se abrirá entonces

una nueva ventana (ventana de resultados) con la siguiente información:

Frequency Distribution of Sexo

Cumulative

Value Freq Percent Freq Percent

Hombre 40 52,6 40 52,6

Mujer 36 47,4 76 100,0

Total 76 100,0

Como puedes observar, la columna Freq nos devuelve las frecuencias absolutas (del total de 76 pacientes que

acudieron a urgencias, 40 fueron hombres y 36 fueron mujeres). La columna Percent representa las frecuencias

relativas (en porcentaje). El 52.6% de los pacientes que acudieron a urgencias fueron hombres, mientras que el

47.4% fueron mujeres. Las dos últimas columnas representan las frecuencias acumuladas (absolutas y relativas).

Ventana de resultados: Cuando seleccionamos un procedimiento estadístico en Statistix, la tabla de

resultados o la grá�ca correspondiente se muestran en una nueva ventana (ventana de resultados).

Como cualquier otra ventana, la ventana de resultados se puede minimizar, maximizar, reescalar,...

Cuando esté minimizada puedes volver a acceder a ella a través del botón del menú Window.

Las ventana de resultados tiene sus propio menú, que podrás ver cuando esté activa (pincha sobre la

ventana de resultados). El menú de la ventana de resultados tiene cinco submenús: File, Edit, Results,

Window, y Help que te permitirán, entre otras opciones, guardar e imprimir los resultados y grá�cos.

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 5 de 14

Page 6: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Grado en Medicina Práctica 1: Análisis descriptivo

Figura 3: Cuadro de diálogo para realizar un diagrama de barras de la variable Sexo

Figura 4: Diagrama de sectores y diagrama de barras de la variable Sexo

Una vez calculadas las frecuencias absolutas y relativas de la variable Sexo, podemos empezar a hacer resúmenes

grá�cos. Por ejemplo, para hacer un diagrama de sectores utilizaremos el menú Statistics I Summary Statistics

I Pie Chart... En el cuadro de la izquierda aparece la lista de las variables que ya tenemos de�nidas. Basta

con seleccionar la variable que nos interesa y pasarla al cuadro Categorical Variable. En el cuadro Display

Values podrás seleccionar si deseas que se muestren las frecuencias absolutas de cada categoría o el porcentaje

de casos.

Para representar un diagrama de barras, utilizaremos el menú Results I Summary Statistics I Histogram

como se muestra en la Figura 3.

Grá�cos en Statistix: La apariencia de los grá�cos se puede cambiar fácilmente. Pincha sobre el grá�co

que deseas modi�car para activar la ventana y selecciona el menú Results I Graph Preferences.

Podrás elegir los colores de los grá�cos, los símbolos para representar los puntos, el tipo de fuente,

etc. También podrás cambiar el título del grá�co a través del menú Results I Titles.

4.2 Tablas de frecuencias y representaciones grá�cas para variables cuantitativas

4.2.1 Variables cuantitativas discretas

Consideremos ahora la variable Visitas, que es una variable cuantitativa discreta. Podemos volver a utilizar el

menú Statistics I Summary Statistics I Frequency Distribution... para obtener una tabla de frecuencias

absolutas y porcentajes.

Ahora tienen mayor interpretación las columnas de frecuencias acumuladas (tanto absolutas como relativas).

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 6 de 14

Page 7: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Grado en Medicina Práctica 1: Análisis descriptivo

Por ejemplo, observamos que de los pacientes registrados, 62 no habían acudido previamente al servicio de

urgencias más de una vez (lo que se corresponde con un 81.6% de la muestra).

Puedes representar un diagrama de barras, utilizando el menú Statistics I Summary Statistics I Histogram.

Si pones etiquetas a los valores de la variable Visitas, obtendrás un diagrama de barras como el que se muestra

a continuación.

Frequency Distribution of Visitas

Cumulative

Value Freq Percent Freq Percent

0 17 22,4 17 22,4

1 45 59,2 62 81,6

2 11 14,5 73 96,1

3 3 3,9 76 100,0

Total 76 100,0

4.2.2 Variables cuantitativas continuas

Para trabajar con variables cuantitativas continuas tenemos que agrupar los valores de las variables en intervalos.

Consideremos como ejemplo la variable Estatura. Tenemos un total de 76 observaciones que toman valores entre

1.46 y 1.88. Podemos considerar intervalos de amplitud 5 cm. entre 1.45 y 1.9. De esta forma garantizamos

que todas nuestras observaciones están en alguno de los intervalos de�nidos.

Statistics I Summary Statistics I Frequency Distribution...

Elige la variable Estatura y pásala al cuadro Frequency Variables.

En el cuadro Bin Size selecciona:

� Low: 1.45

� High: 1.9

� Step: 0.05

Frequency Distribution of Estatura Estatura del paciente (m.)

Cumulative

Low High Freq Percent Freq Percent

1.45 1.50 1 1,3 1 1,3

1.50 1.55 1 1,3 2 2,6

1.55 1.60 6 7,9 8 10,5

1.60 1.65 6 7,9 14 18,4

1.65 1.70 8 10,5 22 28,9

1.70 1.75 17 22,4 39 51,3

1.75 1.80 13 17,1 52 68,4

1.80 1.85 17 22,4 69 90,8

1.85 1.90 7 9,2 76 100,0

Total 76 100,0

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 7 de 14

Page 8: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Grado en Medicina Práctica 1: Análisis descriptivo

Figura 5: Histograma de la variable Estatura

Obtenemos así un total de 9 intervalos (cumpliendo la recomendación de que el número de intervalos sea

aproximadamentepn =

p76 = 8:71). ¾Cómo interpretas los resultados de la tabla de frecuencias? Observamos,

por ejemplo, que hay 8 pacientes con estatura en el intervalo [1:65; 1:70). Si nos �jamos en la columna de

frecuencias acumuladas observamos que hay 52 pacientes que miden menos de 1.8 m.

La representación grá�ca para variables continuas es el histograma. Se realiza en Statistix a través del menú

Statistics I Summary Statistics I Histogram. Como en el caso de la tabla de frecuencias tendrás que

determinar los intervalos que quieres considerar en el cuadro X-Axis. El resultado se muestra en la Figura 5.

Ejercicio: Construye las tablas de frecuencias y grá�cas representativas del resto de variables del conjunto

de datos del servicio de urgencias.

4.3 Análisis descriptivo por grupos

En muchas ocasiones, además de hacer el estudio de una variable de forma global como hemos hecho ante-

riormente con las variables Visitas y Estatura, es interesante analizar como se comportan dichas variables en

diferentes subgrupos. Por ejemplo, ¾acuden con mayor frecuencia las mujeres a los servicios de urgencia? ¾Hay

diferencias signi�cativas entre las estaturas de hombres y mujeres?

Statistix nos permitirá construir tablas de frecuencias y grá�cas por grupos de manera muy sencilla. Consideremos

como ejemplo la variable Visitas. Podemos volver a utilizar el menú Statistics I Summary Statistics I

Frequency Distribution... para obtener una tabla de frecuencias absolutas y porcentajes. Para que la tabla

obtenida nos muestre frecuencias por sexos simplemente tendremos que seleccionar la variable Visitas como

Frequency Variables y la variable Sexo como Grouping Variable.

Frequency Distribution of Visitas for Sexo = Hombre

Cumulative

Value Freq Percent Freq Percent

0 10 25,0 10 25,0

1 27 67,5 37 92,5

2 2 5,0 39 97,5

3 1 2,5 40 100,0

Total 40 100,0

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 8 de 14

Page 9: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Grado en Medicina Práctica 1: Análisis descriptivo

Frequency Distribution of Visitas for Sexo = Mujer

Cumulative

Value Freq Percent Freq Percent

0 7 19,4 7 19,4

1 18 50,0 25 69,4

2 9 25,0 34 94,4

3 2 5,6 36 100,0

Igualmente podremos realizar grá�cas por grupos como la de la Figura 6, eligiendo la variable Visitas como

Dependent Variable y la variable Sexo como Categorical Variable en el cuadro de diálogo Statistics I

Summary Statistics I Histogram.

Figura 6: Diagramas de barras de frecuencias relativas (en%) de la variable Visitas agrupada por Sexo

Ejercicio: Haz un análisis descriptivo de la variable Estatura agrupada por Sexo.

5 Medidas características

Statistix permite calcular directamente medidas características de posición, dispersión y forma a través del menú

Statistics I Summary Statistics I Descriptive Statistics...

Figura 7: Cálculo de medidas características con Statistix.

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 9 de 14

Page 10: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Grado en Medicina Práctica 1: Análisis descriptivo

El procedimiento produce una tabla resumen de medidas características de una o varias variables (puedes

seleccionar varias variables al mismo tiempo). Puedes calcular, entre otros:

N: tamaño muestral n (número de observaciones).

Missing: número de datos faltantes (se representan en Statistix como M).

Sum: suma de valores.

Mean: media muestral

�x =1

n

n∑i=1

xi =x1 + : : :+ xn

n:

SD: Desviación típica

s =

√√√√ 1

n � 1

n∑i=1

(xi � �x)2 =

√(x1 � �x)2 + : : :+ (xn � �x)2

n � 1:

Variance: Varianza

s2 =1

n � 1

n∑i=1

(xi � �x)2 =(x1 � �x)2 + : : :+ (xn � �x)2

n � 1:

CV: coe�ciente de variación

CV =s

�x:

Median: una vez ordenados los datos de menor a mayor la mediana es el valor de la variable que deja a

su izquierda el 50% de los datos.

Min/Max: valores mínimo y máximo.

Quartiles: primer, segundo y tercer cuartil.

Skew: coe�ciente de asimetría.

Kurtosis: coe�ciente de Kurtosis.

Por ejemplo, estas son algunas de las medidas características de las variables Peso y Estatura.

Descriptive Statistics

Peso Estatura

N 76 76

Mean 66.716 1.7330

SD 11.389 0.0909

Variance 129.71 8.269E-03

Minimum 47.000 1.4600

1st Quarti 58.000 1.6800

Median 66.000 1.7400

3rd Quarti 76.000 1.8000

Maximum 92.000 1.8800

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 10 de 14

Page 11: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Grado en Medicina Práctica 1: Análisis descriptivo

Percentiles: Si quieres calcular otros percentiles (no necesariamente la mediana o los cuartiles) puedes

hacerlo en Statistix a través del menú Statistics I Summary Statistics I Percentiles. Escribe en los

cuadros de texto de Percentiles hasta un máximo de cinco valores que desees calcular. Por ejemplo,

para calcular el primer cuartil escribe 25 y para la mediana 50.

Ejercicio: Calcula e interpreta la media, los cuartiles y el coe�ciente de variación de la variable Estatura

agrupada por Sexo.

5.1 El diagrama de caja o Boxplot

La información obtenida a partir de las medidas de centralización, dispersión y forma se puede usar para realizar

diagramas de caja (boxplots) que visualmente nos información sobre como están distribuidos los datos. El

diagrama de caja consta de:

una caja central que está delimitada por la posición de los cuartiles Q1 y Q3.

Dentro de esa caja se dibuja la línea que representa la mediana (cuartil Q2).

De los extremos de la caja salen unas líneas que se extienden hasta LI = m�ax fm��n(xi); Q1 � 1:5RIg y

LS = m��n fm�ax(xi); Q3 + 1:5RIg.

Los datos que caen fuera de los bigotes se representan individualmente mediante ��� (datos atípicos

moderados) y �o� (datos atípicos extremos).

Para representar un diagrama de cajas en Statistix selecciona Statistics I Summary Statistics I Box and

Whisker Plots... La Figura 8 muestra los diagramas de caja para la variable Estatura agrupada por Sexo.

Elige la variable Estatura como Dependent Variable y la variable Sexo como Categorical Variable. Fíjate que

en ambos sexos hay datos atípicos moderados (personas cuyas estaturas están fuera del rango �razonable� de

valores determinado por el conjunto de observaciones de cada sexo).

Figura 8: Diagramas de caja para la variable Estatura agrupada por Sexo.

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 11 de 14

Page 12: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Grado en Medicina Práctica 1: Análisis descriptivo

6 Otras opciones para el manejo de datos en Statistix

En este apartado repasaremos algunas de las opciones que nos ofrece Statistix para manejar conjuntos de datos.

Muchas de estas operaciones serán muy útiles a la hora de organizar la información de nuestras variables.

6.1 Transformación de variables

6.1.1 Obtención de nuevas variables

En muchas ocasiones, necesitaremos realizar alguna transformación de nuestros datos o crear nuevas variables

a partir de operaciones sobre variables ya existentes. Por ejemplo, el índice de masa corporal IMC es una medida

de asociación entre el peso y la estatura de un individuo. El IMC se ha utilizado como uno de los recursos para

evaluar el estado nutricional de personas adultas, de acuerdo con los valores propuestos por la Organización

Mundial de la Salud. Se calcula como

IMC =Peso

Estatura2

y se mide en Kg=m2. ¾Cómo calcularíamos esta nueva variable en Statistix para los individuos del conjunto de

datos de urgencias?

Selecciona el menú Data I Transformations

En el cuadro Transformation Expression debes escribir la expresión para la nueva variable. Fíjate en el

ejemplo de la Figura 9. La función Power seleccionada del listado de funciones del cuadro Functions

calcula la potencia de orden 2 de la variable Estatura.

Pulsa Go.

Figura 9: Transformación de variables.

Ejercicio: Realiza un análisis descriptivo completo de la nueva variable IMC.

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 12 de 14

Page 13: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Grado en Medicina Práctica 1: Análisis descriptivo

6.1.2 Recodi�cación de variables en rangos

En algunas ocasiones nos interesará agrupar en rangos los valores de una variable. Por ejemplo, la Organización

Mundial de la Salud clasi�ca el estado nutricional de los adultos de acuerdo con el IMC como se muestra a

continuación

Clasi�cación IMC (Kg=m2)

Infrapeso < 18:5

Normal [18:5; 25)

Sobrepeso [25; 30)

Obeso � 30

Cuadro 2: Clasi�cación del estado nutricional de adultos de acuerdo con el IMC.

Crearemos una nueva variable IMCclas a partir de IMC con la codi�cación:

Infrapeso=0, Normal=1, Sobrepeso=2, Obeso=3.

Selecciona el menú Data I Recode

Elige como Source Variable la variable IMC y como

Destination Variable la variable IMCclas.

Introduce los antiguos y nuevos valores en los cuadros

de texto. Se pueden especi�car rangos de valores utili-

zando un guion, como se muestra en la Figura.

Ejercicio: Ponle etiquetas a los valores de la nueva variable IMCclas y representa un diagrama de tarta como

el que se muestra a continuación.

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 13 de 14

Page 14: Bioestadística. Curso 2012-2013 Práctica 1: Análisis ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/... · Objetivos de la práctica 2 2. Introducción 2 3.

Bioestadística. Grado en Medicina Práctica 1: Análisis descriptivo

7 Ejercicios

1. Una vez que se ha introducido un conjunto de datos, es posible añadir entre dos �las de una variable

uno o más datos nuevos usando la opción Data I Insert I Cases. Para ello debes indicar el número de

la �la que ocupará el primer dato nuevo y el número de �las nuevas que quieres introducir. Comprueba

el funcionamiento de esta opción modi�cando el conjunto de datos del servicio de urgencias que has

guardado en urgencias.sx. En la siguiente tabla se muestran los datos originales a los que se les han

añadido 3 nuevos registros intermedios (�las 7, 8 y 9).

Sexo Peso Estatura Temperatura Visitas

M 63 1.74 38 0

M 58 1.63 36.5 2

H 84 1.86 37.2 0

M 47 1.53 38.3 0

M 70 1.75 37.1 1

M 57 1.68 36.8 0

H 78 1.90 38.2 3

H 75 1.72 36.5 2

M 50 1.54 37 0

H 87 1.82 38.4 1

M 55 1.46 36.6 1

Cuadro 3: Datos del servicio de urgencias de un hospital con nuevos registros

2. La opción Data I Delete se utiliza para borrar datos por bloques, o bien para eliminar variable. Practica

con el conjunto de datos de urgencias a borrar registros o variables.

3. La opción Data I Fill permite introducir repetidamente un mismo valor. Se utiliza especi�cando el valor

que queremos introducir junto con el número de casillas que debe ocupar. Comprueba el funcionamiento

de esta opción.

4. Introduce el siguiente conjunto de datos en Statistix. Codi�ca la variable Nivel de colesterol (Bajo=1,

Medio=2, Alto=3). Guarda los datos en un archivo nivelcol.sx.

Nivel de colesterol Edad

Alto 65

Alto 54

Bajo 35

Medio 45

Alto 52

5. Abre el �chero de ejemplo de Statistix Alcohol.sx, que encontrarás en la carpeta Sample Data en el

directorio de instalación de Statistix. ¾Qué representan las variables recogidas en dicho �chero? Consulta

las etiquetas para saber a qué se re�ere el conjunto de datos y las distintas variables.

6. El �chero Alcohol.txt contiene los datos de alcoholismo en formato texto. Importa los datos desde

Statistix.

7. El �chero Alcohol.xls contiene los datos de alcoholismo en formato Excel. Importa los datos desde

Statistix.

Carmen Ma Cadarso, Ma del Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 14 de 14