2011 minitab-15

81
Dra. Josefa Marín Fernández Departamento de Estadística e Investigación Operativa Facultad de Matemáticas. Universidad de Murcia Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) Murcia, 2011

Transcript of 2011 minitab-15

Page 1: 2011 minitab-15

Dra. Josefa Marín Fernández

Departamento de Estadística e Investigación Operativa

Facultad de Matemáticas. Universidad de Murcia

Manual de MINITAB 15(con aplicaciones a las

Ciencias de la Documentación)

Murcia, 2011

Page 2: 2011 minitab-15
Page 3: 2011 minitab-15

ContenidosContenidos

1. Introducción a Minitab 71.1. Elementos de Minitab para Windows . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2. Barra de menús . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3. Entrada de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.4. Grabación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.5. Lectura de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.6. Opciones principales del menú Calc . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.6.1. Operaciones por filas mediante la opción Calc⇒Calculator . . . . . . . . . 111.6.2. Operaciones por columnas mediante la opción Calc⇒Column Statistics . . . 121.6.3. Operaciones por filas mediante la opción Calc⇒Row Statistics . . . . . . . 141.6.4. Tipificación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.6.5. Creación de datos por patrón . . . . . . . . . . . . . . . . . . . . . . . . . . 141.6.6. Creación de resultados aleatorios de una distribución conocida . . . . . . . . 15

1.7. Opciones principales del menú Data . . . . . . . . . . . . . . . . . . . . . . . . . . 151.7.1. Apilamiento de columnas . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.7.2. Desapilamiento de columnas . . . . . . . . . . . . . . . . . . . . . . . . . . 161.7.3. Ordenación de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.7.4. Codificación o clasificación de datos . . . . . . . . . . . . . . . . . . . . . . 16

1.8. Algo más sobre la ventana Session . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.9. Algo más sobre la ventana Proyect Manager . . . . . . . . . . . . . . . . . . . . . . 171.10. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2. Estadística descriptiva 212.1. Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.2. Estadística descriptiva con la opción Stat ⇒Basic Statistics ⇒Display Descriptive

Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.3. Representaciones gráficas con la opción Stat ⇒Basic Statistics ⇒Display Descrip-

tive Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4. Representaciones gráficas con la opción Graph . . . . . . . . . . . . . . . . . . . . 24

3

Page 4: 2011 minitab-15

4 Contenidos

2.4.1. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.4.2. Diagrama de sectores o de pastel . . . . . . . . . . . . . . . . . . . . . . . . 252.4.3. Diagrama de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.4.3.1. Diagrama de barras simple . . . . . . . . . . . . . . . . . . . . . 262.4.3.2. Diagrama de barras agrupado (o apilado) . . . . . . . . . . . . . . 27

2.4.4. Diagramas bivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.4.4.1. Diagrama de dispersión o nube de puntos . . . . . . . . . . . . . . 282.4.4.2. Representación gráfica de una función y=f(x) . . . . . . . . . . . . 29

2.5. Correlación y regresión lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.6. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3. Variables aleatorias 353.1. Muestras aleatorias de las distribuciones usuales . . . . . . . . . . . . . . . . . . . . 353.2. Función de densidad y función de probabilidad . . . . . . . . . . . . . . . . . . . . 353.3. Función de distribución (probabilidad acumulada) . . . . . . . . . . . . . . . . . . . 373.4. Inversa de la función de distribución (percentiles) . . . . . . . . . . . . . . . . . . . 383.5. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4. Contrastes no paramétricos en una población 434.1. Contraste de aleatoriedad de la muestra . . . . . . . . . . . . . . . . . . . . . . . . 434.2. Contrastes de Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3. Contraste chi-cuadrado sobre independencia de dos variables aleatorias . . . . . . . 44

4.3.1. Datos en una tabla de doble entrada . . . . . . . . . . . . . . . . . . . . . . 444.3.2. Datos en dos (o tres) columnas . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.4. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5. Contrastes paramétricos en una población 515.1. Contrastes sobre la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.1.1. Contraste sobre la media cuando la desviación típica poblacional es conocida 515.1.2. Contraste sobre la media cuando la desviación típica poblacional es desconocida 53

5.2. Contrastes sobre la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.3. Contrastes sobre la proporción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.4. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

6. Contrastes paramétricos en dos poblaciones 596.1. Comparación de dos varianzas con muestras independientes . . . . . . . . . . . . . 596.2. Comparación de dos medias con muestras independientes . . . . . . . . . . . . . . . 61

6.2.1. Comparación de dos medias con muestras independientes y varianzas pobla-cionales desconocidas pero iguales . . . . . . . . . . . . . . . . . . . . . . . 61

6.2.2. Comparación de dos medias con muestras independientes y varianzas pobla-cionales desconocidas y distintas . . . . . . . . . . . . . . . . . . . . . . . . 63

6.3. Comparación de dos medias con muestras apareadas . . . . . . . . . . . . . . . . . 64

Page 5: 2011 minitab-15

Contenidos 5

6.4. Comparación de dos proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 656.5. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

7. Contrastes no paramétricos en dos o más poblaciones 737.1. Contraste de homogeneidad con dos o más muestras independientes (Kruskal-Wallis) 737.2. Contraste de homogeneidad con dos o más muestras apareadas (Friedman) . . . . . . 747.3. Contraste chi-cuadrado sobre homogeneidad de dos o más poblaciones . . . . . . . . 757.4. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

Page 6: 2011 minitab-15
Page 7: 2011 minitab-15

1Introducción a MinitabIntroducción a Minitab

1.1. Elementos de Minitab para Windows

Al ejecutar Minitab 15 aparece la pantalla de la Figura 1.Como en cualquier otra aplicación Windows, esta pantalla inicial puede modificarse en cuanto al

tamaño y a la disposición de sus elementos. Se trata de una ventana típica de una aplicación Windowsque, de arriba a abajo, consta de los siguientes elementos:

En la primera línea aparece la barra de título con el nombre de la ventana y los botones deminimizar, maximizar y cerrar.

En la segunda línea está la barra de menús con los 10 menús que luego comentaremos.

Las líneas tercera y cuarta conforman la barra de herramientas donde, mediante botones con ico-nos, se representan algunas de las operaciones más habituales. Si pasamos el puntero del ratónpor cualquiera de ellos, aparecerá en la pantalla un texto indicando la función que se activa.

Después aparece la ventana de sesión (Session). Es la parte donde aparecen los resultados de losanálisis realizados. También sirve para escribir instrucciones, como forma alternativa al uso delos menús.

A continuación tenemos la hoja de datos (Worksheet). Tiene el aspecto de una hoja de cálculo, confilas y columnas. Las columnas se denominan C1, C2, . . ., tal como está escrito, pero tambiénse les puede dar un nombre, escribiéndolo debajo de C1, C2, . . . Cada columna es una variabley cada fila corresponde a una observación o caso.

En la parte inferior aparece (minimizada) la ventana de proyecto (Proyect Manager). En Minitabun proyecto incluye la hoja de datos, el contenido de la ventana de sesión, los gráficos que sehayan realizado, los valores de las constantes y de las matrices que se hayan creado, etc.

Para activar la ventana de sesión (Session) podemos hacer clic sobre ella o podemos hacer clicsobre su icono en la barra de herramientas (primer icono de la Figura 2). Para activar la hoja dedatos (Worksheet) podemos hacer clic sobre ella o podemos hacer clic sobre su icono en la barra de

7

Page 8: 2011 minitab-15

8 Dra. Josefa Marín Fernández

Figura 1: Pantalla inicial de Minitab 15

herramientas (segundo icono de la Figura 2). Para activar la ventana de proyecto (Proyect Manager)podemos maximizarla o podemos hacer clic sobre su icono en la barra de herramientas (tercer iconode la Figura 2).

Figura 2: Iconos para activar las ventanas de sesión, de datos o de proyecto

1.2. Barra de menús

A continuación se da un resumen de lo que se puede encontrar en la barra de menús:

File: Mediante este menú se pueden abrir, crear o grabar los diferentes archivos que Minitab emplea,ya sean de datos, instrucciones, resultados o procesos. Igualmente, es posible controlar las tareasde impresión.

Edit: Permite realizar las tareas habituales de edición: modificar, borrar, copiar, pegar, seleccionar,etc.

Page 9: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 9

Data: Este menú permite, entre otras cosas, efectuar modificaciones en los archivos de datos: extraerun subconjunto de datos, apilar y desapilar, ordenar, codificar, etc.

Calc: Aquí se encuentran todas las opciones relativas a la modificación y generación de nuevas varia-bles, cálculo de los estadísticos, introducción de datos por patrón, cálculo de las distribucionesde probabilidad, etc.

Stat: Mediante este menú se accede a los diferentes análisis estadísticos que se pueden realizar conlos datos.

Graph: Permite la creación y edición de diversos tipos de gráficos. Algunos de ellos son tambiénaccesibles a través de determinadas técnicas estadísticas.

Editor: Tiene distintas opciones según esté activada la ventana de sesión o la hoja de datos. Conla ventana de sesión activada permite, por ejemplo, que se pueda escribir en dicha ventana enlenguaje de comandos.

Tools: Entre otras cosas, permite personificar la barra de herramientas y la barra de menús.

Windows: Dispone de las funciones habituales para controlar las ventanas.

Help: Proporciona ayuda al usuario en el formato típico de Windows.

Para salir del programa se selecciona la opción File ⇒Exit o se pulsa el botón de la esquina superiorderecha: × .

1.3. Entrada de datos

Antes de realizar ningún análisis estadístico es necesario tener un conjunto de datos en uso, paralo cual podemos proceder de cuatro formas:

Escribirlos a través del teclado.

Obtenerlos desde un archivo.

Pegarlos.

Generarlos por patrón o de forma aleatoria.

Para introducir datos a través del teclado, activamos, en primer lugar, la ventana de datos. En laparte superior aparece C1, C2, C3, . . . y debajo un espacio en blanco para poner el nombre de cadavariable. La flechita del extremo superior izquierdo de la hoja de datos señala hacia dónde se mueveel cursor al pulsar la tecla

�� ��Intro . Por defecto apunta hacia abajo,�� ��↓ ; si se hace clic sobre ella, apuntará

hacia la derecha, �� ��→ . Para escribir datos por columna no hay más que situarse en la casilla del caso 1,teclear el dato y pulsar la tecla

�� ��Intro . La casilla activa se moverá hacia abajo. Si tecleamos datos queno son numéricos podemos observar que junto a CJ aparece un guión y la letra T (es decir, CJ −T ),lo que significa que Minitab reconoce que la variable es cualitativa (o de texto).

Por ejemplo, podemos introducir los datos de la Figura 3, correspondientes a las calificaciones deuna muestra de 8 alumnos en un determinado examen y el tiempo empleado en realizar dicho examen.

Si el nombre de la variable (columna) no es suficientemente explicativo, podemos escribir unadescripción de la variable para poder consultarla en cualquier momento. Para ello, hacemos clic sobre

Page 10: 2011 minitab-15

10 Dra. Josefa Marín Fernández

Figura 3: Ejemplo para introducir datos a través del teclado

el nombre de la variable (o sobre su número de columna: CJ); pulsamos con el botón derecho delratón y seleccionamos Column⇒Description.

Para cambiar el formato de una variable (columna) numérica, hacemos clic sobre el nombre de lavariable (o sobre su número de columna: CJ); pulsamos con el botón derecho del ratón y selecciona-mos Format Column⇒Numeric. Esta opción es importante, por ejemplo, para cambiar el número dedecimales que se muestran en la hoja de datos.

Una hoja de datos puede contener hasta 4 000 columnas, 1 000 constantes y hasta 10 000 000 defilas, dependiendo de la memoria que tenga el ordenador.

1.4. Grabación de datos

Una vez introducidos los datos, éstos pueden guardarse en un archivo para poder ser utilizados encualquier otro momento.

Para guardar únicamente la hoja de datos hay que seleccionar File⇒Save Current Worksheet As (sivamos a grabar el archivo de datos por primera vez y, por tanto, vamos a ponerle un nombre a dichoarchivo) ó File⇒Save Current Worksheet (si el archivo de datos ya tiene nombre pero queremos guardarlos últimos cambios realizados). Por ejemplo, podemos guardar los datos de la Figura 3 en un archivoque denominaremos Notas_Tiempo.mtw. Para ello, elegimos la opción File⇒Save Current Worksheet As;en Guardar en seleccionamos la carpeta en la que vamos a grabar esta hoja de datos; en Nombre escribi-mos Notas_Tiempo (Minitab le asigna automáticamente la extensión .mtw) y, por último, pulsamos enGuardar.

Si queremos grabar toda la información (la hoja de datos, el contenido de la ventana de sesión, losgráficos que se hayan realizado, los valores de las constantes y de las matrices que se hayan creado,etc.) usaremos la opción File⇒Save Project As (si vamos a grabar el proyecto de Minitab por primeravez y, por tanto, vamos a ponerle un nombre a dicho archivo) ó File⇒Save Project (si el proyecto yatiene nombre pero queremos guardar los últimos cambios realizados). Es muy importante diferenciarentre archivos de datos (.mtw) y archivos de proyectos (.mpj).

También se puede guardar solamente la ventana de sesión. Para ello, la activamos y seleccionamosla opción File⇒Save Session Windows As.

Page 11: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 11

1.5. Lectura de datos

Un archivo sólo puede ser recuperado de la forma en que fue grabado. Si se ha grabado como hojade datos (.mtw) se recupera con la opción File⇒Open Worksheet. Si se ha grabado como proyecto deMinitab (.mpj) se recupera con la opción File⇒Open Proyect.

Normalmente los archivos de datos de Minitab 15 se encuentran en C:\Archivos de programa\Minitab15\English\Sample Data y, como ya sabemos, llevan la extensión .mtw.

Por ejemplo, podemos abrir el archivo de datos Pulse.mtw. Su contenido fue recogido en una clasede 92 alumnos. De cada estudiante se observó su pulso antes de correr, Pulse1; su pulso después decorrer, Pulse2; si corrió o no, Ran (1=Sí corrió, 2=No corrió); si es fumador o no, Smokes (1=Sí fuma,2=No fuma); el sexo, Sex (1=Hombre, 2=Mujer); su altura en pulgadas, Height; su peso en libras,Weight; y su nivel de actividad física, Activity (0=Ninguna actividad física, 1=Baja, 2=Media, 3=Alta).Se puede encontrar más información de este archivo de datos con la opción Help⇒Help⇒Indice. Bajola frase Escriba la palabra clave a buscar se teclea Pulse.mtw y después se hace clic en Mostrar o se hacedoble clic sobre el nombre de dicho archivo.

Con la opción File⇒Open Worksheet se pueden leer otros tipos de archivos de datos, como hojasde cálculo de Excel, Lotus 1-2-3, dBase, etc. Para tener información más detallada sobre el tipo dearchivos que se pueden leer, se puede seleccionar File⇒Open Worksheet y, en el cuadro de diálogoresultante, se hace clic sobre Ayuda.

1.6. Opciones principales del menú Calc

Si queremos que en la ventana de sesión (Session) aparezcan los comandos que va a utilizar Minitaben las opciones que vamos a explicar en los siguientes apartados, activamos la ventana de sesión yluego seleccionamos Editor⇒Enable Commands.

1.6.1. Operaciones por filas mediante la opción Calc⇒Calculator

En este apartado vamos a ver el modo de generar nuevas variables mediante transformacionesefectuadas sobre los valores de las variables ya definidas.

Para practicar esta opción tendremos abierto el archivo de datos Pulse.mtw.En la Tabla 4 se encuentran recogidos los operadores aritméticos, relacionales y lógicos que están

permitidos. Tanto las expresiones aritméticas como las lógicas se evalúan de izquierda a derecha.Todas las expresiones entre paréntesis se evalúan antes que las que están fuera de los paréntesis y antevarios operadores en el mismo nivel, el orden de preferencia (de mayor a menor) es el que figura enla Tabla 4 (de arriba hacia abajo).

Para construir una nueva variable mediante transformaciones de otras ya existentes, se tiene queelegir la opción Calc ⇒Calculator, con lo que se abre una ventana que tiene cinco partes fundamentales:arriba a la derecha está el lugar para escribir el nombre de la nueva variable (Store result in variable), ala izquierda aparece la lista de variables y constantes existentes, a la derecha está el lugar destinado ala definición de la nueva variable (Expression), debajo hay una calculadora y la lista de funciones quese pueden utilizar (Functions).

En primer lugar se asigna un nombre a la variable que queremos generar, escribiendo el mismo enel cuadro Store result in variable. Normalmente se va a tratar de una variable nueva, pero también cabe

Page 12: 2011 minitab-15

12 Dra. Josefa Marín Fernández

() Paréntesis

∗∗ Exponenciación

∗ Multiplicación

/ División

+ Suma

− Resta

(a) Operadores aritméticos

< Menor que

> Mayor que

<= Menor o igual que

>= Mayor o igual que

= Igual que

<> No igual que

(b) Operadores relacionales

AND Operador Y

OR Operador O

NOT Operador NO

(c) Operadores lógicos

Tabla 4: Operaciones aritméticas, relacionales y lógicas

la posibilidad de especificar una de las ya existentes. En tal caso la modificación consistirá en sustituirlos valores antiguos de la variable con los nuevos resultantes de la transformación numérica que seefectúe.

Una vez que se ha asignado el nombre a la variable, el siguiente paso es definir la expresión que vaa permitir calcular los valores de la misma. Tal expresión se escribe en el cuadro Expression y puedeconstar de los siguientes elementos: nombres de variables del archivo original, constantes, operadoresy funciones. Para escribir dicha expresión, se puede teclear directamente pero es recomendable em-plear la calculadora, la lista de variables y constantes y la lista de funciones (haciendo clic dentrodel recuadro Expression y haciendo doble clic sobre la variable, sobre la constante o sobre la función).Una vez que hemos terminado de escribir la expresión, pulsamos en OK.

Por ejemplo, del archivo de datos Pulse.mtw vamos a calcular la media geométrica de las variablesPulse1 y Pulse2 (raíz cuadrada del producto de ambas variables; es decir, producto de ambas variableselevado a 1/2). Para ello, seleccionamos la opción Calc⇒Calculator; en Store result in variable tenemosque teclear la posición de la columna que contendrá los resultados (una columna, CJ, que esté vacía)o el nombre que queremos darle a dicha columna.

En este cuadro de diálogo (en realidad, en todos los cuadros de diálogo de Minitab), cuando hayaque escribir el nombre de una nueva variable (columna) y el nombre contenga espacios en blanco,guiones, paréntesis, etc., entonces hay que escribirlo entre comillas simples. La comilla simplesuele estar en la misma tecla que el símbolo de cerrar interrogación.

En nuestro ejemplo, junto a Store result in variable vamos a teclear ‘Media geométrica Pulse1 Pulse2’.En Expression tenemos que colocar (utilizando, como hemos dicho, la calculadora y la lista de va-riables) la operación que se realiza para determinar la media geométrica indicada: (‘Pulse1’ *‘Pulse2’)**(1 / 2). Por último, pulsamos en OK.

1.6.2. Operaciones por columnas mediante la opción Calc⇒ColumnStatistics

La opción Calc⇒Column Statistics calcula, para una columna (variable), uno de los estadísticossiguientes:

Sum suman∑

i=1

xi

Page 13: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 13

Mean media aritmética x =

n∑i=1

xi

n

Standard deviation desviación típica corregida S =

√√√√√n∑

i=1

(xi − x)2

n− 1

Minimum mínimo dato xmin

Maximum máximo dato xmax

Range recorrido total R = xmax − xmin

Median mediana=valor que deja por debajo de él el 50 % de los datos

Sum of squares suma de cuadradosn∑

i=1

x2i

N total número total de casos=N nonmissing+N missing

N nonmissing número de casos para los cuales sabemos el resultado de la variable = n

N missing número de casos para los cuales no sabemos el resultado de la variable

El resultado del estadístico calculado se puede almacenar (opcionalmente) en una constante, si loindicamos en Store result in.

Por ejemplo, del archivo de datos Pulse.mtw vamos a determinar la desviación típica corregida delos datos de la columna Height y vamos a guardar el resultado en una constante que vamos a denominardesv-Altura. Para ello, seleccionamos Calc⇒Column Statistics; activamos la opción Standard deviation;hacemos clic en el recuadro que hay a la derecha de Input variable y seleccionamos (haciendo dobleclic sobre su nombre) la columna Height; en Store result in tecleamos ‘desv-Altura’ (con comillas simples,al principio y al final, por llevar guiones) y pulsamos en OK. Minitab guarda esta constante tambiéncomo K1 (o, en general, KJ , con J = 1, 2, 3, . . .). Esta constante se puede consultar, en cualquiermomento, en la ventana Proyect Manager (concretamente, en Worksheets\Pulse.mtw\Constants) y puedeser utilizada en cálculos posteriores.

�� ��Importante No es posible cambiar el número de decimales de los resultados que aparecen en la ventanade sesión. Hay una forma de aumentar el número de decimales de un resultadosolamente en el caso en que sea posible almacenar dicho resultado en una constante; es decir,si en el cuadro de diálogo en el cual estamos solicitando a Minitab que calcule dicho resultadoaparece la opción de guardar el resultado. Si, por ejemplo, tenemos guardado un resultado enla constante K1 y queremos tener una precisión de 6 decimales, hacemos lo siguiente: selec-cionamos Data⇒Copy⇒Constants to Column; hacemos clic en el recuadro que hay debajo deCopy from constants y seleccionamos (haciendo doble clic sobre su nombre) la constante K1;en In current worksheet, in column tenemos que teclear la posición de la columna que contendráel resultado (una columna, CJ, que esté vacía) o el nombre que queremos darle a dicha columna.

Page 14: 2011 minitab-15

14 Dra. Josefa Marín Fernández

Recordemos que si el nombre contiene espacios en blanco, guiones, paréntesis, etc., hay queescribirlo entre comillas simples. Si hemos puesto un nombre a esta columna, desactivamos Na-me the column containing the copied data. Por último, pulsamos en OK. Una vez que tenemos laconstante K1 copiada en una columna, podemos cambiar su formato como hemos visto ante-riormente: hacemos clic sobre el nombre de la variable (o sobre su número de columna: CJ );pulsamos con el botón derecho del ratón; seleccionamos Format Column⇒Numeric; activamosFixed decimal; en Decimal places tecleamos 6 y pulsamos en OK.

1.6.3. Operaciones por filas mediante la opción Calc⇒Row Statistics

La opción Calc⇒Row Statistics calcula los mismos estadísticos del apartado anterior, pero por filas,en vez de por columnas. En este caso, a diferencia del anterior, es totalmente necesario rellenar elrecuadro Store result in ya que los resultados forman una nueva variable o columna.

Por ejemplo, del archivo de datos Pulse.mtw vamos a hallar la media aritmética (por filas) de lavariables Pulse1 y Pulse2 y guardar los resultados en una nueva columna (variable) que denominaremosMedia aritmética Pulse1 Pulse2. Para ello, seleccionamos Calc⇒Row Statistics; activamos la opción Mean;hacemos clic en el recuadro que hay debajo de Input variables y seleccionamos (haciendo doble clicsobre sus nombres) las columnas Pulse1 y Pulse2; en Store result in tecleamos ‘Media aritmética Pulse1Pulse2’ (con comillas simples, al principio y al final, por tener espacios en blanco) y pulsamos en OK.

Las operaciones realizadas con esta opción también pueden realizarse mediante Calc⇒Calculator.

1.6.4. Tipificación de datos

Esta opción se entenderá mejor cuando estudiemos la tipificación de una variable aleatoria Normal(Tema 6).

Con la opción Calc⇒Standardize se calcula, en una nueva columna (variable), los datos tipificadoso estandarizados de una de las columnas de nuestra hoja de datos. Hay varias formas de tipificar losdatos pero la más usual es la siguiente: Si xi son los datos de la muestra, x es la media (aritmética)y s es la desviación típica, los datos tipificados o estandarizados son zi = (xi − x)/s. Esto se logradejando activada la opción subtract mean and divide by standard deviation.

Por ejemplo, vamos a crear una nueva variable (columna), que denominaremos Pulse1 Tipificada, quecontendrá los datos de Pulse1 tipificados. Para ello, seleccionamos Calc⇒Standardize; en Input columnsseleccionamos (haciendo doble clic sobre su nombre) la columna Pulse1; en Store results in tecleamos‘Pulse1 Tipificada’ (con comillas simples, al principio y al final, por tener espacios en blanco); dejamosactivada la opción Substract mean and divide by standard deviation y pulsamos en OK.

Las operaciones realizadas con esta opción también pueden realizarse mediante Calc⇒Calculator.

1.6.5. Creación de datos por patrón

Con la opción Calc⇒Make Patterned Data se generan datos siguiendo un determinado patrón.Por ejemplo, si queremos generar una lista de los siguientes 100 números: 0′01, 0′02, 0′03, . . ., 1,

seguiremos los siguientes pasos:Como estos datos no tienen nada que ver con los datos del archivo Pulse.mtw, abrimos una nueva

hoja de datos con la opción File⇒New. En el cuadro de diálogo que aparece seleccionamos Minitab

Page 15: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 15

Woorksheet. A esta nueva hoja de datos Minitab le asignará el nombre Worksheet J , siendo J unnúmero natural. Luego podemos cambiarle el nombre con la opción File⇒Save Current Worksheet As.Seleccionamos, a continuación, la opción Calc⇒Make Patterned Data⇒Simple Set of Numbers. En Storepatterned data in podemos teclear C1 o un nombre, por ejemplo ‘Patrón entre 0 y 1’ (con comillas simples,al principio y al final, por tener espacios en blanco). En From first value tecleamos 0,01, en To last valueescribimos 1 y en In steps of ponemos 0,01. Tanto en List each value como en List the whole sequence deja-mos lo que está puesto por defecto, que es 1. Una vez obtenida la nueva columna vamos a denominarEjemplo_Practica_1.mtw a la nueva hoja de datos utilizando la opción File⇒Save Current Worksheet As.

1.6.6. Creación de resultados aleatorios de una distribución conocida

La utilidad principal de esta opción la veremos en el capítulo 3.En Minitab podemos generar datos de distribuciones usuales utilizando la opción Calc⇒Random

Data.Por ejemplo, en el archivo de datos Ejemplo_Practica_1.mtw vamos a generar 100 datos de una dis-

tribución Uniforme en el intervalo (0, 1) (es decir, 100 números aleatorios comprendidos entre 0 y 1).Para ello, seleccionamos la opción Calc⇒Random Data⇒Uniform; en Number of rows of data to generateponemos 100; en Store in column escribimos el nombre de la nueva columna: ‘100 datos de U(0,1)’ (concomillas simples, al principio y al final, por tener espacios en blanco y paréntesis); en Lower endpointtecleamos 0 y en Upper endpoint escribimos 1.

1.7. Opciones principales del menú Data

Sólo se explicarán algunas de las opciones más utilizadas del menú Data. En el cuadro de diálogode cada opción existe un botón Help que la explica bastante bien.

1.7.1. Apilamiento de columnas

Con la opción Data⇒Stack⇒Columns se pueden apilar varias columnas en una sola. Opcionalmentese puede indicar de qué columna procede cada valor mediante una nueva variable (subíndices). Si nose hace esta indicación no se podrá identificar la procedencia de cada dato.

Para practicar esta opción vamos a apilar los datos de la columna Patrón entre 0 y 1 y de la colum-na 100 datos de U(0,1) del archivo de datos Ejemplo_Practica_1.mtw. Para ello, seleccionamos la opciónData⇒Stack⇒Columns; activamos el recuadro Stack the following columns y seleccionamos (haciendodoble clic sobre sus nombres) las dos columnas que queremos apilar: ‘Patrón entre 0 y 1’ ‘100 datos deU(0,1)’; en Store stacked data in activamos la opción Column of current worksheet y tecleamos la posiciónde una columna que esté vacía, por ejemplo, C3. En Store subscripts in tecleamos la posición de lacolumna en la que queremos guardar la procedencia de cada dato, por ejemplo, C4. Es convenientedejar activada la opción Use variable names in subscript column.

Page 16: 2011 minitab-15

16 Dra. Josefa Marín Fernández

1.7.2. Desapilamiento de columnas

La opción Data⇒Unstack columns permite separar una columna en varias según los valores de lacolumna de alguna variable (que contiene los subíndices). Esta opción es la contraria de la explicadaen el apartado anterior.

Por ejemplo, de la hoja de datos Pulse.mtw vamos a desapilar los resultados de la variable Pulse2(pulso después de correr) según los resultados de la variable Ran (¿corrió o no?). Para ello, selec-cionamos Data⇒Unstack Columns; en Unstack the data in seleccionamos (haciendo doble clic sobre sunombre) la variable o columna Pulse2; en Using subscripts in seleccionamos (haciendo doble clic sobresu nombre) la columna que contiene la procedencia de cada dato, que es Ran; en Store unstacked data inactivamos la opción After last column in use y dejamos activado Name the columns containing the unstakeddata.

1.7.3. Ordenación de los datos

La opción Data⇒Sort ordena los datos de una columna según los resultados de una o varias colum-nas. Lo normal es ordenar una columna según los resultados de dicha columna. Esto es lo que vamosa explicar.

Por ejemplo, en la hoja de datos Pulse.mtw vamos a crear una nueva variable (columna), designadapor Pulse1 ordenado, que contenga los resultados de la variable Pulse1 ordenados de menor a mayor.Para ello, seleccionamos Data⇒Sort; en Sort column seleccionamos (haciendo doble clic sobre su nom-bre) la variable Pulse1; en By column volvemos a seleccionar la misma columna. Si dejamos desactivadala opción Descending la ordenación se hará de menor a mayor resultado, que es lo que queremos. EnStore sorted data in activamos Column of current worksheet y tecleamos el nombre que queremos ponerlea dicha columna: ‘Pulse1 ordenado’ (con comillas simples, al principio y al final, por tener espacios enblanco).

Tenemos que tener cuidado con la ordenación de columnas debido a que los resultados de estanueva variable no guardan correspondencia con los casos originales. Por ejemplo, la primera personaobservada tiene un pulso antes de correr (resultado de Pulse1) igual a 64 pulsaciones por minuto, no 48pulsaciones por minuto, como nos ha salido en el primer lugar de la columna Pulse1 ordenado. Comopodemos observar, el menor valor de Pulse1 es 48 y el mayor valor es 100.

1.7.4. Codificación o clasificación de datos

La opción Data⇒Code permite la clasificación o codificación de los datos de una columna. Sepuede codificar transformando datos numéricos en datos numéricos, datos numéricos en datos detexto, datos de texto en datos de texto, datos de texto en datos numéricos, etc.

Por ejemplo, con la hoja de datos Pulse.mtw podemos codificar la variable Pulse1 de la forma si-guiente:

intervalo de Pulse1 nueva categoría

[48,65] Pulso bajo

(65,83] Pulso medio

(83,100] Pulso alto

Page 17: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 17

Para ello, seleccionamos Data⇒Code⇒Numeric to Text. En Code data from columns seleccionamos(haciendo doble clic sobre su nombre) la variable Pulse1. En Store coded data in column escribimos elnombre la nueva variable, por ejemplo, ‘Codificación de Pulse1’ (con comillas simples, al principio y alfinal, por tener espacios en blanco). En la primera línea de Original values escribimos 48:65 (todos losresultados comprendidos entre 48, incluido, y 65, incluido) y en la primera línea de New escribimosPulso bajo. En la segunda línea de Original values escribimos 65:83 (todos los resultados comprendidosentre 65, sin incluir, y 83, incluido) y en la segunda línea de New escribimos Pulso medio. En la terceralínea de Original values escribimos 83:100 (todos los resultados comprendidos entre 83, sin incluir, y100, incluido) y en la tercera línea de New escribimos Pulso alto.

1.8. Algo más sobre la ventana Session

Ya hemos visto que una de las utilidades de la ventana de sesión es la de servir para la presentaciónde los comandos aplicados en cada opción de las que hemos realizado. Además, podemos repasarresultados obtenidos con anterioridad moviéndonos hacia arriba en dicha ventana. Los resultadosincluidos en la ventana de sesión pueden grabarse como un archivo de texto (.txt) activando dichaventana y seleccionando File⇒Save Session Window As. También podemos usar las opciones de marcar,copiar y pegar para pasar los resultados obtenidos a editores de texto. Además, es posible imprimirtodos sus contenidos activando dicha ventana y seleccionando File⇒Print Session Window.

Una vez seleccionada la ventana de sesión, la activación de la opción Editor⇒Enable Commandspermite ejecutar los comandos de Minitab. Por ejemplo, si tecleamos en la ventana de sesión (trasMTB >) Mean C1 y pulsamos el botón

�� ��Intro , el programa calcula media aritmética de los datos de lacolumna C1 de la hoja de datos activa. Si escribimos Let K2=1/3 y pulsamos el botón

�� ��Intro , el programaguarda el valor 1/3 en la correspondiente constante. Si tecleamos ahora Print K2, el programa nos da elvalor de dicha constante.

Lógicamente, es más sencillo el manejo de Minitab utilizando los menús, pero los comandospueden incorporarse posteriormente a los programas (macros) que construyamos. Además, una vezhabilitado el lenguaje de comandos, cuando ejecutemos una opción del menú, ésta se escribirá en laventana de sesión, con lo que podremos ver cuál es la sintaxis concreta del comando que queremosutilizar.

Para que el contenido de la ventana de sesión pueda modificarse, debemos activar dicha ventana yseleccionar Editor⇒Output Editable, con lo que podemos rectificar fácilmente cualquier error, modificarcomandos ejecutados anteriormente o simplemente preparar los resultados para ser imprimidos.

Una vez activada la opción Editor⇒Output Editable, la ventana de sesión es el lugar en el que seejecutan los macros o programas, tanto los que construyamos nosotros como los que incluye Minitabo los realizadas por otros usuarios. Los macros llevan la extensión .mac y normalmente están incluidosen el directorio C:\Archivos de programa\Minitab 15\English\Macros. En la versión 15 de Minitab sola-mente se incluyen cuatro macros, pues los resultados del resto de los macros de la versión anteriorpueden conseguirse con distintas opciones de los menús.

1.9. Algo más sobre la ventana Proyect Manager

Esta ventana presenta toda la información disponible en forma de directorios. Resulta ser especial-mente útil cuando se maneja una gran cantidad de datos. El directorio Session nos muestra, de forma

Page 18: 2011 minitab-15

18 Dra. Josefa Marín Fernández

resumida y organizada, la información correspondiente a dicha ventana. El directorio History presenta(en lenguaje de comandos) todas las operaciones que hemos realizado. A diferencia de lo que ocu-rría con la ventana de sesión, no sirve para ejecutar comandos ni macros, y en él no se muestran losresultados de la ejecución de los comandos. En este directorio aparece solamente el programa de lasoperaciones que hemos realizado, y su contenido puede consultarse o copiarse directamente para larealización de macros. Los directorios de datos, Worksheets, contienen información sobre las columnas(variables), constantes y matrices manejadas en cada ventana de datos que se esté utilizando. Ade-más, indican el número de datos incluidos en una columna, así como los datos ausentes de la misma(Missing).

1.10. Ejercicios propuestos

Ejercicio 1.1 En la Tabla 5 se muestra el número anual de usuarios de una biblioteca determinada yel número anual de préstamos durante 10 años elegidos al azar.

año usuarios préstamos

1 296 155

2 459 275

3 602 322

4 798 582

5 915 761

6 1145 856

7 1338 1030

8 1576 1254

9 1780 1465

10 2050 1675

Tabla 5

a) Crea un nuevo proyecto de Minitab.b) Introduce los datos (sin incluir, obviamente, la primera columna, que indica el número de

caso). Pon los siguientes nombres a las dos variables: Usuarios y Préstamos. Graba la hojade datos en un archivo denominado Prestamos.mtw

c) Calcula, en una nueva columna, la variable que indica el porcentaje anual de préstamospor usuario, resultado de multiplicar por 100 el resultado de dividir el número anual depréstamos entre el número anual de usuarios. Pon a la nueva variable el siguiente nombre:PPU. Haz que los resultados aparezcan con tres decimales. Pon una etiqueta descriptiva aesta variable. Vuelve a grabar la hoja de datos.

d) Calcula el mínimo y el máximo de la variable PPU.e) Clasifica los datos de la variable PPU en 4 categorías o intervalos de la misma amplitud.

Llama a la nueva variable Intervalos PPU. Las categorías han de denotarse como lo hacemosen las clases de teoría; es decir, [a, b] o (a, b] (sustituyendo, obviamente, a y b por loslímites de los intervalos de clase). Vuelve a grabar la hoja de datos.

Page 19: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 19

f) Graba el proyecto con el siguiente nombre: Ejercicio1-1.mpj

Ejercicio 1.2 En la Tabla 6 aparece el número anual de transacciones de referencia y el número anualde transacciones de referencia finalizadas en 20 biblioteca elegidas al azar.

biblioteca tipo de biblioteca transacciones de referencia transacciones de referencia finalizadas

1 1 11500 9400

2 1 8600 7200

3 1 20400 18100

4 1 5800 4600

5 1 6500 5800

6 1 13700 10900

7 1 12400 11200

8 1 5300 4700

9 1 6700 5600

10 1 15600 12500

11 2 1900 1700

12 2 9600 7800

13 2 8400 6900

14 2 6200 4900

15 2 7700 5900

16 2 5600 4200

17 2 6200 4900

18 2 4800 3500

19 2 3800 2600

20 2 2400 2200

Tabla 6

a) Crea un nuevo proyecto de Minitab.

b) Introduce los datos (sin incluir, obviamente, la primera columna, que indica el númerode caso). Pon los siguientes nombres a las variables: Tipo, TR y TRF. Pon una etiquetadescriptiva a cada variable. En lo que respecta a la variable Tipo hay que dejar claro que elvalor 1 significa biblioteca pública y el valor 2 significa biblioteca universitaria. Graba lahoja de datos en un archivo denominado Transacciones.mtw

c) Crea una nueva variable, denominada Tipo biblioteca, que contenga las categorías de la va-riable Tipo designadas de la siguiente manera: bib. pública (en vez de 1) y bib. universitaria(en vez de 2). Vuelve a grabar la hoja de datos.

d) Calcula, en una nueva columna, la variable que indica el porcentaje de transacciones dereferencia finalizadas, que se determina multiplicando por cien el resultado de dividir elnúmero anual de transacciones de referencia finalizadas entre el número anual de transac-ciones de referencia. Pon a la nueva variable el siguiente nombre: Porcentaje TRF. Haz que

Page 20: 2011 minitab-15

20 Dra. Josefa Marín Fernández

los resultados aparezcan con 5 decimales. Pon una etiqueta descriptiva a esta variable.Vuelve a grabar la hoja de datos.

e) Desapila los resultados de la variable Porcentaje TRF según los resultados de la variableTipo biblioteca. Calcula la media aritmética de estas dos nuevas columnas. Interpreta losresultados.

f) Ordena los datos de la variable Porcentaje TRF en orden creciente. Pon un nombre ade-cuado a la nueva columna. Pon una etiqueta descriptiva a esta columna. A partir de estaordenación determina el valor mínimo y el valor máximo de Porcentaje TRF.

g) Clasifica los datos de la variable Porcentaje TRF en 3 categorías o intervalos de la misma am-plitud. Llama a la nueva variable Intervalos Porcentaje TRF. Las categorías han de denotarsecomo lo hacemos en las clases de teoría; es decir, [a, b] o (a, b] (sustituyendo, obviamente,a y b por los límites de los intervalos de clase). Vuelve a grabar la hoja de datos.

h) Graba el proyecto con el siguiente nombre: Ejercicio1-2.mpj

Page 21: 2011 minitab-15

2Estadística descriptivaEstadística descriptiva

2.1. Distribución de frecuencias

Con Minitab, para determinar la distribución de frecuencias de una (o más variables) utilizamosla opción Stat⇒Tables ⇒Tally Individual Variables.

Para practicar esta opción, podemos abrir el archivo de datos (Worksheet) Pulse.mtw. Recordemosque su contenido fue recogido en una clase de 92 alumnos. De cada estudiante se observó su pulsoantes de correr, Pulse1; su pulso después de correr, Pulse2; si corrió o no, Ran (1=Sí corrió, 2=Nocorrió); si es fumador o no, Smokes (1=Sí fuma, 2=No fuma); el sexo, Sex (1=Hombre, 2=Mujer); sualtura en pulgadas, Height; su peso en libras, Weight; y su nivel de actividad física, Activity (0=Ningunaactividad, 1=Baja, 2=Media, 3=Alta).

Si queremos saber el número de casos (frecuencia absoluta) y el porcentaje de cada una de lascategorías de la variable Activity, utilizamos la opción Stat⇒Tables⇒Tally Individual Variables; en el re-cuadro Variables seleccionamos, de la lista de variables de la izquierda, la columna ‘Activity’ y en Displayactivamos Counts y Percents. Podemos ver, en la ventana de sesión (Session), que hay 21 alumnos connivel alto de actividad física, y que un 66’3 % de ellos tiene un nivel medio de actividad física.

2.2. Estadística descriptiva con la opción Stat ⇒BasicStatistics ⇒Display Descriptive Statistics

En el capítulo anterior vimos que la opción Calc⇒Column Statistics calcula, para una columna (ovariable), uno de los estadísticos siguientes: Sum (suma), Mean (media arimética), Standard deviation(desviación típica corregida), Minimum (mínimo resultado), Maximum (máximo resultado), Range (reco-rrido o amplitud total), Median (mediana), Sum of squares (suma de cuadrados), N total (número total decasos o tamaño muestral), N nonmissing (número de casos para los cuales sabemos el resultado de lavariable) y N mising (número de casos para los cuales no sabemos el resultado de la variable).

A continuación vamos a trabajar con una opción mucho más amplia, que nos permite, entre otrascosas, calcular más de un estadístico y trabajar con más de una variable (columna) a la vez.

21

Page 22: 2011 minitab-15

22 Dra. Josefa Marín Fernández

La opción Stat⇒Basic Statistics⇒Display Descriptive Statistics de Minitab permite obtener los esta-dísticos más importantes de las columnas (variables) de la hoja de datos. También permite calcularlosseparando los valores de una columna según el valor de otra. Además puede realizar una serie degráficas que nos permiten resumir la información contenida en los datos.

Para practicar esta opción, vamos a calcular los estadísticos descriptivos más importantes de lasvariables Pulse1, Height y Weight de la hoja de datos Pulse.mtw. Para ello, seleccionamos Stat⇒BasicStatistics⇒Display Descriptive Statistics y en el recuadro Variables del cuadro de diálogo resultante se-leccionamos, de la lista de columnas que tenemos a la izquierda, las tres variables ‘Pulse1’, ‘Height’ y‘Weight’. A continuación pulsamos en Statistics. Nos aparece un nuevo cuadro de diálogo en el cual sepueden elegir los estadísticos que queremos determinar de las variables que hemos seleccionado enel recuadro Variables. Haciendo clic sobre el botón Help se obtiene información sobre el significado decada uno de estos estadísticos. Los estadísticos que podemos seleccionar son los siguientes:

Mean media aritmética x =

n∑i=1

xi

n

SE of mean error estándar de la mediaSx√n

Standard deviation desviación típica corregida Sx =

√√√√√√n∑

i=1

(xi − x)2

n− 1

Variance varianza corregida S2x

Coefficient of variation coeficiente de variación media CV =sx|x|· 100%

First quartile primer cuartil Q1

Median mediana Me = Q2

Third quartile tercer cuartil Q3

Interquartile range recorrido intercuartílico RI = Q3 −Q1

Trimmed mean media de los datos eliminando el 5 % de los menores y el 5 % de los mayores

Sum suman∑

i=1

xi

Minimum mínimo dato xmin

Maximum máximo dato xmax

Range recorrido o rango R = xmax − xmin

N nonmissing número de casos para los cuales sabemos el resultado de la variable = n

N missing número de casos para los cuales no sabemos el resultado de la variable

N total número total de casos=N nonmissing+N missing

Cumulative N número acumulado de casos (solo cuando se ha rellenado el recuadro By variables)

Percent porcentaje de casos (solo cuando se ha rellenado el recuadro By variables)

Page 23: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 23

Cumulative percent porcentaje acumulado de casos (solo cuando se ha rellenado el recuadro By variables)

Sum of squares suma de cuadradosn∑

i=1

x2i

Skewness coeficiente de asimetría g1 =m3

s3x, con m3 =

n∑i=1

(xi − x)3

n

Kurtosis coeficiente de apuntamiento g2 =m4

s4x− 3, con m4 =

n∑i=1

(xi − x)4

n

MSSD media de los cuadrados de las sucesivas diferencias

Siguiendo con nuestro ejemplo (cálculo de los estadísticos más importantes de las variables Pulse1,Height y Weight), podemos seleccionar todos los estadísticos menos Cumulative N, Percent y Cumulativepercent. Podemos comprobar, por ejemplo, que la suma de los datos de la variable Pulse1 es 6704 y lasuma de los cuadrados de los datos de la misma variable es 499546.

Con la misma hoja de datos (Pulse.mtw) podemos calcular los estadísticos de la variable Pulse2(Pulso después de correr) separando sus resultados según los valores de la variable Ran (¿corrió o nocorrió?). Para ello, seleccionamos Stat⇒Basic Statistics⇒Display Descriptive Statistics; en el recuadroVariables del cuadro de diálogo resultante seleccionamos la variable ‘Pulse2’; y en By variables (Optional)seleccionamos la variable ‘Ran’. En consecuencia, en la ventana de sesión aparecen los resultadosde los mencionados estadísticos de la variable Pulse2 separados para cada grupo de resultados de lavariable Ran. Por ejemplo, podemos comprobar que para el grupo de personas que sí corrió (Ran=1) lamedia del pulso es 92′51 y la mediana es 88, mientras que para el grupo de personas que no corrió(Ran=2) la media del pulso es 72′32 y la mediana es 70.

2.3. Representaciones gráficas con la opción Stat⇒Basic Statistics ⇒Display Descriptive Statistics

El botón Graphs del cuadro de diálogo que aparece con la opción Stat⇒Basic Statistics⇒DisplayDescriptive Statistics permite elegir alguno de los siguientes gráficos (por defecto no se realiza ninguno)de las variables que hemos seleccionado en el recuadro Variables:

Histogram of data o histograma, que agrupa los datos en intervalos, representando sobre ellos rec-tángulos de área proporcional a la frecuencia absoluta de cada intervalo;

Histogram of data, with normal curve o histograma al que se le superpone la curva de la distribu-ción normal de media igual a media muestral de la variable seleccionada y desviación típicaigual a la desviación típica corregida muestral de dicha variable;

Individual value plot o gráfico de valores individuales, que representa los datos en forma de puntos,y

Page 24: 2011 minitab-15

24 Dra. Josefa Marín Fernández

Boxplot of data o diagrama caja-bigote, que representa los valores mínimo y máximo (extremosde los bigotes), los cuartiles Q1 y Q3 (extremos de la caja) y la mediana. Dentro de la cajatendremos el 50 % de los datos de la muestra y en cada bigote tendremos el 25 % de los datosmás extremos. Este último tipo de gráfico nos permite visualizar tanto el valor central comola dispersión de los datos, y es muy útil a la hora de comparar datos de distintas muestras ogrupos.

Por ejemplo, con la hoja de datos Pulse.mtw vamos a dibujar el histograma (con la curva normalsuperpuesta) de la variable Height.

2.4. Representaciones gráficas con la opción Graph

Además de los gráficos que se obtienen con la Stat⇒Basic Statistics⇒Display Descriptive Statistics,podemos crear representaciones gráficas con el menú Graph.

Una opción importante de todos los gráficos creados a través del menú Graph es que haciendo clicsobre ellos con el botón derecho del ratón y activando la opción Update Graph Automatically del menúcontextual que aparece, el gráfico cambia automáticamente al modificar los datos con que se hanconstruido (ya sea añadiendo, modificando o eliminando).

2.4.1. Histograma

Se puede obtener el histograma de una variable con la opción Graph⇒Histogram. Esta opción ofrece4 tipos: Simple, With Fit, With Outline and Groups y With Fit and Groups.

Por ejemplo, podemos hacer el histograma simple de la variable Weight de la hoja de datos Pul-se.mtw. Para ello, seleccionamos la opción Graph⇒Histogram. De las cuatro opciones que aparecenseleccionamos Simple. En el cuadro de diálogo resultante seleccionamos la variable ‘Weight’ para po-nerla en el recuadro Graph variables. Podemos cambiar el aspecto que tendría el gráfico por defecto,pulsando en los botones que aparecen en este cuadro de diálogo: Scale, Labels, Data View, Multiple Graphsy Data Options. Para más información sobre las acciones de estos botones, pulsar el botón Help del mis-mo cuadro de diálogo. En principio, podríamos dejar todas las opciones por defecto a la hora derealizar este primer histograma.

El histograma resultante podemos copiarlo en el portapapeles, haciendo clic sobre el gráfico conel botón derecho del ratón y seleccionando, del menú contextual que resulta, la opción Copy Graph.De esta manera, podríamos pegarlo en otro programa bajo Windows, por ejemplo, uno de edición degráficos. También podemos almacenarlo en la ventana de proyecto, Proyect Manager (concretamente enel directorio ReportPad) haciendo clic sobre el gráfico con el botón derecho del ratón y seleccionando,del menú contextual que resulta, la opción Append Graph to Report. También tenemos la posibilidad degrabarlo en varios formatos (gráfico propio de Minitab, mgf, jpg, png, bmp, etc.). Para ello solo tenemosque cerrar el gráfico (botón × ) y pulsar en Sí cuando Minitab nos pregunte si queremos guardar elgráfico en un archivo aparte.

Una vez obtenido el histograma es posible cambiar su aspecto. Para ello, hacemos doble clic sobrela parte del gráfico que queremos cambiar. Aparece, entonces, una nueva ventana que nos permitehacer dicha transformación. Los cambios más usuales son: cambio en la escala del eje horizontal,cambio en el eje vertical, aspecto de las barras, intervalos sobre los que se sitúan las barras, aspectode la ventana del gráfico y cambio en las proporciones del gráfico. Para practicar con estas opciones

Page 25: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 25

vamos a cambiar el histograma simple de la variable Weight de la hoja de datos Pulse.mtw de la siguientemanera:

Que el título sea Histograma de la variable ‘Peso’, en letra Arial, cursiva, negrita, de color azuloscuro y con un tamaño de 10 puntos.

Que las barras sean de color azul claro con una trama de relleno oblicua y con los bordes decolor azul oscuro.

Que haya 7 intervalos de la misma amplitud y que en el eje horizontal aparezcan los límites delos intervalos (no los puntos medios).

Que el texto del eje horizontal sea Peso de los alumnos, en libras, en letra Arial, cursiva, nonegrita, de color azul oscuro y con un tamaño de 9 puntos.

Que en el eje vertical se muestren 13 marcas (ticks), en letra Arial, de color azul oscuro y conun tamaño de 8 puntos.

Que el texto del eje vertical sea Frecuencia absoluta, en letra Arial, cursiva, no negrita, de colorazul oscuro y con un tamaño de 9 puntos.

2.4.2. Diagrama de sectores o de pastel

Este gráfico resume los datos de una columna contando el número de datos iguales y represen-tándolos mediante sectores proporcionales al número de datos de cada clase. Se utiliza con datoscualitativos o de tipo discreto con pocos resultados distintos. Se obtiene con la opción Graph⇒PieChart.

Por ejemplo, podríamos hacer el diagrama de sectores de los datos de la columna Activity de lahoja de datos Pulse.mtw. Para ello, en el cuadro de diálogo que resulta al seleccionar Graph⇒Pie Chart,dejamos activada la opción Chart counts of unique values y seleccionamos la columna ‘Activity’ en elrecuadro Categorical variables. Podemos cambiar el aspecto que tendría el gráfico por defecto, pulsandoen los botones que aparecen en este cuadro de diálogo: Pie Options, Labels, Multiple Graphs y Data Options.En principio, podríamos dejar todas las opciones por defecto a la hora de realizar este primer diagramade sectores.

Igual que ocurría con el histograma, una vez obtenido el diagrama de sectores podemos copiarloen el portapapeles, o almacenarlo en el directorio ReportPad de la ventana Proyect Manager, o grabarloen un archivo aparte. También es posible cambiar su aspecto una vez obtenido, haciendo doble clicsobre la parte del gráfico que queremos cambiar. Para practicar vamos a cambiar el anterior gráficode sectores de la siguiente manera:

Que el título sea Gráfico de sectores de la variable ‘Actividad Física’, en letra Verdana, cursiva,negrita, de color rojo oscuro y con un tamaño de 10 puntos.

Que junto a los sectores circulares aparezca la frecuencia absoluta y el porcentaje de cadacategoría (clic sobre uno de los sectores circulares con el botón derecho del ratón, opción Add,Slice Labels).

Vamos a aprender a hacer un diagrama de sectores cuando tenemos en una columna las categoríasde una variable y en otra columna las frecuencias absolutas de dichas categorías. Por ejemplo, vamos

Page 26: 2011 minitab-15

26 Dra. Josefa Marín Fernández

Figura 7: Idioma de los libros de una biblioteca

a realizar el diagrama de sectores de los datos de la Figura 7, correspondientes a los idiomas en queestán escritos los libros de los estantes de una determinada biblioteca.

Como estos datos no tienen nada que ver con los datos del archivo Pulse.mtw, abrimos una nuevahoja de datos con la opción File⇒New. En el cuadro de diálogo que aparece seleccionamos MinitabWoorksheet. A esta nueva hoja de datos Minitab le asignará el nombre Worksheet J , siendo J unnúmero natural. A continuación introducimos los datos tal como se muestra en la Figura 7. Luegoguardamos esta hoja de datos con el nombre IdiomaLibros.mtw (File⇒Save Current Worksheet As). Paradibujar el diagrama de sectores seleccionamos Graph⇒Pie Chart. En el cuadro de diálogo resultante,activamos la opción Chart values from a table; seleccionamos la columna ‘Idioma’ en el recuadro Catego-rical Variable; seleccionamos la columna ‘No de estantes’ en el recuadro Summary variables y pulsamos enOK. Como ya sabemos, podemos modificar este gráfico.

2.4.3. Diagrama de barras

2.4.3.1. Diagrama de barras simple

Este tipo de gráfico se utiliza con datos cualitativos o de tipo discreto con pocos resultados distin-tos. El diagrama de barras se construye colocando en el eje horizontal los resultados (o categorías) dela variable y subiendo, sobre ellos, unas barras (rectángulos o segmentos rectilíneos) de altura iguala la frecuencia absoluta (o la frecuencia relativa o el porcentaje) de cada resultado (o categoría). Seobtiene con la opción Graph⇒Bar Chart.

Por ejemplo, podríamos hacer el diagrama de barras de los datos de la columna Activity de la hoja dedatos Pulse.mtw. Para ello, en el cuadro de diálogo que resulta al seleccionar Graph⇒Bar Chart, dejamosactivada la opción Counts of unique values del recuadro Bars represent y dejamos también activado elmodelo Simple del diagrama de barras. En el cuadro de diálogo resultante, seleccionamos la columna‘Activity’ en el recuadro Categorical Variables. Como las categorías son números concretos (0, 1, 2 y 3) esmás riguroso que, en vez de barras, aparezcan solamente segmentos rectilíneos; por tanto, activamosel botón Data View y en el cuadro de diálogo resultante activamos solo la opción Proyect lines.

Igual que ocurría con los gráficos anteriores, una vez obtenido el diagrama de barras podemoscopiarlo en el portapapeles, o almacenarlo en el apartado ReportPad de la ventana Proyect Manager,o grabarlo en un archivo aparte. También es posible cambiar su aspecto, una vez obtenido, haciendodoble clic sobre la parte del gráfico que queremos cambiar. Podemos observar, además, que si hacemosclic sobre el gráfico (para activarlo) y luego pasamos el ratón por encima de las barras, se nos indica lafrecuencia absoluta de cada categoría. Para practicar vamos a cambiar el diagrama de barras anteriorde la siguiente manera:

Que el título sea Diagrama de barras de la variable ‘Actividad Física’, en letra Comic SansMS, cursiva, negrita, de color rojo y con un tamaño de 11 puntos.

Page 27: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 27

Que las barras (líneas) sean de color rojo y de un tamaño (grosor) de 3 puntos.

Que en el eje vertical se muestren 13 marcas (ticks), en letra Arial, no negrita, de color rojo ycon un tamaño de 10 puntos.

Que el texto del eje vertical sea Frecuencia absoluta, en letra Arial, cursiva, no negrita, de colorrojo y con un tamaño de 9 puntos.

Que el texto del eje horizontal sea Actividad Física (0=Ninguna, 1=Baja, 2=Media, 3=Alta),en letra Arial, cursiva, no negrita, de color rojo y con un tamaño de 8 puntos.

Que en la parte superior de cada barra aparezca la frecuencia absoluta de cada categoría (clicsobre una de las barras con el botón derecho del ratón, opción Add, Data Labels, dejar activadoUse y-values labels).

Vamos a aprender a hacer un diagrama de barras cuando tenemos en una columna las categorías deuna variable y en otra columna las frecuencias absolutas de dichas categorías. Por ejemplo, vamos arealizar el diagrama de barras de los datos de la Figura 7, correspondientes a los idiomas en que estánescritos los libros de los estantes de una determinada biblioteca. En primer lugar, abrimos la hoja dedatos IdiomaLibros.mtw. Para dibujar el diagrama de barras seleccionamos Graph⇒Bar Chart, activamosla opción Values from a table del apartado Bars represent; activamos el modelo Simple del apartado Onecolumn of values y pulsamos en OK. En el cuadro de diálogo resultante, seleccionamos la columna ‘No

de estantes’ en el recuadro Graph variables; seleccionamos la columna ‘Idioma’ en el recuadro CategoricalVariable y pulsamos en OK. Como ya sabemos, podemos modificar este gráfico.

2.4.3.2. Diagrama de barras agrupado (o apilado)

Con la opción Graph⇒Bar Chart existe la posibilidad de seleccionar una nueva variable para de-terminar las barras dentro de cada grupo; esto se realiza seleccionando Cluster (para un diagrama debarras agrupado según los resultados de otra variable) o Stack (para un diagrama de barras apiladosegún los resultados de otra variable). Por ejemplo, con el archivo de datos Pulse.mtw vamos a hacerel diagrama de barras de la variable Activity en grupos definidos por la variable Sex. Para ello, en elcuadro de diálogo que resulta al seleccionar Graph⇒Bar Chart, dejamos activada la opción Counts ofunique values del recuadro Bars represent y activamos el modelo Cluster del diagrama de barras. En el si-guiente cuadro de diálogo seleccionamos, de la lista de variables de la izquierda, las columnas ‘Activity’y ‘Sex’ para ponerlas en el recuadro Categorical variables. Una vez obtenido dicho diagrama de barras esconveniente modificarlo para que sea más explicativo, por ejemplo vamos a hacer lo siguiente:

Que el título sea Diagrama de barras de la variable ‘Actividad Física’ en grupos definidos porla variable ‘Sexo’, en letra Verdana, negrita, de color morado y con un tamaño de 9 puntos.

Que las barras tengan distinto color según los resultados de la variable Sex y que aparezcauna leyenda explicativa (doble clic sobre una de las barras, en el cuadro de diálogo resultanteseleccionar la carpeta Groups, en el recuadro Assign attributes by categorical variables seleccionarla variable Sex.)

Que en el eje vertical se muestren 10 marcas (ticks), en letra Verdana, no negrita, de colormorado y con un tamaño de 10 puntos.

Que el texto del eje vertical sea Frecuencia absoluta, en letra Verdana, no negrita, de colormorado y con un tamaño de 11 puntos.

Page 28: 2011 minitab-15

28 Dra. Josefa Marín Fernández

Que en el eje horizontal todo esté escrito con la fuente Verdana, no negrita, de color morado ycon un tamaño de 9 puntos. Que en dicho eje aparezcan los nombres de las variables en español:Actividad Física en vez de Activity, y Sexo en vez de Sex. Que en el mismo eje los resultadosde la variable Sex no sean 1 y 2 sino Hombre y Mujer. Y los resultados de la variable Activityno sean 0, 1, 2 y 3 sino Ninguna, Poca, Media y Alta.

Vamos a aprender a hacer un diagrama de barras agrupado (o apilado) cuando tenemos los datosen una tabla de doble entrada. Por ejemplo, vamos a realizar el diagrama de barras agrupado de losdatos de la Figura 8, correspondientes al número de citas en diferentes campos de investigación y entres distintos años.

Figura 8: Citas anuales en distintos campos de investigación

En primer lugar, abrimos una nueva hoja de datos con la opción File⇒New. En el cuadro de diálogoque aparece seleccionamos Minitab Woorksheet. A continuación introducimos los datos tal como semuestra en la Figura 8. Luego guardamos esta hoja de datos con el nombre Citas.mtw. Para dibujar eldiagrama de barras agrupado seleccionamos Graph⇒Bar Chart, activamos la opción Values from a tabledel apartado Bars represent; activamos el modelo Cluster del apartado Two-way table y pulsamos en OK. Enel cuadro de diálogo resultante, seleccionamos las columnas ‘1970’, ‘1980’ y ‘1990’ en el recuadro Graphvariables; seleccionamos la columna ‘Campo investigación’ en el recuadro Row labels; activamos Rowsare outermost categories and columns are innermost y, por último, pulsamos en OK. Como ya sabemos,podemos modificar este gráfico.

2.4.4. Diagramas bivariantes

2.4.4.1. Diagrama de dispersión o nube de puntos

La opción Graph⇒Scatterplot realiza una gráfica con los datos (bivariantes) de dos columnas de lamisma longitud.

Por ejemplo, con la hoja de datos Pulse.mtw podemos dibujar el diagrama de dispersión, con larecta de regresión superpuesta, de la altura en pulgadas, Height, sobre el peso en libras, Weight. Paraello, seleccionamos la opción Graph⇒Scatterplot; en el cuadro de diálogo que aparece seleccionamosWith Regression y pulsamos en OK. En el siguiente cuadro de diálogo, en el recuadro Y Variables se-leccionamos, de la lista de variables de la izquierda, la columna ‘Height’; y en el recuadro X Variablesseleccionamos, de la lista de variables de la izquierda, la columna ‘Weight’. Podemos cambiar el aspec-to que tendría el gráfico por defecto, pulsando en los botones que aparecen en este cuadro de diálogo:Scale, Labels, Data View, Multiple Graphs y Data Options. En principio, podríamos dejar todas las opcionespor defecto a la hora de realizar este primer diagrama de dispersión. Se puede comprobar que el dia-grama de dispersión o nube de puntos se agrupa cerca de una línea recta, lo que significa que hay unarelación lineal fuerte entre las dos variables.

Page 29: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 29

Igual que ocurría con los gráficos anteriores, una vez obtenido el diagrama de dispersión se puedecopiar en el portapapeles, o almacenar en el apartado ReportPad de la ventana Proyect Manager, o grabaren un archivo aparte. También es posible cambiar su aspecto, una vez obtenido, haciendo doble clicsobre la parte del gráfico que queremos modificar. Para practicar, vamos a modificar el diagrama dedispersión anterior de la siguiente manera:

Que el título sea Diagrama de dispersión de la ‘Altura’ frente al ‘Peso’, en letra Times NewRoman, cursiva, negrita, de color rojo y con un tamaño de 14 puntos.

Que los símbolos sean rombos rojos de tamaño 1.

Que en el eje horizontal se muestren 14 marcas (ticks), en letra Times New Roman, no negrita,de color rojo y con un tamaño de 12 puntos.

Que el texto del eje horizontal sea Peso de los alumnos, en libras, en letra Times New Roman,cursiva, no negrita, de color rojo y con un tamaño de 12 puntos.

Que en el eje vertical se muestren 10 marcas (ticks), en letra Times New Roman, no negrita, decolor rojo y con un tamaño de 12 puntos.

Que el texto del eje vertical sea Altura de los alumnos, en pulgadas, en letra Times New Roman,cursiva, no negrita, de color rojo y con un tamaño de 12 puntos.

Que la recta de regresión sea de color rojo y de tamaño 2.

2.4.4.2. Representación gráfica de una función y=f(x)

La opción Graph⇒Scatterplot es la que se utiliza para hacer la representación gráfica de una de-terminada función f(x). Para ello es necesario tener en una columna los valores de x (generalmentecreados por patrón) y en otra columna los resultados de y = f(x) (generalmente calculados a partirde la opción Calc⇒Calculator). Por ejemplo, vamos a hacer la representación gráfica de la funciónf(x) = x2 + 2x− 4 en el intervalo [−3, 3]. Para ello se procede de la siguiente manera:

1) Se abre una hoja de datos nueva (File, New, Minitab Worksheet).

2) Mediante la opción Calc⇒Make Patterned Data⇒Simple Set of Numbers se crea una nueva columnaque denominaremos x y que contendrá todos los números comprendidos entre el -3 y el 3 conun incremento de 0, 01. Se puede comprobar que en la columna x hay un total de 601 números.

3) En otra columna se calculan los resultados de la función función f(x) = x2 +2x− 4 para cadavalor de la columna x. Para hacerlo, se selecciona Calc⇒Calculator; en Store result in variable te-cleamos ‘f(x)’; en Expression tenemos que colocar, utilizando la calculadora y la lista de variablesque aparecen en este cuadro de diálogo, la siguiente expresión: ‘x’**2+2*‘x’-4

4) Para representar gráficamente la función se elige la opción Graph⇒Scatterplot, después se eligeWith connect line. En el siguiente cuadro de diálogo, en Y variables se selecciona, de la lista devariables de la izquierda, la columna ‘f(x)’ y en X variables se selecciona la columna ‘x’. Seríaconveniente quitar los puntos del gráfico, dejando sólo la línea de conexión, para lo cual sehace doble clic sobre la curva, en Attributes⇒Symbols se marca la opción Custom y en Type seselecciona None (buscando hacia arriba). Luego se hace un clic dentro del gráfico, pero no sobrela curva.

También se puede lograr lo mismo de la siguiente manera: se elige la opción Graph⇒Scatterplot;se selecciona Simple; en el siguiente cuadro de diálogo, en Y variables se selecciona la columna

Page 30: 2011 minitab-15

30 Dra. Josefa Marín Fernández

‘f(x)’ y en X variables se selecciona la columna ‘x’; se activa el botón Data View y en el cuadro dediálogo resultante se deja activada solamente la opción Connect line.

2.5. Correlación y regresión lineal

En el apartado 2.4.4 hemos visto cómo obtener (y cómo modificar) el diagrama de dispersión onube de puntos de una variable estadística bidimensional.

Para obtener el coeficiente de correlación lineal de Pearson se selecciona Stat⇒Basic Statistics⇒Correlation. En el cuadro de diálogo que aparece, en el recuadro de la izquierda está la lista devariables, de las cuales podemos seleccionar dos o más.

Por ejemplo, de la hoja de datos Pulse.mtw vamos a calcular el coeficiente de correlación lineal dePearson entre las variables Altura en pulgadas, Height, y Peso en libras, Weight y lo vamos a guardarpara poder aumentar el número de decimales que se obtienen. Para ello, seleccionamos Stat⇒BasicStatistics⇒Correlation. En el cuadro de diálogo resultante hacemos clic en el recuadro que hay debajode Variables y seleccionamos, de la lista de variables de la izquierda, las columnas ‘Height’ y ‘Weight’;desactivamos Display p-values y activamos Store matrix (display nothing) y pulsamos en OK. Minitab nomuestra el resultado en la ventana de sesión pero guarda, con el nombre CORR1 (en general, CORRj,con j = 1, 2, . . .), la matriz de correlaciones siguiente:

1, 00000 0, 78487

0, 78487 1, 00000

lo cual quiere decir que el coeficiente de correlación lineal entre las variables Height y Weight es iguala 0′78487. Por tanto, la fuerza de la relación lineal entre estas dos variables es moderada. El primer1 significa que el coeficiente de correlación lineal entre Height y Height es igual a 1 (lo cual es lógico)y, por supuesto, el segundo 1 significa que el coeficiente de correlación lineal entre Weight y Weight esigual a 1.

Para aumentar el número de decimales del resultado del coeficiente de correlación lineal entrelas variables Height y Weight hacemos lo siguiente: seleccionamos Data⇒Copy⇒Matrix to Column; hace-mos clic en el recuadro que hay debajo de Copy from matrix y seleccionamos (haciendo doble clic sobresu nombre) la matriz CORR1; en In current worksheet, in columns tenemos que teclear las posiciones dedos columnas (CJ y CK que estén vacías) que contendrán las dos columnas de la matriz de correlacio-nes. Podemos dejar activada la opción Name the column containing the copied data. Por último, pulsamosen OK. Ahora ya podemos aumentar el número de decimales como hemos visto en el capítulo anterior:hacemos clic sobre el nombre de la variable (o sobre su número de columna: CJ); pulsamos con elbotón derecho del ratón; seleccionamos Format Column⇒Numeric; activamos Fixed decimal y en Decimalplaces tecleamos, por ejemplo, 8 y pulsamos en OK. Podemos observar que el resultado del coeficientede correlación lineal entre las variables Height y Weight es igual a 0′78486641.

La opción Stat⇒Basic Statistics⇒Covariance es similar a lo que acabamos de explicar pero en lugarde determinar el coeficiente de correlación lineal entre cada par de variables calcula lo que Minitabllama covarianza, pero que en realidad es la covarianza corregida (similar a la covarianza, pero divi-diendo por (n− 1) en vez de por n; siendo n el tamaño muestral). La covarianza corregida, Sxy, está

Page 31: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 31

relacionada con la covarianza, sxy, de la siguiente manera:

Sxy =

n∑i=1

(xi − x)(yj − y)

n− 1=

n

n− 1sxy.

De esto se deduce que el coeficiente de correlación lineal de Pearson se puede calcular de cualquierade las dos formas siguientes:

rxy =sxysx sy

=Sxy

Sx Sy

.

Para obtener la ecuación de la recta de regresión (mínimo cuadrática) de una variable cuantitativaY sobre otra variable cuantitativa X , se selecciona la opción Stat ⇒Regression ⇒Regression.

Puesto que hemos obtenido anteriormente el coeficiente de correlación lineal entre las variablesHeight y Weight, vamos ahora a encontrar la ecuación de la recta de regresión de la variable Weight sobrela variable Height (de la hoja de datos Pulse.mtw). Para ello, seleccionamos la opción Stat ⇒Regression⇒Regression; en el cuadro de diálogo resultante seleccionamos la variable ‘Weight’ en Response y lavariable ‘Height’ en Predictors; pulsamos en Results y, en el cuadro de diálogo resultante, activamos laopción Regression equation, table of coefficients, s, R-squared, and basic analysis of variance y pulsamos en OK;en el siguiente cuadro de diálogo volvemos a pulsar en OK. En la ventana de sesión aparecen variosresultados, la mayoría de los cuales no pueden ser interpretados en este momento pues todavía nohemos explicado la parte de Estadística Inferencial. Lo que a nosotros nos interesa en este momentoson los resultados de los coeficientes de regresión, que son: A = −204′74, B = 5′0918, siendo laecuación de la recta de regresión Y = A+BX; donde Y =Weight (peso) y X=Height (altura). Es decir,la ecuación de la recta de regresión de la variable Weight sobre la variable Height es:

Weight = −204′74 + 5′0918 · Height

2.6. Ejercicios propuestos

Ejercicio 2.1

a) Crea un nuevo proyecto de Minitab.

b) Abre la hoja de datos Prestamos.mtw (datos del Ejercicio 1.1).

c) Determina la distribución de frecuencias de la variable Intervalos PPU.

d) Para las variables Usuarios, Préstamos y PPU calcula todas las medidas descriptivas quehemos estudiado en las clases teóricas.

e) Dibuja el diagrama de dispersión, con la recta de regresión superpuesta, de la variablePréstamos sobre la variable Usuarios. Modifícalo de la siguiente forma:

Que el título sea Diagrama de dispersión del ‘No anual de préstamos’ frente al ‘No

anual de usuarios’ en letra Verdana, itálica, negrita, de color rojo y con un tamaño de9 puntos.Que los símbolos sean cuadrados rellenos, de color verde oscuro y de tamaño 2.Que en el eje horizontal se muestren 20 marcas (ticks) y que los números sean decolor azul y con un tamaño de 8 puntos.

Page 32: 2011 minitab-15

32 Dra. Josefa Marín Fernández

Que el texto del eje horizontal sea Número anual de usuarios, en letra Verdana, itálica,no negrita, de color rojo y con un tamaño de 11 puntos.Que en el eje vertical se muestren 18 marcas (ticks) y que los números sean de colorazul y de un tamaño de 8 puntos.Que el texto del eje vertical sea Número anual de préstamos, en letra Verdana, itálica,no negrita, de color rojo y con un tamaño de 11 puntos.Que la recta de regresión sea de color rojo y de tamaño 2.

f) Calcula, con una precisión de 6 decimales, el coeficiente de correlación lineal entre lasvariables Préstamos y Usuarios.

g) Determina la ecuación de la recta de regresión de la variable Préstamos sobre la variableUsuarios.

h) Dibuja el histograma simple de la variable PPU.

Que haya 4 intervalos de la misma amplitud y que en el eje horizontal aparezcan loslímites de los intervalos (no los puntos medios).Que el título sea Histograma del ‘Porcentaje anual de préstamos por usuario’, enletra Times New Roman, negrita, de color rojo oscuro y con un tamaño de 14 puntos.Que las barras sean de color rojo claro con una trama de relleno horizontal y con losbordes de color rojo oscuro, de tamaño 2.Que el texto del eje horizontal sea Porcentaje anual de préstamos por usuario, enletra Times New Roman, cursiva, no negrita, de color rojo oscuro y con un tamaño de12 puntos.Que en el eje vertical se muestren 7 marcas (ticks) y que los números sean de colorrojo oscuro y con un tamaño de 12 puntos.Que el texto del eje vertical sea Frecuencia absoluta, en letra Times New Roman,cursiva, no negrita, de color rojo oscuro y con un tamaño de 12 puntos.

i) Dibuja el gráfico de sectores de la variable Intervalos PPU.

Que el título sea Gráfico de sectores de la variable ‘Intervalos PPU’, en letra Verda-na, cursiva, negrita, de color azul oscuro y con un tamaño de 12 puntos.Que junto a los sectores circulares aparezca la frecuencia absoluta y el porcentaje decada categoría.En la leyenda, tanto la fuente de la cabecera como la fuente del cuerpo sea Verdana,de color azul oscuro y con un tamaño de 10 puntos.

j) Graba el proyecto con el siguiente nombre: Ejercicio2-1.mpj

Ejercicio 2.2

a) Crea un nuevo proyecto de Minitab.

b) Abre la hoja de datos Transacciones.mtw (datos del Ejercicio 1.2).

c) Determina la distribución de frecuencias de la variable Intervalos Porcentaje TRF.

d) Para las variables TR, TRF y Porcentaje TRF calcula las medidas descriptivas siguientes: mí-nimo, primer cuartil, mediana, tercer cuartil, máximo, recorrido, recorrido intercuartílico,media, varianza corregida, desviación típica corregida, suma de los datos y suma de loscuadrados de los datos.

e) Calcula la media, la mediana y la desviación típica corregida de la variable Porcentaje TRFseparando sus resultados según los valores de la variable Tipo Biblioteca.

Page 33: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 33

f) Dibuja el diagrama de dispersión, con la recta de regresión superpuesta, de la variable TRFsobre la variable TR. Modifícalo de la siguiente forma:

Que el título sea Nube de puntos y recta de regresión en letra Verdana, negrita, decolor azul y con un tamaño de 12 puntos.Que los símbolos sean triángulos rellenos, de color magenta y de tamaño 1.Que en el eje horizontal se muestren 10 marcas (ticks) y que los números sean decolor azul y de un tamaño de 9 puntos.Que el texto del eje horizontal sea Número anual de transacciones de referencia, enletra Verdana, itálica, no negrita, de color azul y con un tamaño de 10 puntos.Que en el eje vertical se muestren 10 marcas (ticks) y que los números sean de colorazul y de un tamaño de 9 puntos.Que el texto del eje vertical sea Número anual de transacciones de referencia finali-zadas, en letra Verdana, itálica, no negrita, de color azul y con un tamaño de 9 puntos.Que la recta de regresión sea de color morado y de tamaño 2.

g) Calcula, con una precisión de 6 decimales, el coeficiente de correlación lineal entre lasvariables TR y TRF.

h) Determina la ecuación de la recta de regresión de la variable TRF sobre la variable TR.

i) Dibuja el diagrama de barras de la variable Intervalos Porcentaje TRF en grupos definidos porla variable Tipo Biblioteca.

Que las barras tengan distinto color según los resultados de la variable Tipo Bibliotecay que aparezca una leyenda explicativa.Que el título sea Diagrama de barras agrupado, escrito con letra Arial, negrita, decolor rojo oscuro y con un tamaño de 16 puntos.Que el texto del eje vertical sea Frecuencia absoluta, escrito con letra Arial, negrita,de color rojo oscuro y con un tamaño de 12 puntos.Que en el eje horizontal todo esté escrito con la fuente Arial, de color rojo oscuro ycon un tamaño de 10 puntos.

j) Graba el proyecto con el siguiente nombre: Ejercicio2-2.mpj

Ejercicio 2.3 El gasto de una biblioteca, en euros, durante un año determinado, es:

Gasto en personal 6570

Gasto en libros 3450

Otros gastos 2380

a) Crea un nuevo proyecto de Minitab.

b) Guarda los datos en el archivo GastoBiblioteca.mtw

c) Haz un diagrama de barras y modifícalo a tu gusto.

d) Haz un gráfico de sectores y modifícalo a tu gusto.

e) Graba el proyecto con el siguiente nombre: Ejercicio2-3.mpj

Ejercicio 2.4 La estadística de fotocopias de 4 bibliotecas (A, B, C y D), durante un año, está reco-gida en la siguiente tabla:

Page 34: 2011 minitab-15

34 Dra. Josefa Marín Fernández

A B C D

Reproducción de catálogos 16110 3640 0 3400

Trabajo del personal de la biblioteca 63350 11360 3080 5500

Préstamo interbibliotecario 2600 1090 560 250

Copias para usuarios de la biblioteca 43540 58040 1980 0

a) Crea un nuevo proyecto de Minitab.

b) Guarda los datos en el archivo TipoFotocopias.mtw

c) Haz un diagrama de barras agrupado y modifícalo a tu gusto.

d) Graba el proyecto con el siguiente nombre: Ejercicio2-4.mpj

Ejercicio 2.5 El número de descriptores (keywords) de 72 artículos de investigación viene dado por:

No de descriptores 3 4 5 6 7 8 9 10 11 12 13 14

No de artículos 5 8 12 7 9 9 10 5 3 2 1 1

a) Crea un nuevo proyecto de Minitab.

b) Guarda los datos en el archivo Keywords.mtw

c) Haz un diagrama de barras en el cual las barras sean segmentos rectilíneos. Modifícalo atu gusto.

d) Graba el proyecto con el siguiente nombre: Ejercicio2-5.mpj

Page 35: 2011 minitab-15

3Variables aleatoriasVariables aleatorias

3.1. Muestras aleatorias de las distribuciones usuales

Como ya se ha visto anteriormente, en Minitab podemos generar datos de distribuciones usualesutilizando la opción Calc⇒Random Data. Esta opción permite generar una muestra de datos de cual-quier columna de la hoja de datos actualmente abierta o de una de las distribuciones de probabilidadque aparecen listadas.

En primer lugar, vamos a crear una nueva hoja de datos que llevará por nombre Probabilidad.mtw.A continuación, vamos a crear una columna, en dicha hoja de datos, que lleve por nombre ‘100 datosde N(5,2)’ y que contenga 100 datos aleatorios procedentes de una distribución N (5, 2) (Normal demedia 5 y desviación típica 2). Para ello, seleccionamos Calc⇒Random Data⇒Normal; en Number ofrows of data to generate tecleamos 100; en Store in column tecleamos el nombre ‘100 datos de N(5,2)’; enMean tecleamos 5 y en Standard deviation ponemos un 2.

A continuación vamos a hacer el histograma, con la curva Normal superpuesta, de la muestraaleatoria obtenida en la columna ‘100 datos de N(5,2)’. Para ello, recordemos que hay que seleccionar laopción Graph⇒Histogram. En el cuadro de diálogo resultante elegimos With Fit. En el siguiente cuadrode diálogo, en Graph variables seleccionamos, de la lista de variables que tenemos a la izquierda, lacolumna ‘100 datos de N(5,2)’ y pulsamos en OK. En la representación gráfica podemos apreciar que elhistograma está cerca de la curva Normal superpuesta, lo cual es lógico puesto que hemos creadouna muestra de una distribución Normal. También podemos ver, en la leyenda que aparece en la partesuperior derecha del gráfico, que la media de la muestra obtenida se aproxima a 5 y la desviacióntípica se aproxima a 2.

3.2. Función de densidad y función de probabilidad

Minitab puede calcular el resultado de la función de densidad (o de la función de probabilidad)para un valor concreto o para una lista de valores. Para ello hay que elegir la opción Calc⇒Probability

35

Page 36: 2011 minitab-15

36 Dra. Josefa Marín Fernández

Distributions y a continuación el nombre de la variable aleatoria: Chi-square (chi-cuadrado de Pearson),Normal, F (de Snedecor), t (de Student), etc.

Dentro del cuadro de diálogo que aparecerá hay que seleccionar Probability Density (para las distri-buciones continuas) o Probability (para las distribuciones discretas).

Para entender mejor el interés de esta opción, vamos a determinar los resultados de la funciónde densidad de una distribución N (0, 1) (Normal Estándar) para una lista de valores que vamos acrear (todos los números comprendidos entre -4 y 4, con un incremento de 0, 01). Luego haremos larepresentación gráfica de esta función de densidad. Para ello se procede de la siguiente manera:

a) Mediante la opción Calc⇒Make Patterned Data⇒Simple Set of Numbers crearemos una nueva co-lumna que denominaremos ‘x de -4 a 4’ y que contendrá todos los números comprendidos entreel -4 y el 4 con un incremento de 0, 01. Podemos comprobar que en la columna ‘x de -4 a 4’ hay801 números.

b) En otra columna se calculan los resultados de la función de densidad de la variable aleato-ria Normal Estándar para cada valor de la columna ‘x de -4 a 4’. Para hacerlo, se seleccionaCalc⇒Probability Distributions⇒Normal; se activa Probability density; en Mean y en Standard deviationse deja lo que aparece por defecto (cero y uno, respectivamente); en Input column se selecciona,de la lista de variables de la izquierda, la columna ‘x de -4 a 4’ y en Optional storage se teclea elnombre de la columna que contendrá los resultados de la función de densidad; por ejemplo, ‘f(x)N(0,1)’.

c) Finalmente, para representar gráficamente la función de densidad de la variable aleatoria Nor-mal Estándar se elige la opción Graph⇒Scatterplot, después se elige With connect line. En el si-guiente cuadro de diálogo, en Y variables se selecciona, de la lista de variables de la izquierda, lacolumna ‘f(x) N(0,1)’ y en X variables se selecciona la columna ‘x de -4 a 4’. Sería conveniente quitarlos puntos del gráfico, dejando sólo la línea de conexión, para lo cual se hace doble clic sobre lacurva, en Attributes⇒Symbols se marca la opción Custom y en Type se selecciona None (buscandohacia arriba). Luego se hace un clic dentro del gráfico, pero no sobre la curva.

Ahora vamos a calcular los resultados de la función de probabilidad de la distribución discretaB(200, 0′4) (Binomial de parámetros n = 200 y p = 0′4), vamos a hacer su representación grafica yvamos a averiguar el valor de la media de dicha variable aleatoria discreta. Para ello procedemos dela siguiente manera:

1) Mediante la opción Calc⇒Make Patterned Data⇒Simple Set of Numbers crearemos una nueva co-lumna que denominaremos ‘x de 0 a 200’ y que contendrá todos los resultados posibles de ladistribución B(200, 0′4), que, como sabemos, son: 0, 1, 2, · · · , 200.

2) Calculamos los resultados de la función de probabilidad de B(200, 0′4) para todos y cada unode los valores de la columna ‘x de 0 a 200’. Para ello, seleccionamos la opción Calc⇒ProbabilityDistributions⇒Binomial; activamos Probability; en Numbers of trials tecleamos 200; en Event probabi-lity tecleamos 0,4; en Input column elegimos, de la lista de variables de la izquierda, la columna ‘xde 0 a 200’ y en Optional storage tecleamos el nombre de la columna que contendrá los resultadosde la función de probabilidad; por ejemplo, ‘p(x) B(200,0,4)’.

3) Ahora vamos a hacer la representación gráfica bidimensional que tiene en el eje horizontal losresultados de la columna ‘x de 0 a 200’ y en el eje vertical los resultados de la columna ‘p(x)B(200,0,4)’. Para ello, se selecciona la opción Graph⇒Scatterplot, después se elige With connectline. En el siguiente cuadro de diálogo, en Y variables se selecciona, de la lista de variables de la

Page 37: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 37

izquierda, la columna ‘p(x) B(200,0,4)’ y en X variables se selecciona la columna ‘x de 0 a 200’. Comoya hemos dicho anteriormente, sería conveniente quitar los puntos del gráfico, dejando sólo lalínea de conexión.

Se puede comprobar que esta representación gráfica se aproxima mucho a la curva de densidadde una distribución Normal, lo cual se debe a lo siguiente: cuando n es grande y p no se acercaa 0 ni a 1, entonces B(n, p) se aproxima a N (np,

√npq), siendo q = 1− p.

4) También vamos a calcular la media teórica de la distribución B(200, 0′4). Recordemos que lamedia de una distribución discreta es E(X) =

∑xi · p(xi). Por tanto, usamos la opción Calc

⇒Calculator. En Store result in variable tecleamos el nombre de la columna que contendrá losresultados de los productos xi · p(xi); por ejemplo, ‘x p(x)’; en Expression ponemos (empleandola lista de variables y la calculadora de dicho cuadro de diálogo) ‘x de 0 a 200’*‘p(x)B(200,0,4)’. Ahora tenemos que calcular la suma de todos los resultados de la columna‘x p(x)’, para lo cual elegimos la opción Calc⇒Column Statistic; activamos Sum; en Input variableseleccionamos, de la lista de variables de la izquierda, la columna ‘x p(x)’ y dejamos desactivadala opción Store result in. En la ventana de sesión podemos ver el resultado de la media, que esigual a E(X) = n · p = 200 · 0′4 = 80.

3.3. Función de distribución (probabilidad acumulada)

Para calcular el resultado de la función de distribución de una variable aleatoria, F (t) = P (X ≤t), hay que elegir la opción Calc⇒Probability Distributions y a continuación el nombre de la variablealeatoria. Dentro del cuadro de diálogo que aparece hay que seleccionar Cumulative Probability.

Por ejemplo, vamos a calcular la probabilidad P (X ≤ −1′36), siendo X una variable aleatoriaNormal Estándar. Como P (X ≤ −1′36) = F (−1′36), para calcular su resultado seleccionamos laopción Calc⇒Probability Distributions⇒Normal; activamos Cumulative Probability; en Mean y en Standarddeviation dejamos lo que aparece por defecto (cero y uno, respectivamente). No activamos la opciónInput column sino la opción Input constant, en donde colocamos el valor -1,36. Podemos almacenar elresultado en una constante tecleando en el recuadro Optional storage una K seguida de un númeroo poniendo un nombre a dicho resultado. Si no rellenamos el recuadro Optional storage, el resultadoaparece en la ventana de sesión. Se puede comprobar que la probabilidad pedida es P (X ≤ −1′36) =F (−1′36) = 0′086915.

Si queremos calcular probabilidades de los tipos P (X > a), P (a < X < b), etc., tenemosque utilizar lápiz y papel, y aplicar las propiedades de la probabilidad para llegar a expresiones enlas que sólo aparezcan probabilidades del tipo P (X ≤ x) (función de distribución), pues éstas sonlas que calcula Minitab. No tenemos que olvidar, por ejemplo, que si X es una variable aleatoriacontinua, entonces P (X = a) = 0 para todo a, por lo que se cumplen las siguientes igualdades:P (X ≤ x) = P (X < x), P (X ≥ x) = P (X > x), · · · . Pero si X es una variable aleatoria discreta,las probabilidades P (X ≤ x) y P (X < x) no son (en general) iguales.

Como ya hemos dicho, cuando n es grande y p no se acerca a 0 ni a 1, entonces B(n, p) se aproximaa N (np,

√npq), siendo q = 1− p. Vamos a poder observarlo con el siguiente ejemplo:

Sea X una variable aleatoria B(200, 0′4) y sea Y una variable aleatoria Normal de media 80 ydesviación típica 6’928203. Vamos a comprobar (mediante una representación gráfica conjunta) quelas funciones de distribución de ambas variables son muy parecidas. La solución es la siguiente:

Page 38: 2011 minitab-15

38 Dra. Josefa Marín Fernández

a) Calculamos los resultados de la función de distribución de B(200, 0′4) para todos y cada uno delos valores de dicha columna ‘x de 0 a 200’. Para ello, seleccionamos la opción Calc⇒ProbabilityDistributions⇒Binomial; activamos Cumulative probability; en Numbers of trials tecleamos 200; enEvent probability tecleamos 0,4; en Input column elegimos, de la lista de variables de la izquierda,la columna ‘x de 0 a 200’ y en Optional storage tecleamos el nombre de la columna que contendrálos resultados de la función de distribución de la Binomial; por ejemplo, ‘F(x) B(200,0,4)’.

b) Calculamos los resultados de la función de distribución de N (80, 6′928203) para los mis-mos valores de x, es decir, para los valores de la columna ‘x de 0 a 200’. Para ello, se eligeCalc⇒Probability Distributions⇒Normal; se activa Cumulative probability; en Mean se teclea 80; enStandard deviation se pone 6,928203; en Input column elegimos, de la lista de variables de la iz-quierda, la columna ‘x de 0 a 200’ y en Optional storage tecleamos el nombre de la columna quecontendrá los resultados de la función de distribución de la Normal; por ejemplo, ‘F(x) N(80,6,9)’.

c) Ahora vamos a superponer, en un mismo gráfico, las dos funciones de distribución. Para ello, seselecciona la opción Graph⇒Scatterplot⇒With connect line. En el cuadro de diálogo que aparece,junto al 1 en Y variables seleccionamos la columna ‘F(x) B(200,0,4)’ y en X variables seleccionamosla columna ‘x de 0 a 200’, y junto al 2 en Y variables seleccionamos la columna ‘F(x) N(80,6,9)’ yen X variables seleccionamos otra vez la columna ‘x de 0 a 200’. Luego pulsamos Multiple graphs yen el cuadro de diálogo resultante activamos Overlay on the same graph. Como ya hemos dichoanteriormente, sería conveniente quitar los puntos del gráfico, dejando sólo la línea de conexión.

3.4. Inversa de la función de distribución (percentiles)

En ocasiones, en lugar de querer calcular probabilidades de sucesos, se desea justamente lo con-trario, conocer el valor x que hace que la probabilidad del suceso (X ≤ x) sea igual a un valordeterminado p; es decir, hallar x para que se cumpla P (X ≤ x) = p; esto no es más que calcularpercentiles de variables aleatorias. Para calcular el resultado de los percentiles de una variable alea-toria hay que elegir la opción Calc⇒Probability Distributions y a continuación el nombre de la variablealeatoria. Dentro del cuadro de diálogo que aparece hay que seleccionar Inverse cumulative probability.

Por ejemplo, vamos a calcular el valor x que verifica P (X ≤ x) = 0′98, cuando X ≡ χ220 (chi-

cuadrado de Pearson con 20 grados de libertad). Para ello seleccionamos la opción Calc⇒ProbabilityDistributions⇒Chi-Square. En el cuadro de diálogo activamos Inverse cumulative probability. Dejamos loque aparece por defecto (cero) en Noncentrality parameter. En Degrees of freedom tecleamos 20. No ac-tivamos la opción Input column sino la opción Input constant, en donde colocamos el valor 0,98. Pode-mos almacenar el resultado en una constante tecleando en el recuadro Optional storage una K seguidade un número o poniendo un nombre a dicho resultado. Si no rellenamos el recuadro Optional sto-rage, el resultado aparece en la ventana de sesión. Se puede comprobar que el valor x que verificaP (X ≤ x) = 0′98 es 35′0196; es decir, P (X ≤ 35′0196) = 0′98, siendo X ≡ χ2

20.Si queremos calcular el valor a tal que las probabilidades de los tipos P (X > a), P (|X| < a),

P (|X| > a), etc., sean iguales a un cierto resultado, tenemos que utilizar lápiz y papel, y aplicar laspropiedades de la probabilidad para llegar a expresiones en las que sólo aparezcan ecuaciones del tipoP (X ≤ x) = p (percentiles), pues éstas son las que calcula Minitab.

Page 39: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 39

3.5. Ejercicios propuestos

Ejercicio 3.1 Genera 10000 datos aleatorios procedentes de una variable aleatoria Binomial de pará-metros n = 50 y p = 0′25. Calcula la media de esta columna de datos aleatorios.

Ejercicio 3.2 Haz la representación gráfica de la función de probabilidad de una variable aleatoriaBinomial de parámetros n = 50 y p = 0′25.

Ejercicio 3.3 Haz la representación gráfica de la función de distribución de una variable aleatoriaBinomial de parámetros n = 50 y p = 0′25.

Ejercicio 3.4 Sea X una variable aleatoria Binomial de parámetros n = 50 y p = 0′25. Calcula:

a) P (X = 10).

b) P (X ≤ 12).

c) P (X ≥ 3).

d) P (X < 5).

e) P (X > 7).

f) P (10 < X < 20).

g) P (10 ≤ X < 20).

h) P (10 < X ≤ 20).

i) P (10 ≤ X ≤ 20).

Ejercicio 3.5 Si Z es una variable Normal Estándar, determina:

a) P (Z ≤ 2′21).

b) P (Z < 3′47).

c) P (Z ≤ −1′75).d) P (Z > 2′46).

e) P (Z ≥ 3′24).

f) P (Z > −3′08).g) P (1′12 ≤ Z ≤ 2′68).

h) P (−0′85 < Z < 1′27).

i) P (−2′97 < Z ≤ −1′33).

Ejercicio 3.6 Si X es una variable Normal con media 8′46 y desviación típica 1′14, halla:

a) P (X ≤ 9′11).

b) P (X < 12′33).

c) P (X ≤ 6′41).

d) P (X > 10′52).

e) P (X ≥ 12′61).

f) P (X > 4′01).

Page 40: 2011 minitab-15

40 Dra. Josefa Marín Fernández

g) P (6′11 ≤ X ≤ 11′91).

h) P (7′53 < X < 10′33).

i) P (5′05 ≤ X < 6′83).

Ejercicio 3.7 Halla el valor de los siguientes cuantiles:

a) Z0′58.

b) Z0′42.

c) Z0′999.

d) Z0′001.

Ejercicio 3.8 Genera 10000 datos aleatorios procedentes de una distribución chi-cuadrado de Pear-son con 100 grados de libertad. Calcula la media de esta columna de datos aleatorios. Haz unhistograma de los datos aleatorios generados, con la curva Normal superpuesta. ¿Puedes extraeralguna conclusión?

Ejercicio 3.9 Haz la representación gráfica de la función de densidad de una variable aleatoria chi-cuadrado de Pearson con 100 grados de libertad. Los valores del eje horizontal pueden ser todoslos comprendidos entre 0 y 200 con un incremento de 0′1.

Ejercicio 3.10 Haz la representación gráfica de la función de distribución de una variable aleatoriachi-cuadrado de Pearson con 100 grados de libertad. Los valores del eje horizontal pueden sertodos los comprendidos entre 0 y 200 con un incremento de 0′1.

Ejercicio 3.11 Calcula el valor de los siguientes cuantiles:

a) χ26 , 0′01.

b) χ26 , 0′99.

c) χ272 , 0′975.

Ejercicio 3.12 Sea X una variable aleatoria que sigue una distribución chi-cuadrado de Pearson con15 grados de libertad. Determina el valor de a que verifica la siguiente igualdad:

a) P (X ≤ a) = 0′05.

b) P (X > a) = 0′99.

Ejercicio 3.13 Calcula el valor de los siguientes cuantiles:

a) t26 , 0′9.

b) t26 , 0′1.

c) t75 , 0′8.

Ejercicio 3.14 Sea X una variable aleatoria que sigue una distribución t de Student con 20 grados delibertad. Determina el valor de a que verifica la siguiente igualdad:

a) P (X ≤ a) = 0′99.

b) P (X ≥ a) = 0′25.

Page 41: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 41

Ejercicio 3.15 Calcula el valor de los siguientes cuantiles:

a) F8 , 6 , 0′975.

b) F25 , 50 , 0′01.

c) F45 , 35 , 0′01.

Ejercicio 3.16 Sea X una variable aleatoria que sigue una distribución F de Snedecor con 10 gradosde libertad en el numerador y 8 grados de libertad en el denominador. Determina el valor de aque verifica la siguiente igualdad:

a) P (X < a) = 0′9.

b) P (X > a) = 0′05.

Page 42: 2011 minitab-15
Page 43: 2011 minitab-15

4Contrastes no paramétricos en una

poblaciónContrastes no paramétricos en una

población

4.1. Contraste de aleatoriedad de la muestra

El contraste de las rachas sobre aleatoriedad de una muestra se realiza mediante la opción Stat⇒Nonparametrics ⇒Run Test. Esta prueba no puede utilizarse si los valores de la variable han sidoordenados en el archivo de datos.

Como ya sabemos, este contraste se basa en el concepto de racha, que es una secuencia de ob-servaciones de un mismo tipo precedida y continuada por otro tipo de observaciones o por ninguna.Esto supone que los datos son sólo de dos tipos; es decir, que la variable está dicotomizada. Si estono sucediera, se pueden reducir los datos a dos tipos mediante lo siguiente: asignar un símbolo (porejemplo, “+”) a los datos que son mayores que la media (o la mediana) y otro símbolo (por ejemplo,“−”) a los que son menores o iguales que la media (o la mediana, respectivamente).

Con los datos del archivo Pulse.mtw vamos a comprobar si se puede aceptar, con un nivel de sig-nificación de 0′05, que la muestra de resultados de la variable Pulse1 es aleatoria. Vamos a realizar ladicotomización de los datos a través de la mediana, por lo cual la calculamos previamente. Podemoscomprobar que dicha mediana es 71. Ahora seleccionamos Stat ⇒Nonparametrics ⇒Run Test. En elcuadro de diálogo resultante, activamos el recuadro Variables (haciendo clic dentro de él); selecciona-mos (haciendo doble clic sobre su nombre) la columna ‘Pulse1’. Si dejamos activada la opción Aboveand below the mean la variable se dicotomizaría a través de su media. Como queremos dicotomizar através de la mediana, activamos Above and below y tecleamos el valor de la mediana; es decir, 71. Pul-sando en OK podemos comprobar, en la ventana de sesión, que el p-valor es 0′294, mayor que el nivelde significación elegido (0′05), por lo que podemos aceptar que la muestra de resultados de dichavariable es aleatoria.

43

Page 44: 2011 minitab-15

44 Dra. Josefa Marín Fernández

4.2. Contrastes de Normalidad

En Minitab hay varias formas de comprobar la Normalidad de una variable. Una de ellas es laopción Stat⇒Basic Statistics⇒Normality Test.

Recordemos que para poder aplicar un contraste de Normalidad es necesario comprobar previa-mente que la muestra de datos es aleatoria.

Con la hoja de datos Pulse.mtw hemos comprobado que la muestra de resultados de la columnaPulse1 es aleatoria. Por tanto, podemos ahora realizar un contraste de Normalidad para ver si se puedeaceptar, con un nivel de significación de 0′05, que la variable Pulse1 es Normal. Para ello, usamosStat⇒Basic Statistics⇒Normality Test. En el cuadro de diálogo resultante, en Variable seleccionamos,de la lista de variables de la izquierda, la columna ‘Pulse1’; en Percentile Lines dejamos lo que estáactivado por defecto, que es None; en Tests for Normality podemos activar uno de los siguientes trescontrastes: Anderson-Darling, Ryan-Joiner o Kolmogorov-Smirnov. Por ejemplo, vamos a activar elúltimo test, Kolmogorov-Smirnov. El recuadro Title vamos a dejarlo en blanco. Por último, pulsamos enOK. El resultado es un gráfico probabilístico en el cual también está indicado el p-valor, que es mayorque 0′15. Este p-valor es mayor que el nivel de significación elegido (0′05) y, por tanto, podemosaceptar que la variable Pulse1 es Normal.

4.3. Contraste chi-cuadrado sobre independencia de dosvariables aleatorias

Hasta ahora se ha considerado una única variable cuyas observaciones en una población dabanlugar a ciertas hipótesis convenientes de contrastar mediante un test. Sin embargo, es frecuente elproblema de estudiar conjuntamente dos variables en los mismos individuos y preguntarse si existe ono algún tipo de relación entre ellas, es decir, si los valores que tome una de ellas van a condicionar dealgún modo los valores de la otra. El método estadístico para responder a tal pregunta varía con el tipode variables implicadas. Cuando ambas son cualitativas, la técnica oportuna es el test chi-cuadradode Pearson; aunque este método también se puede emplear cuando las variables son cuantitativas.

En Minitab hay dos formas de aplicar este contraste, según tengamos recogidos los datos. Expli-camos estos dos casos en los dos sub-apartados siguientes.

4.3.1. Datos en una tabla de doble entrada

Si los datos están recogidos en una tabla de doble entrada, se utiliza la opción Stat⇒Tables⇒Chi-Square Test (Two-Way Table in Worksheet).

Vamos a hacer el siguiente ejemplo: Se desea averiguar si existe asociación entre el sexo y el usode la biblioteca. A tal efecto, se tomó una muestra aleatoria de 30 mujeres y 30 hombres y se lesclasificó de la siguiente manera:

usuarios no usuarios

hombres 6 24

mujeres 14 16

Page 45: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 45

Para realizar este contraste con Minitab, en primer lugar tenemos que introducir la tabla de dobleentrada anterior en una nueva hoja de datos que podemos denominar Ejemplo_Independencia.mtw. Losdatos tienen que ser introducidos tal y como se muestra a continuación:

Ahora seleccionamos Stat⇒Tables⇒Chi-Square Test (Two-Way Table in Worksheet); en Columns contai-ning the table elegimos, de la lista de variables de la izquierda, las columnas C1 y C2; es decir, ‘SI’ y‘NO’ y pulsamos en OK. En la ventana de sesión podemos ver el resultado del p-valor, que es 0′028. Siconsideramos un nivel de significación de α = 0′01 entonces el p-valor es mayor que α, por lo quepodríamos aceptar la hipótesis nula de independencia. Pero si consideramos un nivel de significaciónde α = 0′05 (que es lo usual) entonces el p-valor es menor que α, por lo que no podríamos aceptar lahipótesis nula de independencia, aceptando entonces que existe relación entre el sexo y el uso de labiblioteca.

4.3.2. Datos en dos (o tres) columnas

Si los datos están recogidos en dos (o tres) columnas, se utiliza la opción Stat⇒Tables⇒CrossTabulation and Chi-Square.

Ejemplo 1. Vamos a hacer el mismo ejemplo que en el apartado anterior, pero utilizando la opciónStat⇒Tables⇒Cross Tabulation and Chi-Square. Para ello, en primer lugar tenemos que introducir losdatos (en la hoja de datos Ejemplo_Independencia.mtw) tal como se muestra a continuación:

Como se puede observar, hemos creado tres nuevas columnas que contienen todas las combinacio-nes posibles de resultados de las dos variables y sus frecuencias conjuntas: la columna sexo tiene porresultados H (hombre) y M (mujer); la columna usuario tiene por resultados SI (la persona sí es usuariade la biblioteca) y NO (la persona no es usuaria de la biblioteca); la columna frecuencia contiene lasfrecuencias conjuntas de todas y cada una de las combinaciones posibles de los resultados de las dosvariables mencionadas.

Ahora seleccionamos Stat⇒Tables⇒Cross Tabulation and Chi-Square. En Categorical variables se tienenque especificar las variables para las cuales vamos a hacer el test de independencia; en nuestro ejem-plo, en For rows tenemos que seleccionar, de la lista de variables de la izquierda, la columna ‘sexo’;en For columns tenemos que seleccionar, de la lista de variables de la izquierda, la columna ‘usuario’.El recuadro For layers (capas) lo dejamos en blanco. En Frequencies are in tenemos que seleccionar,de la lista de variables de la izquierda, la columna ‘frecuencia’. Pulsamos el botón Chi-Square y, en el

Page 46: 2011 minitab-15

46 Dra. Josefa Marín Fernández

cuadro de diálogo resultante, dejamos activada la opción Chi-Square Analysis y pulsamos en OK. Deja-mos lo que aparece por defecto en el cuadro de diálogo inicial y pulsamos en OK. En la ventana desesión podemos comprobar que los resultados del contraste de hipótesis son los mismos que antes(p-valor=0′028) y, por tanto, las conclusiones, obviamente, son las mismas.

Ejemplo 2. Para utilizar la opción Stat⇒Tables⇒Cross Tabulation and Chi-Square no es necesario quetengamos una columna con las frecuencias de cada combinación de resultados de dos variables; tam-bién se puede utilizar dicha opción si solamente tenemos dos columnas que contienen los resultadosde una variable bidimensional, (xi, yi), pero es necesario que las dos variables sean de tipo discreto,con pocos resultados distintos; de lo contrario no se puede aplicar este contraste.

Para hacer un ejemplo de este caso, vamos a activar (o abrir) la hoja de datos Pulse.mtw. Vamosa comprobar si existe dependencia entre las variables Smokes (la persona es fumadora o no) y Sex(sexo). La hipótesis nula es H0: “No existe relación entre el sexo y ser fumador o no”. Como vemos,en la Worksheet los datos están recogidos en dos columnas (no en tres). Para realizar este contrasteseleccionamos Stat⇒Tables⇒Cross Tabulation and Chi-Square; en For rows seleccionamos la columna‘Smokes’; en For columns seleccionamos la columna ‘Sex’; no escribimos nada en For layers (capas)y tampoco escribimos nada en Frequencies are in. Pulsamos el botón Chi-Square y, en el cuadro dediálogo resultante, activamos Chi-Square Analysis y Expected cell counts, y pulsamos en OK. Finalmente,volvemos a pulsar OK en el cuadro de diálogo inicial. En la ventana de sesión aparece lo siguiente:

Como podemos observar, aparecen las frecuencias observadas y las frecuencias esperadas bajo lahipótesis nula. Podemos comprobar que estas últimas frecuencias son todas mayores o iguales que5, por lo cual se puede aplicar esta técnica (el test chi-cuadrado de independencia). Recordemos queeste contraste solamente puede aplicarse si todas las frecuencias esperadas bajo la hipótesis nula sonmayores o iguales que 1 y, además, todas las frecuencias esperadas bajo la hipótesis nula son mayoreso iguales que 5, salvo para un 20 % como máximo. Si no ocurriera esto, Minitab nos lo especificaría enla ventana de sesión, y por tanto el test quedaría invalidado. Como podemos ver, tenemos el resultadodel estadístico χ2 y el resultado del p-valor, que es 0′216, claramente mayor que los habituales nivelesde significación (0′05 ó 0′01), por lo que podemos aceptar la hipótesis nula de independencia de lasdos variables aleatorias; es decir, podemos aceptar que no existe relación entre el sexo y ser fumadoro no.

Page 47: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 47

4.4. Ejercicios propuestos

Ejercicio 4.1

a) Crea un nuevo proyecto de Minitab.

b) Abre la hoja de datos Prestamos.mtw (datos del Ejercicio 1.1).

c) Calcula de mediana de la columna PPU.

d) Utilizando la mediana (para dicotomizar) en el contraste de las rachas, ¿se puede aceptar,con un nivel de significación de α = 0′05, que la muestra de datos de la variable PPU(porcentaje anual de préstamos por usuario) es aleatoria? ¿Por qué?

e) ¿Se puede aceptar, con un nivel de significación de α = 0′05, que la variable PPU esNormal? ¿Por qué?

f) Graba el proyecto con el siguiente nombre: Ejercicio4-1.mpj

Ejercicio 4.2

a) Crea un nuevo proyecto de Minitab.

b) Abre la hoja de datos Transacciones.mtw (datos del Ejercicio 1.2).

c) Utilizando la media (para dicotomizar) en el contraste de las rachas, ¿se puede aceptar,con un nivel de significación de α = 0′05, que las muestras de los datos de las variablesTR, TRF y Porcentaje TRF son aleatorias? ¿Por qué?

d) ¿Se puede aceptar, con un nivel de significación de α = 0′05, que las variables TR, TRF yPorcentaje TRF son Normales? ¿Por qué?

e) Graba el proyecto con el siguiente nombre: Ejercicio4-2.mpj

Ejercicio 4.3 Los siguientes datos corresponden a las edades de una muestra de 10 personas quevisitan una biblioteca.

19 24 83 30 17 23 33 19 68 56

a) Crea un nuevo proyecto de Minitab.

b) Guarda los datos en el archivo Edad.mtw

c) Calcula de mediana.

d) Utilizando la mediana (para dicotomizar) en el contraste de las rachas, ¿se puede aceptar,con un nivel de significación de α = 0′05, que la muestra es aleatoria? ¿Por qué?

e) ¿Se puede aceptar, con un nivel de significación de α = 0′05, que la variable aleatoriaedad de las personas que visitan la biblioteca es Normal? ¿Por qué?

f) Graba el proyecto con el siguiente nombre: Ejercicio4-3.mpj

Ejercicio 4.4 El rector de una universidad española desea saber la opinión del profesorado en relacióncon un proyecto por el cual todos los libros comprados por los departamentos se llevarían a unabiblioteca general universitaria ubicada en un edificio independiente de las facultades. Para ello,selecciona una muestra aleatoria de 370 profesores de distintos rangos académicos (A.E.U.=Ayudante de Escuela Universitaria, A.F.= Ayudante de Facultad, T.E.U.=Titular de EscuelaUniversitaria, T.U.= Titular de Universidad, C.U.= Catedrático de Universidad). Los resultadosse reflejan en la siguiente tabla:

Page 48: 2011 minitab-15

48 Dra. Josefa Marín Fernández

A.E.U. A.F. T.E.U. T.U. C.U.

en contra 30 55 95 14 12

indiferente 15 20 17 8 10

a favor 10 25 38 8 13

a) Crea un nuevo proyecto de Minitab.

b) Guarda los datos en el archivo Rango-Opinion.mtw

c) ¿Se puede aceptar, con un nivel de significación de α = 0′01, que existe relación entre elrango académico y la opinión de los profesores respecto del proyecto mencionado? ¿Porqué?

d) Graba el proyecto con el siguiente nombre: Ejercicio4-4.mpj

Ejercicio 4.5 Un profesor de estadística de un Grado en Información y Documentación quiere estu-diar la mejor forma de obtener un buen resultado en la asignatura y para ello solicita la cola-boración de los alumnos durante varios cursos académicos planteándoles el siguiente esquema:al final del primer parcial califica a todos los alumnos según los resultados del examen en A(sobresaliente y notable), B (aprobado) y C (suspenso); luego les pide que contesten cuál hasido su método de trabajo ante la signatura (I= sólo estudia teoría, II= sólo estudia problemas,III= estudia teoría y problemas). Conocidos los resultados, el profesor construye la siguientetabla:

Método de trabajo

I II III

A 15 12 65

Calificación B 58 70 85

C 40 102 53

a) Crea un nuevo proyecto de Minitab.

b) Guarda los datos en el archivo Calificacion-Metodo.mtw

c) ¿Se puede aceptar, con un nivel de significación de α = 0′05, que la calificación es inde-pendiente del método de trabajo empleado? ¿Por qué?

d) Graba el proyecto con el siguiente nombre: Ejercicio4-5.mpj

Ejercicio 4.6 En una determinada facultad se considera una muestra de 807 alumnos y se realizauna encuesta para saber cuántas horas diarias dedica cada alumno al estudio en la biblioteca,obteniéndose la siguiente tabla de resultados:

Curso de la licenciatura

1o 2o 3o 4o 5o

menos de 1 hora 18 20 32 77 96

No de horas entre 1 y 3 horas 22 35 90 83 50

más de 3 horas 60 70 80 60 14

Page 49: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 49

a) Crea un nuevo proyecto de Minitab.

b) Guarda los datos en el archivo Curso-Tiempo.mtw

c) ¿Se puede aceptar, con un nivel de significación de α = 0′05, que existe relación entre elcurso al que pertenece el alumno y el tiempo que dedica al estudio en la biblioteca? ¿Porqué?

d) Graba el proyecto con el siguiente nombre: Ejercicio4-6.mpj

Page 50: 2011 minitab-15
Page 51: 2011 minitab-15

5Contrastes paramétricos en una

poblaciónContrastes paramétricos en una

población

5.1. Contrastes sobre la media

El contraste de hipótesis sobre una media sirve para tomar decisiones acerca del verdadero valorpoblacional de la media de una variable aleatoria.

5.1.1. Contraste sobre la media cuando la desviación típicapoblacional es conocida

Esta técnica es válida solamente si la muestra es aleatoria y la población es Normal o el tamañomuestral, n, es grande (en la práctica, n ≥ 30).

Para hacer este test hay que seleccionar Stat ⇒Basic Statistics ⇒1-Sample Z. Esta opción tambiénnos da el intervalo de confianza para la media poblacional, µ.

Abrimos el archivo de datos Pulse.mtw. Vamos a suponer que conocemos el valor de la desviacióntípica poblacional de la variable Pulse1 (pulso antes de correr), σ = 10 pulsaciones por minuto.Comprobemos si se puede aceptar, con un nivel de significación de α = 0′05, que el pulso mediopoblacional antes de correr es mayor que 70 pulsaciones por minuto. Si µ denota la media poblacionalde la variable X=Pulso antes de correr, el contraste es H0 : µ ≤ 70 frente a H1 : µ > 70.

En el capítulo anterior ya hemos comprobado que la muestra de resultados de la variable Pulse1 esaleatoria. Además, el tamaño muestral es grande (n = 92). Por tanto, podemos utilizar este procedi-miento estadístico.

Seleccionamos la opción Stat ⇒Basic Statistics ⇒1-Sample Z. En Samples in columns seleccionamos,de la lista de variables de la izquierda, la columna o columnas para las cuales se va a realizar este tipode contraste; en nuestro caso, ‘Pulse1’. Dejamos desactivada la opción Summarized data. En Standarddeviation tecleamos el valor de la desviación típica poblacional, σ, que suponemos que es 10. Activa-mos Perform hypothesis test y en Hypothesized mean especificamos el valor, µ0, con el que se compara la

51

Page 52: 2011 minitab-15

52 Dra. Josefa Marín Fernández

media poblacional, que es 70. Si pulsamos el botón Options nos aparece un nuevo cuadro de diálogocon las siguientes opciones:

Confidence level: Por defecto se muestra un intervalo de confianza al 95 % para la media poblacionalµ. Se puede introducir un valor entre 1 y 99 para solicitar otro nivel de confianza. En nuestrocaso, podemos dejar lo que aparece por defecto, es decir, 95.

Alternative: Aquí se especifica cuál es la hipótesis alternativa: less than significa que la hipótesisalternativa es H1 : µ < µ0, not equal significa que la hipótesis alternativa es H1 : µ 6= µ0 ygreater than significa que la hipótesis alternativa es H1 : µ > µ0. Tengamos en cuenta que conla opción less than el intervalo de confianza para la media será del tipo (−∞, b), con la opciónnot equal el intervalo de confianza para la media será del tipo (a, b) y con la opción greater thanel intervalo de confianza para la media será del tipo (a,+∞). En nuestro caso, tenemos queseleccionar greater than ya que la hipótesis alternativa es H1 : µ > 70.

Podemos comprobar, en la ventana de sesión, que el p-valor es 0′003, claramente menor que el ni-vel de significación, α = 0′05. En consecuencia, rechazamos la hipótesis nula y, por tanto, aceptamosla hipótesis alternativa; es decir, aceptamos que la media poblacional de la variable Pulse 1 es mayorque 70 pulsaciones por minuto. El intervalo de confianza al 95 % para la media poblacional, asociadoa este contraste de hipótesis, es (71′15,+∞).

También se puede realizar este contraste de hipótesis si sabemos el tamaño muestral y el resultadode la media muestral. Veámoslo con un ejemplo:

En el volumen de Julio de 1992 de Economics Abstracts, la media del número de palabras porresumen es 79′56, con una varianza de 615′04. Se extrae una muestra aleatoria simple de 30 resúmenesescritos en alemán y se observa que la media del número de palabras por resumen es 67′47. Se quieredecidir si existe una diferencia significativa entre la media de palabras por resumen de los escritos enalemán y la media de palabras por resumen de todos los de este volumen.

Vamos a suponer que la varianza del número de palabras por resumen de los escritos en alemáncoincide con la varianza del número de palabras por resumen de todos los de este volumen. Así pues,los datos que tenemos son los siguientes:

µ0 = 79′56 ,

σ2 = 615′04⇒ σ =√615′04 = 24′8 ,

X = 67′47 ,

n = 30 .

La variable observada en la población no puede ser Normal pues es discreta, pero como el tamañomuestral es 30, entonces podemos aplicar esta técnica. Así pues, consideramos el siguiente contrastede hipótesis:

H0 : µ = 79′56 ,

H1 : µ 6= 79′56 .

Seleccionamos la opción Stat ⇒Basic Statistics ⇒1-Sample Z. Activamos la opción Summarized data,con lo cual se desactiva automáticamente la opción Samples in columns. En Sample size tenemos queteclear el tamaño muestral, que es 30 y en Mean tenemos que teclear el resultado de la media muestral,que es 67,47. En Standard deviation tecleamos el valor de la desviación típica poblacional, σ, que su-ponemos que es 24,8. Activamos Perform hypothesis test y en Hypothesized mean especificamos el valor,

Page 53: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 53

µ0, con el que se compara la media poblacional, que es 79,56. Pulsamos en Options y, en el cuadro dediálogo resultante, en Alternative seleccionamos not equal puesto que nuestra hipótesis alternativa esH1 : µ 6= 79′56.

Podemos comprobar, en la ventana de sesión, que el p-valor es 0′008, claramente menor que losniveles de significación usuales (α = 0′05 ó α = 0′01). En consecuencia, rechazamos la hipótesisnula y, por tanto, aceptamos que existe diferencia significativa entre la media del número de palabraspor resumen en alemán y la media del número de palabras por resumen de todos ellos. El intervalo deconfianza al 95 % para la media poblacional, asociado a este contraste de hipótesis, es (58′60, 76′34).

5.1.2. Contraste sobre la media cuando la desviación típicapoblacional es desconocida

Igual que en el apartado anterior, esta técnica es válida solamente si la muestra es aleatoria y lapoblación es Normal o el tamaño muestral, n, es grande (en la práctica, n ≥ 30).

Para realizar este contraste paramétrico hay que seleccionar Stat ⇒Basic Statistics ⇒1-Sample t. Lamanera de utilizar esta opción es la misma que la explicada en el apartado anterior.

Con el archivo de datos Pulse.mtw, veamos si se puede aceptar, con un nivel de significación deα = 0′05, que el pulso medio poblacional antes de correr es igual a 71 pulsaciones por minuto. Loque queremos comprobar es si la media poblacional de la variable Pulse1 es igual a 71 pulsacionespor minuto, suponiendo ahora desconocida la desviación típica poblacional (lo cual es cierto). Si µdenota la media poblacional de la variable Pulse1, el contraste es H0 : µ = 71 frente a H1 : µ 6= 71.

Podemos comprobar, en la ventana de sesión, que el p-valor es 0′107, claramente mayor que elnivel de significación, α = 0′05, por lo que podemos aceptar la hipótesis nula; es decir, aceptamosque la media poblacional del número de pulsaciones por minuto antes de correr es igual a 71. Elintervalo de confianza al 95 % para la media poblacional de dicha variable es (70′59, 75′15).

También se puede realizar este contraste de hipótesis si sabemos el tamaño muestral, el resultadode la media muestral y el resultado de la desviación típica corregida muestral. Veámoslo con unejemplo:

El número medio de libros por estante de una biblioteca es 24. Extraída una muestra de 91 estantesde libros de matemáticas se obtiene una media de 25 libros, con una desviación típica corregida de 1′5.Queremos decidir si existe diferencia significativa entre el número medio de libros de matemáticaspor estante y el número medio de libros por estante.

La variable X = “Número de libros de matemáticas por estante” no puede ser Normal porque esdiscreta; pero como n = 91 ≥ 30 entonces se puede utilizar este procedimiento.

Los datos conocidos son:µ0 = 24 ,

S = 1′5 ,

X = 25 ,

n = 91 .

El contraste de hipótesis que vamos a hacer es el siguiente:

H0 : µ = 24 ,

H1 : µ 6= 24 .

Page 54: 2011 minitab-15

54 Dra. Josefa Marín Fernández

Seleccionamos la opción Stat ⇒Basic Statistics ⇒1-Sample t. Activamos la opción Summarized data,con lo cual se desactiva automáticamente la opción Samples in columns. En Sample size tenemos queteclear el tamaño muestral, que es 91, en Mean tenemos que teclear el resultado de la media muestral,que es 25, y en Standard deviation tenemos que teclear el resultado de la desviación típica corregidamuestral, que es 1,5. Activamos Perform hypothesis test y en Hypothesized mean especificamos el valor,µ0, con el que se compara la media poblacional, que es 24. Pulsamos en Options y, en el cuadro dediálogo resultante, en Alternative seleccionamos not equal puesto que nuestra hipótesis alternativa esH1 : µ 6= 24.

Podemos comprobar, en la ventana de sesión, que el p-valor es 0, el mínimo posible y, por su-puesto, claramente menor que los niveles de significación usuales (α = 0′05 ó α = 0′01). En conse-cuencia, rechazamos la hipótesis nula y, por tanto, aceptamos que existe diferencia significativa entreel número medio de libros de matemáticas por estante y el número medio de libros por estante. Elintervalo de confianza al 95 % para la media poblacional, asociado a este contraste de hipótesis, es(24′688, 25′312).

5.2. Contrastes sobre la varianza

El contraste de hipótesis sobre una varianza sirve para tomar decisiones acerca del verdadero valorpoblacional de la varianza de una variable aleatoria. Minitab realiza el contraste solamente en el casoen el que la media poblacional es desconocida.

Esta técnica es válida solamente si la muestra es aleatoria y la población es Normal.Para hacer el contraste de hipótesis sobre una varianza poblacional hay que seleccionar Stat ⇒Basic

Statistics ⇒1 Variance. Esta opción también se utiliza para realizar un test sobre la desviación típicapoblacional.

En el capítulo anterior ya hemos comprobado que la muestra de resultados de la variable Pulse1 (delarchivo de datos Pulse.mtw) es aleatoria, y que la variable Pulse1 es Normal. Por tanto, podemos utilizareste procedimiento estadístico para comprobar si se puede aceptar, con un nivel de significación deα = 0′05, que la varianza poblacional del pulso antes de correr es menor que 130 pulsaciones alcuadrado. Si σ2 denota la varianza poblacional de la variable X=Pulso antes de correr, el contrastees H0 : σ ≥ 130 frente a H1 : σ

2 < 130.Seleccionamos, por tanto, la opción Stat ⇒Basic Statistics ⇒1 Variance. En el cuadro de diálogo

resultante, arriba a la derecha, seleccionamos Enter variance (si quisiéramos realizar un contraste sobrela desviación típica poblacional, seleccionaríamos Enter standard deviation); en Samples in columns seselecciona, de la lista de variables de la izquierda, la columna o columnas para las cuales se va arealizar este tipo de contraste; en nuestro caso se selecciona ‘Pulse1’. Dejamos desactivada la opciónSummarized data. Activamos Perform hypothesis test y en Hypothesized variance se especifica el valor, σ2

0 ,con el que se compara la varianza poblacional, que es 130. Si pulsamos el botón Options nos apareceun nuevo cuadro de diálogo con las siguientes opciones:

Confidence level: Por defecto se muestra un intervalo de confianza al 95 % para la varianza pobla-cional σ2. Se puede introducir un valor entre 1 y 99 para solicitar otro nivel de confianza. Ennuestro caso, podemos dejar lo que aparece por defecto, es decir, 95.

Alternative: Aquí se especifica cuál es la hipótesis alternativa: less than significa que la hipótesisalternativa es H1 : σ2 < σ2

0 , not equal significa que la hipótesis alternativa es H1 : σ2 6= σ20 y

greater than significa que la hipótesis alternativa es H1 : σ2 > σ2

0 . Tengamos en cuenta que con

Page 55: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 55

la opción less than el intervalo de confianza para la varianza será del tipo (−∞, b), con la opciónnot equal el intervalo de confianza para la varianza será del tipo (a, b) y con la opción greater thanel intervalo de confianza para la varianza será del tipo (a,+∞). En nuestro caso, tenemos queseleccionar less than ya que la hipótesis alternativa es H1 : σ

2 < 130.

Podemos comprobar, en la ventana de sesión, que el p-valor (para el método Standard) es 0′338,claramente mayor que el nivel de significación, α = 0′05. En consecuencia, aceptamos la hipótesisnula y, por tanto, no podemos aceptar la hipótesis alternativa; es decir, no podemos aceptar que lavarianza poblacional del pulso antes de correr es menor que 130 pulsaciones al cuadrado. El intervalode confianza al 95 % para la varianza poblacional, asociado a este contraste de hipótesis (con el méto-do Standard), es (−∞, 158). El intervalo de confianza al 95 % para la desviación típica poblacional,asociado a este contraste de hipótesis (con el método Standard), es (−∞, 12′6).

También se puede realizar este contraste de hipótesis si sabemos el tamaño muestral y el resultadode la varianza corregida muestral. Veámoslo con un ejemplo:

Se sabe que las calificaciones en la asignatura A es una variable Normal de media y varianzadesconocidas. Se extrae una muestra aleatoria simple de 81 alumnos de la asignatura A, obteniéndoseuna media de 6′8 puntos, con una varianza corregida de 1′69 puntos al cuadrado, en las calificacionesde dichos alumnos. Sabemos que la varianza de las calificaciones en otra asignaturaB es de 2′6 puntosal cuadrado. Queremos saber si la verdadera varianza de las calificaciones en la asignaturaA es menorque la varianza en las calificaciones en la asignatura B.

Como la varianza corregida muestral es S2 = 1′69 < 2′6, esta evidencia debe ser compatible conla hipótesis alternativa. Así pues, vamos a realizar el siguiente contraste:

H0 : σ2 ≥ 2′6 ,

H1 : σ2 < 2′6 .

Seleccionamos la opción Stat ⇒Basic Statistics ⇒1 Variance. En el cuadro de diálogo resultante,arriba a la derecha, seleccionamos Enter variance. Activamos la opción Summarized data, con lo cual sedesactiva automáticamente la opción Samples in columns. En Sample size tenemos que teclear el tamañomuestral, que es 81, y en Sample variance tenemos que teclear el resultado de la varianza corregidamuestral, que es 1,69. Activamos Perform hypothesis test y en Hypothesized variance se especifica el valor,σ20 , con el que se compara la varianza poblacional, que es 2,6. Pulsamos en Options y, en el cuadro

de diálogo resultante, en Alternative seleccionamos less than puesto que nuestra hipótesis alternativa esH1 : σ

2 < 2′6.Podemos comprobar, en la ventana de sesión, que el p-valor es 0′006, claramente menor que los

niveles de significación usuales (α = 0′05 ó α = 0′01). En consecuencia, rechazamos la hipótesisnula y, por tanto, aceptamos que la varianza de las calificaciones en la asignatura A es menor que lavarianza de las calificaciones en la asignatura B. El intervalo de confianza al 95 % para la varianzapoblacional, asociado a este contraste de hipótesis, es (−∞, 2′24).

5.3. Contrastes sobre la proporción

Supongamos una población en la que observamos una característica que sólo tiene dos resultadoso modalidades, que podemos denominar éxito y fracaso. Sea p la proporción poblacional de éxitos.

Page 56: 2011 minitab-15

56 Dra. Josefa Marín Fernández

Para hacer el contraste de hipótesis sobre la proporción poblacional de éxitos, p, hay que selec-cionar Stat ⇒Basic Statistics ⇒1 Proportion. Esta opción también nos da el intervalo de confianza parap.

Recordemos que en la hoja de datos Pulse.mtw la variable Smokes tenía solamente dos resultados:1=Sí fuma, 2=No fuma. Vamos a comprobar si se puede aceptar, con un nivel de significación deα = 0′05, que el porcentaje poblacional de fumadores es menor que 35 %; es decir, si la proporciónpoblacional de fumadores es menor que 0′35. El contraste es H0 : p ≥ 0′35 frente a H1 : p < 0′35.

Seleccionamos la opción Stat ⇒Basic Statistics ⇒1 Proportion. En el cuadro de diálogo resultante,en Samples in columns seleccionamos, de la lista de variables de la izquierda, la columna ‘Smokes’;dejamos desactivada la opción Summarized data; activamos Perform hypothesis test y en Hypothesizedproportion especificamos el valor, p0, con el que comparamos la proporción poblacional, que es 0,35.Si pulsamos el botón Options nos aparece un nuevo cuadro de diálogo con las siguientes opciones:

Confidence level: Por defecto se muestra un intervalo de confianza al 95 % para la proporción po-blacional p. Se puede introducir un valor entre 1 y 99 para solicitar otro nivel de confianza. Ennuestro caso, podemos dejar lo que aparece por defecto, es decir, 95.

Alternative: Aquí se especifica cuál es la hipótesis alternativa: less than significa que la hipótesisalternativa es H1 : p < p0, not equal significa que la hipótesis alternativa es H1 : p 6= p0 y greaterthan significa que la hipótesis alternativa es H1 : p > p0. Tengamos en cuenta que con la opciónless than el intervalo de confianza para la proporción será del tipo (−∞, b), con la opción notequal el intervalo de confianza para la proporción será del tipo (a, b) y con la opción greater thanel intervalo de confianza para la proporción será del tipo (a,+∞). En nuestro caso, tenemosque seleccionar less than ya que la hipótesis alternativa es H1 : p < 0′35.

Podemos comprobar, en la ventana de sesión, que el p-valor es 1, el máximo posible y, por supues-to, claramente mayor que el nivel de significación, α = 0′05. En consecuencia, aceptamos la hipótesisnula y, por tanto, no podemos aceptar que la proporción poblacional de fumadores es menor que 0′35;es decir, no podemos aceptar que el porcentaje poblacional de fumadores es menor que 35 %. El in-tervalo de confianza al 95 % para la proporción poblacional, asociado a este contraste de hipótesis, es(−∞, 0′774287).

También se puede realizar el contraste de hipótesis sobre una proporción poblacional si sabemosel tamaño muestral y el número de éxitos en la muestra. Veámoslo con un ejemplo:

Deseamos conocer la postura de los bibliotecarios frente a la informatización de las bibliotecas.Para ello, preguntamos a 150 de ellos (elegidos aleatoria e independientemente) sobre este tema,obligándoles a manifestarse a favor o en contra. El resultado es que 82 se manifiestan a favor y con-siguientemente, 68 en contra. ¿Es compatible este resultado con que la proporción de bibliotecarios(en el colectivo total) a favor de informatizar las bibliotecas es la misma que la proporción de biblio-tecarios en contra?

Sea p la proporción de bibliotecarios (en el colectivo total) a favor de informatizar las bibliotecas.El contraste que hemos de realizar es H0 : p = 0′5 frente a H1 : p 6= 0′5. Seleccionamos la opciónStat ⇒Basic Statistics ⇒1 Proportion. En el cuadro de diálogo resultante, activamos la opción Summa-rized data, con lo cual se desactiva automáticamente la opción Samples in columns. En Number of eventstenemos que teclear el número de éxitos en la muestra, que es 82 y en Number of trials tenemos queteclear el tamaño muestral, que es 150. Activamos Perform hypothesis test y en Hypothesized proportionespecificamos el valor, p0, con el que se compara la proporción poblacional, que es 0,5. Pulsamos en

Page 57: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 57

Options y, en el cuadro de diálogo resultante, en Alternative seleccionamos not equal puesto que nuestrahipótesis alternativa es H1 : p 6= 0′5.

Podemos comprobar, en la ventana de sesión, que el p-valor es 0′288, claramente mayor que los ni-veles de significación usuales (α = 0′05 ó α = 0′01). En consecuencia, aceptamos la hipótesis nula y,por tanto, aceptamos que la proporción de bibliotecarios (en el colectivo total) a favor de informatizarlas bibliotecas es la misma que la proporción de bibliotecarios en contra. El intervalo de confianza al95 % para la proporción poblacional, asociado a este contraste de hipótesis, es (0′463428, 0′628026).

5.4. Ejercicios propuestos

Ejercicio 5.1

a) Crea un nuevo proyecto de Minitab.

b) Abre la hoja de datos Prestamos.mtw (datos del Ejercicio 1.1).

c) ¿Se puede aceptar, con un nivel de significación de 0′05, que la media poblacional delporcentaje anual de préstamos por usuario es igual a 70? ¿Por qué?

d) ¿Se puede aceptar, con un nivel de significación de 0′05, que la varianza poblacional delporcentaje anual de préstamos por usuario es igual a 140? ¿Por qué?

e) Graba el proyecto con el siguiente nombre: Ejercicio5-1.mpj

Ejercicio 5.2

a) Crea un nuevo proyecto de Minitab.

b) Abre la hoja de datos Transacciones.mtw (datos del Ejercicio 1.2).

c) ¿Se puede aceptar, con un nivel de significación de 0′05, que la media poblacional delporcentaje de transacciones de referencia finalizadas es menor que 86? ¿Por qué?

d) ¿Se puede aceptar, con un nivel de significación de 0′05, que la desviación típica pobla-cional del porcentaje de transacciones de referencia finalizadas es mayor que 5? ¿Por qué?

e) Graba el proyecto con el siguiente nombre: Ejercicio5-2.mpj

Ejercicio 5.3 En una muestra aleatoria simple de 15 individuos que consultan bases de datos, eltiempo (en minutos) que están utilizando el ordenador para realizar esta tarea es:

22 13 17 14 15 18 19 14 17 20 21 13 15 18 17

a) Crea un nuevo proyecto de Minitab.

b) Guarda los datos en el archivo Minutos.mtw

c) ¿Se puede aceptar, con un nivel de significación de α = 0′05, que la muestra es aleatoria?¿Por qué?

d) ¿Se puede aceptar, con un nivel de significación de α = 0′05, que la variable aleatoria“tiempo empleado en consultar bases de datos por ordenador” es Normal? ¿Por qué?

e) ¿Se puede aceptar, con un nivel de significación de α = 0′05, que la media poblacionaldel tiempo empleado en consultar bases de datos por ordenador es mayor que 15 minutos?¿Por qué?

Page 58: 2011 minitab-15

58 Dra. Josefa Marín Fernández

f) ¿Se puede aceptar, con un nivel de significación de α = 0′05, que la desviación típicapoblacional del tiempo empleado en consultar bases de datos por ordenador es menor que2 minutos? ¿Por qué?

g) Graba el proyecto con el siguiente nombre: Ejercicio5-3.mpj

Ejercicio 5.4 El número medio de libros por estante en una biblioteca es de 24′4, con una desviacióntípica de 1′6. Una muestra aleatoria simple de 36 estantes de dicha biblioteca tiene una mediade 25′2 libros por estante. ¿La información proporcionada por la muestra es representativa detoda la población?

Ejercicio 5.5 El número medio recomendado de usuarios servidos semanalmente por cada miembrodel personal de una biblioteca es de 100. En una muestra aleatoria simple de 81 miembros delpersonal de las bibliotecas de una determinada región se obtiene una media de 132′88 usuariosservidos semanalmente, con una desviación típica corregida de 55′19. ¿Las bibliotecas de dicharegión siguen la recomendación mencionada?

Ejercicio 5.6 El precio medio de los libros en rústica es de 63′4 euros, con una desviación típica de14′8 euros. Una muestra aleatoria simple de 61 libros en rústica con ilustraciones en color tieneun precio medio de 69′5 euros, con una desviación típica corregida de 16′6 euros.

a) ¿Permiten los datos afirmar que los libros en rústica con ilustraciones en color son máscaros que el resto de libros en rústica?

b) ¿La varianza del precio de los libros en rústica con ilustraciones en color es mayor que ladel precio de los libros en rústica?

Ejercicio 5.7 Se sabe que el número medio de veces que un artículo científico es citado durante los 5siguientes años a su publicación es de 6′5. Se eligen aleatoria e independientemente 71 artículosde medicina, obteniéndose una media de 7′8 citas durante los 5 siguientes años a su publicación,con una desviación típica corregida de 2′3. ¿Se puede afirmar que durante los 5 siguientes añosa su publicación se citan más los artículos de medicina que el resto de artículos científicos?

Ejercicio 5.8 En una biblioteca desconocemos la proporción de libros escritos en español. De unamuestra aleatoria simple de 125 libros, 80 de ellos están escritos en español, y el resto en otrosidiomas. Según estos datos, ¿se puede afirmar que la proporción de libros escritos en españolen dicha biblioteca es mayor que 0′6?

Ejercicio 5.9 En una biblioteca escolar hay una proporción de libros prestados que se devuelven conretraso. De una muestra aleatoria simple de 250 libros, 50 de ellos se han devuelto con retraso.¿Permiten los datos afirmar que la proporción de libros prestados que se devuelven con retrasoa dicha biblioteca escolar es mayor que 0′15?

Page 59: 2011 minitab-15

6Contrastes paramétricos en dos

poblacionesContrastes paramétricos en dos

poblaciones

6.1. Comparación de dos varianzas con muestrasindependientes

En el apartado siguiente vamos a estudiar el problema de la comparación de dos medias poblacio-nales en el caso en que observemos dos variables aleatorias Normales (una en cada población), supo-niendo que se han extraído dos muestras aleatorias (una de cada población) independientes. Veremosen dicho apartado que necesitamos saber si las varianzas poblacionales (que serán desconocidas) soniguales o distintas. Por este motivo estudiamos ahora el contraste de comparación de varianzas en elcaso en que desconozcamos los valores de las medias poblacionales.

Este procedimiento estadístico solamente es válido cuando las dos muestras son aleatorias y lasdos poblaciones son Normales.

Para realizar este test paramétrico hay que seleccionar Stat ⇒Basic Statistics ⇒2 Variances.

Ejemplo 1. Con el archivo de datos Pulse.mtw, comprobemos si se puede aceptar, con un nivel designificación de α = 0′05, que la varianza poblacional del pulso de los hombres antes de correr esigual a la varianza poblacional del pulso de las mujeres antes de correr. Lo que se quiere es com-parar la varianza poblacional de la variable Pulse1 para los grupos en los que la variable Sex vale 1(Hombre) y 2 (Mujer). El contraste que tenemos que hacer es H0 : σ2

1 = σ22 frente a H1 : σ2

1 6= σ22 ,

siendo X1=“Pulso de los hombres antes de correr” y X2=“Pulso de las mujeres antes de correr”.Como no hay relación alguna entre el grupo de hombres y el grupo de mujeres, podemos afirmar quelas muestras son independientes. Por tanto, nos encontramos ante un contraste de comparación dedos varianzas poblacionales, con muestras independientes y medias poblacionales desconocidas. Yahemos comprobado, en la capítulo 4, que las dos variables, X1 y X2, son Normales.

Para hacer este contraste seleccionamos Stat ⇒Basic Statistics ⇒2 Variances. Activamos la opciónSamples in one column, con lo cual se desactivan automáticamente las opciones Samples in different co-lumns y Summarized data. En Samples seleccionamos, de la lista de variables de la izquierda, la columna

59

Page 60: 2011 minitab-15

60 Dra. Josefa Marín Fernández

‘Pulse1’; en Subscripts seleccionamos, de la lista de la izquierda, la columna ‘Sex’. Si pulsamos el botónOptions nos aparece un nuevo cuadro de diálogo con las siguientes opciones:

Confidence level: Por defecto se muestra un intervalo de confianza al 95 % para la diferencia dedesviaciones típicas poblacionales, σ1 − σ2. Se puede introducir un valor entre 1 y 99 parasolicitar otro nivel de confianza. En nuestro ejemplo, podemos dejar lo que aparece por defecto,es decir, 95.

Title: Aquí se puede escribir un título para el resultado del contraste. En nuestro ejemplo, podemosdejarlo en blanco.

Como resultado de este contraste obtenemos una nueva ventana que contiene dos gráficos y losresultados de dos tests de hipótesis sobre comparación de dos varianzas (el test F de Snedecor y eltest de Levene). Podemos comprobar que el p-valor para el test F de Snedecor es 0′299; claramentemayor que el nivel de significación, α = 0′05, por lo que podemos aceptar la hipótesis nula; esdecir, podemos aceptar que la varianza poblacional del pulso de los hombres antes de correr es iguala la varianza poblacional del pulso de las mujeres antes de correr. Con el test de Levene tambiénaceptaríamos la hipótesis nula pues el p-valor es igual a 0′148.

Ejemplo 2. Con el archivo de datos Pulse.mtw, comprobemos si se puede aceptar, con un nivel designificación de α = 0′05, que la varianza poblacional del pulso de los hombres después de correres igual a la varianza poblacional del pulso de las mujeres después de correr. Lo que se quiere escomparar la varianza poblacional de la variable Pulse2 para los grupos en los que la variable Sex vale1 (Hombre) y 2 (Mujer). El contraste que tenemos que hacer es H0 : σ2

1 = σ22 frente a H1 : σ2

1 6=σ22 , siendo X1=“Pulso de los hombres después de correr” y X2=“Pulso de las mujeres después de

correr”.Para hacer este contraste seleccionamos Stat ⇒Basic Statistics ⇒2 Variances. Activamos la opción

Samples in one column, con lo cual se desactivan automáticamente las opciones Samples in different co-lumns y Summarized data. En Samples seleccionamos, de la lista de variables de la izquierda, la columna‘Pulse2’; en Subscripts seleccionamos, de la lista de la izquierda, la columna ‘Sex’.

Se puede comprobar que el p-valor para el test F de Snedecor es 0′003, claramente menor queel nivel de significación, α = 0′05, por lo que tenemos que rechazar la hipótesis nula y, por tanto,aceptar que la varianza poblacional del pulso de los hombres después de correr es distinta de lavarianza poblacional del pulso de las mujeres después de correr. Con el test de Levene llegamos a lamisma conclusión pues el p-valor es igual a 0′011.

También se puede realizar este contraste de hipótesis si sabemos los dos tamaños muestrales y losresultados de las dos varianzas corregidas muestrales. Veámoslo con un nuevo ejemplo:Ejemplo 3. Supongamos que, de una muestra aleatoria de 21 personas que son socias de una biblio-teca, la media del número de horas por semana que pasan en la biblioteca es 10, con una varianzacorregida de 9. Y para una muestra aleatoria independiente de la primera, de 16 personas que no sonsocias de la biblioteca, la media es 6, con una varianza corregida de 4. ¿Existe diferencia significati-va entre las varianzas del número de horas semanales que pasan en la biblioteca los socios y los nosocios?

Como la varianza corregida muestral en el grupo de los socios es mayor que en el grupo de losno socios, entonces S2

1 será la varianza corregida en el grupo de los socios; es decir, X1=“Tiempo

Page 61: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 61

semanal que permanecen en la biblioteca los socios” y X2=“Tiempo semanal que permanecen en labiblioteca los no socios”. Hemos de suponer que las variables aleatorias X1 y X2 son Normales.

Así pues, se tienen los siguientes datos:

n1 = 21 , S21 = 9 ,

n2 = 16 , S22 = 4 .

Vamos a decidir sobre el siguiente contraste de hipótesis:

H0 : σ21 = σ2

2 ,

H1 : σ21 6= σ2

2 .

Seleccionamos la opción Stat ⇒Basic Statistics ⇒2 Variances. Activamos la opción Summarized data,con lo cual se desactivan automáticamente las opciones Samples in one column y Samples in differentcolumns. Dentro de First, en Sample size tenemos que teclear el tamaño muestral de la primera muestra,que es 21, y en Variance tenemos que teclear el resultado de la varianza corregida de la primera muestra,que es 9. Dentro de Second, en Sample size tenemos que teclear el tamaño muestral de la segundamuestra, que es 16, y en Variance tenemos que teclear el resultado de la varianza corregida de lasegunda muestra, que es 4.

Tanto en la ventana de sesión como en el gráfico generado comprobamos que el p-valor para el testF de Snedecor es 0′114, mayor que los niveles de significación usuales (α = 0′05 ó α = 0′01) y, portanto, aceptamos la hipótesis nula. En consecuencia, aceptamos que no existe diferencia significativaentre las varianzas del número de horas semanales que pasan en la biblioteca los socios y los nosocios.

6.2. Comparación de dos medias con muestrasindependientes

En general, un contraste para decidir sobre la hipótesis nula H0 : µ1 = µ2 frente a la hipótesisalternativa H1 : µ1 6= µ2 es bastante frecuente y constituye uno de los primeros objetivos de cualquierinvestigador que se inicia en estadística. Los métodos de resolución del problema varían según lasmuestras sean independientes o apareadas, y según las varianzas poblacionales sean conocidas o des-conocidas. Dentro del caso en que las varianzas poblacionales sean desconocidas, el método dependede si son iguales o distintas. El caso de muestras independientes y varianzas poblacionales conocidasno se puede hacer con Minitab. Trataremos, a continuación, el resto de los casos.

6.2.1. Comparación de dos medias con muestras independientes yvarianzas poblacionales desconocidas pero iguales

Este procedimiento solamente es válido cuando las dos muestras son aleatorias y las dos poblacio-nes son Normales o los dos tamaños muestrales son grandes (en la práctica n1, n2 ≥ 30).

Para realizar este test paramétrico hay que seleccionar Stat ⇒Basic Statistics ⇒2-Sample t.Con el archivo de datos Pulse.mtw, comprobemos si se puede aceptar, con un nivel de significación

de α = 0′05, que el pulso medio poblacional de los hombres antes de correr es igual al pulso medio

Page 62: 2011 minitab-15

62 Dra. Josefa Marín Fernández

poblacional de las mujeres antes de correr. Lo que se quiere es comparar la media poblacional de lavariable Pulse1 para los grupos en los que la variable Sex vale 1 (Hombre) y 2 (Mujer). El contrasteque tenemos que hacer es H0 : µ1 = µ2 frente a H1 : µ1 6= µ2, siendo X1=“Pulso de los hombresantes de correr” y X2=“Pulso de las mujeres antes de correr”.

En el Ejemplo 1 de la sección 6.1 hemos comprobado que se puede aceptar que la varianza po-blacional del pulso de los hombres antes de correr es igual a la varianza poblacional del pulso delas mujeres antes de correr. Por tanto, nos encontramos ante un contraste de comparación de dos me-dias poblacionales, con muestras independientes y varianzas poblacionales desconocidas pero iguales.Aunque las variables aleatorias X1 y X2 no fuesen Normales (que sí lo son, pues lo hemos com-probado en el capítulo 4), se puede aplicar este contraste debido a que los tamaños muestrales sonsuficientemente grandes: n1 = 57 y n2 = 35.

Para hacer este contraste seleccionamos Stat ⇒Basic Statistics ⇒2-Sample t. Activamos la opciónSamples in one column, con lo cual se desactivan automáticamente las opciones Samples in different co-lumns y Summarized data. En Samples seleccionamos, de la lista de variables de la izquierda, la columna‘Pulse1’; en Subscripts seleccionamos, de la lista de la izquierda, la columna ‘Sex’; y activamos Assu-me equal variances ya que hemos comprobado que las varianzas poblacionales son desconocidas peroiguales. Si pulsamos el botón Options nos aparece un nuevo cuadro de diálogo con las siguientesopciones:

Confidence level: Por defecto se muestra un intervalo de confianza al 95 % para la diferencia demedias poblacionales, µ1 − µ2. Se puede introducir un valor entre 1 y 99 para solicitar otronivel de confianza. En nuestro ejemplo, podemos dejar lo que aparece por defecto, es decir, 95.

Test difference: Aquí se pone el valor con el que se compara la diferencia de medias poblacionales,µ0. La hipótesis nula H0 : µ1 = µ2 es equivalente a H0 : µ1 − µ2 = 0, por lo que el valorcon el que se compara la diferencia de medias poblacionales, en este ejemplo, es cero; es decir,µ0 = 0. En consecuencia, nosotros dejamos lo que aparece por defecto (cero).

Alternative: Aquí se especifica cuál es la hipótesis alternativa: less than significa que la hipótesisalternativa esH1 : µ1−µ2 < µ0, not equal significa que la hipótesis alternativa esH1 : µ1−µ2 6=µ0 y greater than significa que la hipótesis alternativa es H1 : µ1−µ2 > µ0. Tengamos en cuentaque con la opción less than el intervalo de confianza para µ1 − µ2 será del tipo (−∞, b), conla opción not equal el intervalo de confianza será del tipo (a, b) y con la opción greater than elintervalo de confianza será del tipo (a,+∞). En nuestro ejemplo, tenemos que dejar lo queaparece por defecto, que es not equal, ya que la hipótesis alternativa es H1 : µ1 6= µ2, que esequivalente a H1 : µ1 − µ2 6= 0.

Podemos comprobar, en la ventana de sesión, que el p-valor es 0′006, claramente menor que elnivel de significación, α = 0′05, por lo que debemos rechazar la hipótesis nula y, por tanto, aceptarla hipótesis alternativa. Aceptamos que el pulso medio poblacional de los hombres antes de correr esdistinto del pulso medio poblacional de las mujeres antes de correr. Como la media muestral del pulsode las mujeres antes de correr (76′9) es mayor que la media muestral del pulso de los hombres antesde correr (70′42) podríamos, incluso, aceptar que la media poblacional del pulso de las mujeres antesde correr es mayor que la media poblacional del pulso de los hombres antes de correr. El intervalo deconfianza al 95 % para la diferencia de medias poblacionales, µ1 − µ2, es (−10′96,−1′91).

También se puede realizar este contraste de hipótesis si sabemos los dos tamaños muestrales, losresultados de las dos medias muestrales y los resultados de las dos desviaciones típicas corregidasmuestrales. Veámoslo con un nuevo ejemplo:

Page 63: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 63

Con los datos del Ejemplo 3 (de la sección 6.1) queremos decidir si existe diferencia significativaentre el número medio de horas semanales que permanecen en la biblioteca los socios y los no socios.

Como en dicho ejemplo hemos decidido aceptar que no existe diferencia significativa entre lasvarianzas poblacionales, entonces nos encontramos ante un contraste de comparación de dos me-dias poblacionales, con muestras independientes y varianzas poblacionales desconocidas pero iguales.Realizaremos el siguiente contraste de hipótesis:

H0 : µ1 = µ2 ,

H1 : µ1 6= µ2 .

Los datos son:n1 = 21 , X1 = 10 , S1 = 3 ,

n2 = 16 , X2 = 6 , S2 = 2 .

Seleccionamos la opción Stat ⇒Basic Statistics ⇒2-Sample t. Activamos la opción Summarized data,con lo cual se desactivan automáticamente las opciones Samples in one column y Samples in differentcolumns. Dentro de First, en Sample size tenemos que teclear el tamaño muestral de la primera muestra,que es 21, en Mean tenemos que teclear el resultado de la media de la primera muestra, que es 10, yen Standard deviation tenemos que teclear el resultado de la desviación típica corregida de la primeramuestra, que es 3. Dentro de Second, en Sample size tenemos que teclear el tamaño muestral de lasegunda muestra, que es 16, en Mean tenemos que teclear el resultado de la media de la segundamuestra, que es 6, y en Standard deviation tenemos que teclear el resultado de la desviación típicacorregida de la segunda muestra, que es 2. Activamos Assume equal variances ya que hemos comprobado(en el Ejemplo 3, como ya hemos dicho) que las varianzas poblacionales son desconocidas peroiguales. Pulsamos en Options y en el cuadro de diálogo resultante dejamos lo que aparece por defecto(Confidence level: 95, Test difference: 0, Alternative: not equal).

Podemos comprobar, en la ventana de sesión, que el p-valor es 0, el mínimo posible y, por supuesto,menor que los niveles de significación usuales (α = 0′05 ó α = 0′01), por lo que debemos rechazarla hipótesis nula. Aceptamos, en consecuencia, que existe diferencia significativa entre el númeromedio de horas semanales que permanecen en la biblioteca los socios y los no socios. Como la mediamuestral del número de horas semanales que permanecen en la biblioteca los socios (10) es mayor quela media muestral del número de horas semanales que permanecen en la biblioteca los no socios (6)podríamos, incluso, aceptar que la media poblacional del número de horas semanales que permanecenen la biblioteca los socios es mayor que la media poblacional del número de horas semanales quepermanecen en la biblioteca los no socios. El intervalo de confianza al 95 % para la diferencia demedias poblacionales, µ1 − µ2, es (2′326, 5′674).

6.2.2. Comparación de dos medias con muestras independientes yvarianzas poblacionales desconocidas y distintas

Igual que en el apartado anterior, este procedimiento solamente es válido cuando las dos muestrasson aleatorias y las dos poblaciones son Normales o los dos tamaños muestrales son grandes (en lapráctica n1, n2 ≥ 30).

Para realizar este test paramétrico hay que seleccionar, igual que antes, Stat ⇒Basic Statistics ⇒2-Sample t. Hay que rellenar el cuadro de diálogo de manera similar al apartado anterior, con la salvedadde que, en este caso, hay que desactivar la opción Assume equal variances.

Page 64: 2011 minitab-15

64 Dra. Josefa Marín Fernández

Con el archivo de datos Pulse.mtw, comprobemos si se puede aceptar, con un nivel de significaciónde α = 0′05, que el pulso medio poblacional de los hombres después de correr es igual al pulsomedio poblacional de las mujeres después de correr. Queremos comparar la media poblacional de lavariable Pulse2 para los grupos en los que la variable Sex vale 1 (Hombre) y 2 (Mujer). El contrasteque tenemos que hacer es H0 : µ1 = µ2 frente a H1 : µ1 6= µ2, siendo X1=“Pulso de los hombresdespués de correr” y X2=“Pulso de las mujeres después de correr”.

En el Ejemplo 2 de la sección 6.1 hemos comprobado que se puede aceptar que la varianza pobla-cional del pulso de los hombres después de correr es distinta de la varianza poblacional del pulso delas mujeres después de correr. Por tanto, nos encontramos ante un contraste de comparación de dosmedias poblacionales, con muestras independientes y varianzas poblacionales desconocidas y dis-tintas. Aunque las variables aleatorias X1 y X2 no fuesen Normales, se puede aplicar este contrastedebido a que los tamaños muestrales son suficientemente grandes: n1 = 57 y n2 = 35.

Para hacer el contraste seleccionamos Stat ⇒Basic Statistics ⇒2-Sample t. Activamos la opción Sam-ples in one column, con lo cual se desactivan automáticamente las opciones Samples in different columns ySummarized data. En Samples seleccionamos, de la lista de variables de la izquierda, la columna ‘Pulse2’;y en Subscripts seleccionamos, de la lista de la izquierda, la columna ‘Sex’. Si se pulsa el botón Optionsaparece un cuadro de diálogo similar al ejemplo anterior. En este cuadro de diálogo dejamos lo queaparece por defecto (Confidence level: 95, Test difference: 0, Alternative: not equal).

Podemos comprobar, en la ventana de sesión, que el p-valor es 0′007, claramente menor que elnivel de significación, α = 0′05, por lo que debemos rechazar la hipótesis nula y, por tanto, aceptarla hipótesis alternativa. Aceptamos que el pulso medio poblacional de los hombres después de correres distinto del pulso medio poblacional de las mujeres después de correr. Como la media muestraldel pulso de las mujeres después de correr (86′7) es mayor que la media muestral del pulso de loshombres después de correr (75′9) podríamos, incluso, aceptar que la media poblacional del pulso delas mujeres después de correr es mayor que la media poblacional del pulso de los hombres despuésde correr. El intervalo de confianza al 95 % para la diferencia de medias poblacionales, µ1 − µ2, es(−18′65,−3′02).

6.3. Comparación de dos medias con muestrasapareadas

Este procedimiento solamente es válido cuando las dos muestras son aleatorias y la variable alea-toria diferencia, D = X1 −X2, es Normal o el tamaño muestral común, n, es grande (en la práctica,n ≥ 30).

Para realizar este test paramétrico hay que seleccionar Stat ⇒Basic Statistics ⇒Paired t.Con el archivo de datos Pulse.mtw, comprobemos si se puede aceptar, con un nivel de significación

de α = 0′05, que el pulso medio poblacional antes de correr es igual al pulso medio poblacionaldespués de correr. Lo que se quiere es comparar la media poblacional de la variable Pulse1 con lamedia poblacional de la variable Pulse2. El contraste que tenemos que hacer es H0 : µ1 = µ2 frentea H1 : µ1 6= µ2, siendo X1=“Pulso antes de correr” y X2=“Pulso después de correr”. Como lasdos variables están observadas en los mismos individuos, podemos afirmar que las muestras estánrelacionadas; es decir, son apareadas o asociadas. Por tanto, nos encontramos ante un contraste decomparación de dos medias poblacionales con muestras apareadas. Aunque la variable aleatoria di-

Page 65: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 65

ferencia, D = X1 − X2, no fuese Normal, se puede aplicar este contraste debido a que los tamañosmuestrales son suficientemente grandes: n1 = n2 = n = 92.

Para hacer este contraste seleccionamos Stat ⇒Basic Statistics ⇒Paired t. Activamos la opción Sam-ples in columns; en First sample seleccionamos, de la lista de variables de la izquierda, la columna‘Pulse1’; en Second sample seleccionamos, de la lista de variables de la izquierda, la columna ‘Pulse2’.Si pulsamos el botón Options nos aparece un cuadro de diálogo similar al de la opción anterior (2-Sample t⇒Options). En este cuadro de diálogo dejamos lo que aparece por defecto (Confidence level: 95,Test difference: 0, Alternative: not equal).

Podemos comprobar, en la ventana de sesión, que el p-valor es igual a 0, el mínimo posible y,por supuesto, menor que el nivel de significación, α = 0′05, por lo que debemos rechazar la hipótesisnula y, por tanto, aceptar la hipótesis alternativa. Aceptamos, por tanto, que el pulso medio poblacionalantes de correr es distinto del pulso medio poblacional después de correr. Como la media muestraldel pulso después de correr (80′00) es mayor que la media muestral del pulso antes de correr (72′87)podríamos, incluso, aceptar que la media poblacional del pulso después de correr es mayor que lamedia poblacional del pulso antes de correr. El intervalo de confianza al 95 % para la diferencia demedias poblacionales, en este caso, es (−9′92,−4′34).

6.4. Comparación de dos proporciones

Consideramos una variable aleatoria dicotómica o dicotomizada (con resultados denominados éxi-to y fracaso) evaluada en dos poblaciones distintas. Extraemos sendas muestras aleatorias indepen-dientes de tamaños n1 y n2. Queremos realizar contraste H0 : p1 = p2 frente a H1 : p1 6= p2, dondepi es la proporción de éxitos en la población i, para i = 1, 2.

Si los resultados de la variable aleatoria dicotómica o dicotomizada son numéricos, Minitab tomacomo suceso éxito al número más alto; y si los resultados son de tipo texto, Minitab toma como sucesoéxito a la cadena de texto que esté más cerca del final del alfabeto. Por ejemplo, si los resultados son SIy NO, entonces el resultado SI sería el suceso éxito. Si los resultados son 1 y 2, entonces el resultado2 sería el suceso éxito.

Para realizar la comparación de dos proporciones poblacionales hay que seleccionar Stat ⇒BasicStatistics ⇒2 Proportions.

Recordemos que en la hoja de datos Pulse.mtw la variable Smokes tiene solamente dos resultados:1=Fumador, 2=No Fumador. Por otra parte, la variable Sex también tiene solamente dos resultados:1=Hombre, 2=Mujer. Comprobemos si se puede aceptar, con un nivel de significación de α = 0′05,que la proporción poblacional de hombres no fumadores es igual a la proporción poblacional demujeres no fumadoras. Minitab toma como suceso éxito de la variable Smokes el resultado 2 (es decir,No Fumador) pues es el resultado más alto de los dos. Lo que se quiere es comparar la proporciónpoblacional de éxitos de la variable Smokes para los grupos en los que la variable Sex vale 1 (Hombre)y 2 (Mujer). El contraste que tenemos que hacer es H0 : p1 = p2 frente a H1 : p1 6= p2.

Para hacer este contraste seleccionamos Stat ⇒Basic Statistics ⇒2 Proportions. Activamos la opciónSamples in one column, con lo cual se desactivan automáticamente las opciones Samples in different co-lumns y Summarized data. En Samples seleccionamos, de la lista de variables de la izquierda, la columna‘Smokes’; y en Subscripts seleccionamos, de la lista de la izquierda, la columna ‘Sex’. Si pulsamos elbotón Options nos aparece un nuevo cuadro de diálogo con las siguientes opciones:

Page 66: 2011 minitab-15

66 Dra. Josefa Marín Fernández

Confidence level: Por defecto se muestra un intervalo de confianza al 95 % para la diferencia deproporciones poblacionales, p1 − p2. Se puede introducir un valor entre 1 y 99 para solicitarotro nivel de confianza. En nuestro ejemplo, podemos dejar lo que aparece por defecto, es decir,95.

Test difference: Aquí se pone el valor con el que se compara la diferencia de proporciones poblacio-nales, p0. La hipótesis nula H0 : p1 = p2 es equivalente a H0 : p1 − p2 = 0, por lo que el valorcon el que se compara la diferencia de proporciones poblacionales, en este ejemplo, es cero; esdecir, p0 = 0. En consecuencia, nosotros dejamos lo que aparece por defecto (cero).

Alternative: Aquí se especifica cuál es la hipótesis alternativa: less than significa que la hipótesisalternativa es H1 : p1−p2 < p0, not equal significa que la hipótesis alternativa es H1 : p1−p2 6=p0 y greater than significa que la hipótesis alternativa es H1 : p1 − p2 > p0. Tengamos en cuentaque con la opción less than el intervalo de confianza para p1 − p2 será del tipo (−∞, b), conla opción not equal el intervalo de confianza será del tipo (a, b) y con la opción greater than elintervalo de confianza será del tipo (a,+∞). En nuestro ejemplo, tenemos que dejar lo queaparece por defecto, que es not equal, ya que la hipótesis alternativa es H1 : p1 6= p2, que esequivalente a H1 : p1 − p2 6= 0.

Podemos comprobar, en la ventana de sesión, que el p-valor es 0′198, mayor que el nivel de sig-nificación, α = 0′05, por lo que debemos aceptar la hipótesis nula. Aceptamos, en consecuencia, quela proporción poblacional de hombres no fumadores es igual a la proporción poblacional de mujeresno fumadoras. El intervalo de confianza al 95 % para la diferencia de proporciones poblacionales,p1 − p2, es (−0′308592, 0′0639809).

También se puede realizar este contraste de hipótesis si sabemos los dos tamaños muestrales y elnúmero de éxitos en cada una de las dos muestras. Veámoslo con un ejemplo:

Con objeto de comparar dos pequeñas empresas A y B de encuadernación de libros, se extra-jo una muestra aleatoria de 250 libros encuadernados en A y otra muestra aleatoria de 200 librosencuadernados en B, y se encontró que 50 de los libros encuadernados en A, y 32 de los encuader-nados en B tenían algún defecto en su encuadernación. ¿Son igualmente buenas las dos empresas deencuadernación?

Lo que queremos comprobar es si la proporción poblacional de libros defectuosos encuadernadosen la empresa A es igual a la proporción poblacional de libros defectuosos encuadernados en laempresa B.

Para hacer este contraste seleccionamos Stat ⇒Basic Statistics ⇒2 Proportions. Activamos la opciónSummarized data. Dentro de First, en Events tenemos que teclear el número de éxitos en la primeramuestra, que es 50, y en Trials tenemos que teclear el tamaño de la primera muestra, que es 250. Dentrode Second, en Events tenemos que teclear el número de éxitos en la segunda muestra, que es 32, y enTrials tenemos que teclear el tamaño de la segunda muestra, que es 200. En el cuadro de diálogo deOptions dejamos lo que aparece por defecto (Confidence level: 95, Test difference: 0, Alternative: not equal).

Podemos comprobar, en la ventana de sesión, que el p-valor es 0′269, mayor que el nivel de sig-nificación usual (α = 0′05) por lo que debemos aceptar la hipótesis nula. Por tanto, aceptamos quela proporción poblacional de libros defectuosos encuadernados en la empresa A es igual a la propor-ción poblacional de libros defectuosos encuadernados en la empresa B; es decir, las dos empresasde encuadernación son igualmente buenas. El intervalo de confianza al 95 % para la diferencia deproporciones poblacionales, p1 − p2, es (−0′0309929, 0′110993).

Page 67: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 67

6.5. Ejercicios propuestos

Ejercicio 6.1

a) Crea un nuevo proyecto de Minitab.

b) Abre la hoja de datos Transacciones.mtw (datos del Ejercicio 1.2).

c) Utilizando el test de Levene, ¿se puede aceptar, con un nivel de significación de 0′05, quela varianza poblacional del número anual de transacciones de referencia de las bibliotecaspúblicas es igual a la varianza poblacional del número anual de transacciones de referenciade las bibliotecas universitarias? ¿Por qué?

d) ¿Se puede aceptar, con un nivel de significación de 0′05, que la media poblacional del nú-mero anual de transacciones de referencia de las bibliotecas públicas es igual a la mediapoblacional del número anual de transacciones de referencia de las bibliotecas universita-rias? ¿Por qué?

e) Utilizando el test F de Snedecor, ¿se puede aceptar, con un nivel de significación de 0′05,que la varianza poblacional del porcentaje de transacciones de referencia finalizadas delas bibliotecas públicas es igual a la varianza poblacional del porcentaje de transaccionesde referencia finalizadas de las bibliotecas universitarias? ¿Por qué?

f) ¿Se puede aceptar, con un nivel de significación de 0′05, que la media poblacional delporcentaje de transacciones de referencia finalizadas de las bibliotecas públicas es iguala la media poblacional del porcentaje de transacciones de referencia finalizadas de lasbibliotecas universitarias? ¿Por qué?

g) Graba el proyecto con el siguiente nombre: Ejercicio6-1.mpj

Ejercicio 6.2 En la Tabla 9 aparece el precio, en euros, de una muestra aleatoria de 15 libros quese prestan pocas veces (X1) y el precio, en euros, de una muestra aleatoria de 15 libros que seprestan muchas veces (X2).

a) Crea un nuevo proyecto de Minitab.

b) Guarda los datos en el archivo PrecioLibros.mtw

c) ¿Se puede aceptar, con un nivel de significación de 0′05, que la varianza poblacional delprecio de los libros que se prestan poco es igual a la varianza poblacional del precio de loslibros que se prestan mucho? ¿Por qué?

d) ¿Se puede aceptar, con un nivel de significación de 0′05, que la media poblacional delprecio de los libros que se prestan poco es igual a la media poblacional del precio de loslibros que se prestan mucho? ¿Por qué?

e) Graba el proyecto con el siguiente nombre: Ejercicio6-2.mpj

Ejercicio 6.3 En la Tabla 10 aparece el número de palabras por resumen de una muestra aleatoria de30 artículos científicos escritos en francés (X1) y el número de palabras por resumen de unamuestra aleatoria de 30 artículos científicos escritos en inglés (X2).

a) Crea un nuevo proyecto de Minitab.

b) Guarda los datos en el archivo LongitudResumenes.mtw

Page 68: 2011 minitab-15

68 Dra. Josefa Marín Fernández

x1i x2i

75 110

32 30

30 45

34 69

42 46

57 53

51 97

36 43

82 42

45 37

58 48

66 45

40 105

35 61

51 57

Tabla 9

70 65 68 74 79 67 75 80 62 69

x1i 61 57 71 74 82 91 70 64 72 67

74 70 81 85 70 74 75 71 69 54

80 47 59 67 89 57 72 78 74 72

x2i 104 118 89 87 79 78 101 120 107 95

85 87 90 98 89 75 90 101 85 94

Tabla 10

c) ¿Se puede aceptar, con un nivel de significación de 0′05, que la varianza poblacional de lalongitud de los resúmenes de artículos escritos en francés es igual a la varianza poblacionalde la longitud de los resúmenes de artículos escritos en inglés? ¿Por qué?

d) ¿Se puede aceptar, con un nivel de significación de 0′05, que la media poblacional de lalongitud de los resúmenes de artículos escritos en francés es igual a la media poblacionalde la longitud de los resúmenes de artículos escritos en inglés? ¿Por qué?

e) Graba el proyecto con el siguiente nombre: Ejercicio6-3.mpj

Ejercicio 6.4 Dos expertos califican una muestra aleatoria de 30 libros según su calidad (1=muymala, 2=mala, 3=regular, 4=buena, 5=muy buena). En la Tabla 11 aparece la opinión del primerexperto (X1) y la opinión del segundo experto (X2).

a) Crea un nuevo proyecto de Minitab.

b) Guarda los datos en el archivo Opinion.mtw

c) Calcula, en una nueva columna, los resultados de la variable diferencia D = X1 −X2.

Page 69: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 69

x1i x2i x1i x2i

2 1 4 4

5 4 4 3

4 5 5 4

2 3 5 3

3 3 1 2

1 5 2 5

3 3 2 3

1 3 3 2

4 2 4 1

2 5 4 2

3 2 1 3

4 3 2 4

3 3 1 2

1 3 5 5

2 5 5 2

Tabla 11

d) ¿Se puede aceptar, con un nivel de significación de 0′05, que la muestra de las diferencias,di = x1i − x2i, es aleatoria? ¿Por qué?

e) ¿Se puede aceptar, con un nivel de significación de 0′05, que la variable diferencia, D =X1 −X2, es Normal? ¿Por qué?

f) ¿Se puede aceptar, con un nivel de significación de 0′05, que la media poblacional delos resultados de la opinión del primer experto es igual a la media poblacional de losresultados de la opinión del segundo experto? ¿Por qué?

g) Graba el proyecto con el siguiente nombre: Ejercicio6-4.mpj

Ejercicio 6.5 Elegimos al azar 30 matrimonios y observamos el número de veces que los hombreshan visitado alguna biblioteca en los tres últimos meses (X1) y el número de veces que las mu-jeres han visitado alguna biblioteca en los tres últimos meses (X2). Los resultados se muestranen la siguiente Tabla 12.

a) Crea un nuevo proyecto de Minitab.

b) Guarda los datos en el archivo VisitasBiblioteca.mtw

c) Calcula, en una nueva columna, los resultados de la variable diferencia D = X1 −X2.

d) ¿Se puede aceptar, con un nivel de significación de 0′05, que la muestra de las diferencias,di = x1i − x2i, es aleatoria? ¿Por qué?

e) ¿Se puede aceptar, con un nivel de significación de 0′05, que la variable diferencia, D =X1 −X2, es Normal? ¿Por qué?

f) ¿Podemos afirmar que hay diferencia significativa entre los hombres y las mujeres de losmatrimonios en cuanto al número de veces que van a la biblioteca? ¿Por qué?

Page 70: 2011 minitab-15

70 Dra. Josefa Marín Fernández

x1i x2i x1i x2i x1i x2i

12 8 8 10 25 14

30 11 14 15 12 16

10 12 20 12 8 10

20 16 13 19 23 20

15 10 11 6 14 17

14 9 7 7 8 10

11 12 6 7 12 23

9 10 8 6 27 10

7 7 15 20 32 27

5 4 42 35 14 18

Tabla 12

g) Graba el proyecto con el siguiente nombre: Ejercicio6-5.mpj

Ejercicio 6.6 En la Tabla 13 aparece el número de usuarios diarios de la biblioteca A (variable X1)y el número de usuarios diarios de la biblioteca B (variable X2) en 10 días elegidos al azar.

x1i x2i

51 45

72 58

35 32

70 56

75 68

98 76

100 88

80 69

72 57

90 75

Tabla 13

a) Crea un nuevo proyecto de Minitab.

b) Guarda los datos en el archivo UsuariosDiarios.mtw

c) Calcula, en una nueva columna, los resultados de la variable diferencia D = X1 −X2.

d) ¿Se puede aceptar, con un nivel de significación de 0′05, que la muestra de las diferencias,di = x1i − x2i, es aleatoria? ¿Por qué?

e) ¿Se puede aceptar, con un nivel de significación de 0′05, que la variable diferencia, D =X1 −X2, es Normal? ¿Por qué?

Page 71: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 71

f) ¿Se puede aceptar, con un nivel de significación de 0′05, que la media poblacional delnúmero de usuarios diarios de la biblioteca A es igual a la media poblacional del númerode usuarios diarios de la biblioteca B? ¿Por qué?

g) Graba el proyecto con el siguiente nombre: Ejercicio6-6.mpj

Ejercicio 6.7 Se quiere saber si la proporción de libros escritos en español es la misma en dos biblio-tecas universitarias (la de la facultad de matemáticas y la de la facultad de filosofía). Se tomauna muestra aleatoria simple de 100 libros de la biblioteca de la facultad de matemáticas y seencuentra que 35 de ellos están escritos en español y el resto en otros idiomas. Se extrae otramuestra aleatoria simple de 150 libros de la biblioteca de la facultad de filosofía y se observaque 60 están escritos en español. ¿Qué conclusión se puede extraer?

Page 72: 2011 minitab-15
Page 73: 2011 minitab-15

7Contrastes no paramétricos en dos o

más poblacionesContrastes no paramétricos en dos o

más poblaciones

7.1. Contraste de homogeneidad con dos o másmuestras independientes (Kruskal-Wallis)

El procedimiento que vamos a explicar se aplica cuando la variable es cualitativa ordinal o cuanti-tativa, pero no Normal, y los tamaños muestrales son pequeños (en la práctica, alguno de ellos menorque 30).

Observamos una variable aleatoria cuantitativa o cualitativa ordinal en r poblaciones, y extraemosr muestras aleatorias independientes (una de cada población). El objetivo es contrastar la hipóte-sis nula H0: “Las r poblaciones son homogéneas” (la variable aleatoria observada tiene la mismadistribución en las r poblaciones) frente a la hipótesis alternativa H1: “Las r poblaciones no son ho-mogéneas”. La hipótesis nula implica que las r medias poblacionales son iguales por lo que, a veces,se sustituye aquella hipótesis nula por ésta.

En Minitab hay varios procedimientos para realizar un contraste de homogeneidad con dos o másmuestras independientes, pero vamos a explicar el contraste de Kruskal-Wallis, que es una generaliza-ción del test de Mann-Whitney (que también se puede usar en Minitab) para dos muestras aleatoriasindependientes.

Para realizar el contraste de Kruskal-Wallis hay que seleccionar Stat ⇒Nonparametrics ⇒Kruskal-Wallis.

Con el archivo de datos Pulse.mtw, veamos si se puede aceptar, con un nivel de significación deα = 0′05, que el nivel de actividad física de los hombres es igual al de las mujeres. Como la variableActivity no es Normal y no tiene sentido comparar las medias poblacionales, tenemos que realizar uncontraste no paramétrico de homogeneidad con dos muestras independientes (la muestra de hombresy la muestra de mujeres). La hipótesis nula se puede enunciar como H0 :“El nivel de actividad físicaes el mismo para los hombres y para las mujeres” o como H0 :“La distribución de la variable Activityes la misma en la población de los hombres y en la de las mujeres”.

73

Page 74: 2011 minitab-15

74 Dra. Josefa Marín Fernández

Para hacer este contraste seleccionamos Stat ⇒Nonparametrics ⇒Kruskal-Wallis. En Response selec-cionamos, de la lista de variables de la izquierda, la columna ‘Activity’; y en Factor seleccionamos, dela lista de la izquierda, la columna ‘Sex’. Podemos comprobar, en la ventana de sesión, que el p-valores 0′305; claramente mayor que el nivel de significación, α = 0′05, por lo que podemos aceptar lahipótesis nula; es decir, podemos aceptar que el nivel de actividad física es el mismo para los hombresy para las mujeres.

Un ejemplo con más de dos muestras independientes podría ser el siguiente: Con el archivo dedatos Pulse.mtw, comprobemos si se puede aceptar, con un nivel de significación de α = 0′05, queel peso medio es el mismo para los 4 niveles de actividad física (Activity=0, 1, 2 y 3). Se puedecomprobar que la variable Weight no es Normal. Además los tamaños muestrales no son grandes:n1 = 1 para Activity=0, n2 = 9 para Activity=1, n3 = 61 para Activity=2, y n4 = 21 para Activity=3. Portanto, no podemos realizar un contraste paramétrico en el que se comparen las medias poblacionales.Tenemos que realizar un contraste no paramétrico de homogeneidad con 4 muestras independientes.La hipótesis nula es H0 :“La distribución de la variable Weight es la misma para los cuatro niveles deactividad física”.

Para hacer este contraste seleccionamos Stat ⇒Nonparametrics ⇒Kruskal-Wallis. En Response selec-cionamos, de la lista de variables de la izquierda, la columna ‘Weight’; y en Factor seleccionamos, de lalista de la izquierda, la columna ‘Activity’. Podemos comprobar, en la ventana de sesión, que el p-valores 0′741; claramente mayor que el nivel de significación, α = 0′05, por lo que podemos aceptar lahipótesis nula; es decir, podemos aceptar que la distribución de la variable Weight es la misma para loscuatro niveles de actividad física.

Como hemos podido observar, para realizar este contraste con Minitab debemos tener una columnacon todos los resultados de la variable (para todos y cada uno de los individuos de todas y cada unade las muestras) y otra columna que nos indique la muestra de la que procede cada resultado.

7.2. Contraste de homogeneidad con dos o másmuestras apareadas (Friedman)

El contraste de Friedman es similar al de Kruskal-Wallis pero en este caso las r muestras son apa-readas (están relacionadas o asociadas). El test de Friedman se aplica cuando la variable es cualitativaordinal o cuantitativa, pero no Normal, y los tamaños muestrales son pequeños (en la práctica, algunode ellos menor que 30)

Para realizar este contraste hay que seleccionar Stat ⇒Nonparametrics ⇒Friedman.En general, el problema suele ser el siguiente. Supongamos que estamos interesados en comparar

los efectos de r tratamientos. Se cree que hay una variable que puede interferir en nuestra capacidadpara detectar diferencias reales entre los r tratamientos. Queremos controlar esta variable extrañamediante la construcción de bloques. Esto es, dividimos los individuos en n bloques, cada uno detamaño r, siendo los individuos de un mismo bloque tan iguales como sea posible respecto de lavariable extraña. Asignaremos aleatoriamente los r tratamientos a los individuos de los bloques.

Para explicar este método vamos a utilizar un ejemplo: En la Figura 14 aparece la opinión detres expertos respecto de la calidad de 10 libros elegidos al azar (1=muy mala, 2=mala, 3=regular,4=buena, 5=muy buena).

Vamos a comprobar si se puede aceptar, con un nivel de significación de 0′05, que no hay diferenciasignificativa entre los tres expertos respecto de su opinión sobre la calidad de los libros. Notemos que,

Page 75: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 75

Figura 14

efectivamente, las tres muestras están relacionadas, pues realmente son la misma muestra (a la cualse le ha observado tres variables distintas). La hipótesis nula es, por tanto, H0: “No hay diferenciasignificativa entre los tres expertos respecto de su opinión sobre la calidad de los libros”.

En este ejemplo tenemos 3 tratamientos (la opinión de cada uno de los 3 expertos) y 10 bloques(cada uno de los 10 libros elegidos al azar). La variable respuesta es la opinión (de 1 a 5) de cadaexperto respecto de la calidad de cada libro.

De manera análoga a lo que ocurría con el test de Kruskal-Wallis, para realizar el contraste deFriedman con Minitab debemos tener una columna con todos los resultados de la variable respuesta(para cada individuo de cada muestra); otra columna que nos indique la muestra de la que procedecada resultado (tratamiento) y otra columna que nos indique el individuo (bloque). Por tanto, parapoder aplicar el contraste de Friedman no se pueden tener los datos tal y como se muestran en laFigura 14, sino que hay que tener una columna que indique el número del tratamiento (en este caso,el número del experto: de 1 a 3); otra columna que indique el número del bloque (en este caso,el número del libro: de 1 a 10) y otra columna que indique la variable respuesta (de 1 a 5) paracada combinación de resultados de las dos columnas anteriores. Los datos, por tanto, tienen queintroducirse tal y como se muestra en la Figura 15. Podemos grabar estos datos en un archivo quedenominaremos Ejemplo_Friedman.mtw.

Para realizar el contraste seleccionamos Stat ⇒Nonparametrics ⇒Friedman. En Response seleccio-namos, de la lista de la izquierda, la columna ‘opinión (de 1 a 5)’; en Treatment seleccionamos, de la listade la izquierda, la columna ‘no experto’; en Blocks seleccionamos, de la lista de la izquierda, la columna‘no libro’ y pulsamos en OK. Podemos observar, en la ventana de sesión, que el p-valor es 0′592, mayorque el nivel de significación (α = 0′05); por tanto, aceptamos la hipótesis nula; es decir, aceptamosque no hay diferencia significativa entre los tres expertos respecto de su opinión sobre la calidad delos libro.

7.3. Contraste chi-cuadrado sobre homogeneidad de doso más poblaciones

En dos o más poblaciones distintas observamos una misma variable aleatoria, y extraemos unamuestra aleatoria simple de cada población para comprobar si un determinado parámetro poblacional

Page 76: 2011 minitab-15

76 Dra. Josefa Marín Fernández

Figura 15

(µ, σ2, . . .) toma idéntico valor en las distintas poblaciones. Pero como no se cumplen las condicio-nes necesarias para aplicar un contraste de hipótesis paramétrico, entonces tenemos que realizar uncontraste de hipótesis no paramétrico. Sin embargo, ocurre que la hipótesis nula no se puede enunciarcomo la igualdad de los parámetros poblacionales, sino que ahora debemos comprobar si la variablealeatoria tiene la misma distribución en las dos poblaciones. Esta hipótesis se resume diciendo quelas poblaciones son homogéneas.

El contraste chi-cuadrado de homogeneidad es el mismo que el test chi-cuadrado de independenciade variables explicado en la sección 3 del capítulo 4, aunque la hipótesis nula no sea la misma.

Para realizar este tipo de contraste en Minitab se utilizan las mismas dos opciones explicadas en lasección 3 del capítulo 4; es decir, si los datos están recogidos en una tabla de doble entrada, se utilizaStat⇒Tables⇒Chi-Square Test (Two-Way Table in Worksheet), y si los datos se encuentran recogidos en dos(o tres) columnas, se utiliza Stat⇒Tables⇒Cross Tabulation and Chi-Square.

Vamos a hacer el siguiente ejemplo: Se selecciona una muestra aleatoria simple de estudiantes deinformática de universidades privadas y otra de universidades públicas, y se les somete a una prueba

Page 77: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 77

de rendimiento, calificada de 0 a 500. Los resultados son los expuestos en la tabla siguiente. Deseamossaber si la distribución en la prueba de rendimiento es la misma para universidades privadas que parauniversidades públicas.

[0,275] [276,350] [351,425] [426,500]

privadas 6 14 17 9

públicas 30 32 17 3

El objetivo es contrastar la hipótesis H0: “La distribución de los resultados de la prueba es la mismaen las universidades públicas que en las privadas”, frente a la hipótesis H1: “La distribución no esla misma”.

Para realizar este contraste de homogeneidad con Minitab, en primer lugar tenemos que introdu-cir la tabla de doble entrada anterior. Los datos tienen que ser introducidos tal como se muestra acontinuación:

Podemos guardar estos datos en un archivo denominado Ejemplo_Homogeneidad.mtw.Ahora seleccionamos Stat⇒Tables⇒Chi-Square Test (Two-Way Table in Worksheet); en Columns contai-

ning the table elegimos, de la lista de variables de la izquierda, las columnas privadas y públicas ypulsamos en OK. En la ventana de sesión podemos ver lo siguiente:

Recordemos que este contraste solamente puede aplicarse si todas las frecuencias esperadas bajo lahipótesis nula son mayores o iguales que 1 y, además, todas las frecuencias esperadas bajo la hipótesisnula son mayores o iguales que 5, salvo para un 20 % como máximo. El 20 % de las casillas sería el20 % de 8, que es 1′6. Como solamente una de las frecuencias esperadas es menor que 5, podemos

Page 78: 2011 minitab-15

78 Dra. Josefa Marín Fernández

aplicar esta técnica. El resultado del p-valor es 0′001, claramente menor que los habituales niveles designificación (0′05 ó 0′01) por lo que rechazamos la hipótesis nula y, en consecuencia, aceptamos quela distribución de los resultados de la prueba no es la misma en las universidades públicas que en lasprivadas.

7.4. Ejercicios propuestos

Ejercicio 7.1 El número de libros juveniles prestados en 15 días elegidos al azar en los meses deverano (V) e invierno (I) ha sido:

V 54 61 44 50 50 54 59 54 22 58 45 30 25 29 24

I 61 46 50 17 45 31 20 54 37 38 30 42 58 44 58

¿Hay la misma demanda de libros en verano que en invierno?

Ejercicio 7.2 Una colección de libros ha sido incluida en un índice de dos formas distintas: a) ficherode entrada simple e índice en cadena, y b) fichero de entrada múltiple e índice simple pororden alfabético. El número de entradas en los dos ficheros para una muestra aleatoria de 12documentos ha sido:

a) 4 3 4 4 5 4 3 3 3 5 5 2

b) 4 3 6 4 6 6 4 3 4 6 6 2

¿El número de entradas por documento depende del tipo de fichero?

Ejercicio 7.3 Se selecciona una muestra aleatoria simple de 10 bibliotecas y se observa el númerode items (libros, artículos, revistas, . . .) obtenidos y el número de items pedidos por el serviciode préstamo interbibliotecario de cada una de ellas en el último año. Los resultados son lossiguientes:

obtenidos 920 1.274 768 608 776 874 744 484 826 2.174

pedidos 874 489 1.175 1.034 1.752 588 670 622 747 1.793

¿En toda la población de bibliotecas, el número medio de items obtenidos es igual al númeromedio de items pedidos?

Ejercicio 7.4 Se eligen aleatoria e independientemente 15 alumnos del primer curso de bachilleratoy 12 alumnos del segundo curso de bachillerato, y se observa el número de libros distintos quehan pedido prestados en la biblioteca de su instituto durante un curso académico determinado.Los resultados son los siguientes:

1o 2 7 5 9 7 10 8 6 4 3 1 6 9 10 11

2o 10 12 3 7 9 11 7 12 14 9 8 10

¿Son iguales las medias del número de libros que los alumnos de 1o y 2o han pedido prestadosa la biblioteca del instituto durante el curso?

Page 79: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 79

Ejercicio 7.5 En un volumen de libros para jóvenes se observa que, para edades comprendidas entre 9y 11 años, 68 libros fueron escritos por hombres y 94 por mujeres; y para edades comprendidasentre 12 y 14 años, 116 libros fueron escritos por hombres y 28 por mujeres. ¿Hay diferenciasignificativa entre los dos grupos de edades respecto de la variable sexo de la persona queescribe los libros?

Ejercicio 7.6 En un experimento se encuentra que en el año 1980 el número de citas en sociologíafue 330 y el número de citas en economía fue 299. En 1990, el número de citas en sociologíafue 414 y en economía fue 393. ¿Hay diferencia entre los dos años investigados respecto delnúmero de citas en sociología y economía?

Ejercicio 7.7 Los siguientes datos corresponden al número de libros científicos y de ficción prestadosa adultos residentes en dos áreas de una determinada ciudad:

científicos de ficción

área A 870 745

área B 304 251

¿Hay diferencia significativa entre las dos áreas respecto del tipo de libro demandado?

Ejercicio 7.8 Los resúmenes de Economics Abstracts se escriben en inglés, francés y alemán. Seextraen muestras aleatorias independientes de 8 resúmenes escritos en cada uno de los tresidiomas mencionados, observando el número de palabras por resumen, siendo los resultadoslos siguientes:

inglés francés alemán

71 111 67

118 113 75

52 84 61

47 84 99

59 84 58

65 94 107

84 90 113

111 90 95

¿La extensión de los resúmenes es la misma para los tres idiomas?

Ejercicio 7.9 En una investigación sobre la transferencia de la información se recogieron los siguien-tes datos:

grupo de trabajo en persona por teléfono otras

A 1.008 269 708

B 409 194 497

C 2.252 544 1.524

Page 80: 2011 minitab-15

80 Dra. Josefa Marín Fernández

¿Hay diferencia entre los grupos de trabajo A, B y C en cuanto a los métodos empleados paratransmitir la información?

Ejercicio 7.10 Se pregunta a una muestra aleatoria de alumnos de 3o de una facultad de documen-tación, de cuatro cursos académicos distintos, si conocen los registros MARC de la BritishLibrary, y los resultados son los siguientes:

No Sí No responde

1994–95 37 56 24

1995–96 24 44 30

1996–97 14 34 41

1997–98 28 54 15

¿Hay diferencia significativa entre los cuatro cursos académicos con respecto a la respuestadada?

Ejercicio 7.11 Se eligen aleatoria e independientemente 10 estantes con libros de geografía, 10 conlibros de derecho, 10 con libros de matemáticas y 10 con libros de filosofía, y se cuenta elnúmero de libros por estante. Los resultados son los siguientes:

Geografía Derecho Matemáticas Filosofía

25 21 36 25

30 21 32 27

30 33 30 26

29 23 30 26

25 16 32 21

23 26 33 28

28 26 33 30

33 28 28 31

25 26 39 28

25 21 43 32

¿El número medio de libros por estante es igual para las cuatro materias?

Ejercicio 7.12 En una muestra aleatoria simple de 12 días se observa el número de libros prestadosen diferentes materias (científicos, novelas, ensayos, arte, música) siendo los resultados lossiguientes:

Page 81: 2011 minitab-15

Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentación) 81

científicos novelas ensayos arte música

24 40 19 23 21

29 39 17 15 17

33 45 15 13 20

30 38 10 19 16

36 33 12 17 14

27 30 15 20 12

24 25 20 21 11

19 38 23 9 8

16 27 25 23 21

35 39 14 17 14

37 41 21 19 12

32 47 11 14 17

¿El número medio de libros prestados diariamente es igual en las cinco materias?

Ejercicio 7.13 En una investigación sobre el uso que los profesores de distintos departamentos hacende las revistas científicas, se encontró que 34 de los 50 profesores del departamento A, 22 delos 40 profesores del departamento B y 15 de los 35 profesores del departamento C, utilizan lasrevistas como ayuda en su trabajo académico (y el resto no). ¿Hay diferencia significativa entrelos tres departamentos respecto del uso que hacen de las revistas científicas?