IBM SPSS Bootstrapping

download IBM SPSS Bootstrapping

of 53

Transcript of IBM SPSS Bootstrapping

  • iIBM SPSS Bootstrapping 20

  • Nota: Antes de utilizar esta informacin y el producto que admite, lea la informacin general enAvisos el p. 41.

    Esta edicin se aplica a IBM SPSS Statistics 20 y a todas las versiones y modificacionesposteriores hasta que se indique lo contrario en nuevas ediciones.Capturas de pantalla de productos de Adobe reimpresas con permiso de Adobe SystemsIncorporated.Capturas de pantalla de productos de Microsoft reimpresas con permiso de Microsoft Corporation.

    Materiales bajo licencia: Propiedad de IBM

    Copyright IBM Corporation 1989, 2011.

    Derechos restringidos para los usuarios del gobierno de Estados Unidos: Uso, duplicacin orevelacin restringidos por GSA ADP Schedule Contract con IBM Corp.

  • PrefacioIBM SPSS Statistics es un sistema global para el anlisis de datos. El mdulo adicionalopcional Bootstrapping proporciona las tcnicas de anlisis adicionales que se describen eneste manual. El mdulo adicional Bootstrapping se debe utilizar con el sistema bsico de SPSSStatistics y est completamente integrado en dicho sistema.

    Acerca de IBM Business Analytics

    IBM Business Analytics proporciona informacin completa, coherente y precisa en la queconfan para mejorar el rendimiento de su negocio quienes toman las decisiones. Un conjuntode documentos que incluye inteligencia comercial, anlisis predictivo, rendimiento financieroy gestin de estrategias y aplicaciones analticas proporciona ideas claras e inmediatas delrendimiento actual y la habilidad para predecir resultados futuros. Combinado con numerosassoluciones para empresas, prcticas de eficacia demostrada y servicios profesionales, lasorganizaciones de cualquier tamao pueden conseguir la ms alta productividad, automatizardecisiones con seguridad y obtener mejores resultados.

    Como parte de estos documentos, IBM SPSS Predictive Analytics ayuda a las organizaciones apredecir situaciones futuras y a actuar de forma proactiva con esa informacin para mejorar susresultados. Clientes comerciales, gubernamentales y acadmicos de todo el mundo confan en latecnologa IBM SPSS como mejora competitiva para atraer, conservar y aumentar la clientelareduciendo el fraude y los riesgos. Al incorporar IBM SPSS a sus operaciones diarias, lasorganizaciones se convierten en empresas predictivas capaces de dirigir y automatizar decisionespara conseguir los objetivos de la empresa y lograr una mejora competitiva y ostensible. Paraobtener ms informacin o contactar con un representante, visite http://www.ibm.com/spss.

    Asistencia tcnica

    El servicio de asistencia tcnica est a disposicin de todos los clientes de mantenimiento. Losclientes podrn ponerse en contacto con este servicio de asistencia tcnica si desean recibir ayudasobre la utilizacin de los productos de IBM Corp. o sobre la instalacin en alguno de los entornosde hardware admitidos. Para contactar con el servicio de asistencia tcnica, visite el sitio Web deIBM Corp. en http://www.ibm.com/support. Tenga a mano su identificacin, la de su organizaciny su contrato de asistencia cuando solicite ayuda.

    Asistencia tcnica para estudiantes:

    Si usted es un estudiante que utiliza una versin acadmica o para estudiantes de cualquierproducto de software IBM SPSS, consulte nuestras pginas especiales en lnea de Solucioneseducativas (http://www.ibm.com/spss/rd/students/) para estudiantes. Si usted es estudiante y utilizauna copia proporcionada por la universidad del software IBM SPSS, pngase en contacto con elcoordinador del producto IBM SPSS en su universidad.

    Copyright IBM Corporation 1989, 2011. iii

  • Servicio de atencin al cliente

    Si tiene preguntas referentes a su envo o cuenta, pngase en contacto con su oficina local.Recuerde tener preparado su nmero de serie para identificarse.

    Cursos de preparacin

    IBM Corp. ofrece cursos de preparacin, tanto pblicos como in situ. Todos loscursos incluyen talleres prcticos. Los cursos tendrn lugar peridicamente enlas principales ciudades. Si desea ms informacin sobre estos seminarios, visitehttp://www.ibm.com/software/analytics/spss/training.

    Publicaciones adicionales

    Los documentos SPSS Statistics: Guide to Data Analysis, SPSS Statistics: Statistical ProceduresCompanion y SPSS Statistics: Advanced Statistical Procedures Companion, escritos por MarijaNoruis y publicados por Prentice Hall, estn disponibles y se recomiendan como materialadicional. Estas publicaciones cubren los procedimientos estadsticos del mdulo SPSS StatisticsBase, el mdulo Advanced Statistics y el mdulo Regression. Tanto si da sus primeros pasos en elanlisis de datos como si ya est preparado para las aplicaciones ms avanzadas, estos libros leayudarn a aprovechar al mximo las funciones ofrecidas por IBM SPSS Statistics. Si deseainformacin adicional sobre el contenido de la publicacin o muestras de captulos, consulte elsitio web de la autora: http://www.norusis.com

    iv

  • ContenidoParte I: Manual del usuario

    1 Introduccin al muestreo autodocimante 1

    2 Muestreo autodocimante 3

    Procedimientos que admiten el muestreo autodocimante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5Funciones adicionales del comando BOOTSTRAP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    Parte II: Ejemplos

    3 Muestreo autodocimante 10

    Uso de muestreo autodocimante para obtener intervalos de confianza para proporciones . . . . . . 10Preparacin de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11Especificaciones de Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14Estadsticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15Tabla de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    Uso de muestreo autodocimante para obtener intervalos de confianza de medianas . . . . . . . . . . 16Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Descriptivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    Uso de muestreo autodocimante para seleccionar mejores predictores . . . . . . . . . . . . . . . . . . . . 20Preparacin de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20Ejecucin del anlisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Estimaciones de los parmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    v

  • Apndices

    A Archivos muestrales 31

    B Avisos 41

    Bibliografa 44

    ndice 45

    vi

  • Parte I:Manual del usuario

  • Captulo

    1Introduccin al muestreoautodocimante

    Cuando recopila datos suele estar interesado en las propiedades de la poblacin de la que hatomado la muestra. Hace inferencias acerca de los parmetros de la poblacin con estimacionescalculadas de la muestra. Por ejemplo, si el conjunto de datos Employee data.sav que se incluyecon el producto es una muestra aleatoria de una poblacin mayor de empleados, la media de lamuestra de 34.419,57 dlares como Salario actual es una estimacin de la media del salario actualde la poblacin de los empleados. Adems, esta estimacin tiene un error tpico de 784,311dlares para una muestra de un tamao de 474; y un intervalo de confianza del 95% para la mediadel salario actual de la poblacin de los empleados es de 32.878,40 dlares a 35.960,73 dlares.Pero, cul es el nivel de fiabilidad de estos estimadores? Para algunas poblaciones conocidas yparmetros de buen comportamiento, sabemos algo acerca de las propiedades de las estimacionesde la muestra y podemos confiar en estos resultados. El muestreo autodocimante busca msinformacin acerca de las propiedades de los estimadores de poblaciones desconocidas yparmetros de mal comportamiento.

    Figura 1-1Realizacin de inferencias paramtricas acerca de la media de la poblacin

    Funcionamiento del muestreo autodocimante

    En su forma ms simple, para un conjunto de datos con un tamao de muestra de N, tomar Bmuestras autodocimantes de un tamao N sustituyendo del conjunto de datos original y calcularel estimador de cada uno de estas B muestras autodocimantes. Estas B estimaciones de muestrasautodocimantes son una muestra de un tamao B de la que podr realizar inferencias acerca delestimador. Por ejemplo, si toma 1.000 muestras autodocimantes del conjunto de datos Employeedata.sav , el error tpico de muestras autodocimantes estimado de 776,91 dlares para la media dela muestra de Salario actual es una alternativa a la estimacin de 784,311 dlares.

    Adems, el muestreo autodocimante proporciona un error estndar y un intervalo de confianzapara la mediana, cuyas estimaciones paramtricas no estn disponibles.

    Copyright IBM Corporation 1989, 2011. 1

  • 2Captulo 1

    Figura 1-2Realizacin de inferencias autodocimantes acerca de la media de muestra

    Compatibilidad del muestreo autodocimante en el producto

    El muestreo autodocimante se incorpora como un cuadro de dilogo subordinado enprocedimientos que admiten el muestreo autodocimante. Consulte Procedimientos que admiten elmuestreo autodocimante si desea obtener informacin acerca de los procedimientos que admitenel muestreo autodocimante.

    Si se requiere muestreo autodocimante en los cuadros de dilogo, se pega un nuevo comandoBOOTSTRAP independiente, adems de la sintaxis normal que genera el cuadro de dilogo. Elcomando BOOTSTRAP crea las muestras autodocimantes en funcin de sus especificaciones.Internamente, el producto trata estas muestras autodocimantes como segmentaciones, incluso sino se muestran de forma explcita en el Editor de datos. Significa que, de forma interna, sonefectivamente B*N casos, de forma que el recuento de casos en la barra de estado contar desde 1a B*N cuando se procesen los datos durante el muestreo autodocimante. El Sistema de gestinde resultados (OMS) se utiliza para recopilar los resultados de la ejecucin del anlisis en cadasegmentacin autodocimante. Estos resultados se combinan y los resultados autodocimantescombinados se muestran en el Visor con el resto del resultado normal que genera el procedimiento.En algunos casos, podr ver una referencia a segmentacin autodocimante 0; es el conjunto dedatos original.

  • Captulo

    2Muestreo autodocimante

    Bootstrapping es un mtodo para derivar estimaciones robustas de errores tpicos e intervalosde confianza para estimaciones como la media, mediana, proporcin, razn de las ventajas,coeficientes de correlacin o coeficientes de regresin. Tambin se puede utilizar para crearpruebas hipotticas. Bootstrapping es ms til como alternativa a estimaciones paramtricas encaso de que los supuestos de esos mtodos sean dudosos (como en el caso de modelos de regresincon residuos heteroscedstico se ajusten a muestras pequeas), o si la inferencia paramtrica no esposible o requiere frmulas muy complicadas para el clculo de errores tpicos (como en el casode clculo de intervalos de confianza de mediana, cuartiles y otros percentiles).

    Ejemplos. Una empresa de telecomunicaciones pierde alrededor del 27% de sus clientes porabandono cada mes. Para reducir el porcentaje de abandono, los directivos quieren saber sieste porcentaje vara en diferentes grupos de clientes predefinidos. Mediante el muestreoautodocimante, puede determinar si un porcentaje concreto de abandonos describe de formaadecuada los cuatro tipos principales de clientes. Si desea obtener ms informacin, consulte eltema Uso de muestreo autodocimante para obtener intervalos de confianza para proporciones enel captulo 3 en IBM SPSS Bootstrapping 20.

    En una revisin de los registros de empleados, los directivos estn interesados en las experienciasanteriores de los empleados. La experiencia laboral es asimtrica, lo que hace que la media seauna estimacin menos deseable de la experiencia laboral habitual entre los empleados que lamediana. Sin embargo, los intervalos de confianza no estn disponibles para la mediana en elproducto. Si desea obtener ms informacin, consulte el tema Uso de muestreo autodocimantepara obtener intervalos de confianza de medianas en el captulo 3 en IBM SPSS Bootstrapping 20.

    Los directivos tambin estn interesados en determinar los factores que estn asociados con losaumentos de salarios de los empleados mediante la definicin de un modelo lineal de la diferenciaentre el salario inicial y el actual. Al realizar un muestreo autodocimante de un modelo lineal,puede utilizar mtodos de muestreado sucesivo especiales (muestreo autodocimante residualy wild) para obtener resultados ms precisos. Si desea obtener ms informacin, consulte eltema Uso de muestreo autodocimante para seleccionar mejores predictores en el captulo 3 enIBM SPSS Bootstrapping 20.

    Muchos procedimientos admiten el muestreo autodocimante y la combinacin de resultadosa partir del anlisis de muestras autodocimantes. Los controles para especificar anlisisautodocimantes se integran directamente como un cuadro de dilogo subordinado comn enprocedimientos que admiten el muestreo autodocimante. La configuracin del cuadro de dilogode muestras autodocimantes permanece en los procedimientos de forma que, si ejecuta un anlisisde frecuencias con muestreo autodocimante en los cuadros de dilogo, el muestreo autodocimantese activar por defecto para otros procedimientos que lo admitan.

    Copyright IBM Corporation 1989, 2011. 3

  • 4Captulo 2

    Para obtener un anlisis autodocimante

    E En los mens seleccione un procedimiento que admita el muestreo autodocimante y pulse enAutodocimante.Figura 2-1Cuadro de dilogo Autodocimante

    E Seleccione Ejecutar bootstrapping.

    Tambin puede controlar las siguientes opciones:

    Nmero de muestras. Para los intervalos de percentil y BCa producidos, se recomienda utilizar almenos 1000 muestras autodocimantes. Especifique un nmero entero positivo.

    Definir semilla para tornado de Mersenne. Si se establece una semilla es posible replicar anlisis.El uso de este control es parecido a establecer el tornado de Mersenne como generador activo yespecificar un punto de inicio fijo en el cuadro de dilogo Generadores de nmeros aleatorios, conla importante diferencia de que la definicin de la semilla de este cuadro de dilogo mantendrel estado actual del generador de nmeros aleatorios y restaurar dicho estado cuando hayaterminado el anlisis.

    Intervalos de confianza. Especifique un nivel de confianza mayor que 50 y menor que 100. Losintervalos de percentiles slo utilizan los valores autodocimantes ordenados correspondientes alos percentiles de intervalo de confianza deseados. Por ejemplo, un intervalo de confianza depercentil del 95% utiliza los percentiles 2,5 y 97,5 de los valores autodocimantes como los lmitesinferior y superior del intervalo (interpolando los valores autodocimantes si es necesario). Los

  • 5Muestreo autodocimante

    intervalos de sesgo corregidos y acelerados (BCa) son intervalos ajustados que son ms precisos,pero necesitan ms tiempo de clculo.

    Muestreo. El mtodo simple consiste en volver a muestrear los casos reemplazndolos del conjuntode datos original. El mtodo estratificado consiste en volver a muestrear los casos sustituyendo elconjunto de datos original, en los estratos definidos por las variables de estratos de clasificacincruzada. El muestreo autodocimante estratificado puede ser muy til si las unidades de los estratosson relativamente homogneas aunque las unidades para todos los estratos son muy diferentes.

    Procedimientos que admiten el muestreo autodocimante

    Los siguientes procedimientos admiten el muestreo autodocimante.

    Nota: El muestreo autodocimante no funciona con conjuntos de datos de imputacin mltiple. Si

    hay una variable Imputation_ en el conjunto de datos, el cuadro de dilogo Autodocimante sedesactiva.

    El muestreo autodocimante utiliza eliminacin por lista para determinar los casos; es decir, loscasos con valores perdidos en cualquiera de las variables de anlisis se eliminan del anlisis,de forma que, cuando el muestreo autodocimante est en efecto, eliminacin por lista se activaincluso si el procedimiento de anlisis especifica otra forma de gestin de valores perdidos.

    Opcin Estadsticas bsicas

    Frecuencias

    La tabla Estadsticos admite estimaciones autodocimantes de media, desviacin tpica,varianza, mediana, asimetra, curtosis y percentiles.

    La tabla Frecuencias admite estimaciones autodocimantes de porcentaje.

    Descriptivos

    La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media, desviacintpica, varianza, asimetra y curtosis.

    Explorar

    La tabla Descriptivos admite estimaciones autodocimantes de media, media recortada al 5%,desviacin tpica, varianza, mediana, asimetra, curtosis y amplitud intercuartil.

    La tabla Estimadores-M admite estimaciones autodocimantes de estimador-M de Huber,estimador biponderado de Tukey, estimador-M de Hampel y onda de Andrews.

    La tabla Percentiles admite estimaciones autodocimantes de percentiles.

    Tablas de contingencia

    La tabla Medidas direccionales admite estimaciones autodocimantes de Lambda, Goodman yKruskal Tau, coeficiente de incertidumbre y d de Somers.

  • 6Captulo 2

    La tabla Medidas simtricas admite estimaciones autodocimantes de Phi, V de Cramer,coeficiente de contingencia, tau-b de Kendall, tau-c de Kendall, Gamma, correlacin deSpearman y r de Pearson.

    La tabla Estimacin de riesgo admite estimaciones autodocimantes de la razn de las ventajas. La tabla de razn de las ventajas comn de Mantel-Haenszel admite estimaciones

    autodocimantes y pruebas de significacin de ln(Estimacin).

    Medias

    La tabla Informe admite estimaciones autodocimantes de media, mediana, mediana agrupada,desviacin tpica, varianza, curtosis, asimetra, media armnica y media geomtrica.

    Prueba T para una muestra

    La tabla Estadsticos admite estimaciones autodocimantes de media y desviacin tpica. La tabla Prueba admite estimaciones autodocimantes y pruebas de significacin de diferencia

    de medias.

    Prueba T para muestras independientes

    La tabla Estadsticos de grupo admite estimaciones autodocimantes de media y desviacintpica.

    La tabla Prueba admite estimaciones autodocimantes y pruebas de significacin de diferenciade medias.

    Prueba T para muestras relacionadas

    La tabla Estadsticos admite estimaciones autodocimantes de media y desviacin tpica. La tabla Correlaciones admite estimaciones autodocimantes de correlaciones. La tabla Prueba admite estimaciones autodocimantes de media.

    ANOVA de un factor

    La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacintpica.

    La tabla Comparaciones mltiples admite estimaciones autodocimantes de diferencia demedias.

    La tabla Pruebas de contraste admite estimaciones autodocimantes y pruebas de significacinde valor de contraste.

    MLG Univariante

    La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacintpica.

    La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebasde significacin de coeficiente B.

    La tabla de resultados de contraste admite estimaciones autodocimantes y pruebas designificacin de diferencia.

    Medias marginales estimadas: La tabla Estimaciones admite estimaciones autodocimantesde media.

  • 7Muestreo autodocimante

    Medias marginales estimadas: La tabla Comparaciones por parejas admite estimacionesautodocimantes de diferencia de medias.

    Pruebas post hoc: La tabla Comparaciones mltiples admite estimaciones autodocimantesde diferencia de medias.

    Correlaciones bivariadas

    La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacintpica.

    La tabla Correlaciones admite estimaciones autodocimantes y pruebas de significacin decorrelaciones.

    Notas:

    Si se requieren correlaciones no paramtricas (tau-b de Kendall o Spearman) adems de lascorrelaciones de Pearson, el cuadro de dilogo pega los comandos CORRELATIONS y NONPARCORR con un comando BOOTSTRAP diferente para cada una. Se utilizarn las mismas muestrasautodocimantes para calcular todas las correlaciones.

    Antes de la combinacin, la transformacin Fisher Z se aplica a las correlaciones. Tras lacombinacin, se aplica la transformacin Z inversa.

    Correlaciones parciales

    La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacintpica.

    La tabla Correlaciones admite estimaciones autodocimantes de correlaciones.

    Regresin lineal

    La tabla Estadsticos descriptivos admite estimaciones autodocimantes de media y desviacintpica.

    La tabla Correlaciones admite estimaciones autodocimantes de correlaciones. La tabla Resumen de modelo admite estimaciones autodocimantes de Durbin-Watson. La tabla Coeficientes admite estimaciones autodocimantes y pruebas de significacin de

    coeficiente B. La tabla Coeficientes de correlacin admite estimaciones autodocimantes de correlaciones. La tabla Estadsticos residuales admite estimaciones autodocimantes de media y desviacin

    tpica.

    Regresin ordinal

    La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebasde significacin de coeficiente B.

    Anlisis discriminante

    La tabla Coeficientes de funciones discriminantes cannicas tipificados admite estimacionesautodocimantes de coeficientes tipificados.

  • 8Captulo 2

    La tabla Coeficientes de funciones discriminantes cannicas admite estimacionesautodocimantes de coeficientes no tipificados.

    La tabla Coeficientes de funcin de clasificacin admite estimaciones autodocimantes decoeficientes.

    Opcin Estadsticas avanzadas

    MLG Multivariante

    La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebasde significacin de coeficiente B.

    Modelos lineales mixtos

    La tabla Estimaciones de efectos fijos admite estimaciones autodocimantes y pruebas designificacin de estimacin.

    La tabla Estimaciones de parmetros de covarianzas admite estimaciones autodocimantesy pruebas de significacin de estimacin.

    Modelos lineales generalizados

    La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebasde significacin de coeficiente B.

    Regresin de Cox

    La tabla Variables en la ecuacin admite estimaciones autodocimantes y pruebas designificacin de coeficiente B.

    Opcin Regresin

    Regresin logstica binaria

    La tabla Variables en la ecuacin admite estimaciones autodocimantes y pruebas designificacin de coeficiente B.

    Regresin logstica multinomial

    La tabla Estimaciones de los parmetros admite estimaciones autodocimantes y pruebasde significacin de coeficiente B.

    Funciones adicionales del comando BOOTSTRAP

    La sintaxis de comandos tambin le permite: Realice muestreos autodocimantes residuales y wild (subcomando SAMPLING)Consulte la Referencia de sintaxis de comandos para obtener informacin completa de la sintaxis.

  • Parte II:Ejemplos

  • Captulo

    3Muestreo autodocimante

    Bootstrapping es un mtodo para derivar estimaciones robustas de errores tpicos e intervalosde confianza para estimaciones como la media, mediana, proporcin, razn de las ventajas,coeficientes de correlacin o coeficientes de regresin. Tambin se puede utilizar para crearpruebas hipotticas. Bootstrapping es ms til como alternativa a estimaciones paramtricas encaso de que los supuestos de esos mtodos sean dudosos (como en el caso de modelos de regresincon residuos heteroscedstico se ajusten a muestras pequeas), o si la inferencia paramtrica no esposible o requiere frmulas muy complicadas para el clculo de errores tpicos (como en el casode clculo de intervalos de confianza de mediana, cuartiles y otros percentiles).

    Uso de muestreo autodocimante para obtener intervalos de confianzapara proporciones

    Una empresa de telecomunicaciones pierde alrededor del 27% de sus clientes por abandono cadames. Para reducir el porcentaje de abandono, los directivos quieren saber si este porcentaje varaen diferentes grupos de clientes predefinidos.Esta informacin se recoge en el archivo telco.sav. Si desea obtener ms informacin, consulte

    el tema Archivos muestrales en el apndice A el p. 31. Utilice el muestreo autodocimante paradeterminar si un porcentaje concreto de abandonos describe de forma adecuada los cuatro tiposprincipales de clientes.

    Nota: Este ejemplo utiliza el procedimiento de frecuencias y requiere la opcin Statistics Base.

    Preparacin de datos

    En primer lugar debe dividir el archivo por Categora del cliente.

    E Para dividir el archivo, elija en los mens del Editor de datos:Datos > Dividir archivo...

    Copyright IBM Corporation 1989, 2011. 10

  • 11

    Muestreo autodocimante

    Figura 3-1Cuadro de dilogo Dividir archivo

    E Seleccione Comparar los grupos.

    E Seleccione Categora del cliente como la variable en la que se basan los grupos.

    E Pulse en Aceptar.

    Ejecucin del anlisis

    E Para obtener intervalos de confianza autodocimantes para proporciones, seleccione en los mens:Analizar > Estadsticos descriptivos > Frecuencias...

    Figura 3-2Cuadro de dilogo principal Frecuencias

    E Seleccione Abandonaron durante el ltimo mes [abandono] como una variable en el anlisis.

    E Pulse en Estadsticos.

  • 12

    Captulo 3

    Figura 3-3Cuadro de dilogo Estadsticos

    E Seleccione Media en el grupo Tendencia central.

    E Pulse en Continuar.

    E Pulse en Autodocimante en el cuadro de dilogo Frecuencias.

  • 13

    Muestreo autodocimante

    Figura 3-4Cuadro de dilogo Autodocimante

    E Seleccione Ejecutar bootstrapping.

    E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla paraTornado de Mersenne e introduzca 9191972 como semilla.

    E Pulse en Continuar.

    E Pulse en Aceptar en el cuadro de dilogo Frecuencias.

    Estas selecciones generan la siguiente sintaxis de comandos:

    SORT CASES BY custcat.SPLIT FILE LAYERED BY custcat.PRESERVE.SET RNG=MT MTINDEX=9191972.SHOW RNG.BOOTSTRAP

    /SAMPLING METHOD=SIMPLE/VARIABLES INPUT=churn/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

    FREQUENCIES VARIABLES=churn/STATISTICS=MEAN/ORDER=ANALYSIS.

    RESTORE.

    Los comandos SORT CASES y SPLIT FILE dividen el archivo en la variable custcat.

  • 14

    Captulo 3

    Los comandos PRESERVE y RESTORE recuerdan el estado actual del generador de nmerosaleatorios y restaurar el sistema al estado posterior a la finalizacin del mtodo autodocimante.

    El comando SET define el generador de nmeros aleatorios a Mersenne Twister y el ndice a9191972, para que los resultados del muestreo autodocimante se puedan replicar exactamente.El comando SHOW muestra el ndice en el resultado para futura referencia.

    El comando BOOTSTRAP solicita 1.000 muestras autodocimantes mediante nuevas muestrassimples.

    La variable churn se utiliza para determinar las muestras caso a caso. Los registros convalores perdidos en esta variable se eliminan del anlisis.

    El procedimiento FREQUENCIES posterior a BOOTSTRAP se ejecuta en cada una de lasmuestras autodocimantes.

    El subcomando STATISTICS produce la media de la variable churn en los datos originales.Adems, las estadsticas combinadas se producen para la media y los porcentajes en la tablade frecuencias.

    Especificaciones de BootstrapFigura 3-5Especificaciones de muestreo autodocimante

    La tabla de especificaciones de muestreo autodocimante contiene los ajustes utilizados durante lasnuevas muestras y es una referencia til para comprobar si se han completado los anlisis previstos.

  • 15

    Muestreo autodocimante

    Estadsticas

    Figura 3-6Tabla de estadsticos con el intervalo de confianza autodocimante para la proporcin

    La tabla de estadsticos muestra, para cada nivel de Categora del cliente, el valor de media deAbandonaron durante el ltimo mes. Como Abandonaron durante el ltimo mes slo toma losvalores de 0 y 1, con 1 para un cliente que ha abandonado, la media es igual a la proporcin de losusuarios que han abandonado. La columna Estadsticos muestra los valores que suele producirFrecuencias, utilizando el conjunto de datos original. Las columnas Autodocimante se producenpor los algoritmos de muestreo autodocimante. Bias es la diferencia entre el valor promedio de este estadstico entre las muestras

    autodocimantes y el valor en la columna Estadstico. En este caso, el valor promedio deAbandonaron durante el ltimo mes se calcula para las 1000 muestras autodocimantes yposteriormente se calcula el promedio estas medias.

    Desv. El error es el error tpico de Abandonaron durante el ltimo mes en las 1000 muestrasautodocimantes.

    El lmite inferior del 95% del intervalo de confianza autodocimante es una interpolacin de losvalores 25 y 26 de Abandonaron durante el ltimo mes, si las 1000 muestras autodocimantesse clasifican en orden ascendente. El lmite superior es una interpolacin de los valoresde las medias 975 y 976.

    Los resultados de la tabla sugieren que el ndice de abandono es diferente entre tipos de clientesdiferentes. En concreto, el intervalo de confianza de los clientes de Servicio plus no se superponecon ningn otro, lo que sugiere que de media es menos probable que estos clientes abandonen.

    Si trabaja con variables categricas con slo dos valores, estos intervalos de confianza sonalternativas a los producidos por el procedimiento de Pruebas no paramtricas para una muestra oPrueba T para una muestra.

  • 16

    Captulo 3

    Tabla de frecuenciaFigura 3-7Tabla de frecuencias con el intervalo de confianza autodocimante para la proporcin

    La tabla de frecuencias muestra los intervalos de confianza de los porcentajes (proporcin 100%)de cada categora y estn disponibles para todas las variables categricas. Otras caractersticasdel producto no tienen intervalos de confianza comparables.

    Uso de muestreo autodocimante para obtener intervalos de confianzade medianas

    En una revisin de los registros de empleados, los directivos estn interesados en las experienciasanteriores de los empleados. La experiencia laboral es asimtrica, lo que hace que la media seauna estimacin menos deseable de la experiencia laboral habitual entre los empleados que lamediana. Sin embargo, sin muestreo autodocimante, los intervalos de confianza de la mediana noestn disponibles de forma general en procedimientos estadsticos del producto.Esta informacin se recoge en el archivo Employee data.sav. Si desea obtener ms informacin,

    consulte el tema Archivos muestrales en el apndice A el p. 31. Uso de muestreo autodocimantepara obtener intervalos de confianza de la media.

    Nota: Este ejemplo utiliza el procedimiento Explorar y requiere la opcin Statistics Base.

    Ejecucin del anlisis

    E Para obtener intervalos de confianza autodocimantes de la mediana, seleccione en los mens:Analizar > Estadsticos descriptivos > Explorar...

  • 17

    Muestreo autodocimante

    Figura 3-8Cuadro de dilogo principal Explorar

    E Seleccione Experiencia anterior (meses) [prevexp] como variable dependiente.

    E Seleccione Estadsticos en la seccin Mostrar.

    E Pulse en Autodocimante.

  • 18

    Captulo 3

    Figura 3-9Cuadro de dilogo Autodocimante

    E Seleccione Ejecutar bootstrapping.

    E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla paraTornado de Mersenne e introduzca 592004 como semilla.

    E Para obtener resultados ms precisos (requiere ms tiempo de procesamiento), seleccione Biascorregido acelerado (BCa).

    E Pulse en Continuar.

    E Pulse en Aceptar en el cuadro de dilogo Explorar.

    Estas selecciones generan la siguiente sintaxis de comandos:

    PRESERVE.SET RNG=MT MTINDEX=592004.SHOW RNG.BOOTSTRAP

    /SAMPLING METHOD=SIMPLE/VARIABLES TARGET=prevexp/CRITERIA CILEVEL=95 CITYPE=BCA NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.

    EXAMINE VARIABLES=prevexp/PLOT NONE/STATISTICS DESCRIPTIVES/CINTERVAL 95/MISSING LISTWISE/NOTOTAL.

  • 19

    Muestreo autodocimante

    RESTORE.

    Los comandos PRESERVE y RESTORE recuerdan el estado actual del generador de nmerosaleatorios y restaurar el sistema al estado posterior a la finalizacin del mtodo bootstrap.

    El comando SET define el generador de nmeros aleatorios a Mersenne Twister y el ndice a592004, para que los resultados del muestreo bootstrap se puedan replicar exactamente. Elcomando SHOW muestra el ndice en el resultado para futura referencia.

    El comando BOOTSTRAP solicita 1000 muestras bootstrap mediante nuevas muestras simples. El subcomando VARIABLES especifica que la variable prevexp se utiliza para determinar

    las muestras caso a caso. Los registros con valores perdidos en esta variable se eliminandel anlisis.

    El subcomando CRITERIA , adems de requerir el nmero de muestras de bootstrap,requiere intervalos de confianza de bootstrap de sesgo corregidos y acelerados en lugar delos intervalos de percentiles predefinidos.

    El procedimiento EXAMINE posterior a BOOTSTRAP se ejecuta en cada una de las muestrasbootstrap.

    El subcomando PLOT desactiva el resultado de la representacin. El resto de opciones estn establecidas en sus valores por defecto.

    DescriptivosFigura 3-10Tabla Descriptivos con intervalos de confianza autodocimantes

    La tabla descriptivos contiene un nmero de intervalos de confianza de estadsticos yautodocimantes de esos estadsticos. El intervalo de confianza autodocimante de la media (86,39,105,20) es similar al intervalo de confianza paramtrico (86,42, 105,30) y sugiere que el empleadotpico tiene unos 7-9 aos de experiencia previa. Sin embargo, Experiencia anterior (meses)tiene una distribucin asimtrica, que convierte a la media en un indicador menos deseable delsalario actual tpico que la mediana. El intervalo de confianza autodocimante de la mediana(50,00, 60,00) es ms estrecho e inferior que el intervalo de confianza de la media y sugiere que el

  • 20

    Captulo 3

    empleado tpico tiene unos 4-5 aos de experiencia previa. El uso de muestreo autodocimante hahecho posible obtener un intervalo de valores que representen mejor la experiencia tpica anterior.

    Uso de muestreo autodocimante para seleccionar mejores predictores

    Durante una revisin de los registros de los empleados, los directivos tambin estn interesados endeterminar los factores que estn asociados con los aumentos de salarios de los empleados, aldefinir un modelo lineal de la diferencia entre el salario inicial y el actual. Al realizar un muestreoautodocimante de un modelo lineal, puede utilizar mtodos de muestreado sucesivo especiales(muestreo autodocimante residual y wild) para obtener resultados ms precisos.Esta informacin se recoge en el archivo Employee data.sav. Si desea obtener ms informacin,

    consulte el tema Archivos muestrales en el apndice A el p. 31.

    Nota: Este ejemplo utiliza el procedimiento MLG Univariante y requiere la opcin Statistics Base.

    Preparacin de datos

    En primer lugar debe calcular la diferencia entre Salario actual y Salario inicial.

    E Seleccione en los mens:Transformar > Calcular variable...

  • 21

    Muestreo autodocimante

    Figura 3-11Cuadro de dilogo Calcular variable

    E Escriba diff como variable de destino.

    E Escriba salario-iniciosalario como expresin numrica.

    E Pulse en Aceptar.

    Ejecucin del anlisis

    Para ejecutar MLG Univariante con muestreo autodocimante residual y wild, necesita crearresiduos.

    E Seleccione en los mens:Analizar > Modelo lineal general > Univariante...

  • 22

    Captulo 3

    Figura 3-12Cuadro de dilogo principal MLG Univariante

    E Seleccione diff como la variable dependiente.

    E Seleccione Gnero [gender], Categora laboral [gender] y Clasificacin tnica [minority]como factores fijos.

    E Seleccione Meses desde el contrato [jobtime] y Experiencia anterior (meses) [prevexp] comocovariables.

    E Pulse en Modelo.

  • 23

    Muestreo autodocimante

    Figura 3-13Cuadro de dilogo Modelo

    E Seleccione Personalizado y seleccione Efectos principales en la lista desplegable Construir trminos.

    E Seleccione gender hasta prevexp como trminos de modelo.

    E Pulse en Continuar.

    E Pulse en Guardar en el cuadro de dilogo MLG Univariante.

  • 24

    Captulo 3

    Figura 3-14Cuadro de dilogo Guardar

    E Seleccione No tipificados en el grupo Residuos.

    E Pulse en Continuar.

    E Pulse en Autodocimante en el cuadro de dilogo MLG Univariante.

  • 25

    Muestreo autodocimante

    Figura 3-15Cuadro de dilogo Autodocimante

    La configuracin autodocimante se mantiene en los cuadros de dilogo que admiten el muestreoautodocimante. Mientras el muestreo autodocimante est activado no se podrn guardar nuevasvariables en el conjunto de datos, as que deber asegurarse de que est desactivado.

    E Si es necesario, elimine la seleccin de Ejecutar bootstrapping.

    E Pulse en Aceptar en el cuadro de dilogo MLG Univariante. El conjunto de datos contiene ahorauna nueva variable, RES_1, que contiene los residuos no tipificados del modelo.

    E Active el cuadro de dilogo MLG Univariante y pulse Guardar.

  • 26

    Captulo 3

    E Cancele la seleccin de No tipificados y pulse Continuar y Opciones en el cuadro de dilogo MLGUnivariante.

    Figura 3-16Cuadro de dilogo Opciones

    E Seleccione Estimaciones de los parmetros en la seccin Mostrar.

    E Pulse en Continuar.

    E Pulse en Autodocimante en el cuadro de dilogo MLG Univariante.

  • 27

    Muestreo autodocimante

    Figura 3-17Cuadro de dilogo Autodocimante

    E Seleccione Ejecutar bootstrapping.

    E Para replicar los resultados de este ejemplo de forma exacta, seleccione Establecer semilla paraTornado de Mersenne e introduzca 9191972 como semilla.

    E No hay opciones para ejecutar muestreo autodocimante wild en los cuadros de dilogo, por lo quetendr que pulsar Continuar y, a continuacin, Pegar en el cuadro de dilogo MLG Univariante.

    Estas selecciones generan la siguiente sintaxis de comandos:

    PRESERVE.SET RNG=MT MTINDEX=9191972.SHOW RNG.BOOTSTRAP/SAMPLING METHOD=SIMPLE/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp/METHOD=SSTYPE(3)/INTERCEPT=INCLUDE/PRINT=PARAMETER/CRITERIA=ALPHA(.05)/DESIGN=gender jobcat minority jobtime prevexp.

  • 28

    Captulo 3

    RESTORE.

    Para ejecutar muestreo autodocimante wild, edite la palabra clave METHOD del subcomandoSAMPLING a METHOD=WILD(RESIDUALS=RES_1).

    El conjunto final de la sintaxis de comandos tendr la siguiente apariencia:

    PRESERVE.SET RNG=MT MTINDEX=9191972.SHOW RNG.BOOTSTRAP/SAMPLING METHOD=WILD(RESIDUALS=RES_1)/VARIABLES TARGET=diff INPUT=gender jobcat minority jobtime prevexp/CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=1000/MISSING USERMISSING=EXCLUDE.UNIANOVA diff BY gender jobcat minority WITH jobtime prevexp/METHOD=SSTYPE(3)/INTERCEPT=INCLUDE/PRINT=PARAMETER/CRITERIA=ALPHA(.05)/DESIGN=gender jobcat minority jobtime prevexp.RESTORE.

    Los comandos PRESERVE y RESTORE recuerdan el estado actual del generador de nmerosaleatorios y restaurar el sistema al estado posterior a la finalizacin del mtodo bootstrap.

    El comando SET define el generador de nmeros aleatorios a Mersenne Twister y el ndice a9191972, para que los resultados del muestreo bootstrap se puedan replicar exactamente. Elcomando SHOW muestra el ndice en el resultado para futura referencia.

    El comando BOOTSTRAP requiere 1000 muestras de bootstrap con muestreo wild y RES_1como la variable que contiene los residuos.

    El subcomando VARIABLES especifica que diff es la variable objetivo del modelo lineal. Estavariable y gender, jobcat, minority, jobtime y prevexp se utilizan para determinar las muestrascaso a caso. Los registros con valores perdidos en estas variables se eliminan del anlisis.

    El subcomando CRITERIA , adems de requerir el nmero de muestras de bootstrap,requiere intervalos de confianza de bootstrap de sesgo corregidos y acelerados en lugar delos intervalos de percentiles predefinidos.

    El procedimiento UNIANOVA posterior a BOOTSTRAP se ejecuta en cada muestra bootstrap yproduce estimaciones de los parmetros para los datos originales. Adems, los estadsticoscombinados se producen para los coeficientes del modelo.

  • 29

    Muestreo autodocimante

    Estimaciones de los parmetros

    Figura 3-18Estimaciones de los parmetros

    La tabla Estimaciones de los parmetros muestra las estimaciones normales sin muestreoautodocimante de los parmetros de los trminos de modelo. El valor de significacin de 0,105para [minority=0] es mayor que 0,05, lo que sugiere que Clasificacin tnica no tiene ningnefecto en los aumentos de los salarios.

    Figura 3-19Estimaciones de parmetros autodocimantes

    Ahora mire la tabla Estimaciones de parmetros autodocimantes. En la columna Error tpico, verque los errores tpicos paramtricos de algunos coeficientes, como interseccin, son demasiadopequeos en comparacin con las estimaciones autodocimantes y los intervalos de confianzason mayores. En algunos coeficientes, como [minority=0], los errores tpicos paramtricoseran demasiado grandes y el valor de significacin de 0,006 en los resultados autodocimantes,menor de 0,05, muestra que la diferencia observada en aumentos de salarios entre los empleados

  • 30

    Captulo 3

    pertenecientes a minoras tnicas o no no obedecen a las posibilidades. Los directivos saben ahoraque merece la pena investigar ms a fondo esta diferencia para determinar sus posibles causas.

    Lecturas recomendadas

    Consulte los siguientes textos si desea obtener ms informacin acerca de muestreosautodocimantes:

    Davison, A. C., y D. V. Hinkley. 2006. Bootstrap Methods and their Application. : CambridgeUniversity Press.

    Shao, J., y D. Tu. 1995. The Jackknife and Bootstrap. Nueva York: Springer.

  • Apndice

    AArchivos muestrales

    Los archivos muestrales instalados con el producto se encuentran en el subdirectorio Samples deldirectorio de instalacin. Hay una carpeta independiente dentro del subdirectorio Samples paracada uno de los siguientes idiomas: Ingls, francs, alemn, italiano, japons, coreano, polaco,ruso, chino simplificado, espaol y chino tradicional.

    No todos los archivos muestrales estn disponibles en todos los idiomas. Si un archivo muestralno est disponible en un idioma, esa carpeta de idioma contendr una versin en ingls del archivomuestral.

    Descripciones

    A continuacin, se describen brevemente los archivos muestrales usados en varios ejemplosque aparecen a lo largo de la documentacin. accidents.sav.Archivo de datos hipotticos sobre una compaa de seguros que estudia los

    factores de riesgo de edad y gnero que influyen en los accidentes de automviles de unaregin determinada. Cada caso corresponde a una clasificacin cruzada de categora deedad y gnero.

    adl.sav.Archivo de datos hipotticos relativo a los esfuerzos para determinar las ventajas de untipo propuesto de tratamiento para pacientes que han sufrido un derrame cerebral. Los mdicosdividieron de manera aleatoria a pacientes (mujeres) que haban sufrido un derrame cerebralen dos grupos. El primer grupo recibi el tratamiento fsico estndar y el segundo recibi untratamiento emocional adicional. Tres meses despus de los tratamientos, se puntuaron lascapacidades de cada paciente para realizar actividades cotidianas como variables ordinales.

    advert.sav. Archivo de datos hipotticos sobre las iniciativas de un minorista para examinarla relacin entre el dinero invertido en publicidad y las ventas resultantes. Para ello, serecopilaron las cifras de ventas anteriores y los costes de publicidad asociados.

    aflatoxin.sav. Archivo de datos hipotticos sobre las pruebas realizadas en las cosechas demaz con relacin a la aflatoxina, un veneno cuya concentracin vara ampliamente en losrendimientos de cultivo y entre los mismos. Un procesador de grano ha recibido 16 muestrasde cada uno de los 8 rendimientos de cultivo y ha medido los niveles de aflatoxinas en partespor milln (PPM).

    anorectic.sav.Mientras trabajaban en una sintomatologa estandarizada del comportamientoanorxico/bulmico, los investigadores (Van der Ham, Meulman, Van Strien, y Van Engeland,1997) realizaron un estudio de 55 adolescentes con trastornos de la alimentacin conocidos.Cada paciente fue examinado cuatro veces durante cuatro aos, lo que representa un totalde 220 observaciones. En cada observacin, se puntu a los pacientes por cada uno de los16 sntomas. Faltan las puntuaciones de los sntomas para el paciente 71 en el tiempo 2, elpaciente 76 en el tiempo 2 y el paciente 47 en el tiempo 3, lo que nos deja 217 observacionesvlidas.

    Copyright IBM Corporation 1989, 2011. 31

  • 32

    Apndice A

    bankloan.sav.Archivo de datos hipotticos sobre las iniciativas de un banco para reducir latasa de moras de crditos. El archivo contiene informacin financiera y demogrfica de850 clientes anteriores y posibles clientes. Los primeros 700 casos son clientes a los queanteriormente se les ha concedido un prstamo. Al menos 150 casos son posibles clientescuyos riesgos de crdito el banco necesita clasificar como positivos o negativos.

    bankloan_binning.sav. Archivo de datos hipotticos que contiene informacin financiera ydemogrfica sobre 5.000 clientes anteriores.

    behavior.sav. En un ejemplo clsico (Price y Bouffard, 1974), se pidi a 52 estudiantesque valoraran las combinaciones de 15 situaciones y 15 comportamientos en una escalade 10 puntos que oscilaba entre 0 =extremadamente apropiado y 9=extremadamenteinapropiado. Los valores promediados respecto a los individuos se toman comodisimilaridades.

    behavior_ini.sav. Este archivo de datos contiene una configuracin inicial para una solucinbidimensional de behavior.sav.

    brakes.sav. Archivo de datos hipotticos sobre el control de calidad de una fbrica queproduce frenos de disco para automviles de alto rendimiento. El archivo de datos contienelas medidas del dimetro de 16 discos de cada una de las 8 mquinas de produccin. Eldimetro objetivo para los frenos es de 322 milmetros.

    breakfast.sav.En un estudio clsico (Green y Rao, 1972), se pidi a 21 estudiantes deadministracin de empresas de la Wharton School y sus cnyuges que ordenaran 15 elementosde desayuno por orden de preferencia, de 1=ms preferido a 15=menos preferido. Suspreferencias se registraron en seis escenarios distintos, de Preferencia global a Aperitivo,con bebida slo.

    breakfast-overall.sav. Este archivo de datos slo contiene las preferencias de elementos dedesayuno para el primer escenario, Preferencia global.

    broadband_1.sav Archivo de datos hipotticos que contiene el nmero de suscriptores, porregin, a un servicio de banda ancha nacional. El archivo de datos contiene nmeros desuscriptores mensuales para 85 regiones durante un perodo de cuatro aos.

    broadband_2.sav Este archivo de datos es idntico a broadband_1.sav pero contiene datospara tres meses adicionales.

    car_insurance_claims.sav. Un conjunto de datos presentados y analizados en otro lugar(McCullagh y Nelder, 1989) estudia las reclamaciones por daos en vehculos. La cantidad dereclamaciones media se puede modelar como si tuviera una distribucin Gamma, medianteuna funcin de enlace inversa para relacionar la media de la variable dependiente conuna combinacin lineal de la edad del asegurado, el tipo de vehculo y la antigedad delvehculo. El nmero de reclamaciones presentadas se puede utilizar como una ponderacin deescalamiento.

    car_sales.sav. Este archivo de datos contiene estimaciones de ventas, precios de lista yespecificaciones fsicas hipotticas de varias marcas y modelos de vehculos. Los precios delista y las especificaciones fsicas se han obtenido de edmunds.com y de sitios de fabricantes.

    car_sales_uprepared.sav.sta es una versin modificada de car_sales.sav que no incluyeninguna versin transformada de los campos.

  • 33

    Archivos muestrales

    carpet.sav En un ejemplo muy conocido (Green y Wind, 1973), una compaa interesada ensacar al mercado un nuevo limpiador de alfombras desea examinar la influencia de cincofactores sobre la preferencia del consumidor: diseo del producto, marca comercial, precio,sello de buen producto para el hogar y garanta de devolucin del importe. Hay tres nivelesde factores para el diseo del producto, cada uno con una diferente colocacin del cepillodel aplicador; tres nombres comerciales (K2R, Glory y Bissell); tres niveles de precios; y dosniveles (no o s) para los dos ltimos factores. Diez consumidores clasificaron 22 perfilesdefinidos por estos factores. La variable Preferencia contiene el rango de las clasificacionesmedias de cada perfil. Las clasificaciones inferiores corresponden a preferencias elevadas.Esta variable refleja una medida global de la preferencia de cada perfil.

    carpet_prefs.sav Este archivo de datos se basa en el mismo ejemplo que el descrito paracarpet.sav, pero contiene las clasificaciones reales recogidas de cada uno de los 10consumidores. Se pidi a los consumidores que clasificaran los 22 perfiles de los productosempezando por el menos preferido. Las variables desde PREF1 hasta PREF22 contienen losID de los perfiles asociados, como se definen en carpet_plan.sav.

    catalog.savEste archivo de datos contiene cifras de ventas mensuales hipotticas de tresproductos vendidos por una compaa de venta por catlogo. Tambin se incluyen datospara cinco variables predictoras posibles.

    catalog_seasfac.savEste archivo de datos es igual que catalog.sav, con la excepcin deque incluye un conjunto de factores estacionales calculados a partir del procedimientoDescomposicin estacional junto con las variables de fecha que lo acompaan.

    cellular.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa de telefonamvil para reducir el abandono de clientes. Las puntuaciones de propensin al abandono declientes se aplican a las cuentas, oscilando de 0 a 100. Las cuentas con una puntuacin de 50o superior pueden estar buscando otros proveedores.

    ceramics.sav.Archivo de datos hipotticos sobre las iniciativas de un fabricante paradeterminar si una nueva aleacin de calidad tiene una mayor resistencia al calor que unaaleacin estndar. Cada caso representa una prueba independiente de una de las aleaciones; latemperatura a la que registr el fallo del rodamiento.

    cereal.sav. Archivo de datos hipotticos sobre una encuesta realizada a 880 personas sobresus preferencias en el desayuno, teniendo tambin en cuenta su edad, sexo, estado civil y sitienen un estilo de vida activo o no (en funcin de si practican ejercicio al menos dos veces ala semana). Cada caso representa un encuestado diferente.

    clothing_defects.sav. Archivo de datos hipotticos sobre el proceso de control de calidad enuna fbrica de prendas. Los inspectores toman una muestra de prendas de cada lote producidoen la fbrica, y cuentan el nmero de prendas que no son aceptables.

    coffee.sav. Este archivo de datos pertenece a las imgenes percibidas de seis marcas de cafhelado (Kennedy, Riquier, y Sharp, 1996). Para cada uno de los 23 atributos de imagen de cafhelado, los encuestados seleccionaron todas las marcas que quedaban descritas por el atributo.Las seis marcas se denotan AA, BB, CC, DD, EE y FF para mantener la confidencialidad.

    contacts.sav.Archivo de datos hipotticos sobre las listas de contactos de un grupo derepresentantes de ventas de ordenadores de empresa. Cada uno de los contactos estcategorizado por el departamento de la compaa en el que trabaja y su categora en lacompaa. Adems, tambin se registran los importes de la ltima venta realizada, el tiempotranscurrido desde la ltima venta y el tamao de la compaa del contacto.

  • 34

    Apndice A

    creditpromo.sav. Archivo de datos hipotticos sobre las iniciativas de unos almacenes paraevaluar la eficacia de una promocin de tarjetas de crdito reciente. Para este fin, seseleccionaron aleatoriamente 500 titulares. La mitad recibieron un anuncio promocionandouna tasa de inters reducida sobre las ventas realizadas en los siguientes tres meses. La otramitad recibi un anuncio estacional estndar.

    customer_dbase.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa parausar la informacin de su almacn de datos para realizar ofertas especiales a los clientescon ms probabilidades de responder. Se seleccion un subconjunto de la base de clientesaleatoriamente a quienes se ofrecieron las ofertas especiales y sus respuestas se registraron.

    customer_information.sav. Archivo de datos hipotticos que contiene la informacin de correodel cliente, como el nombre y la direccin.

    customer_subset.sav. Un subconjunto de 80 casos de customer_dbase.sav. debate.sav. Archivos de datos hipotticos sobre las respuestas emparejadas de una encuesta

    realizada a los asistentes a un debate poltico antes y despus del debate. Cada casocorresponde a un encuestado diferente.

    debate_aggregate.sav. Archivo de datos hipotticos que agrega las respuestas de debate.sav.Cada caso corresponde a una clasificacin cruzada de preferencias antes y despus del debate.

    demo.sav. Archivos de datos hipotticos sobre una base de datos de clientes adquirida conel fin de enviar por correo ofertas mensuales. Se registra si el cliente respondi a la oferta,junto con informacin demogrfica diversa.

    demo_cs_1.sav.Archivo de datos hipotticos sobre el primer paso de las iniciativas deuna compaa para recopilar una base de datos de informacin de encuestas. Cada casocorresponde a una ciudad diferente, y se registra la identificacin de la ciudad, la regin,la provincia y el distrito.

    demo_cs_2.sav.Archivo de datos hipotticos sobre el segundo paso de las iniciativas deuna compaa para recopilar una base de datos de informacin de encuestas. Cada casocorresponde a una unidad familiar diferente de las ciudades seleccionadas en el primer paso, yse registra la identificacin de la unidad, la subdivisin, la ciudad, el distrito, la provincia y laregin. Tambin se incluye la informacin de muestreo de las primeras dos etapas del diseo.

    demo_cs.sav.Archivo de datos hipotticos que contiene informacin de encuestas recopiladamediante un diseo de muestreo complejo. Cada caso corresponde a una unidad familiardistinta, y se recopila informacin demogrfica y de muestreo diversa.

    dmdata.sav. ste es un archivo de datos hipotticos que contiene informacin demogrficay de compras para una empresa de marketing directo. dmdata2.sav contiene informacinpara un subconjunto de contactos que recibi un envo de prueba, y dmdata3.sav contieneinformacin sobre el resto de contactos que no recibieron el envo de prueba.

    dietstudy.sav.Este archivo de datos hipotticos contiene los resultados de un estudio sobre ladieta Stillman (Rickman, Mitchell, Dingman, y Dalen, 1974). Cada caso correspondea un sujeto distinto y registra sus pesos antes y despus de la dieta en libras y niveles detriglicridos en mg/100 ml.

    dvdplayer.sav. Archivo de datos hipotticos sobre el desarrollo de un nuevo reproductor deDVD. El equipo de marketing ha recopilado datos de grupo de enfoque mediante un prototipo.Cada caso corresponde a un usuario encuestado diferente y registra informacin demogrficasobre los encuestados y sus respuestas a preguntas acerca del prototipo.

  • 35

    Archivos muestrales

    german_credit.sav.Este archivo de datos se toma del conjunto de datos German credit delas Repository of Machine Learning Databases (Blake y Merz, 1998) de la Universidadde California, Irvine.

    grocery_1month.sav. Este archivo de datos hipotticos es el archivo de datosgrocery_coupons.sav con las compras semanales acumuladas para que cada casocorresponda a un cliente diferente. Algunas de las variables que cambiaban semanalmentedesaparecen de los resultados, y la cantidad gastada registrada se convierte ahora en la sumade las cantidades gastadas durante las cuatro semanas del estudio.

    grocery_coupons.sav. Archivo de datos hipotticos que contiene datos de encuestasrecopilados por una cadena de tiendas de alimentacin interesada en los hbitos de comprade sus clientes. Se sigue a cada cliente durante cuatro semanas, y cada caso corresponde aun cliente-semana distinto y registra informacin sobre dnde y cmo compran los clientes,incluida la cantidad que invierten en comestibles durante esa semana.

    guttman.sav.Bell (Bell, 1961) present una tabla para ilustrar posibles grupos sociales.Guttman (Guttman, 1968) utiliz parte de esta tabla, en la que se cruzaron cinco variablesque describan elementos como la interaccin social, sentimientos de pertenencia a un grupo,proximidad fsica de los miembros y grado de formalizacin de la relacin con siete grupossociales tericos, incluidos multitudes (por ejemplo, las personas que acuden a un partido deftbol), espectadores (por ejemplo, las personas que acuden a un teatro o de una conferencia),pblicos (por ejemplo, los lectores de peridicos o los espectadores de televisin),muchedumbres (como una multitud pero con una interaccin mucho ms intensa), gruposprimarios (ntimos), grupos secundarios (voluntarios) y la comunidad moderna (confederacindbil que resulta de la proximidad cercana fsica y de la necesidad de servicios especializados).

    health_funding.sav. Archivo de datos hipotticos que contiene datos sobre inversin en sanidad(cantidad por 100 personas), tasas de enfermedad (ndice por 10.000 personas) y visitas acentros de salud (ndice por 10.000 personas). Cada caso representa una ciudad diferente.

    hivassay.sav. Archivo de datos hipotticos sobre las iniciativas de un laboratorio farmacuticopara desarrollar un ensayo rpido para detectar la infeccin por VIH. Los resultados del ensayoson ocho tonos de rojo con diferentes intensidades, donde los tonos ms oscuros indican unamayor probabilidad de infeccin. Se llev a cabo una prueba de laboratorio de 2.000 muestrasde sangre, de las cuales una mitad estaba infectada con el VIH y la otra estaba limpia.

    hourlywagedata.sav. Archivo de datos hipotticos sobre los salarios por horas de enfermerasde puestos de oficina y hospitales y con niveles distintos de experiencia.

    insurance_claims.sav. ste es un archivo de datos hipotticos sobre una compaa de segurosque desee generar un modelo para etiquetar las reclamaciones sospechosas y potencialmentefraudulentas. Cada caso representa una reclamacin diferente.

    insure.sav. Archivo de datos hipotticos sobre una compaa de seguros que estudia losfactores de riesgo que indican si un cliente tendr que hacer una reclamacin a lo largo de uncontrato de seguro de vida de 10 aos. Cada caso del archivo de datos representa un par decontratos (de los que uno registr una reclamacin y el otro no), agrupados por edad y sexo.

    judges.sav. Archivo de datos hipotticos sobre las puntuaciones concedidas por juecescualificados (y un aficionado) a 300 actuaciones gimnsticas. Cada fila representa unaactuacin diferente; los jueces vieron las mismas actuaciones.

  • 36

    Apndice A

    kinship_dat.sav. Rosenberg y Kim (Rosenberg y Kim, 1975) comenzaron a analizar 15trminos de parentesco [ta, hermano, primos, hija, padre, nieta, abuelo, abuela, nieto, madre,sobrino, sobrina, hermana, hijo, to]. Le pidieron a cuatro grupos de estudiantes universitarios(dos masculinos y dos femeninos) que ordenaran estos grupos segn las similitudes. A dosgrupos (uno masculino y otro femenino) se les pidi que realizaran la ordenacin dos veces,pero que la segunda ordenacin la hicieran segn criterios distintos a los de la primera. As, seobtuvo un total de seis fuentes. Cada fuente se corresponde con una matriz de proximidadesde cuyas casillas son iguales al nmero de personas de una fuente menos el nmerode veces que se particionaron los objetos en esa fuente.

    kinship_ini.sav. Este archivo de datos contiene una configuracin inicial para una solucintridimensional de kinship_dat.sav.

    kinship_var.sav. Este archivo de datos contiene variables independientes sexo, gener(acin), ygrado (de separacin) que se pueden usar para interpretar las dimensiones de una solucinpara kinship_dat.sav. Concretamente, se pueden usar para restringir el espacio de la solucina una combinacin lineal de estas variables.

    marketvalues.sav. Archivo de datos sobre las ventas de casas en una nueva urbanizacin deAlgonquin, Ill., durante los aos 1999 y 2000. Los datos de estas ventas son pblicos.

    nhis2000_subset.sav. La National Health Interview Survey (NHIS, encuesta del CentroNacional de Estadsticas de Salud de EE.UU.) es una encuesta detallada realizada entrela poblacin civil de Estados Unidos. Las encuestas se realizaron en persona a unamuestra representativa de las unidades familiares del pas. Se recogi tanto la informacindemogrfica como las observaciones acerca del estado y los hbitos de salud de losintegrantes de cada unidad familiar. Este archivo de datos contiene un subconjunto deinformacin de la encuesta de 2000. National Center for Health Statistics. NationalHealth Interview Survey, 2000. Archivo de datos y documentacin de uso pblico.ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Fecha de acceso: 2003.

    ozono.sav. Los datos incluyen 330 observaciones de seis variables meteorolgicas parapronosticar la concentracin de ozono a partir del resto de variables. Los investigadoresanteriores(Breiman y Friedman, 1985), (Hastie y Tibshirani, 1990) han encontrado que no haylinealidad entre estas variables, lo que dificulta los mtodos de regresin tpica.

    pain_medication.sav. Este archivo de datos hipotticos contiene los resultados de una pruebaclnica sobre medicacin antiinflamatoria para tratar el dolor artrtico crnico. Resulta departicular inters el tiempo que tarda el frmaco en hacer efecto y cmo se compara conuna medicacin existente.

    patient_los.sav. Este archivo de datos hipotticos contiene los registros de tratamiento depacientes que fueron admitidos en el hospital ante la posibilidad de sufrir un infarto demiocardio (IM o ataque al corazn). Cada caso corresponde a un paciente distinto y registradiversas variables relacionadas con su estancia hospitalaria.

    patlos_sample.sav. Este archivo de datos hipotticos contiene los registros de tratamiento deuna muestra de pacientes que recibieron trombolticos durante el tratamiento del infarto demiocardio (IM o ataque al corazn). Cada caso corresponde a un paciente distinto y registradiversas variables relacionadas con su estancia hospitalaria.

  • 37

    Archivos muestrales

    poll_cs.sav. Archivo de datos hipotticos sobre las iniciativas de los encuestadores paradeterminar el nivel de apoyo pblico a una ley antes de una asamblea legislativa. Los casoscorresponden a votantes registrados. Cada caso registra el condado, la poblacin y elvecindario en el que vive el votante.

    poll_cs_sample.sav. Este archivo de datos hipotticos contiene una muestra de los votantesenumerados en poll_cs.sav. La muestra se tom segn el diseo especificado en el archivode plan poll.csplan y este archivo de datos registra las probabilidades de inclusin y lasponderaciones muestrales. Sin embargo, tenga en cuenta que debido a que el plan muestralhace uso de un mtodo de probabilidad proporcional al tamao (PPS), tambin existe unarchivo que contiene las probabilidades de seleccin conjunta (poll_jointprob.sav). Lasvariables adicionales que corresponden a los datos demogrficos de los votantes y susopiniones sobre la propuesta de ley se recopilaron y aadieron al archivo de datos despusde tomar la muestra.

    property_assess.sav. Archivo de datos hipotticos sobre las iniciativas de un asesor delcondado para mantener actualizada la evaluacin de los valores de las propiedades utilizandorecursos limitados. Los casos corresponden a las propiedades vendidas en el condado elao anterior. Cada caso del archivo de datos registra la poblacin en que se encuentra lapropiedad, el ltimo asesor que visit la propiedad, el tiempo transcurrido desde la ltimaevaluacin, la valoracin realizada en ese momento y el valor de venta de la propiedad.

    property_assess_cs.sav. Archivo de datos hipotticos sobre las iniciativas de un asesor de unestado para mantener actualizada la evaluacin de los valores de las propiedades utilizandorecursos limitados. Los casos corresponden a propiedades del estado. Cada caso del archivode datos registra el condado, la poblacin y el vecindario en el que se encuentra la propiedad,el tiempo transcurrido desde la ltima evaluacin y la valoracin realizada en ese momento.

    property_assess_cs_sample.savEste archivo de datos hipotticos contiene una muestra de laspropiedades recogidas en property_assess_cs.sav. La muestra se tom en funcin del diseoespecificado en el archivo de plan property_assess.csplan, y este archivo de datos registralas probabilidades de inclusin y las ponderaciones muestrales. La variable adicional Valoractual se recopil y aadi al archivo de datos despus de tomar la muestra.

    recidivism.sav. Archivo de datos hipotticos sobre las iniciativas de una agencia de ordenpblico para comprender los ndices de reincidencia en su rea de jurisdiccin. Cada casocorresponde a un infractor anterior y registra su informacin demogrfica, algunos detalles desu primer delito y, a continuacin, el tiempo transcurrido desde su segundo arresto, si ocurrien los dos aos posteriores al primer arresto.

    recidivism_cs_sample.sav. Archivo de datos hipotticos sobre las iniciativas de una agencia deorden pblico para comprender los ndices de reincidencia en su rea de jurisdiccin. Cadacaso corresponde a un delincuente anterior, puesto en libertad tras su primer arresto durante elmes de junio de 2003 y registra su informacin demogrfica, algunos detalles de su primerdelito y los datos de su segundo arresto, si se produjo antes de finales de junio de 2006. Losdelincuentes se seleccionaron de una muestra de departamentos segn el plan de muestreoespecificado en recidivism_cs.csplan. Como este plan utiliza un mtodo de probabilidadproporcional al tamao (PPS), tambin existe un archivo que contiene las probabilidades deseleccin conjunta (recidivism_cs_jointprob.sav).

    rfm_transactions.sav. Archivo de datos hipotticos que contiene datos de transacciones decompra, incluida la fecha de compra, los artculos adquiridos y el importe de cada transaccin.

  • 38

    Apndice A

    salesperformance.sav. Archivo de datos hipotticos sobre la evaluacin de dos nuevos cursosde formacin de ventas. Sesenta empleados, divididos en tres grupos, reciben formacinestndar. Adems, el grupo 2 recibe formacin tcnica; el grupo 3, un tutorial prctico. Cadaempleado se someti a un examen al final del curso de formacin y se registr su puntuacin.Cada caso del archivo de datos representa a un alumno distinto y registra el grupo al que fueasignado y la puntuacin que obtuvo en el examen.

    satisf.sav. Archivo de datos hipotticos sobre una encuesta de satisfaccin llevada a cabo poruna empresa minorista en cuatro tiendas. Se encuest a 582 clientes en total y cada casorepresenta las respuestas de un nico cliente.

    screws.sav Este archivo de datos contiene informacin acerca de las caractersticas detornillos, pernos, clavos y tacos (Hartigan, 1975).

    shampoo_ph.sav.Archivo de datos hipotticos sobre el control de calidad en una fbrica deproductos para el cabello. Se midieron seis lotes de resultados distintos en intervalos regularesy se registr su pH. El intervalo objetivo es de 4,5 a 5,5.

    ships.sav. Un conjunto de datos presentados y analizados en otro lugar (McCullagh et al.,1989) sobre los daos en los cargueros producidos por las olas. Los recuentos de incidentesse pueden modelar como si ocurrieran con una tasa de Poisson dado el tipo de barco, elperodo de construccin y el perodo de servicio. Los meses de servicio agregados para cadacasilla de la tabla formados por la clasificacin cruzada de factores proporcionan valorespara la exposicin al riesgo.

    site.sav.Archivo de datos hipotticos sobre las iniciativas de una compaa para seleccionarsitios nuevos para sus negocios en expansin. Se ha contratado a dos consultores para evaluarlos sitios de forma independiente, quienes, adems de un informe completo, han resumidocada sitio como una posibilidad buena, media o baja.

    smokers.sav.Este archivo de datos es un resumen de la encuesta sobre toxicomana 1998National Household Survey of Drug Abuse y es una muestra de probabilidad de unidadesfamiliares americanas. (http://dx.doi.org/10.3886/ICPSR02934) As, el primer paso de unanlisis de este archivo de datos debe ser ponderar los datos para reflejar las tendenciasde poblacin.

    stocks.sav Este archivo de datos hipotticos contiene precios de acciones y volumen de un ao. stroke_clean.sav. Este archivo de datos hipotticos contiene el estado de una base de datos

    mdica despus de haberla limpiado mediante los procedimientos de la opcin Preparacinde datos.

    stroke_invalid.sav. Este archivo de datos hipotticos contiene el estado inicial de una base dedatos mdica que incluye contiene varios errores de entrada de datos.

    stroke_survival. Este archivo de datos hipotticos registra los tiempos de supervivencia delos pacientes que finalizan un programa de rehabilitacin tras un ataque isqumico. Tras elataque, la ocurrencia de infarto de miocardio, ataque isqumico o ataque hemorrgico seanotan junto con el momento en el que se produce el evento registrado. La muestra esttruncada a la izquierda ya que nicamente incluye a los pacientes que han sobrevivido al finaldel programa de rehabilitacin administrado tras el ataque.

    stroke_valid.sav. Este archivo de datos hipotticos contiene el estado de una base de datosmdica despus de haber comprobado los valores mediante el procedimiento Validar datos.Sigue conteniendo casos potencialmente anmalos.

  • 39

    Archivos muestrales

    survey_sample.sav. Este archivo de datos contiene datos de encuestas, incluyendo datosdemogrficos y diferentes medidas de actitud. Se basa en un subconjunto de variables deNORC General Social Survey de 1998, aunque algunos valores de datos se han modificado yque existen variables ficticias adicionales se han aadido para demostraciones.

    telco.sav. Archivo de datos hipotticos sobre las iniciativas de una compaa detelecomunicaciones para reducir el abandono de clientes en su base de clientes. Cada casocorresponde a un cliente distinto y registra diversa informacin demogrfica y de uso delservicio.

    telco_extra.sav. Este archivo de datos es similar al archivo de datos telco.sav, pero las variablesde meses con servicio y gasto de clientes transformadas logartmicamente se han eliminado ysustituido por variables de gasto del cliente transformadas logartmicamente tipificadas.

    telco_missing.sav. Este archivo de datos es un subconjunto del archivo de datos telco.sav, peroalgunos valores de datos demogrficos se han sustituido con valores perdidos.

    testmarket.sav. Archivo de datos hipotticos sobre los planes de una cadena de comida rpidapara aadir un nuevo artculo a su men. Hay tres campaas posibles para promocionarel nuevo producto, por lo que el artculo se presenta en ubicaciones de varios mercadosseleccionados aleatoriamente. Se utiliza una promocin diferente en cada ubicacin y seregistran las ventas semanales del nuevo artculo durante las primeras cuatro semanas. Cadacaso corresponde a una ubicacin semanal diferente.

    testmarket_1month.sav. Este archivo de datos hipotticos es el archivo de datos testmarket.savcon las ventas semanales acumuladas para que cada caso corresponda a una ubicacindiferente. Como resultado, algunas de las variables que cambiaban semanalmente desapareceny las ventas registradas se convierten en la suma de las ventas realizadas durante las cuatrosemanas del estudio.

    tree_car.sav. Archivo de datos hipotticos que contiene datos demogrficos y de preciosde compra de vehculos.

    tree_credit.sav Archivo de datos hipotticos que contiene datos demogrficos y de historial decrditos bancarios.

    tree_missing_data.sav Archivo de datos hipotticos que contiene datos demogrficos y dehistorial de crditos bancarios con un elevado nmero de valores perdidos.

    tree_score_car.sav. Archivo de datos hipotticos que contiene datos demogrficos y de preciosde compra de vehculos.

    tree_textdata.sav. Archivo de datos sencillos con dos variables diseadas principalmente paramostrar el estado por defecto de las variables antes de realizar la asignacin de nivel demedida y etiquetas de valor.

    tv-survey.sav. Archivo de datos hipotticos sobre una encuesta dirigida por un estudio deTV que est considerando la posibilidad de ampliar la emisin de un programa de xito.Se pregunt a 906 encuestados si veran el programa en distintas condiciones. Cada filarepresenta un encuestado diferente; cada columna es una condicin diferente.

    ulcer_recurrence.sav. Este archivo contiene informacin parcial de un estudio diseado paracomparar la eficacia de dos tratamientos para prevenir la reaparicin de lceras. Constituyeun buen ejemplo de datos censurados por intervalos y se ha presentado y analizado en otrolugar (Collett, 2003).

  • 40

    Apndice A

    ulcer_recurrence_recoded.sav. Este archivo reorganiza la informacin de ulcer_recurrence.savpara permitir modelar la probabilidad de eventos de cada intervalo del estudio en lugar deslo la probabilidad de eventos al final del estudio. Se ha presentado y analizado en otrolugar (Collett et al., 2003).

    verd1985.sav. Archivo de datos sobre una encuesta (Verdegaal, 1985). Se han registrado lasrespuestas de 15 sujetos a 8 variables. Se han dividido las variables de inters en tres grupos.El conjunto 1 incluye edad y ecivil, el conjunto 2 incluye mascota y noticia, mientras que elconjunto 3 incluye msica y vivir. Se escala mascota como nominal mltiple y edad comoordinal; el resto de variables se escalan como nominal simple.

    virus.sav.Archivo de datos hipotticos sobre las iniciativas de un proveedor de servicios deInternet (ISP) para determinar los efectos de un virus en sus redes. Se ha realizado unseguimiento (aproximado) del porcentaje de trfico de correos electrnicos infectados en susredes a lo largo del tiempo, desde el momento en que se descubre hasta que la amenaza secontiene.

    wheeze_steubenville.sav. Subconjunto de un estudio longitudinal de los efectos sobre la saludde la polucin del aire en los nios (Ware, Dockery, Spiro III, Speizer, y Ferris Jr., 1984).Los datos contienen medidas binarias repetidas del estado de las sibilancias en nios deSteubenville, Ohio, con edades de 7, 8, 9 y 10 aos, junto con un registro fijo de si la madreera fumadora durante el primer ao del estudio.

    workprog.sav. Archivo de datos hipotticos sobre un programa de obras del gobierno queintenta colocar a personas desfavorecidas en mejores trabajos. Se sigui una muestra departicipantes potenciales del programa, algunos de los cuales se seleccionaron aleatoriamentepara entrar en el programa, mientras que otros no siguieron esta seleccin aleatoria. Cadacaso representa un participante del programa diferente.

    worldsales.sav Este archivo de datos hipotticos contiene ingresos por ventas por continente yproducto.

  • Apndice

    BAvisos

    Esta informacin se ha desarrollado para los productos y servicios ofrecidos en todo el mundo.

    Puede que IBM no ofrezca los productos, los servicios o las caractersticas de los que se hablaen este documento en otros pases. Consulte a su representante local de IBM para obtenerinformacin acerca de los productos y servicios que est disponibles actualmente en su zona.Toda referencia que se haga de un producto, programa o servicio de IBM no implica que slose deba utilizar ese producto, programa o servicio de IBM. En su lugar, puede utilizarse todoproducto, programa o servicio con funcionalidades equivalentes que no infrinjan los derechos depropiedad intelectual de IBM. Sin embargo, es responsabilidad del usuario evaluar y comprobar elfuncionamiento de todo producto, programa o servicio que no sea de IBM.

    IBM puede tener patentes o aplicaciones de patentes pendientes que cubren el asunto descrito eneste documento. Este documento no le otorga ninguna licencia para estas patentes. Puede enviarpreguntas acerca de las licencias, por escrito, a:

    IBM Director of Licensing, IBM Corporation, North Castle Drive, Armonk, NY 10504-1785,Estados Unidos

    Si tiene alguna pregunta sobre la licencia relacionada con la informacin del juego de caracteresde doble byte (DBCS), pngase en contacto con el departamento de propiedad intelectual de IBMde su pas o enve sus preguntas por escrito a:

    Intellectual Property Licensing, Legal and Intellectual Property Law, IBM Japan Ltd., 1623-14,Shimotsuruma, Yamato-shi, Kanagawa 242-8502 Japan.

    El prrafo siguiente no se aplica a los Reino Unido o cualquier otro pas donde tales disposicionesson incompatibles con la legislacin local: INTERNATIONAL BUSINESS MACHINESPROPORCIONA ESTA PUBLICACIN TAL CUAL SIN GARANTA DE NINGNTIPO, YA SEA EXPRESA O IMPLCITA, INCLUYENDO, PERO NO LIMITADA A, LASGARANTAS IMPLCITAS DE NO INFRACCIN, COMERCIALIZACIN O IDONEIDADPARA UN PROPSITO PARTICULAR. Algunos estados no permiten la renuncia a expresaro a garantas implcitas en determinadas transacciones , por lo tanto , esta declaracin no seaplique a usted.

    Esta informacin puede incluir imprecisiones tcnicas o errores tipogrficos. Peridicamente, seefectan cambios en la informacin aqu y estos cambios se incorporarn en nuevas edicionesde la publicacin. IBM puede realizar mejoras y/o cambios en los productos y/o los programasdescritos en esta publicacin en cualquier momento sin previo aviso.

    Cualquier referencia a sitios Web que no sean de IBM en esta informacin slo es ofrecida porcomodidad y de ningn modo sirve como aprobacin de esos sitios Web. Los materiales en esossitios Web no forman parte del material de este producto de IBM y el uso de estos sitios Web esbajo su propio riesgo.

    IBM puede utilizar cualquier informacin que le suministre en cualquier forma que considereadecuada, sin incurrir en ninguna obligacin para usted.

    Copyright IBM Corporation 1989, 2011. 41

  • 42

    Apndice B

    Los licenciatarios de este programa que deseen tener informacin sobre el mismo con el objetivode habilitar: (i) el intercambio de informacin entre programas creados independientemente yotros programas (incluyendo este) y (ii) el uso comn de la informacin que se ha intercambiado,deben ponerse en contacto con:

    IBM Software Group, a la atencin de: Licensing, 233 S. Wacker Dr., Chicago, IL 60606, USA.

    Esta informacin estar disponible, bajo las condiciones adecuadas, incluyendo en algunos casosel pago de una cuota.

    IBM proporciona el programa bajo licencia que se describe en este documento y todo el materialbajo licencia disponible para el mismo bajo los trminos de IBM Customer Agreement (Acuerdode cliente de IBM), IBM International Program License Agreement (Acuerdo de licencia deprograma internacional de IBM) o cualquier acuerdo equivalente entre las partes.

    Se ha obtenido informacin acerca de productos que no son de IBM de los proveedores deesos productos, de sus publicaciones anunciadas o de otras fuentes disponibles pblicamente.IBM no ha probado estos productos y no puede confirmar la precisin de su rendimiento, sucompatibilidad o cualquier otra reclamacin relacionada con productos que no sean de IBM.Las preguntas acerca de las aptitudes de productos que no sean de IBM deben dirigirse a losproveedores de dichos productos.

    Esta informacin contiene ejemplos de datos e informes utilizados en operaciones comercialesdiarias. Para ilustrarlos lo mximo posible, los ejemplos incluyen los nombres de las personas,empresas, marcas y productos. Todos esos nombres son ficticios y cualquier parecido con losnombres y direcciones utilizados por una empresa real es pura coincidencia.

    Si est viendo esta informacin en copia electrnica, es posible que las fotografas y lasilustraciones en color no aparezcan.

    Marcas registradas

    IBM, el logotipo de IBM, ibm.com y SPSS son marcas comerciales de IBM Corporation,registradas en muchas jurisdicciones de todo el mundo. Existe una lista actualizada de marcascomerciales de IBM en Internet en http://www.ibm.com/legal/copytrade.shtml.

    Adobe, el logotipo Adobe, PostScript y el logotipo PostScript son marcas registradas o marcascomerciales de Adobe Systems Incorporated en Estados Unidos y/o otros pases.

    Intel, el logotipo de Intel, Intel Inside, el logotipo de Intel Inside, Intel Centrino, el logotipo deIntel Centrino, Celeron, Intel Xeon, Intel SpeedStep, Itanium y Pentium son marcas comerciales omarcas registradas de Intel Corporation o sus filiales en Estados Unidos y otros pases.

    Java y todas las marcas comerciales y los logotipos basados en Java son marcas comerciales deSun Microsystems, Inc. en Estados Unidos, otros pases o ambos.

    Linux es una marca registrada de Linus Torvalds en Estados Unidos, otros pases o ambos.

    Microsoft, Windows, Windows NT, y el logotipo de Windows son marcas comerciales deMicrosoft Corporation en Estados Unidos, otros pases o ambos.

    UNIX es una marca registrada de The Open Group en Estados Unidos y otros pases.

    Este producto utiliza WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting,http://www.winwrap.com.

  • 43

    Avisos

    Otros productos y nombres de servicio pueden ser marcas comerciales de IBM u otras empresas.

    Capturas de pantalla de productos de Adobe reimpresas con permiso de Adobe SystemsIncorporated.

    Capturas de pantalla de productos de Microsoft reimpresas con permiso de Microsoft Corporation.

  • BibliografaBell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology.Nueva York: Harper & Row.

    Blake, C. L., y C. J. Merz. 1998. "UCI Repository of machine learning databases." Available athttp://www.ics.uci.edu/~mlearn/MLRepository.html.

    Breiman, L., y J. H. Friedman. 1985. Estimating optimal transformations for multiple regressionand correlation. Journal of the American Statistical Association, 80, .

    Collett, D. 2003. Modelling survival data in medical research, 2 ed. Boca Raton: Chapman &Hall/CRC.

    Davison, A. C., y D. V. Hinkley. 2006. Bootstrap Methods and their Application. : CambridgeUniversity Press.

    Green, P. E., y V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press.

    Green, P. E., y Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach.Hinsdale, Ill.: Dryden Press.

    Guttman, L. 1968. A general nonmetric technique for finding the smallest coordinate space forconfigurations of points. Psychometrika, 33, .

    Hartigan, J. A. 1975. Clustering algorithms. Nueva York: John Wiley and Sons.

    Hastie, T., y R. Tibshirani. 1990. Generalized additive models. Londres: Chapman and Hall.

    Kennedy, R., C. Riquier, y B. Sharp. 1996. Practical applications of correspondence analysisto categorical data in market research. Journal of Targeting, Measurement, and Analysis forMarketing, 5, .

    McCullagh, P., y J. A. Nelder. 1989. Modelos lineales generalizados, 2nd ed. Londres: Chapman& Hall.

    Price, R. H., y D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints asdimensions of social behavior. Journal of Personality and Social Psychology, 30, .

    Rickman, R., N. Mitchell, J. Dingman, y J. E. Dalen. 1974. Changes in serum cholesterol duringthe Stillman Diet. Journal of the American Medical Association, 228, .

    Rosenberg, S., y M. P. Kim. 1975. The method of sorting as a data-gathering procedure inmultivariate research. Multivariate Behavioral Research, 10, .

    Shao, J., y D. Tu. 1995. The Jackknife and Bootstrap. Nueva York: Springer.

    Van der Ham, T., J. J. Meulman, D. C. Van Strien, y H. Van Engeland. 1997. Empirically basedsubgrouping of eating disorders in adolescents: A longitudinal perspective. British Journalof Psychiatry, 170, .

    Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (en neerlands). Leiden:Department of Data Theory, University of Leiden.

    Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, y B. G. Ferris Jr.. 1984. Passivesmoking, gas cooking, and respiratory health of children living in six cities. American Review ofRespiratory Diseases, 129, .

    Copyright IBM Corporation 1989, 2011. 44

  • ndicearchivos de ejemploubicacin, 31

    avisos legales, 41

    especificaciones de muestreo autodocimanteen muestreo autodocimante, 14

    estimaciones de los parmetrosen muestreo autodocimante, 29

    intervalo de confianza de medianaen muestreo autodocimante, 19

    intervalo de confianza de proporcinen muestreo autodocimante, 1516

    marcas registradas, 42muestreo autodocimante, 3, 10especificaciones de muestreo autodocimante, 14estimaciones de los parmetros, 29intervalo de confianza de mediana, 19intervalo de confianza de proporcin, 1516procedimientos admitidos, 5

    45

    IBM SPSS Bootstrapping 20ContenidoManual del usuario1. Introduccin al muestreo autodocimante2. Muestreo autodocimanteProcedimientos que admiten el muestreo autodocimanteFunciones adicionales del comando BOOTSTRAP

    Ejemplos3. Muestreo autodocimanteUso de muestreo autodocimante para obtener intervalos de confianza para proporcionesPreparacin de datosEjecucin del anlisisEspecificaciones de BootstrapEstadsticasTabla de frecuencia

    Uso de muestreo autodocimante para obtener intervalos de confianza de medianasEjecucin del anlisisDescriptivos

    Uso de muestreo autodocimante para seleccionar mejores predictoresPreparacin de datosEjecucin del anlisisEstimaciones de los parmetros

    Lecturas recomendadas

    A. Archivos muestralesB. AvisosBibliografandice