Libroestdescriptiva2009 Ing

download Libroestdescriptiva2009 Ing

of 45

Transcript of Libroestdescriptiva2009 Ing

  • 8/4/2019 Libroestdescriptiva2009 Ing

    1/45

    IntroduccinLa idea original de la "estadstica" era la recoleccin de informacin sobre y para el"estado". La palabra estadstica se deriva directamente, no de races griegas o latinasclsica, sino de la palabra italianaestado.El nacimiento de la estadstica se ubica a mediados del siglo XVII. Un ciudadano comn

    llamado Juan Graunt, nacido en Londres, comenz a revisar la publicacin semanal de laiglesia, la cual era distribuida en la parroquia local y que listaba el nmero denacimientos, bautizos, y de muertes en cada parroquia. Las cifras de mortalidad tambinenumeraban las causas de las muertes. Graunt que era comerciante organiz estosdatos en la forma que hoy llamamos estadstica descriptiva, la cual fue publicada comoObservaciones Naturales y Polticas hechas sobre la tasa de Mortalidad. Luego de lapublicacin, fue elegido como miembro de la sociedad real. De esta forma, la estadsticatomo prestados algunos conceptos de la sociologa, tal como el concepto de poblacin.

    El anlisis exploratorio de datos utiliza tcnicas grficas y numricas para estudiarpatrones de conducta y el origen de los mismos. Las tcnicas de estadstica descriptiva

    normalmente usadas son: Distribucin de frecuencia; Histogramas, Boxplot, Grficos deDispersin, diagramas de barras y errores, diagramas de diagnstico.

    Cuando se examina la distribucin de los datos, se debe detectar algunas caractersticasimportantes, tales como forma, ubicacin, variabilidad, y valores inusuales. Mediante unacuidadosa observacin de los patrones en los datos, se puede generar conjeturas acercalas relaciones entre variables. La nocin de cmo una variable puede estar asociada aotra esta inmersa en casi todo el anlisis estadstico, lo que se puede realizar porejemplo, mediante el anlisis regresin lineal.

    Los datos deben ser recolectados acorde al desarrollo de un plan que garantice que lainformacin es vlida para los objetivos planteados. El plan debe identificar las variablesimportantes que estn relacionadas con los objetivos, y especificar cmo estas van a sermedidas.

    Los datos son conocidos como informacin cruda y no como conocimientos en s. Lasecuencia que va desde los datos hasta el conocimiento aparece en la figura siguiente.Los datos se convierten en informacin, cuando se hacen relevantes para la toma dedecisin de un problema. La informacin se convierte en hecho, cuando es respaldadapor los datos. Los hechos son lo que los datos revelan. Sin embargo el conocimientoinstrumental es expresado junto con un cierto grado estadstico de confianza .

    1

  • 8/4/2019 Libroestdescriptiva2009 Ing

    2/45

    La figura anterior representa el hecho que a medida que la exactitud de un modeloestadstico aumenta, el nivel de mejoramiento en la toma de decisin aumenta. Esta es larazn del por que necesitamos la estadstica. La estadstica se creo por la necesidad deponer conocimiento en una base sistemtica de la evidencia. Esto requiri un estudio delas leyes de la probabilidad, del desarrollo de las propiedades de medicin, relacin dedatos.

    La inferencia estadstica intenta determinar si alguna significancia estadstica puede seradjudicada, luego que se permita una variacin aleatoria como fuente de error. Unainteligente y crtica inferencia no puede ser hecha por aquellos que no entiendan elpropsito, las condiciones, y la aplicabilidad de las de diversas tcnicas para juzgar elsignificado.

    2

  • 8/4/2019 Libroestdescriptiva2009 Ing

    3/45

    Anlisis Exploratorio de DatosLa finalidad del Anlisis Exploratorio de Datos (AED) o Estadstica Descriptiva esexaminar los datos previamente a la aplicacin de cualquier tcnica estadstica. De estaforma el analista consigue un entendimiento bsico de los datos y de las relacionesexistentes entre las variables analizadas.

    El Anlisis Exploratorio de Datos proporciona mtodos sencillos para organizar ypreparar los datos, detectar fallas en el diseo y recogida de datos, tratamiento yevaluacin de datos ausentes, identificacin de casos atpicos y comprobacin de lossupuestos subyacentes en la mayor parte de las tcnicas multivariantes.

    En este curso se va a dar una breve visin general de dicho conjunto de tcnicasexponiendo, brevemente, cul es su finalidad, ilustrada con ejemplos.

    Las preguntas ms frecuentes cuando tenemos un conjunto de datos son:Existe algn tipo de estructura (normalidad, multimodalidad, asimetra, curtosis,

    linealidad, homogeneidad entre grupos, homocedasticidad, etc.) en los datos que se vana analizar?Existe algn sesgo en los datos recogidos?Hay errores en la codificacin de los datos?Cmo se sintetiza y presenta la informacin contenida en un conjunto de datos?Existen datos atpicos (outliers)? Cules son? Cmo tratarlos?Hay datos ausentes (missing)? Tienen algn patrn sistemtico? Cmo tratarlos?

    Los objetivos de este curso son:1) Definir qu es el Anlisis Exploratorio de Datos (A.E.D.) y cules son sus objetivos.2) Indicar cules son las etapas a seguir en la realizacin de un A.E.D.3) Seleccionar los mtodos grfico y numrico apropiados para examinar las

    caractersticas de los datos y/o relaciones de inters.4) Comprobar si se verifican algunas hiptesis de inters en los datos (normalidad,

    homocedasticidad).5) Identificar casos atpicos univariantes.6) Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial.

    Qu es el anlisis exploratorio de datos?El Anlisis Exploratorio de Datos (A.E.D.) es un conjunto de tcnicas estadsticas cuyafinalidad es conseguir un entendimiento bsico de los datos y de las relaciones

    existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D.proporciona mtodos sistemticos sencillos para organizar y preparar los datos, detectarfallos en el diseo y recogida de los mismos, tratamiento y evaluacin de datos ausentes(missing), identificacin de casos atpicos (outliers) y comprobacin de los supuestossubyacentes en la mayor parte de las tcnicas multivariantes (normalidad,homocedasticidad).

    El examen previo de los datos es un paso necesario, que lleva tiempo, y quehabitualmente se descuida por parte de los analistas de datos. Las tareas implcitas endicho examen pueden parecer insignificantes y sin consecuencias a primera vista, peroson una parte esencial de cualquier anlisis estadstico.

    3

  • 8/4/2019 Libroestdescriptiva2009 Ing

    4/45

    Etapas del Anlisis Exploratorio de DatosPara realizar un A.E.D. conviene seguir las siguientes etapas:1) Preparar los datos para hacerlos accesibles a cualquier tcnica estadstica.2) Realizar un examen grfico de la naturaleza de las variables individuales a analizar y

    un anlisis descriptivo numrico que permita cuantificar algunos aspectos grficos delos datos.

    3) Realizar un examen grfico de las relaciones entre las variables analizadas y unanlisis descriptivo numrico que cuantifique el grado de interrelacin existente entreellas.

    4) Evaluar, si fuera necesario, algunos supuestos bsicos subyacentes a muchastcnicas estadsticas como, por ejemplo, la normalidad, linealidad yhomocedasticidad.

    5) Identificar los posibles casos atpicos (outliers) y evaluar el impacto potencial quepuedan ejercer en anlisis estadsticos posteriores.

    6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes

    (missing) sobre la representatividad de los datos analizados.

    Preparacin de los datosEl primer paso en un A.E.D. es hacer accesible los datos a cualquier tcnica estadstica.Ello conlleva la seleccin del mtodo de entrada (por teclado o importados de un archivo)y codificacin de los datos as como la de un paquete estadstico adecuado paraprocesarlos.

    Los paquetes estadsticos son conjuntos de programas que implementan diversastcnicas estadsticas en un entorno comn. Algunos de los ms utilizados son SAS,BMDP, SPSS, SYSTAT, STATISTICA, STATA, MINITAB, S-PLUS, EVIEWS,STATGRAPHICS, MATLAB, R y la planilla Excel. (estos dos ltimos los usaremos eneste curso).

    La codificacin de los datos depende del tipo de variable. Los paquetes estadsticosexistentes en el mercado proporcionan diversas posibilidades (datos tipo cadena,numricos, nominales, ordinales, etc).

    La inmensa mayora de los paquetes estadsticos permite realizar manipulaciones de losdatos previas a un anlisis de los mismos. Algunas operaciones tiles son las siguientes:

    - Combinar conjuntos de datos de dos archivos distintos- Seleccionar subconjuntos de los datos- Dividir el archivo de los datos en varias partes- Transformar variables- Ordenar casos- Agregar nuevos datos y/o variables- Eliminar datos y/o variables- Guardar datos y/o resultados

    Finalmente, y con el fin de aumentar la utilidad de los datos almacenados, convieneasociar a la base de datos utilizada, un libro de cdigos en el que se detallen los

    4

  • 8/4/2019 Libroestdescriptiva2009 Ing

    5/45

    nombres de las variables utilizadas, su tipo y su rango de valores, su significado ascomo las fuentes de donde se han sacado los datos. Todos los paquetes anteriormentecitados permiten esta posibilidad.

    Anlisis estadstico unidimensional

    Una vez organizados los datos, el paso siguiente consiste en realizar un anlisisestadstico grfico y numrico de las variables del problema con el fin de tener una ideainicial de la informacin contenida en el conjunto de datos, as como tambin detectar laexistencia de posibles errores en la codificacin de los mismos.

    Para iniciar el estudio del anlisis estadstico se definen algunos conceptos propios de laterminologa de la Estadstica Descriptiva o anlisis exploratorio de datos.Poblacin: es el universo de objetos al cual se refiere el estudio que se pretenderealizar. Es decir, es el conjunto de todos los elementos de inters para un determinadoproblema. Por ejemplo, todas las piezas terminadas en una cadena de montaje, losnacidos en un da determinado, los coches de una determinada marca, etc. A los

    elementos que conforman la poblacin se les llama unidad observable o unidad deobservacin.

    Poblacin finita: cuando el nmero de elementos que la forman es finito, por ejemplo elnmero de alumnos de su colegio, o de su curso.

    Poblacin infinita: cuando el nmero de elementos que la forman es infinito, o tangrande que pudiese considerarse infinita. Como por ejemplo si se realiza un estudio sobrelos productos que hay en el mercado. Hay tantos y de tantas calidades que esta poblacinpodra considerarse infinita.

    Observacin o dato: a cualquier valor cualitativo o cuantitativo asociado a una variable

    Variable: es cualquier caracterstica objeto de estudio en la poblacin. Se les llamavariables, ya que pueden variar de un individuo a otro. Por ejemplo, el grosor de unapieza, peso al nacer, consumo de gasolina, partido al que va a votar un individuo, etc.

    Muestra: Un subconjunto de una poblacin o universo que se selecciona para serestudiada ya que la poblacin es demasiado grande como para analizarla en su totalidad.

    Es importante que el investigador defina total y cuidadosamente a la poblacin antes de

    recolectar la muestra, incluyendo una descripcin de los elementos.

    Unidad de Muestreo: Una unidad es una persona, un animal, una planta o una cosa queson estudiadas por un investigador; son los objetos bsicos sobre los cuales se ejecuta elestudio o el experimento. Por ejemplo, una persona; una muestra de suelo; un pote desemillas.

    Una medida descriptiva relacionada, cuando consideramos toda la poblacin, sedenomina parmetro. Los parmetros generalmente se designan por letras griegas. Unode los parmetros mas utilizado es el promedio o media aritmtica y la desviacin

    estndar designados por respectivamente.2,

    5

  • 8/4/2019 Libroestdescriptiva2009 Ing

    6/45

    Una medida descriptiva relacionada con una muestra, se denomina estadstico. Losestadsticos tienen dos fines. Describen la muestra que est disponible y sirven comoaproximacin a los parmetros correspondientes de la poblacin.

    POBLACION MUESTRA

    PARAMETROSESTADISTICOS

    Ejemplo: Suponga que el gerente de una tienda desea saber el valor de , el gastopromedio por cliente de su tienda durante el ao pasado. El puede calcular el gasto

    promedio de los miles de clientes que compraron en su tienda durante el ao pasado; esdecir, la media poblacional . En lugar de esto, el podra utilizar una estimacin de lamedia poblacionalcalculando la media de una muestra aleatoria de clientes. Si seencontrara que el valor fuera de $50000, estos $50000 seran su estimacin.

    Variables Cualitativas y CuantitativasEl tipo de anlisis a realizar depende del tipo, y la escala de medida de la variable aanalizar.

    Si se observa una sola caracterstica a cada unidad observable, entonces la variable se

    denomina unidimensional. Si se observan simultneamente dos caractersticas a cadaunidad observable, entonces la variable se denomina bidimensional o bivariada, y assucesivamente.

    Se distinguen dos tipos de variables: cualitativa y cuantitativa.

    Variables CualitativasUna variable cualitativa es aquella cuyos valores corresponden a conceptos, categorasatributos o cualidades como, por ejemplo, el sexo, la profesin de una persona, nivel deestudio, estado civil, etc.

    Si en dichas categoras hay un orden subyacente se denomina variable ordinal, si no sedenomina variable nominal.

    Las variables nominales son aquellas que los valores se registran dentro de categoras oclases, donde no tiene sentido el orden.

    Se dice que las variables nominales que toman o pueden tomar uno de dos valoresdistintos como hombre o mujer son dicotmicos o binarios

    6

  • 8/4/2019 Libroestdescriptiva2009 Ing

    7/45

    Los datos o elementos de una variable cualitativa se agrupan en forma natural endiferentes categoras o clases y se cuenta el nmero de datos que aparecen en cada unade ellas, lo que se denomina tabla de frecuencias.

    Consideremos el siguiente ejemplo con la variable nominal estado civil

    Ejemplo 1.- Suponga que se extrae una muestra de 300 clientes de un supermercado yse les consulta por el estado civil de ellos. La tabla 1 muestra el conjunto de datosobtenidos de esta variable.

    Tabla 1.

    Estado Civil

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

    1 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado

    2 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado

    3 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado

    4 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado

    5 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado

    6 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado

    7 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado

    8 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado

    9 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado

    10 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado

    11 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado

    12 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado

    13 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado

    14 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado

    15 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado16 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado

    17 Soltero Viudo Soltero Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Soltero Casado Casado

    18 Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado

    19 Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado

    20 Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Casado Casado CasadoPara comprender y resumir estos datos, es til presentarlos en una tabla o grficos en la queaparezca los valores posibles de la variable, llamados clases ( ci ) y el nmero de veces que cadavalor se repite. A ese nmero se le denomina frecuencia absoluta (ni) o simplementefrecuencia. La tabla se denomina tabla de frecuencias.

    La suma de las frecuencias absolutas es siempre igual a n, siendo n el nmero total de casos,

    =k

    iinn

    1

    donde k es el nmero de clases.

    7

  • 8/4/2019 Libroestdescriptiva2009 Ing

    8/45

    La frecuencia relativa ( fi ) Expresa los resultados en proporciones.

    n

    nf ii =

    se cumple 11

    ==k

    iif

    Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuenciaabsoluta de la clase y el nmero total de observaciones n.

    %100*100*i

    i

    if

    n

    nh ==

    Se cumple que 1001 ==

    k

    iih

    Tabla 1.1 Tabla de frecuencia variable Estado Civil

    Contar de Estado civil

    Estado civil Total

    Casado 305

    Separado 4

    Soltero 77

    Viudo 16

    Total general 402

    C asado S eparado S o ltero V iudo

    Estado Civil

    Categoras

    frecuenciaa

    bsoluta

    0

    50

    100

    150

    200

    250

    300

    Figura 1.1 Grafico de barra de la variable Estado Civil(Entregado por defecto por el software).

    8

  • 8/4/2019 Libroestdescriptiva2009 Ing

    9/45

    Grfico circular.

    Para el grfico circular se utiliza la sentencia: pie nombre de la tabla de frecuencia

    igura 1.2 Grafico Circular de la variable Estado Civil

    (Entregado por defecto por el software).

    Ejemplo 2.- Suponga que la distribucin de frecuencia del Nivel de Estudio (variablecualitativa ordinal) de cierta ciudad en un determinado ao es:

    Nivel de estudios

    Enseanza media incompleta Sin estudio Enseanza media incompleta

    Sin estudio Estudios basicos Enseanza media incompleta

    Enseanza media completa Sin estudio Enseanza media incompleta

    Enseanza superior completa Sin estudio Enseanza superior completa

    Enseanza superior completa Sin estudio Enseanza media incompleta

    Enseanza superior completa Estudios basicos Enseanza media incompletaSin estudio Sin estudio Estudios basicos

    Enseanza media incompleta Estudios basicos Enseanza superior completa

    Enseanza superior completa Enseanza media incompleta Enseanza superior incompleta

    Enseanza superior incompleta Enseanza media completa Enseanza superior completa

    Sin estudio Enseanza media incompleta Sin estudio

    Estudios basicos Enseanza media completa Estudios basicos

    Sin estudio Enseanza media incompleta Estudios basicos

    Enseanza media incompleta Enseanza superior completa Enseanza superior completa

    Sin estudio Enseanza superior completa Enseanza superior incompleta

    Enseanza superior incompleta Enseanza media incompleta Enseanza media incompleta

    Enseanza superior incompleta Estudios basicos

    Para resumir los datos ordinales, es til presentarlos en una tabla o grficos similares a losobtenidos para las variables nominales. Los grficos utilizados en este caso son los de barra ycirculares. Las tablas de resumen o de frecuencias adems, de la frecuencia absoluta y relativatiene sentido en este caso la frecuencia absoluta acumulada y la frecuencia relativa porcentualacumulada.

    La Frecuencia acumulada Ni es el nmero de elementos de la poblacin o muestracuya modalidad es inferior o equivalente a la modalidad ci, es decir es la suma de lasfrecuencias absolutas de la clase ciy las anteriores a ella,

    ii

    i

    jji nNnN +==

    = 11

    La frecuencia relativa porcentual ( Hi ) define el porcentaje de individuos menores oiguales a la clase i-sima

    100*n

    NH ii =

    9

  • 8/4/2019 Libroestdescriptiva2009 Ing

    10/45

    Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuenciaabsoluta de la clase y el nmero total de observaciones n.

    La tabla de frecuencia resultante es:

    Tabla 1.2 Variable Nivel de EstudioNivel de estudios ni hi Ni Hi

    Sin estudio 11 22% 11 22%

    Estudios basicos 8 16% 19 38%

    Enseanza media incompleta 13 26% 32 64%

    Enseanza media completa 3 6% 35 70%

    Enseanza superior incompleta 5 10% 40 80%

    Enseanza superior completa 10 20% 50 100%

    Total general 50 100%

    Por ejemplo, la tercera clase dice que existen 13 personas con enseanza media

    incompleta, que corresponde al 26% del total, que 32 personas tienen a lo msenseanza media incompleta, o bien el 64% de las 50 personas tienen enseanza mediaO bien sin necesidad de cambiar el nombre de las columnas y para ordenar desde sinestudio hasta estudios superiores completos se utiliza [c(se escriben los nmero quecorresponden al orden alfabtico separados por comas)]

    Enseanza me

    Enseanza media incompleta

    nza superior completa

    a superior incompleta

    Estudios basicos

    Sin estudio

    Nivel de Estudios

    s i n e s t e s t b a s e n s m e d c o m e n s s u p c o m

    N i v e l d e E s t u d i o s

    C la s e s

    frecuenciaabsoluta

    0

    2

    4

    6

    8

    10

    12

    Figura 1.3 Grfico de barra y circular de la variableEstado Civil

    10

  • 8/4/2019 Libroestdescriptiva2009 Ing

    11/45

    Variables CuantitativasVariables cuantitativas son aquellas que se pueden expresar numricamente, es decir,pueden tomar valores reales.

    Una primera clasificacin, basada en el tipo de valores que puede tomar, permite

    distinguir entre variables cuantitativas discretas que son aquellas donde el conjunto devalores que puede asumir la variable se puede enumerar. Este conjunto puede ser finitoo infinito, por ejemplo, el nmero de paneles producidos en un da. y variablescuantitativas continuas que son aquellas que pueden asumir cualquier valor en algnintervalo real, por ejemplo, la temperatura aplicada en el proceso de produccin de lospaneles.

    Las variables cuantitativas discretas con un nmero de valores que se repite, setratan de forma similar a las variables cualitativas ordinales. La diferencia es que en estoscasos se puede realizar un anlisis descriptivo numrico, el cual permite describirdiferentes caractersticas del conjunto de datos.

    Para tabular y graficar en Excel esta variable discreta se realiza en forma similar a lasvariables ordinales.

    Ejemplo 3.- El nmero de personas que viven en la casa de una muestra de 50 familiasson:

    Tabla 1.3 Tabla de datos del N de personas que viven en la casa

    Corr.N de

    personas Corr.N de

    personas Corr.N de

    personas Corr.N de

    personas Corr.N de

    personas

    1 1 11 4 21 6 31 4 41 3

    2 2 12 6 22 5 32 2 42 13 1 13 5 23 2 33 1 43 2

    4 3 14 4 24 2 34 3 44 5

    5 4 15 2 25 2 35 4 45 6

    6 5 16 2 26 1 36 5 46 4

    7 2 17 3 27 3 37 2 47 3

    8 1 18 3 28 2 38 2 48 2

    9 3 19 1 29 5 39 1 49 1

    10 5 20 1 30 6 40 2 50 3

    Cuando el conjunto de datos discretos es pequeo se puede construir tablas de

    frecuencia donde cada clase es uno de sus valores numricos.

    La construccin de la tabla de frecuencia y los grficos de barra y circular para este tipode datos es similar a la de las variables cualitativas ordinales.

    11

  • 8/4/2019 Libroestdescriptiva2009 Ing

    12/45

    Tabla 1.4.Tabla de frecuencias del N de personas que viven en casaN dePersonas ni fi hi Ni Hi

    1 10 0.20 20 10 20

    2 14 0.28 28 24 48

    3 9 0.18 18 33 66

    4 6 0.12 12 39 78

    5 7 0.14 14 46 92

    6 4 0.08 8 50 100

    1 2 3 4 5 6

    N de personas que viven en una casa

    Clases

    frecu

    enciaabsoluta

    0

    2

    4

    6

    8

    10

    12

    14

    Figura 1.4. Grfico de Barra N de personas que viven en casa

    Se observa que en el 28% de las casas de los encuestados viven dos personas y quesolo en un 8% de las casas viven 6 personas. (El anlisis numrico lo veremos msadelante).

    1

    2

    3

    4

    5

    6

    N de personas que viven en una casa

    Figura 1.5. Grfico de Barra N de personas que viven en casa

    Las variables cuantitativas continuas generalmente se miden por escala de intervalo opor escala de razn. La escala de intervalo, adems de todas las propiedades de la

    12

  • 8/4/2019 Libroestdescriptiva2009 Ing

    13/45

    escala ordinal, hace que tenga sentido calcular diferencias entre las mediciones.Ejemplos de variables con esta escala son: Temperatura de una persona. Ubicacin enuna carretera respecto de un punto de referencia (Kilmetro 85 Ruta 5). Sobrepesorespecto de un patrn de comparacin. Nivel de aceite en el motor de un automvilmedido con una vara graduada.

    La escala de razn permite, adems de lo de las otras escalas, comparar medicionesmediante un cuociente. Ejemplos de variables con la escala de razn son: Altura depersonas. Cantidad de litros de agua consumido por una persona en un da. Velocidadde un auto en la carretera.

    La escala de intervalo tiene un cero que se establece por convencin y puede tenervariaciones. Es arbitrario. Por otra parte, la escala de razn tiene un cero real, fijo, nosujeto a variaciones; es propio de la medicin hecha.

    Tablas estadsticas o tablas de frecuencias

    Distribucin de frecuenciasSi la variable analizada es continua o discreta con un elevado nmero de valoresdistintos se tabula como una distribucin de frecuencias agrupadas y se representagrficamente mediante histogramas, polgonos de frecuencias, ojivas y boxplots con el finde estudiar la forma de la distribucin y analizar, en particular, la posible existencia devarias modas en la misma que pongan de manifiesto la presencia de diversos gruposhomogneos en la muestra.

    Cuando el tamao de la muestra y el recorrido de la variable son grandes, ser necesarioagrupar en intervalos los valores de la variable. La tabla de frecuencia o distribucin defrecuencia ordena los datos y estos se dividen en clases o intervalos de clasesmutuamente excluyentes (sin elementos comunes) y se registra el nmero deobservaciones en cada clase.

    Para decidir la amplitud de los intervalos, necesitaremos decidir cuntos intervalosqueremos?

    ObservacinNo existen criterios ptimos para elegir la cantidad de intervalos. En general, entre 5 y 15intervalos deberan ser suficientes. Utilizar muchos o muy pocos intervalos puede serpoco informativo. Pero se pueden seguir las siguientes reglas:

    Algunas regla para agrupar los datos en intervalos o categoras1. Decidir el nmero de intervalos o categoras o clases, que puede ser el nmero

    deseado de clases o si n es el nmero de observaciones se puede utilizar comoreferencia:

    casootroennk

    grandeesnonsink

    ),log(22.31

    ,

    +

    2. Localizar la observacin mayor y menor, es decir el valor mximo y el valor mnimo delas observaciones.

    13

  • 8/4/2019 Libroestdescriptiva2009 Ing

    14/45

    3. Hallar la diferencia entre estos dos valores (restar mximo menos el mnimo). Esta

    diferencia se denomina rango o recorrido de los datos.

    mnmxxxr =

    4. Hallar la amplitud de la clase o del intervalo de clase ai se define por:

    k

    xxa mnmx

    =

    As la divisin en clases o intervalos podra tomarse: l0=xmn , l1 =l0 + a,,lk= l0+ ka.

    5. Hallar la marca de clase de cada intervalo. Se define por

    2

    1= iii llx Distintos tipos de frecuenciasCuando se resume la informacin en una tabla a cada valor de la variable se le asociandeterminados nmeros que representan el nmero de veces que ha aparecido, suproporcin con respecto a otros valores de la variable, etc. Estos nmeros se denominanfrecuencias: As tenemos los siguientes tipos de frecuencia:

    Frecuencia absolutade la clase ci es el nmero de elementos en la poblacin o

    muestra perteneciente a la clase ci, se designa por ni. Se cumple que .nnk

    i

    i ==1

    Frecuencia relativa porcentualde la clase cies el cuociente fientre la frecuenciaabsoluta de la clase y el nmero total de observaciones n.

    100*n

    nh ii =

    Se cumple que 1001

    ==

    k

    i i

    h

    Frecuencia acumulada Ni al nmero de elementos de la poblacin o muestracuya modalidad es inferior o equivalente a la modalidad ci, es decir es la sume delas frecuencias absolutas de la clase ciy las anteriores a ella,

    =

    =i

    j

    ji nN1

    Tambin se puede determinar la frecuencia relativa acumulada porcentual.

    14

  • 8/4/2019 Libroestdescriptiva2009 Ing

    15/45

    Se llama distribucin de frecuencias al conjunto de intervalos o clases junto a lasfrecuencias correspondientes a cada una de ellas. Una tabla estadstica o tabla defrecuencias sirve para presentar en forma ordenada los datos.Su forma general es:

    Tabla 1.5 Tabla de frecuencias o Distribucin de FrecuenciasModalidado clases

    Intervalosde clases

    Frec.Abs.

    Frec. Rel.Porcentual

    Frec. Abs. Acumu. Marca declases

    ci ni hi Ni xic1 l0 l1 n1 f1= n1 /n*100 N1=n1 x1 cj lj-1 -- lj nj fj=nj /n*100 Nj=n1+n2++nj xjck lk-1 -- lk nk fk=nk /n*100 Nk=n xk

    n 100%

    Ejemplo 4.- Los siguientes datos son los ingresos anuales de 60 ejecutivos deempresas en Estados Unidos. Los datos estn expresados en miles de dlares.

    Datos ingreso anuales de 60 ejecutivos58 76 89 45 67 34

    64 76 34 65 45 39

    79 74 56 71 85 87

    74 38 69 79 61 71

    69 62 56 38 69 79

    71 54 31 69 62 39

    65 79 47 46 77 66

    55 75 62 57 77 36

    73 72 64 69 51 50

    40 50 74 61 69 73

    Para construir la tabla de frecuencia en Excel se determina primero el nmero de clases.Suponga que se van a construir k = 7 clases o categoras, luego

    2887

    3189,

    k

    xxa mnmx =

    =

    = , la amplitud es de por lo menos 8,28 por ser ms fcil

    hacemos a = 10 y el lmite superior de la primera clase li+1 = 34. Completando la Tabla defrecuencia se obtiene:

    Tabla 1.4 Tabla de frecuencias de los ingreso anuales de 60 ejecutivosClases Intervalos ni fi hi Ni Hi xi

    1 (24 , 34] 3 0,05 5,00 3 5,00 29

    2 (34 , 44] 6 0,10 10,00 9 15,00 39

    3 (44 , 54] 8 0,13 13,33 17 28,33 49

    4 (54 , 64] 12 0,20 20,00 29 48,33 59

    5 (64 , 74] 19 0,32 31,67 48 80,00 69

    6 (74 , 84] 9 0,15 15,00 57 95,00 79

    7 (84 , 94] 3 0,05 5,00 60 100,00 89

    60 1 100

    15

  • 8/4/2019 Libroestdescriptiva2009 Ing

    16/45

    Representacin grfica para variables discretas y continuasUn grfico estadstico es una representacin pictrica que permite dar un resumen visualde la informacin, y se utiliza para detectar tendencias, agrupacin de datos en torno aun valor central, variaciones cclicas, estacinales, etc.

    Grfico de tallo y hojasUn mtodo grfico para iniciar el anlisis exploratorio de datos, y que ademsproporciona informacin visual rpida, es la representacin grfica de tallo y hoja.Entrega una primera aproximacin rpida de la distribucin de los datos sin perder devista las observaciones.

    Un diagrama de tallo y hoja consiste en una serie de hileras horizontales de nmeros. Elnmero utilizado para designar una hilera es su tallo, el resto de los nmeros de la hilerase denominan hojas.

    Ejemplo 5.- La siguiente tabla muestra los datos de la fuerza de compresin de 45

    muestras de aleacin de aluminio-litio.

    Tabla 1.5Datos de la fuerza de compresin

    96 93 88 117 127 95 113 96

    108 94 148 156 139 142 94 107

    125 155 155 103 112 127 117 120

    112 135 132 111 125 104 106 139

    134 119 97 89 118 136 125 143

    120 103 113 124 138

    a) Se separa cada observacin en dos partes: tallo y hoja.b) Se lista en forma vertical y creciente los tallos y agregamos las hojas a la

    derecha del tallo.c) Generalmente las hojas es la unidad del nmero y el tallo es la decena, centena,

    etc.d) Se separa esos dgitos de los restantes, que constituirn los tallos.

    8 | 899 | 3445667

    10 | 334678

    11 | 12233778912 | 0045557713 | 245689914 | 23815 | 556

    Qu podemos ver en este diagrama? Rango de las observaciones, valores mximo y mnimo. Forma de la distribucin: simetra, asimetra a la izquierda, asimetra a derecha y

    cuantas modas tiene la distribucin.

    16

  • 8/4/2019 Libroestdescriptiva2009 Ing

    17/45

    Posicin del centro de la distribucin y concentracin de los datos. Desviaciones marcadas respecto al comportamiento general: outlier o valores

    atpicos.

    Los grficos de tallo y hoja tambin son tiles para comparar la distribucin de una

    variable en dos condiciones o grupos. El grfico se denomina grfico de tallo y hojas conespalda porque ambos grupos comparten los tallos.

    Ejemplo 6.- Consideremos la longitud en centmetros de 20 partes consecutivas de unalnea de ensamble del proceso 1 y la longitud de 20 partes consecutivas de una lnea deensamble del proceso 2.

    Tabla 1.6Datos de longitud de 20 partes.

    PROC1 19.969 19.975 19.984 19.984 19.985 19.992 19.994 19.997 19.998 20.000

    PROC2 19.989 19.994 19.994 19.996 20.000 20.000 20.000 20.000 20.001 20.001

    PROC1 20.001 20.001 20.002 20.004 20.004 20.004 20.007 20.008 20.008 20.011

    PROC2 20.001 20.003 20.005 20.007 20.007 20.008 20.009 20.010 20.010 20.011

    1996 9

    1997 5

    9 1998 445

    644 1999 2478

    9877531110000 2000 112444788

    100 2001 1

    En este caso vemos que el segundo proceso es menos variable que el primero que lalongitud mxima para ambos proceso es 20.011 y longitud mnimo para el proceso 1 es19.969 y para el proceso 2 es 19.989.

    Aunque en las tablas se puede mostrar gran cantidad de informacin estadstica, aveces es conveniente presentar esta informacin de una manera ms clara y efectiva pormedio de grficos. Existen varios tipos de grficos o representaciones grficasutilizndose cada uno de ellos de acuerdo al tipo de informacin que se est utilizando ylos objetivos que se persiguen al presentar la informacin

    Los grficos utilizados en variables cuantitativas discretas o continuas con un gran

    nmero de datos que se encuentran en una distribucin de frecuencias son elhistogramay el polgono de frecuencias.

    Un histogramase construye en el plano cartesiano. En el eje de las abscisas se colocalos lmites de cada intervalo y en el eje de las ordenadas las frecuencias de clase(absoluta, relativas o relativas porcentuales), representando sobre cada intervalo unrectngulo que tiene a este segmento como base y como altura la frecuencia de cadaclase.

    Las caractersticas geomtricas del histograma nos permiten descubrir informacin tilsobre los datos, por ejemplo:

    17

  • 8/4/2019 Libroestdescriptiva2009 Ing

    18/45

    1. La localizacin del centro de los datos.2. El grado de dispersin.3. El lado al cual se sesga, es decir, cuando no cae simtricamente en ambos lados

    del mximo.4. El grado de agudeza del mximo.

    Sueldo ejecutivos

    Sueldo

    ni

    30 40 50 60 70 80 90

    0

    5

    10

    15

    Figura 1.6. Histograma de los ingresos de los ejecutivos

    El polgono de frecuenciases un grfico de lnea cerrado, en el eje de las abscisas valas marcas de clase y en el eje de las ordenadas alguna de las frecuencias (absoluta,relativas o relativas porcentuales) los puntos correspondientes a estos pares se unenmediante rectas. La marca de clase del primer y ltimo intervalo se une con la marca declase anterior y siguiente, respectivamente.

    20 40 60 80 100

    0

    5

    10

    15

    Polgono de Frecuencias Sueldo Ejecutivos

    xi

    ni

    Figura 1.7. Polgono de frecuencia de los ingresos de los ejecutivos

    18

  • 8/4/2019 Libroestdescriptiva2009 Ing

    19/45

    La Ojiva es un grfico de lnea, en el eje de las abscisas van lo lmites superiores decada clase y en el eje de las ordenadas la frecuencia acumulada absoluta o la frecuenciaacumulada relativa porcentual.

    20 40 60 80

    0

    10

    20

    30

    40

    50

    60

    Ojiva Sueldos Ejecutivos

    limsup

    Ni2

    Figura 1.8. Ojiva de los ingresos de los ejecutivos

    Grfico de tiempo Cuando los datos de una variable estn tomados a travs de tiempo,puede ser de gran inters el grfico de los datos a travs del tiempo o el orden en quelos datos fueron obtenidos.

    Un grfico de tiempo llamado tambin grfico de series, es un grfico de lasobservaciones a travs del tiempo u orden en que fueron observados. Los puntosconsecutivos se conectan con lneas para ayudarnos a determinar si se producencambios en la distribucin a medida que pasa el tiempo.

    Ejemplo 7.- Los datos siguientes corresponden al nmero de estudiante que llegarontarde al colegio A durante un periodo de tres semanas.

    Tabla 1.7 Datos del N de estudiantes que llegan tarde

    Lunes Martes Mircoles Jueves ViernesSemana 1 10 7 6 8 11Semana 2 14 5 10 8 7Semana 3 9 3 6 4 6

    Grfico de tiempo

    0

    5

    10

    15

    Lune

    s

    Marte

    s

    Juev

    es

    Vierne

    s

    Tiempo

    Ndealumnos

    atrasados

    Semana 1

    Semana 2

    Semana 3

    Figura 1.9. Grfico de tiempo N de estudiantes que llegaron tarde al colegio

    19

  • 8/4/2019 Libroestdescriptiva2009 Ing

    20/45

    Resumen numrico de los datosPara ampliar la informacin acerca de esta distribucin y completar as el anlisisdescriptivo de una poblacin o muestra, es necesario recurrir a ciertos valores numricosque permiten cuantificar ciertas caractersticas de la distribucin. Se les llama a estosvalores medidas estadsticas o estadgrafos. Las de uso frecuente en un anlisis

    descriptivo son las medidas de tendencia central y las medidas de dispersin.

    Las medidas descriptivas numricas que caracterizan lo mejor posible a los datosoriginales o a la distribucin de frecuencias mas frecuentes son:

    Las medidas tendencia centralde los datos;Las medidas de dispersino variacincon respecto a este centro;

    Las medidas de tendencia central permiten determinar un valor caracterstico de unadistribucin de frecuencias ubicado hacia el centro de la distribucin.Las tres medidas ms usuales de tendencia central son: la media, la mediana, la moda.

    La mediaLlamada tambin promedio aritmtico o simplemente media o promedio, es una de lasmedidas ms importantes y de mayor uso en diversas aplicaciones estadsticas. Sedenota por si es obtenida de la poblacin y porx si es obtenida de una muestra y se

    calcula de la siguiente manera:.i) Para datos no agrupados sea x1, x2,...xn un conjunto de n valores, entonces

    Poblacin (tamao N) Muestra (tamao n)

    Media o promedio aritmticopoblacional Media o promedio aritmticomuestral

    N

    xN

    ii

    == 1 n

    xx

    n

    ii= = 1

    para datos agrupados

    Poblacin (tamao N) Muestra (tamao n)Media o promedio aritmtico

    poblacional

    Media o promedio aritmtico

    muestral

    N

    xnN

    iii

    == 1 n

    xnx

    n

    iii

    == 1

    donde xi es la marca de clases

    20

  • 8/4/2019 Libroestdescriptiva2009 Ing

    21/45

    Observacin1. En general, la media aritmtica obtenida a partir de las marcas de clase xi, diferir de

    la media obtenida con los valores reales, xi. Es decir, habr una prdida de precisinque ser tanto mayor, cuanto mayor sea la diferencia entre los valores reales y lasmarcas de clase, o sea, cuando mayores sean las amplitudes ai, de los intervalos.

    2. La media aritmtica es sensible a valores extremos.3. De las observaciones x1, x2, ..., xn se tiene la siguiente propiedad elemental que

    tendr grandes consecuencias en la definicin una medida de la variabilidad,

    = 0)xx( i

    En efecto

    =

    =

    ======

    n

    i

    n

    iin

    i

    n

    iii xnxnxn)

    n

    x

    (nxx)xx(1

    1

    110

    Este resultado es en cierta manera desalentador, puesto que el error o desviacin deuna observacin en particular respecto de la media es compensado con los demserrores, de manera que sumando los errores de esta forma no nos entregainformacin sobre la variabilidad o sobre cuan alejado estn las observaciones delpromedio. De manera que si consideramos las desviaciones de la observacinrespecto de la media como positivo, tendramos una medida del error. Podemosconsiderar las siguientes situaciones para medir el error,

    4.

    mximoerrorxxmx

    cuadrticoErrorxx

    cuadrticoError)xx(

    in,...,i

    n

    ii

    n

    ii

    =

    =

    =

    21

    1

    1

    2

    5. El error ms usual utilizado en estadstica es el error cuadrtico. Este error tieneinteresantes propiedades. Veremos una de ellas.

    Supongamos que tenemos las observaciones x1, x2, ..., xn. Si elegimos cualquier

    representante de estas observaciones, digamos a , entonces el error cuadrtico ser

    mayor si elegimos la media como representante de estas observaciones, de otraforma si ax

    Entonces ==

  • 8/4/2019 Libroestdescriptiva2009 Ing

    22/45

    =

    = ==

    =

    ===

    =

    ++=

    ++=

    +=+=

    n

    ii

    n

    i

    positivo

    n

    i

    n

    iii

    n

    iii

    n

    ii

    n

    ii

    n

    ii

    )xx(

    luego

    )ax()xx()ax()xx(

    ))ax()ax)(xx()xx((

    ))ax()xx(()axxx()ax(

    1

    2

    1 1

    2

    0

    1

    2

    1

    22

    1

    2

    1

    2

    1

    2

    2

    2

    4342143421

    Vamos a ver otra propiedad interesante de la media. Supongamos que tenemos lassiguientes observaciones x1, x2, ..., xn, por razones que ms adelante veremos puede seraltamente conveniente realizar una transformacin lineal de estas observaciones, porejemplo hacer yi = a + b xi, entonces la media de estas nuevas variables y1, y2, ... , yn es

    xbay += . En efecto,

    xbaxnbna

    nxb

    na

    n)bxa(

    ny

    n

    n

    ii

    n

    i

    n

    ii

    n

    ii

    n

    ii +=+=+=+=

    == === 11 111

    111111

    Ejemplo 8. Determinar el promedio de los sueldos de los ejecutivos para datos sinagrupados y agrupados

    Para datos sin agrupar la media es:

    05,6260

    7369...8976581 === =n

    xx

    n

    ii

    Para datos agrupados la media es:

    Tabla 1.8 Tabla de frecuencias de los ingreso anuales de 60 ejecutivos

    Clases Intervalos ni Ni xi ni*xi ni*xi^2

    1 (24 , 34] 3 3 29

    2 (34 , 44] 6 9 39

    3 (44 , 54] 8 17 49

    4 (54 , 64] 12 29 59

    5 (64 , 74] 19 48 69

    6 (74 , 84] 9 57 79

    7 (84 , 94] 3 60 89

    22

  • 8/4/2019 Libroestdescriptiva2009 Ing

    23/45

    Suponga que los sueldos de los gerentes generales de estas empresas es una funcin

    lineal de los sueldos de los ejecutivos dada por 300230 += ii xy determine le sueldo

    promedio de los gerentes de estas empresas.

    ,361,833333360

    89*379*969*1959*1249*839*629*31 === =n

    xnx

    n

    iii

    5145713000562230300230

    300230

    ,,*xy

    xy ii

    =+=+=

    +=

    Propiedades de la media aritmticao Puede ser calculada en distribuciones con escala relativa y de intervaloso .Todos los valores son incluidos en el cmputo de la media.o Una serie de datos solo tiene una media.o Es una medida muy til para comparar dos o ms poblacioneso Es la nica medida de tendencia central donde la suma de las desviaciones de cada

    valor respecto a la media es igual a cero.o Por lo tanto podemos considerar a la media como el punto de balance de una serie de

    datos.

    Desventajas de la media aritmticao Si alguno de los valores es extremadamente grande o extremadamente pequeo, la

    media no es el promedio apropiado para representar la serie de datos.o No se puede determinar si en una distribucin de frecuencias hay intervalos de clase

    abiertos.

    Ejemplo 9.a)

    0

    1

    2

    1 2 3

    Media = 2

    La media tambin se define como elpunto de equilibrio Si la distribucin essimtrica, como en la figura a), la media

    est exactamente en el centro de ladistribucin

    23

  • 8/4/2019 Libroestdescriptiva2009 Ing

    24/45

    b)

    Cuando la observacin mayor se muevems a la derecha, como en la figura b) lamedia tiende hacia la observacin.

    0

    1

    2

    1 2 3 4 5

    Media = 2,5

    c)

    0

    1

    2

    1 2 3 4 5 6 7 8 9 10 11

    Si la distribucin tiene un valorextremo, como en la figura c) lamedia tiende hacia este valorextremo.

    Media = 4

    Promedio Ponderado.En muchas ocasiones, los datos observados no tienen la misma importancia relativa.Para hacer presente este hecho en la bsqueda de un 'centro' que represente a losdatos, es necesario asignar a cada uno de stos, una ponderacin (peso o coeficiente)que represente su importancia dentro de la muestra.

    Por ejemplo, considrese el sistema de calificacin del curso donde las pruebas tienendistinta ponderaciones, segn su importancia en el proceso de evaluacin del trabajo delalumno. En este caso, no resulta apropiado el promedio simple. Cada nota parcial debeser multiplicada por su coeficiente o ponderacin, para luego sumar estos resultados ydividirlos por la suma de los coeficientes respectivos.

    Definicin. Seanx1 ,x2 ,....,xn , n datos y w1 ,w2,....,wn, n, nmeros reales tales que wi 0;i=1,2,....n; con a lo menos un wi> 0. Entonces el promedio ponderado de los datos, estdado por:

    =

    ==+++

    +++=

    n

    ii

    n

    iii

    n

    nnw

    w

    xw

    w...ww

    xw...xwxwx

    1

    1

    21

    2211

    Si wi= k, kconstante positiva, entonces wx coincide conx .

    Esto equivale a decir que, si cada observacin tiene la misma ponderacin, entonces elpromedio y el promedio ponderado son iguales.

    24

  • 8/4/2019 Libroestdescriptiva2009 Ing

    25/45

    Ejemplo.Si un alumno obtiene un 5.5 en la primera evaluacin 4.9 en la segunda evaluacin si laprimera evaluacin corresponde a un 45% y un 55% la segunda evaluacin. Cul esnota promedio de estas dos pruebas?

    175550450

    9455055450 ,,,

    ,*,,*,xw =++=

    La media geomtrica.Como se puede observar en la grfica 1, la funcin logaritmo (en este caso logaritmonatural) "suaviza" los datos, si son muy grandes los datos los disminuye, y adems los"contrae", es decir si x1 y x2 estn muy separados, no lo estarn tanto los valorestransformados ln ( x1) y ln ( x2).

    .

    De tal manera que en el manejo de datos estadsticos a veces es conveniente utilizar latransformacin tales como, y = ln (x). Supongamos que tenemos un conjunto deobservaciones x1, x2, ... , xn, luego si a cada una de estas observaciones le aplicamoslogaritmo natural tenemos que yi = ln ( xi ). Vamos a calcular la media de estas nuevasobservaciones y1, y2, ... , yn, esto es

    nn

    y

    nn

    nn

    n

    nn

    )x...xx(e

    )x...xx(lny

    )x...xxln(

    )x...xxln(n

    n

    )xln(...)xln()xln(

    n

    y...yy

    y

    21

    21

    1

    21

    21

    2121

    1

    =

    =

    =

    =

    +++

    =

    +++

    =

    25

  • 8/4/2019 Libroestdescriptiva2009 Ing

    26/45

    a la expresin de la derecha se le define como la media geomtrica, y se denota por

    nng x...xxx 21=

    Ejemplos.

    1. Encontrar la media de los siguientes nmeros 2, 4, 8. obsrvese que entre ellos existeuna razn o proporcin constante, cada uno de ellos es el doble del anterior, por tantola media a utilizar es la media geomtrica, de la siguiente manera

    4842

    3

    == **xg

    Respuesta: la media geomtrica de los datos es 4

    Un caso de aplicacin del promedio geomtrico, es el de clculo de inters en undepsito a plazo.

    Suponga que una persona desea depositar $1.000.000. durante un mes a una tasa de2%. Esto significa que al trmino del mes, el banco le entrega $1.020.000.Al siguientemes, toma el capital inicial ms los intereses y los deposita por otro mes. Esta vez elbanco ofrece una tasa de 3%. Al trmino del segundo mes recibe $1.050.600.

    Finalmente, deposita este nuevo capital por un tercer mes, ahora al 4%, obteniendo alfinal $1.092.624. A qu tasa mensual debera ponerse el capital inicial para obtener elmismo capital final al cabo de los tres meses?

    Esta pregunta quiere dilucidar cul sera la tasa fija que el banco debiese haber aplicadoen cada uno de los tres meses en que el capital estuvo depositado (con los interesesvariables - 2%, 3%, 4% - que vimos).

    El capital total finalmente obtenido, puede expresarse como:

    1000000*1.02*1.03*1.04 = 1000000*1.092624

    Esto significa que la tasa total aplicada es de 9.2624%

    Entonces, la tasa mensual estara dada por la raz cbica de 1.092624, cuyo valor es1.029968. Es decir, se habra necesitado una tasa mensual de 2.9968%. Cantidadlevemente inferior al 3% que se obtendra si, errneamente, se hubiese promediado 2%,3% y 4%. Para ver claramente cmo interviene el promedio geomtrico en este ejemplo,escribamos las tasas de inters como un factor multiplicativo del capital al cual seaplican. De este modo, las sucesivas tasas son: 1.02, 1.03, 1.04.

    26

  • 8/4/2019 Libroestdescriptiva2009 Ing

    27/45

    El promedio geomtrico de estos nmeros es:

    02996810410310213 ,,*,*,xg ==

    Propiedades de la media geomtrica La media geomtrica esta basada en todas las observaciones, por lo que estafectada por todos los valores de la variable. Sin embargo, da menos pesos a losvalores extremadamente grandes que el que les da la media aritmtica.

    La media geomtrica es igual a cero si algunos de los valores es cero, y se puedevolver imaginaria si ocurren valores negativos. Con la excepcin de estos dos casos,su valor siempre es definitivo y est rgidamente definido.

    La media geomtrica es la que se debe utilizar cuando lo que se va a promediar sontasas de cambios o proporciones, y se intenta dar igual peso a tasas de cambiosiguales.

    La media armnica.Se denota por xa y se define como el valor inverso de la media delos valores recprocos de las observaciones x1, x2, ... , xn; esto es

    n

    a

    x...

    xx

    nx

    111

    21

    +++

    =

    Ejemplo

    Un.automvil que hace viajes de ida y vuelta entre las ciudades A y B, realiza el viajeentre A y B a razn de 80 Km por hora y el viaje entre B y A a 120 Km por hora, Lavelocidad promedio del viaje de ida y vuelta ser de

    hr/Kmxa 96

    120

    1

    80

    1

    2=

    +

    =

    Propiedades de la media armnicao La media armnica se basa en todas las observaciones por lo que est afectada por

    todos los valores de la variable. Da a los valores extremadamente grandes un pesomenor que el que les da la media geomtrica, mientras que a los valores pequeosles da un peso mayor que el que les da tanto la media aritmtica como la mediageomtrica.

    o La media armnica esta indeterminada si alguno de los valores es cero, pues hallar elrecproco de cero implica dividir entre cero, lo cual no es vlido. La media armnicaest rgidamente definida y siempre es definitiva, excepto cuando uno de los valoreses cero.

    o La media armnica es el promedio que se ha de usar, cuando lo que se va apromediar son proporciones donde los numeradores de las razones son los mismospara todas las proporciones.

    27

  • 8/4/2019 Libroestdescriptiva2009 Ing

    28/45

    MedianaSupongamos que tenemos un conjunto de observaciones x1, x2, ..., xn. Ordenamos estasobservaciones de menor a mayor, y supongamos que el ordenamiento se consigue de laforma x(1), x(2), ..., x(n); es decir x(i) es el i-simo nmero en orden entre las n observaciones,en los casos extremos se tiene que x(1) es la menor de todas las observaciones y que x (n)

    es la mayor de todas las observaciones.La mediana es el valor central de la variable, despus que se ha ordenado en ordencreciente, es el valor que divide en dos partes la muestra.

    Para calcular la mediana debemos tener en cuenta si la variable cuantitativa est sinagrupar o si est agrupada, si es discreta con muchos datos y rango pequeo o discretao continua tabulada en intervalos.

    Clculo de la mediana en el caso discreto no agrupadoSi el conjunto de observaciones los denotamos por x1,...,xn y al conjunto deobservaciones ordenadas las denotamos por x(1) ,... ,x(n). Se define la posicin de la

    mediana como:

    2

    1)(

    +==n

    MedPoss

    Si s es un entero el valor de la mediana estado por

    Med = xsSi s no es un entero, entonces se determina un entero i tal que i

  • 8/4/2019 Libroestdescriptiva2009 Ing

    29/45

    Ejemplo 11 Determinar la mediana para el ejemplo de los sueldos de los ejecutivo, paralos datos sin agrupar y agrupados.

    Para los datos sin agrupar primero ordenamos los datos

    31 45 57 65 71 7634 46 58 66 71 77

    34 47 61 67 72 77

    36 50 61 69 73 79

    38 50 62 69 73 79

    38 51 62 69 74 79

    39 54 62 69 74 79

    39 55 64 69 74 85

    40 56 64 69 75 87

    45 56 65 71 76 89

    Como el nmero de elementos es par se ubican los dos valore centrales y se promedia.

    652

    6565

    2

    )1()( =+=+

    = iixx

    Med

    Clculo de la mediana para datos agrupados

    Para el caso de datos agrupados las observaciones estn agrupadas en intervalos declase, de manera que primero tenemos que fijarnos en la frecuencia absoluta acumulada,y en aquel intervalo de clase en que el valor correspondiente a la primera frecuenciaabsoluta acumulada que supera o es igual al 50% del nmero de observaciones, se diceque es el intervalo donde se encuentra la mediana.

    i

    i

    i

    i an

    )Nn

    (

    lmed1

    1

    2

    +=

    Donde:li-1 : lmite inferior de la clase de la medianan : nmero de observaciones

    Ni-1: frecuencia absoluta de la clase anterior a la clase medianani : frecuencia absoluta del intervalo medianoai : amplitud del intervalo de la clase de la mediana

    Cambio en los valores extremos en los valores ordenados de la muestra no afectansignificativamente a la mediana, no as la media. En efecto, supongamos la muestraanterior 1, 1, 2, 3, 3, 3, 4, 4, 5, 7, 8; donde la mediana es med = 3, y la media de estamuestra es x = 3,72; sin embargo si cambiamos el ltimo valor de esta muestra, que es8, por 12, tenemos que la mediana sigue siendo la misma no obstante que la mediacambia su valor a 4,09. De manera que, en algunas ocasiones es ms representativa la

    29

  • 8/4/2019 Libroestdescriptiva2009 Ing

    30/45

    mediana que la media, fundamentalmente en muestras en que aparecen observacionesextremas.

    Ejemplo.El ejemplo de los sueldos de los ejecutivos el valor de la mediana para datos agrupados

    se obtiene determinando la clase de la mediana, es la primera clase, donde la frecuenciaacumulada supera o iguala a la mitad de los datos.

    En este ejemplo es la 5 clase.

    64,526315810*19

    292

    60

    64*21 =

    +

    + ii

    li

    i an

    Nn

    lMed

    La modaEn el lenguaje cotidiano, la palabra moda describe una situacin que es frecuente, queest mayoritariamente en uso, en particular y como ejemplo se utiliza mucho en elvestuario, sobre todo de las damas. Pues bien, en lo que respecta a la estadsticadiramos que tiene el mismo significado, para el caso discreto es la observacin absoluta(o relativa) ms frecuente respecto de las observaciones vecinas, de modo que puedehaber ms de una moda. Intentaremos dar un lenguaje ms formal a esta definicin.Como antes estudiaremos ambos casos, el discreto y el continuo.

    Caso discretoLa moda es el valor de mayor frecuencia absoluta, la que ms se repite, es la nicamedida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues noprecisa la realizacin de ningn clculo.

    Por su propia definicin, la moda no es nica. Pues puede haber dos o ms valores de lavariable que tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremosuna distribucin bimodal o polimodal segn el caso.

    Ejemplo: Supongamos que tenemos las siguientes observaciones (ordenadas)1, 1, 2, 2, 2, 3, 4, 4, 5, 5, 5, 6, 6, 7, 8, 8, 9, 9. En este caso podemos observar que haydos modas, a saber: 2 y 5.

    Caso continuoEn este caso tiene ms sentido hablar de intervalo modal. En efecto, esta vez nosfijamos en los intervalos de clase con sus respectivas frecuencias absolutas. Si unintervalo tiene mayor frecuencia que sus intervalos inmediatamente adyacentes se diceentonces que es un intervalo modal. De manera ms formal, diremos que (l i - 1, li] es unintervalo modal si la frecuencia absoluta (o relativa) ni es mayor que las frecuenciasadyacentes ni - 1 y ni + 1.

    Ahora el problema es qu valor elegir de este intervalo modal y definirlo como moda?De momento digamos que una moda se denotar pormoda.

    30

  • 8/4/2019 Libroestdescriptiva2009 Ing

    31/45

    de modo que la moda es

    donde ai es la amplitud del intervalo, que por lo general es constante.

    Esta estadstica debe usarse con cuidado. Su objetivo es identificar zonas donde seproducen aglomeraciones de datos, sin embargo, podra ser que por el solo hecho dehaber una observacin extra en un punto aislado, ste pudiese aparecer como unamoda.

    Este inconveniente es especialmente delicado cuando hay pocas observaciones en lamuestra, tal como es el caso que se observa en el grfico siguiente.

    Como puede apreciarse, cuatro alumnas tienen una estatura de 165 cm.. Si no se poneatencin al resto de las observaciones, se podra reportar este valor como la modaprincipal, lo que tiende a confundir ya que alrededor 159 cm. hay una gran concentracinde datos. La mayor utilidad de la moda, se presenta al usarla con muestras relativamentegrandes, donde la influencia de un dato individual no distorsiona el anlisis.

    Ejemplo 11.- Determinar la moda del sueldo de los ejecutivos para datos agrupados ysin agrupar.

    31

  • 8/4/2019 Libroestdescriptiva2009 Ing

    32/45

    Relacin entre media, mediana y modaEn el caso de distribuciones unimodales, la mediana est con frecuencia comprendidaentre la media y la moda (incluso ms cerca de la media)En las distribuciones que presentan valores extremos, es ms aconsejable el uso de lamediana. Sin embargo en estudios relacionados con propsitos estadsticos y de

    inferencia suele ser ms apta la media.

    Principales Caractersticas de la Moda, Mediana y Media

    Moda Mediana Media

    1Es el valor mas frecuente en a distribucin. Esel punto mas alto en la funcin.

    Es el valor del punto medio de los datosordenados, tal que la mitad de losdatos estn por arriba y la otra pordebajo de ella.

    Es el valor promedio de todas lasobservaciones

    2Su valor es establecido por las frecuenciapredominante, no por r los valores en ladistribucin.

    El valor de la mediana es fijado o porsu u posicin en la seleccin, y norefleja valores individuales.

    La suma algebraica de sus desviacionees cero.

    3Una distribucin puede tener mas de 2 modas,pero no existe moda en una distribucin

    rectangular.

    Cada seleccin tiene solo unamediana.

    Una muestra tiene solo una media.

    4No puede ser manipulada algebraicamente.Modas de subgrupos no pueden ser ponderadaso combinadas.

    No puede ser manipuladaalgebraicamente.Medianas de subgrupos no pueden serponderadas o combinadas.

    Pueden ser manipuladas algebraicamente.Medias de subgrupos pueden sercombinadas cuando son ponderadasapropiadamente.

    5Es inestable, puede ser influenciada en elproceso de agrupacin.

    Es estable en cuanto a queprocedimientos para agrupar no afectasu apreciacin.

    Es estable en cuanto a queprocedimientos para agrupar no afecta suapreciacin.

    6 Puede ser aplicada a datos cualitativos. No es aplicable para datos cualitativos.

    Podra ser calculada igualmente cuandoalgn valor individual es desconocido, sise posee la suma de los valores y eltamao de la muestra.

    7Puede ser calculada cuando los extremos delos valores de los grupos son abiertos.

    Puede ser calculado cuando los valoresextremos son abiertos.

    No puede ser calculado de una tabla defrecuencia cuando sus valoresextremos son abiertos.

    8Valores no necesitan ser ordenados para suclculo.

    Valores deben ser ordenadosagrupados para su clculo.

    Los valores no necesitan ser ordenadospara su clculo.

    32

  • 8/4/2019 Libroestdescriptiva2009 Ing

    33/45

    CuantilesComo sabemos, la mediana es un valor del recorrido de los datos que particiona a ladistribucin de frecuencias en dos partes, cada una conteniendo el 50% del total de ladistribucin.

    Podemos realizar una particin mayor de la distribucin de frecuencias dividindola en 4,10 100 partes. Llamamos a estas particiones cuantiles y segn el nmero de divisionesobtenemos cuartiles, deciles o percentiles.

    Si los datos no estn agrupados al igual que en la mediana se debe ordenar el conjuntode datos y determinar primero la posicin para posteriormente determinar el valor.

    )(*,0,

    )1(100

    )(

    1

    )(

    tttk

    skk

    xxrxPrtsenterounesnossi

    xPenterossink

    PPoss

    ++==

    =+==

    +

    Si los datos estn agrupados de determina mediante la frmula:

    i

    i

    i

    ika

    n

    Nkn

    lP *100

    *1

    1

    +=

    Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de ladistribucin, por lo que no se puede considerar como una medida de tendencia central.

    Los cuartiles, Qi, son un caso particular de los percentiles. Hay 3, y se define como:

    Q1 = P25 Q2 = P50= Med Q3 = P75De forma anloga se definen los deciles como los valores de la variable que dividen alas observaciones en 10 grupos de igual tamao. Ms precisamente, definamos D1,D2,...,D9 como:

    Di = P10*i

    Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambin son denominadosestadsticos de posicin).

    33

  • 8/4/2019 Libroestdescriptiva2009 Ing

    34/45

    Medidas de variabilidad o dispersinLos estadsticos de tendencias central o posicin nos indican donde se sita un conjuntode observaciones. Los de variabilidad o dispersin nos indican si esas observaciones ovalores estn prximas entre si o por el contrario estn o muy dispersas.

    Hasta ahora hemos estudiado en las observaciones los estadsticos de posicin(percentiles) y de tendencia central (medias, medianas y modas). Sin embargo debemostener una nocin en cuanto a la relacin existente entre estas observaciones, unamedida de cuan alejada est una determinada observacin del resto, o de una medida dedisgregacin que tienen estas observaciones. En rigor la primera medida de dispersinque ya hemos estudiado es el rango de las observaciones. Pero es claro que estamedida presenta varios inconvenientes. En primer lugar solo considera dosobservaciones, la ms pequea y la mayor, de modo que no puede ser muy fiable todavez que uno de estos valores extremos se aleje demasiado y el resto se encuentre muyagrupado. En segundo lugar, podemos aumentar el nmero de observaciones, estosignifica tener ms precisin en el fenmeno en estudio, y es posible que las nuevas

    observaciones se agrupen, por ejemplo en torno a la media, y el rango no disminuir.Finalmente, basta que una observacin nueva sea mayor o menor que el resto de lasanteriores para que el rango aumente. De manera que es conveniente que creemos otrasmedidas de dispersin.

    Ejemplo 12. considere los siguientes conjuntos de datos:Datos 1: 55, 56, 57, 58, 59, 60, 60, 60, 61, 62, 63, 64, 65

    Media =Moda =Mediana = 60

    XXX

    XXXXXXXXXXX35 40 45 50 55 60 65 70 75 80 85

    Datos 2: 35, 40, 45, 50, 55, 60, 60, 60, 65, 70,75, 75, 80, 85Media =Moda =Mediana = 60

    XXX

    X X X X X X X X X X X35 40 45 50 55 60 65 70 75 80 85

    Se puede observar que lo datos1 estn muy cercanos alrededor del centro, mientras queen datos2 estn mas dispersos o alejados.

    Ahora, veremos medidas de dispersin mejores que la anterior. Estas se determinan enfuncin de la distancia entre las observaciones y algunos estadsticos de tendenciacentral.

    34

  • 8/4/2019 Libroestdescriptiva2009 Ing

    35/45

    Desviacin media, DMSe define la desviacin media como la media de las diferencias en valor absoluto de losvalores de la variable a la media, es decir, si tenemos un conjunto de n observaciones,x1,...,xn entonces:

    Poblacin (tamao N) Muestra (tamao n)Desviacin Media Poblacinal Desviacin Media Muestral

    N

    xx

    DM

    N

    i

    i=

    = 1||

    n

    xxDM

    n

    ii

    =

    = 1

    ||

    ii) para datos agrupados

    Poblacin (tamao N) Muestra (tamao n)Desviacin Media Poblacinal Desviacin Media Muestral

    N

    nxx

    DM

    k

    i

    ii=

    = 1||

    n

    nxxDM

    k

    iii

    =

    = 1

    ||

    Varianza y desviacin estndarLa varianza, S2, se define como la media de las diferencias cuadrticas de nobservaciones con respecto a su media aritmtica, es decir:

    Poblacin (tamao N) Muestra (tamao n)Varianza Poblacinal Varianza Muestral

    N

    )xx(

    )X(V

    N

    ii

    X

    =

    == 1

    2

    2

    N

    xnxS)X(V

    N

    ii

    X

    = == 1

    22

    2

    1

    1

    2

    2

    ===

    n

    )xx(

    S)X(V

    n

    ii

    X

    n

    )xx(

    S)X(V

    n

    i

    i

    X

    =

    == 1

    2

    2

    1

    1

    22

    2

    ==

    =

    n

    xnx

    S)X(V

    n

    ii

    X

    n

    xnx

    S)X(V

    n

    ii

    X

    =

    == 1

    22

    2

    35

  • 8/4/2019 Libroestdescriptiva2009 Ing

    36/45

    iii) para datos agrupados

    Poblacin (tamao N) Muestra (tamao n)Varianza Poblacinal Varianza Muestral

    N

    n)xx(

    S)X(V

    N

    iii

    X

    =

    == 1

    2

    2

    N

    xnxn

    S)X(V

    k

    iii

    X

    =

    == 1

    2

    2

    1

    1

    2

    2

    ==

    =

    n

    n)xx(

    s)X(V

    n

    iii

    X

    n

    n)xx(

    s)X(V

    n

    iii

    X

    =

    == 1

    2

    2

    1

    1

    2

    2

    ==

    =

    n

    xnxn

    s)X(V

    k

    i iiX

    n

    xnxn

    s)X(V

    k

    iii

    X

    =

    == 1

    2

    2

    La varianza no tiene la misma magnitud que las observaciones (ej. Si las observacionesse miden en metros, la varianza lo hace en metros cuadrados). Si queremos que lamedida de dispersin sea de la misma dimensionalidad que las observaciones bastarcon tomar su raz cuadrada, Por ello se define la desviacin estndar o tpica, como:

    )X(VSX =

    Propiedades de la varianza.Supongamos que tenemos las siguientes observaciones x1, ..., xi, ..., xn, cuya varianza ladenotaremos por V(X). Supongamos que sobre cada una de estas observacionesrealizamos la siguiente transformacin

    Entonces para estas nuevas observaciones transformadas linealmente calcularemos suvarianza, esto es

    36

  • 8/4/2019 Libroestdescriptiva2009 Ing

    37/45

    Notemos lo siguiente, que si tenemos una serie de observaciones, a saber ,entonces si hacemos un "traslado" de todas estas observaciones a una distancia que nosinteresa, como por ejemplo

    entonces, lo que nos dice la propiedad anterior, que la varianza es la misma que lasobservaciones anteriores. Es decir que si trasladamos "conjuntamente" lasobservaciones a otro sitio, las observaciones siguen manteniendo el mismo grado dedispersin.

    Finalmente, si hacemos un cambio de escala, es decir multiplicamos cada una de lasobservaciones por una cantidad constante, entonces la varianza de este cambio deescala ser proporcional a la anterior en un factor cuadrtico de la cantidad constante.

    Una ltima propiedad de la varianza que daremos sin demostracin es la siguiente: Si

    tenemos las observaciones , entonces en el intervalo realse encuentra al menos el 75% de las observaciones.

    La desviacin intercuartlica se define como:

    RIQ = Q3 Q1

    37

  • 8/4/2019 Libroestdescriptiva2009 Ing

    38/45

    Caractersticas Principales de

    la Desviacin Cuartl, la Media de Desviacin Absoluta y la Desviacin Estndar

    La Desviacin intercuatlica Desviacin media La Desviacin Estndar

    1

    La desviacin intercuatlica es fcil decalcular y entender. Sin embargo, esta

    es inconsis- tente si existen brechaentre los datos alrededor de locuartiles.

    La Desviacin media tiene laventaja de dar igual peso a la

    desviacin de cada valor conrespecto a la media o lamediana.

    La Desviacin Estndar esnormalmente mas til y mejor

    adaptada a un anlisis masprofundos que lo que es desviacinmedia.

    2Solo depende de dos valores, loscuales incluyen la mitad central de losmismos.

    Es una medida de dispersinms sensitiva que cualquierade las descritas anteriormente,y normalmente tiene errores demuestreo ms pequeos.

    Es ms adaptable como estimadorde la dispersin de la poblacin quecualquier otra medicin, haciendoque la distribucin sea normal.

    3Es normalmente superior al rango comouna medida cruda de dispersin.

    Es ms fcil de calcular yentender, adems es menossensible que la desviacinestndar a valores extremos.

    Es la ms amplia medida dedispersin usada, y la ms fcil demanejar algebraicamente.

    4

    Esta podra ser determinada en una

    distribucin abierta en los extremos, oen una en la cual los datos pueden serseleccionados pero no medidoscuantitativamente.

    Desafortunadamente, es muy

    difcil de manejaralgebraicamente, dado que elsigno negativo debe serignorado cuando se calcula.

    En comparacin con los dems, estaes mas difcil de calcular y deentender.

    5

    Es muy til en distribuciones muysesgadas, o en aquellas en las cualesotras medidas de dispersin seriandeformadas por valores extremos.

    Su aplicacin principal es laprecisa eleccin de modelosen tcnicas de prediccionescomparativas.

    Es normalmente afectada por valoresextremos, los cuales podranocasionar el sesgamiento de losdatos.

    Coeficiente de variacinEs un ndice que puede servir para la comparacin entre poblaciones en que se midendistintas caractersticas. Dada un conjunto de observaciones x1, x2, ..., xn se define el

    coeficiente de variacin, CV, como

    %100*x

    SCV=

    Segn esta definicin, es claro que no tiene sentido para observaciones cuya media esnula.

    El CV es independiente de las unidades de medida. En la estimacin de un parmetro,

    cuando su CV es menos del 10%, la estimacin se asume aceptable.

    Si a la muestra x1, x2, ..., xn le hacemos la transformacin yi = xi + b, y si denotamos porCVy al coeficiente de variacin de las y1, y2, ... yn, entonces

    Si a la muestra x1, x2, ..., xn le hacemos la transformacin yi = xi + b, y si denotamos porCVy al coeficiente de variacin de las y1, y2, ... yn, entonces

    38

  • 8/4/2019 Libroestdescriptiva2009 Ing

    39/45

    Adems, y como es de prever, es invariante bajo cambio de escala, es decir si yi = a xientonces CVy = CVx. En efecto, viene del hecho de que Sy = a Sx y de que y = a x

    En definitiva, si tenemos dos tipos de observaciones diferentes, esto es que miden dosatributos X e Y diferentes, entonces con el clculo de los coeficientes de variacin

    respectivos podemos tener una medida de que tipo de atributo est ms disperso (entorno de la media) en comparacin con el otro atributo. Esto es si CVx < CVy entonces losdatos relativos al atributo Y estn ms dispersos que los datos del atributo X.

    Generalmente el coeficiente de variacin nos sirve para comparar la variacin de dos oms conjuntos de datos

    Ejemplo 13.- Determinar las medidas de dispersin del ejemplo 4, ingresos de losejecutivos para datos sin agrupar y agrupados.

    Tabla 11.

    Medidas de dispersinMedidas de dispersin Datos no agrupados Datos agrupados

    Rango o recorrido 58 90

    Desviacin media 12,2783 12,4056

    Varianza 217,0475 226,9722

    Desviacin estndar 14,7325 15,0656

    39

  • 8/4/2019 Libroestdescriptiva2009 Ing

    40/45

    Asimetra y apuntamientoSabemos cmo calcular valores alrededor de los cuales se distribuyen las observacionesde una variable sobre una muestra y sabemos cmo calcular la dispersin que ofrecenlos mismos con respecto al valor de central. Nos proponemos dar un paso ms all en elanlisis de la variable. En primer lugar, se estudia si la distribucin de los datos es la

    simetra. Un conjunto de datos que no se distribuye simtricamente, se llama asimtrico.La asimetra puede verse en el diagrama de tallo y hoja o en el histograma. Tambinpuede verse a travs de la posicin relativa entre la media y la mediana.

    Estadsticos de asimetraPara saber si una distribucin de frecuencias es simtrica, hay que precisar con respectoa qu. Un buen candidato es la mediana, ya que para variables continuas, divide alhistograma de frecuencias en dos partes de igual rea. Podemos basarnos en ella para,de forma natural, decir que una distribucin de frecuencias es simtrica si el ladoderecho de la grfica (a partir de la mediana) es la imagen por un espejo del ladoizquierdo.

    Distribucin Simtrica

    0

    1

    2

    3

    4

    5

    6

    7

    1 2 3 4 5 6 7

    Dentro de los tipos de asimetra, vamos a destacar los dos fundamentales:

    Asimetra positivaSi las frecuencias ms altas se encuentran en el lado izquierdo de la media, mientras queen derecho hay frecuencias ms pequeas (cola)

    Distribucin Asimtr ica Positiva

    0

    2

    4

    6

    8

    1012

    1 2 3 4 5 6 7

    40

  • 8/4/2019 Libroestdescriptiva2009 Ing

    41/45

    Asimetra negativaSi las frecuencias ms altas se encuentran en el lado derecho de la media, mientras queen el izquierdo hay frecuencias ms pequeas (cola)

    Distribucin Asimtrica Negativa

    0

    2

    4

    6

    8

    10

    12

    1 2 3 4 5 6 7

    Cuando realizamos un estudio descriptivo es altamente improbable que la distribucinde frecuencias sea totalmente simtrica. En la prctica diremos que la distribucin defrecuencias es simtrica si lo es de un modo aproximado. Por otro lado, an observandocuidadosamente la grfica, podemos no ver claro de qu lado estn las frecuencias msaltas. Conviene definir entonces unos estadsticos que ayuden a interpretar la asimetra,a los que llamaremos ndices de asimetra, y que denotaremos mediante As.

    3

    3

    X

    SSMA = donde

    n

    n)xx(

    M

    n

    )xx(

    M

    n

    ii

    pi

    p

    n

    i

    pi

    p

    =

    =

    =

    =

    1

    1

    es denominado el psimo momento central (alrededor de la media) y

    33))X(V(SX =

    Apoyndonos en este ndice, diremos que hay asimetra positiva si 0>As , y que laasimetra es negativa si 00 =< ss AsiyA la distribucin es simtrica.

    En las distribuciones sesgadas negativamente siempre la media est a la izquierda de lamediana y la moda a la derecha de ella. En las distribuciones sesgadas positivamente lamoda est a la izquierda de la mediana y la media a la derecha de la mediana.

    41

  • 8/4/2019 Libroestdescriptiva2009 Ing

    42/45

    Curva bimodal (simtrica o asimtrica por estratos):

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    -3 2

    Estadsticos de apuntamiento

    Uno de los coeficientes que nos indica el apuntamiento de una distribucin de frecuenciaes el coeficiente de aplastamiento de Fisher o coeficiente de curtosis definido por:

    2

    2

    4

    M

    MK=

    De este modo, las distribuciones de frecuencias se clasifican en:1) Leptocrtica: cuando, K>0, o sea, si la distribucin de frecuencias es ms apuntada

    que la normal:

    2) Mesocrtica: cuando K=0, es decir, cuando la distribucin de frecuencias es tanapuntada como lo normal;3) Platicrtica: cuando K

  • 8/4/2019 Libroestdescriptiva2009 Ing

    43/45

    Medidas descriptivas de la variable Ingreso de los Ejecutivos

    Media 62,05 Rango 58

    Mediana 65 Mnimo 31

    Moda 69 Mximo 89

    Desviacin estndar 14,8569 Suma 3723Varianza de la muestra 220,7263 Cuenta 60Curtosis -0,727577

    Coeficiente de asimetra -0,451824

    Se aprecia que el ingreso promedio de los ejecutivos es de US$ 625000, con unadesviacin estndar de US$ 14857.El valor de la mediana es de US$ 65000 es decir el 50% de los ejecutivos tienen uningreso de a lo mas este valor y el otro 50% tienen un ingreso mayor a este valor.El ingreso mas frecuente es de US$ 69000.

    Como el valor de la curtosis es menor que 3 la curva es leptocrtica.El coeficiente de asimetra es negativo la curva o histograma es asimtrico a izquerda loque significa que hay una mayor variacin de los ingresos en los entre los ejecutivos demenor ingreso.

    43

  • 8/4/2019 Libroestdescriptiva2009 Ing

    44/45

    Cmo Construir un BoxPlotUn BoxPlot es un grfico que tiene muchas caractersticas. Incluye la presencia deposibles outliers. Muestra el rango de los datos. Muestra una medida de dispersin talcomo el cuartl superior, cuartl inferior y los rangos intercuartiles (RIC) de un conjunto dedatos, as como tambin a la mediana como medida central ubicacin, el cual es til para

    comparar grupos de datos. Tambin indica acerca de la simetra o de la asimetra de ladistribucin. La razn principal de utilizar los boxplots es porque ofrecen muchainformacin de una manera compacta.

    Pasos para Construir un Boxplot1.- Calcular los 3 cuartiles (Q1, Q2, y Q3). La porcin central de la distribucin que seencuentre entre Q1 y Q3 se representa por una caja (no interesa el ancho de ella). Dentrode esta caja se ubica el valor de la mediana (Q2).

    2.- Calcular el recorrido intercuartlico (Q).

    3.- Calcular las barreras internas BI1 y BI2en la forma:

    BI1 = Q1 1.5Q

    BI2= Q3 + 1.5Q

    4.- Calcular las barreras externas BE1 y BE2en la forma:

    BE1 = Q1 3 QBE2= Q3 + 3Q

    5.- Identifique lospuntos adyacentes

    Se llamanpuntos adyacentes al mnimo y mximo dato que se encuentran dentro de lasbarreras internas. Desde los extremos de la caja se trazan lneas hasta los respectivosvalores adyacentes. A estas lneas se les llama antenas o bigotes.

    6.- Identificar lospuntos atpicos y extremos:

    Se llaman puntos atpicos o outliers a aquellos datos que se encuentran fuera de lasbarreras internas y dentro de las barreras externas. Se llaman puntos extremos aaquellos puntos ubicados fuera de las barreras externas.

    Un punto atpico o extremo puede deberse, por ejemplo, a una mala lectura, mal registro,causa fortuita, etc. Este tipo de datos no puede eliminarse inmediatamente sin un anlisispreliminar de las causas que lo originan.

    A travs de un grfico caja podemos identificar el tipo de asimetra de una distribucin defrecuencias unimodal de la siguiente manera:

    i) Si la posicin de la mediana se encuentra en la mitad de la caja y las antenastiene la misma longitud, la distribucin es simtrica.

    44

  • 8/4/2019 Libroestdescriptiva2009 Ing

    45/45

    ii) Sil a posicin de la mediana se encuentra ubicada ms cerca del primer cuartil y laantena superior es de mayor longitud que la antena inferior, la distribucinpresenta sesgo positivo.

    iii) Si la posicin de la mediana se encuentra ubicada ms cerca del tercer cuartil y laantena superior es de menor longitud que la antena inferior, la distribucin

    presenta sesgo negativo.

    Ejemplo 15.- El grfico de caja para el ejemplo 3 (ingreso de los ejecutivos) es:

    Box Plot Ingresos Ejecutivos

    Mediana= 65

    Q1 = 51

    Q3 = 74

    No hay puntos outlierIngreso Ejecutivos

    20

    30

    40

    50

    60

    70

    80

    90

    100

    110