Libroestdescriptiva2009 Ing
-
Upload
lorena-soto -
Category
Documents
-
view
219 -
download
0
Transcript of Libroestdescriptiva2009 Ing
-
8/4/2019 Libroestdescriptiva2009 Ing
1/45
IntroduccinLa idea original de la "estadstica" era la recoleccin de informacin sobre y para el"estado". La palabra estadstica se deriva directamente, no de races griegas o latinasclsica, sino de la palabra italianaestado.El nacimiento de la estadstica se ubica a mediados del siglo XVII. Un ciudadano comn
llamado Juan Graunt, nacido en Londres, comenz a revisar la publicacin semanal de laiglesia, la cual era distribuida en la parroquia local y que listaba el nmero denacimientos, bautizos, y de muertes en cada parroquia. Las cifras de mortalidad tambinenumeraban las causas de las muertes. Graunt que era comerciante organiz estosdatos en la forma que hoy llamamos estadstica descriptiva, la cual fue publicada comoObservaciones Naturales y Polticas hechas sobre la tasa de Mortalidad. Luego de lapublicacin, fue elegido como miembro de la sociedad real. De esta forma, la estadsticatomo prestados algunos conceptos de la sociologa, tal como el concepto de poblacin.
El anlisis exploratorio de datos utiliza tcnicas grficas y numricas para estudiarpatrones de conducta y el origen de los mismos. Las tcnicas de estadstica descriptiva
normalmente usadas son: Distribucin de frecuencia; Histogramas, Boxplot, Grficos deDispersin, diagramas de barras y errores, diagramas de diagnstico.
Cuando se examina la distribucin de los datos, se debe detectar algunas caractersticasimportantes, tales como forma, ubicacin, variabilidad, y valores inusuales. Mediante unacuidadosa observacin de los patrones en los datos, se puede generar conjeturas acercalas relaciones entre variables. La nocin de cmo una variable puede estar asociada aotra esta inmersa en casi todo el anlisis estadstico, lo que se puede realizar porejemplo, mediante el anlisis regresin lineal.
Los datos deben ser recolectados acorde al desarrollo de un plan que garantice que lainformacin es vlida para los objetivos planteados. El plan debe identificar las variablesimportantes que estn relacionadas con los objetivos, y especificar cmo estas van a sermedidas.
Los datos son conocidos como informacin cruda y no como conocimientos en s. Lasecuencia que va desde los datos hasta el conocimiento aparece en la figura siguiente.Los datos se convierten en informacin, cuando se hacen relevantes para la toma dedecisin de un problema. La informacin se convierte en hecho, cuando es respaldadapor los datos. Los hechos son lo que los datos revelan. Sin embargo el conocimientoinstrumental es expresado junto con un cierto grado estadstico de confianza .
1
-
8/4/2019 Libroestdescriptiva2009 Ing
2/45
La figura anterior representa el hecho que a medida que la exactitud de un modeloestadstico aumenta, el nivel de mejoramiento en la toma de decisin aumenta. Esta es larazn del por que necesitamos la estadstica. La estadstica se creo por la necesidad deponer conocimiento en una base sistemtica de la evidencia. Esto requiri un estudio delas leyes de la probabilidad, del desarrollo de las propiedades de medicin, relacin dedatos.
La inferencia estadstica intenta determinar si alguna significancia estadstica puede seradjudicada, luego que se permita una variacin aleatoria como fuente de error. Unainteligente y crtica inferencia no puede ser hecha por aquellos que no entiendan elpropsito, las condiciones, y la aplicabilidad de las de diversas tcnicas para juzgar elsignificado.
2
-
8/4/2019 Libroestdescriptiva2009 Ing
3/45
Anlisis Exploratorio de DatosLa finalidad del Anlisis Exploratorio de Datos (AED) o Estadstica Descriptiva esexaminar los datos previamente a la aplicacin de cualquier tcnica estadstica. De estaforma el analista consigue un entendimiento bsico de los datos y de las relacionesexistentes entre las variables analizadas.
El Anlisis Exploratorio de Datos proporciona mtodos sencillos para organizar ypreparar los datos, detectar fallas en el diseo y recogida de datos, tratamiento yevaluacin de datos ausentes, identificacin de casos atpicos y comprobacin de lossupuestos subyacentes en la mayor parte de las tcnicas multivariantes.
En este curso se va a dar una breve visin general de dicho conjunto de tcnicasexponiendo, brevemente, cul es su finalidad, ilustrada con ejemplos.
Las preguntas ms frecuentes cuando tenemos un conjunto de datos son:Existe algn tipo de estructura (normalidad, multimodalidad, asimetra, curtosis,
linealidad, homogeneidad entre grupos, homocedasticidad, etc.) en los datos que se vana analizar?Existe algn sesgo en los datos recogidos?Hay errores en la codificacin de los datos?Cmo se sintetiza y presenta la informacin contenida en un conjunto de datos?Existen datos atpicos (outliers)? Cules son? Cmo tratarlos?Hay datos ausentes (missing)? Tienen algn patrn sistemtico? Cmo tratarlos?
Los objetivos de este curso son:1) Definir qu es el Anlisis Exploratorio de Datos (A.E.D.) y cules son sus objetivos.2) Indicar cules son las etapas a seguir en la realizacin de un A.E.D.3) Seleccionar los mtodos grfico y numrico apropiados para examinar las
caractersticas de los datos y/o relaciones de inters.4) Comprobar si se verifican algunas hiptesis de inters en los datos (normalidad,
homocedasticidad).5) Identificar casos atpicos univariantes.6) Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial.
Qu es el anlisis exploratorio de datos?El Anlisis Exploratorio de Datos (A.E.D.) es un conjunto de tcnicas estadsticas cuyafinalidad es conseguir un entendimiento bsico de los datos y de las relaciones
existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D.proporciona mtodos sistemticos sencillos para organizar y preparar los datos, detectarfallos en el diseo y recogida de los mismos, tratamiento y evaluacin de datos ausentes(missing), identificacin de casos atpicos (outliers) y comprobacin de los supuestossubyacentes en la mayor parte de las tcnicas multivariantes (normalidad,homocedasticidad).
El examen previo de los datos es un paso necesario, que lleva tiempo, y quehabitualmente se descuida por parte de los analistas de datos. Las tareas implcitas endicho examen pueden parecer insignificantes y sin consecuencias a primera vista, peroson una parte esencial de cualquier anlisis estadstico.
3
-
8/4/2019 Libroestdescriptiva2009 Ing
4/45
Etapas del Anlisis Exploratorio de DatosPara realizar un A.E.D. conviene seguir las siguientes etapas:1) Preparar los datos para hacerlos accesibles a cualquier tcnica estadstica.2) Realizar un examen grfico de la naturaleza de las variables individuales a analizar y
un anlisis descriptivo numrico que permita cuantificar algunos aspectos grficos delos datos.
3) Realizar un examen grfico de las relaciones entre las variables analizadas y unanlisis descriptivo numrico que cuantifique el grado de interrelacin existente entreellas.
4) Evaluar, si fuera necesario, algunos supuestos bsicos subyacentes a muchastcnicas estadsticas como, por ejemplo, la normalidad, linealidad yhomocedasticidad.
5) Identificar los posibles casos atpicos (outliers) y evaluar el impacto potencial quepuedan ejercer en anlisis estadsticos posteriores.
6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes
(missing) sobre la representatividad de los datos analizados.
Preparacin de los datosEl primer paso en un A.E.D. es hacer accesible los datos a cualquier tcnica estadstica.Ello conlleva la seleccin del mtodo de entrada (por teclado o importados de un archivo)y codificacin de los datos as como la de un paquete estadstico adecuado paraprocesarlos.
Los paquetes estadsticos son conjuntos de programas que implementan diversastcnicas estadsticas en un entorno comn. Algunos de los ms utilizados son SAS,BMDP, SPSS, SYSTAT, STATISTICA, STATA, MINITAB, S-PLUS, EVIEWS,STATGRAPHICS, MATLAB, R y la planilla Excel. (estos dos ltimos los usaremos eneste curso).
La codificacin de los datos depende del tipo de variable. Los paquetes estadsticosexistentes en el mercado proporcionan diversas posibilidades (datos tipo cadena,numricos, nominales, ordinales, etc).
La inmensa mayora de los paquetes estadsticos permite realizar manipulaciones de losdatos previas a un anlisis de los mismos. Algunas operaciones tiles son las siguientes:
- Combinar conjuntos de datos de dos archivos distintos- Seleccionar subconjuntos de los datos- Dividir el archivo de los datos en varias partes- Transformar variables- Ordenar casos- Agregar nuevos datos y/o variables- Eliminar datos y/o variables- Guardar datos y/o resultados
Finalmente, y con el fin de aumentar la utilidad de los datos almacenados, convieneasociar a la base de datos utilizada, un libro de cdigos en el que se detallen los
4
-
8/4/2019 Libroestdescriptiva2009 Ing
5/45
nombres de las variables utilizadas, su tipo y su rango de valores, su significado ascomo las fuentes de donde se han sacado los datos. Todos los paquetes anteriormentecitados permiten esta posibilidad.
Anlisis estadstico unidimensional
Una vez organizados los datos, el paso siguiente consiste en realizar un anlisisestadstico grfico y numrico de las variables del problema con el fin de tener una ideainicial de la informacin contenida en el conjunto de datos, as como tambin detectar laexistencia de posibles errores en la codificacin de los mismos.
Para iniciar el estudio del anlisis estadstico se definen algunos conceptos propios de laterminologa de la Estadstica Descriptiva o anlisis exploratorio de datos.Poblacin: es el universo de objetos al cual se refiere el estudio que se pretenderealizar. Es decir, es el conjunto de todos los elementos de inters para un determinadoproblema. Por ejemplo, todas las piezas terminadas en una cadena de montaje, losnacidos en un da determinado, los coches de una determinada marca, etc. A los
elementos que conforman la poblacin se les llama unidad observable o unidad deobservacin.
Poblacin finita: cuando el nmero de elementos que la forman es finito, por ejemplo elnmero de alumnos de su colegio, o de su curso.
Poblacin infinita: cuando el nmero de elementos que la forman es infinito, o tangrande que pudiese considerarse infinita. Como por ejemplo si se realiza un estudio sobrelos productos que hay en el mercado. Hay tantos y de tantas calidades que esta poblacinpodra considerarse infinita.
Observacin o dato: a cualquier valor cualitativo o cuantitativo asociado a una variable
Variable: es cualquier caracterstica objeto de estudio en la poblacin. Se les llamavariables, ya que pueden variar de un individuo a otro. Por ejemplo, el grosor de unapieza, peso al nacer, consumo de gasolina, partido al que va a votar un individuo, etc.
Muestra: Un subconjunto de una poblacin o universo que se selecciona para serestudiada ya que la poblacin es demasiado grande como para analizarla en su totalidad.
Es importante que el investigador defina total y cuidadosamente a la poblacin antes de
recolectar la muestra, incluyendo una descripcin de los elementos.
Unidad de Muestreo: Una unidad es una persona, un animal, una planta o una cosa queson estudiadas por un investigador; son los objetos bsicos sobre los cuales se ejecuta elestudio o el experimento. Por ejemplo, una persona; una muestra de suelo; un pote desemillas.
Una medida descriptiva relacionada, cuando consideramos toda la poblacin, sedenomina parmetro. Los parmetros generalmente se designan por letras griegas. Unode los parmetros mas utilizado es el promedio o media aritmtica y la desviacin
estndar designados por respectivamente.2,
5
-
8/4/2019 Libroestdescriptiva2009 Ing
6/45
Una medida descriptiva relacionada con una muestra, se denomina estadstico. Losestadsticos tienen dos fines. Describen la muestra que est disponible y sirven comoaproximacin a los parmetros correspondientes de la poblacin.
POBLACION MUESTRA
PARAMETROSESTADISTICOS
Ejemplo: Suponga que el gerente de una tienda desea saber el valor de , el gastopromedio por cliente de su tienda durante el ao pasado. El puede calcular el gasto
promedio de los miles de clientes que compraron en su tienda durante el ao pasado; esdecir, la media poblacional . En lugar de esto, el podra utilizar una estimacin de lamedia poblacionalcalculando la media de una muestra aleatoria de clientes. Si seencontrara que el valor fuera de $50000, estos $50000 seran su estimacin.
Variables Cualitativas y CuantitativasEl tipo de anlisis a realizar depende del tipo, y la escala de medida de la variable aanalizar.
Si se observa una sola caracterstica a cada unidad observable, entonces la variable se
denomina unidimensional. Si se observan simultneamente dos caractersticas a cadaunidad observable, entonces la variable se denomina bidimensional o bivariada, y assucesivamente.
Se distinguen dos tipos de variables: cualitativa y cuantitativa.
Variables CualitativasUna variable cualitativa es aquella cuyos valores corresponden a conceptos, categorasatributos o cualidades como, por ejemplo, el sexo, la profesin de una persona, nivel deestudio, estado civil, etc.
Si en dichas categoras hay un orden subyacente se denomina variable ordinal, si no sedenomina variable nominal.
Las variables nominales son aquellas que los valores se registran dentro de categoras oclases, donde no tiene sentido el orden.
Se dice que las variables nominales que toman o pueden tomar uno de dos valoresdistintos como hombre o mujer son dicotmicos o binarios
6
-
8/4/2019 Libroestdescriptiva2009 Ing
7/45
Los datos o elementos de una variable cualitativa se agrupan en forma natural endiferentes categoras o clases y se cuenta el nmero de datos que aparecen en cada unade ellas, lo que se denomina tabla de frecuencias.
Consideremos el siguiente ejemplo con la variable nominal estado civil
Ejemplo 1.- Suponga que se extrae una muestra de 300 clientes de un supermercado yse les consulta por el estado civil de ellos. La tabla 1 muestra el conjunto de datosobtenidos de esta variable.
Tabla 1.
Estado Civil
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
2 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
3 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
4 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
5 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
6 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
7 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
8 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
9 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
10 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
11 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
12 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
13 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
14 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
15 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado16 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
17 Soltero Viudo Soltero Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Soltero Casado Casado
18 Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado
19 Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado
20 Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Casado Casado CasadoPara comprender y resumir estos datos, es til presentarlos en una tabla o grficos en la queaparezca los valores posibles de la variable, llamados clases ( ci ) y el nmero de veces que cadavalor se repite. A ese nmero se le denomina frecuencia absoluta (ni) o simplementefrecuencia. La tabla se denomina tabla de frecuencias.
La suma de las frecuencias absolutas es siempre igual a n, siendo n el nmero total de casos,
=k
iinn
1
donde k es el nmero de clases.
7
-
8/4/2019 Libroestdescriptiva2009 Ing
8/45
La frecuencia relativa ( fi ) Expresa los resultados en proporciones.
n
nf ii =
se cumple 11
==k
iif
Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuenciaabsoluta de la clase y el nmero total de observaciones n.
%100*100*i
i
if
n
nh ==
Se cumple que 1001 ==
k
iih
Tabla 1.1 Tabla de frecuencia variable Estado Civil
Contar de Estado civil
Estado civil Total
Casado 305
Separado 4
Soltero 77
Viudo 16
Total general 402
C asado S eparado S o ltero V iudo
Estado Civil
Categoras
frecuenciaa
bsoluta
0
50
100
150
200
250
300
Figura 1.1 Grafico de barra de la variable Estado Civil(Entregado por defecto por el software).
8
-
8/4/2019 Libroestdescriptiva2009 Ing
9/45
Grfico circular.
Para el grfico circular se utiliza la sentencia: pie nombre de la tabla de frecuencia
igura 1.2 Grafico Circular de la variable Estado Civil
(Entregado por defecto por el software).
Ejemplo 2.- Suponga que la distribucin de frecuencia del Nivel de Estudio (variablecualitativa ordinal) de cierta ciudad en un determinado ao es:
Nivel de estudios
Enseanza media incompleta Sin estudio Enseanza media incompleta
Sin estudio Estudios basicos Enseanza media incompleta
Enseanza media completa Sin estudio Enseanza media incompleta
Enseanza superior completa Sin estudio Enseanza superior completa
Enseanza superior completa Sin estudio Enseanza media incompleta
Enseanza superior completa Estudios basicos Enseanza media incompletaSin estudio Sin estudio Estudios basicos
Enseanza media incompleta Estudios basicos Enseanza superior completa
Enseanza superior completa Enseanza media incompleta Enseanza superior incompleta
Enseanza superior incompleta Enseanza media completa Enseanza superior completa
Sin estudio Enseanza media incompleta Sin estudio
Estudios basicos Enseanza media completa Estudios basicos
Sin estudio Enseanza media incompleta Estudios basicos
Enseanza media incompleta Enseanza superior completa Enseanza superior completa
Sin estudio Enseanza superior completa Enseanza superior incompleta
Enseanza superior incompleta Enseanza media incompleta Enseanza media incompleta
Enseanza superior incompleta Estudios basicos
Para resumir los datos ordinales, es til presentarlos en una tabla o grficos similares a losobtenidos para las variables nominales. Los grficos utilizados en este caso son los de barra ycirculares. Las tablas de resumen o de frecuencias adems, de la frecuencia absoluta y relativatiene sentido en este caso la frecuencia absoluta acumulada y la frecuencia relativa porcentualacumulada.
La Frecuencia acumulada Ni es el nmero de elementos de la poblacin o muestracuya modalidad es inferior o equivalente a la modalidad ci, es decir es la suma de lasfrecuencias absolutas de la clase ciy las anteriores a ella,
ii
i
jji nNnN +==
= 11
La frecuencia relativa porcentual ( Hi ) define el porcentaje de individuos menores oiguales a la clase i-sima
100*n
NH ii =
9
-
8/4/2019 Libroestdescriptiva2009 Ing
10/45
Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuenciaabsoluta de la clase y el nmero total de observaciones n.
La tabla de frecuencia resultante es:
Tabla 1.2 Variable Nivel de EstudioNivel de estudios ni hi Ni Hi
Sin estudio 11 22% 11 22%
Estudios basicos 8 16% 19 38%
Enseanza media incompleta 13 26% 32 64%
Enseanza media completa 3 6% 35 70%
Enseanza superior incompleta 5 10% 40 80%
Enseanza superior completa 10 20% 50 100%
Total general 50 100%
Por ejemplo, la tercera clase dice que existen 13 personas con enseanza media
incompleta, que corresponde al 26% del total, que 32 personas tienen a lo msenseanza media incompleta, o bien el 64% de las 50 personas tienen enseanza mediaO bien sin necesidad de cambiar el nombre de las columnas y para ordenar desde sinestudio hasta estudios superiores completos se utiliza [c(se escriben los nmero quecorresponden al orden alfabtico separados por comas)]
Enseanza me
Enseanza media incompleta
nza superior completa
a superior incompleta
Estudios basicos
Sin estudio
Nivel de Estudios
s i n e s t e s t b a s e n s m e d c o m e n s s u p c o m
N i v e l d e E s t u d i o s
C la s e s
frecuenciaabsoluta
0
2
4
6
8
10
12
Figura 1.3 Grfico de barra y circular de la variableEstado Civil
10
-
8/4/2019 Libroestdescriptiva2009 Ing
11/45
Variables CuantitativasVariables cuantitativas son aquellas que se pueden expresar numricamente, es decir,pueden tomar valores reales.
Una primera clasificacin, basada en el tipo de valores que puede tomar, permite
distinguir entre variables cuantitativas discretas que son aquellas donde el conjunto devalores que puede asumir la variable se puede enumerar. Este conjunto puede ser finitoo infinito, por ejemplo, el nmero de paneles producidos en un da. y variablescuantitativas continuas que son aquellas que pueden asumir cualquier valor en algnintervalo real, por ejemplo, la temperatura aplicada en el proceso de produccin de lospaneles.
Las variables cuantitativas discretas con un nmero de valores que se repite, setratan de forma similar a las variables cualitativas ordinales. La diferencia es que en estoscasos se puede realizar un anlisis descriptivo numrico, el cual permite describirdiferentes caractersticas del conjunto de datos.
Para tabular y graficar en Excel esta variable discreta se realiza en forma similar a lasvariables ordinales.
Ejemplo 3.- El nmero de personas que viven en la casa de una muestra de 50 familiasson:
Tabla 1.3 Tabla de datos del N de personas que viven en la casa
Corr.N de
personas Corr.N de
personas Corr.N de
personas Corr.N de
personas Corr.N de
personas
1 1 11 4 21 6 31 4 41 3
2 2 12 6 22 5 32 2 42 13 1 13 5 23 2 33 1 43 2
4 3 14 4 24 2 34 3 44 5
5 4 15 2 25 2 35 4 45 6
6 5 16 2 26 1 36 5 46 4
7 2 17 3 27 3 37 2 47 3
8 1 18 3 28 2 38 2 48 2
9 3 19 1 29 5 39 1 49 1
10 5 20 1 30 6 40 2 50 3
Cuando el conjunto de datos discretos es pequeo se puede construir tablas de
frecuencia donde cada clase es uno de sus valores numricos.
La construccin de la tabla de frecuencia y los grficos de barra y circular para este tipode datos es similar a la de las variables cualitativas ordinales.
11
-
8/4/2019 Libroestdescriptiva2009 Ing
12/45
Tabla 1.4.Tabla de frecuencias del N de personas que viven en casaN dePersonas ni fi hi Ni Hi
1 10 0.20 20 10 20
2 14 0.28 28 24 48
3 9 0.18 18 33 66
4 6 0.12 12 39 78
5 7 0.14 14 46 92
6 4 0.08 8 50 100
1 2 3 4 5 6
N de personas que viven en una casa
Clases
frecu
enciaabsoluta
0
2
4
6
8
10
12
14
Figura 1.4. Grfico de Barra N de personas que viven en casa
Se observa que en el 28% de las casas de los encuestados viven dos personas y quesolo en un 8% de las casas viven 6 personas. (El anlisis numrico lo veremos msadelante).
1
2
3
4
5
6
N de personas que viven en una casa
Figura 1.5. Grfico de Barra N de personas que viven en casa
Las variables cuantitativas continuas generalmente se miden por escala de intervalo opor escala de razn. La escala de intervalo, adems de todas las propiedades de la
12
-
8/4/2019 Libroestdescriptiva2009 Ing
13/45
escala ordinal, hace que tenga sentido calcular diferencias entre las mediciones.Ejemplos de variables con esta escala son: Temperatura de una persona. Ubicacin enuna carretera respecto de un punto de referencia (Kilmetro 85 Ruta 5). Sobrepesorespecto de un patrn de comparacin. Nivel de aceite en el motor de un automvilmedido con una vara graduada.
La escala de razn permite, adems de lo de las otras escalas, comparar medicionesmediante un cuociente. Ejemplos de variables con la escala de razn son: Altura depersonas. Cantidad de litros de agua consumido por una persona en un da. Velocidadde un auto en la carretera.
La escala de intervalo tiene un cero que se establece por convencin y puede tenervariaciones. Es arbitrario. Por otra parte, la escala de razn tiene un cero real, fijo, nosujeto a variaciones; es propio de la medicin hecha.
Tablas estadsticas o tablas de frecuencias
Distribucin de frecuenciasSi la variable analizada es continua o discreta con un elevado nmero de valoresdistintos se tabula como una distribucin de frecuencias agrupadas y se representagrficamente mediante histogramas, polgonos de frecuencias, ojivas y boxplots con el finde estudiar la forma de la distribucin y analizar, en particular, la posible existencia devarias modas en la misma que pongan de manifiesto la presencia de diversos gruposhomogneos en la muestra.
Cuando el tamao de la muestra y el recorrido de la variable son grandes, ser necesarioagrupar en intervalos los valores de la variable. La tabla de frecuencia o distribucin defrecuencia ordena los datos y estos se dividen en clases o intervalos de clasesmutuamente excluyentes (sin elementos comunes) y se registra el nmero deobservaciones en cada clase.
Para decidir la amplitud de los intervalos, necesitaremos decidir cuntos intervalosqueremos?
ObservacinNo existen criterios ptimos para elegir la cantidad de intervalos. En general, entre 5 y 15intervalos deberan ser suficientes. Utilizar muchos o muy pocos intervalos puede serpoco informativo. Pero se pueden seguir las siguientes reglas:
Algunas regla para agrupar los datos en intervalos o categoras1. Decidir el nmero de intervalos o categoras o clases, que puede ser el nmero
deseado de clases o si n es el nmero de observaciones se puede utilizar comoreferencia:
casootroennk
grandeesnonsink
),log(22.31
,
+
2. Localizar la observacin mayor y menor, es decir el valor mximo y el valor mnimo delas observaciones.
13
-
8/4/2019 Libroestdescriptiva2009 Ing
14/45
3. Hallar la diferencia entre estos dos valores (restar mximo menos el mnimo). Esta
diferencia se denomina rango o recorrido de los datos.
mnmxxxr =
4. Hallar la amplitud de la clase o del intervalo de clase ai se define por:
k
xxa mnmx
=
As la divisin en clases o intervalos podra tomarse: l0=xmn , l1 =l0 + a,,lk= l0+ ka.
5. Hallar la marca de clase de cada intervalo. Se define por
2
1= iii llx Distintos tipos de frecuenciasCuando se resume la informacin en una tabla a cada valor de la variable se le asociandeterminados nmeros que representan el nmero de veces que ha aparecido, suproporcin con respecto a otros valores de la variable, etc. Estos nmeros se denominanfrecuencias: As tenemos los siguientes tipos de frecuencia:
Frecuencia absolutade la clase ci es el nmero de elementos en la poblacin o
muestra perteneciente a la clase ci, se designa por ni. Se cumple que .nnk
i
i ==1
Frecuencia relativa porcentualde la clase cies el cuociente fientre la frecuenciaabsoluta de la clase y el nmero total de observaciones n.
100*n
nh ii =
Se cumple que 1001
==
k
i i
h
Frecuencia acumulada Ni al nmero de elementos de la poblacin o muestracuya modalidad es inferior o equivalente a la modalidad ci, es decir es la sume delas frecuencias absolutas de la clase ciy las anteriores a ella,
=
=i
j
ji nN1
Tambin se puede determinar la frecuencia relativa acumulada porcentual.
14
-
8/4/2019 Libroestdescriptiva2009 Ing
15/45
Se llama distribucin de frecuencias al conjunto de intervalos o clases junto a lasfrecuencias correspondientes a cada una de ellas. Una tabla estadstica o tabla defrecuencias sirve para presentar en forma ordenada los datos.Su forma general es:
Tabla 1.5 Tabla de frecuencias o Distribucin de FrecuenciasModalidado clases
Intervalosde clases
Frec.Abs.
Frec. Rel.Porcentual
Frec. Abs. Acumu. Marca declases
ci ni hi Ni xic1 l0 l1 n1 f1= n1 /n*100 N1=n1 x1 cj lj-1 -- lj nj fj=nj /n*100 Nj=n1+n2++nj xjck lk-1 -- lk nk fk=nk /n*100 Nk=n xk
n 100%
Ejemplo 4.- Los siguientes datos son los ingresos anuales de 60 ejecutivos deempresas en Estados Unidos. Los datos estn expresados en miles de dlares.
Datos ingreso anuales de 60 ejecutivos58 76 89 45 67 34
64 76 34 65 45 39
79 74 56 71 85 87
74 38 69 79 61 71
69 62 56 38 69 79
71 54 31 69 62 39
65 79 47 46 77 66
55 75 62 57 77 36
73 72 64 69 51 50
40 50 74 61 69 73
Para construir la tabla de frecuencia en Excel se determina primero el nmero de clases.Suponga que se van a construir k = 7 clases o categoras, luego
2887
3189,
k
xxa mnmx =
=
= , la amplitud es de por lo menos 8,28 por ser ms fcil
hacemos a = 10 y el lmite superior de la primera clase li+1 = 34. Completando la Tabla defrecuencia se obtiene:
Tabla 1.4 Tabla de frecuencias de los ingreso anuales de 60 ejecutivosClases Intervalos ni fi hi Ni Hi xi
1 (24 , 34] 3 0,05 5,00 3 5,00 29
2 (34 , 44] 6 0,10 10,00 9 15,00 39
3 (44 , 54] 8 0,13 13,33 17 28,33 49
4 (54 , 64] 12 0,20 20,00 29 48,33 59
5 (64 , 74] 19 0,32 31,67 48 80,00 69
6 (74 , 84] 9 0,15 15,00 57 95,00 79
7 (84 , 94] 3 0,05 5,00 60 100,00 89
60 1 100
15
-
8/4/2019 Libroestdescriptiva2009 Ing
16/45
Representacin grfica para variables discretas y continuasUn grfico estadstico es una representacin pictrica que permite dar un resumen visualde la informacin, y se utiliza para detectar tendencias, agrupacin de datos en torno aun valor central, variaciones cclicas, estacinales, etc.
Grfico de tallo y hojasUn mtodo grfico para iniciar el anlisis exploratorio de datos, y que ademsproporciona informacin visual rpida, es la representacin grfica de tallo y hoja.Entrega una primera aproximacin rpida de la distribucin de los datos sin perder devista las observaciones.
Un diagrama de tallo y hoja consiste en una serie de hileras horizontales de nmeros. Elnmero utilizado para designar una hilera es su tallo, el resto de los nmeros de la hilerase denominan hojas.
Ejemplo 5.- La siguiente tabla muestra los datos de la fuerza de compresin de 45
muestras de aleacin de aluminio-litio.
Tabla 1.5Datos de la fuerza de compresin
96 93 88 117 127 95 113 96
108 94 148 156 139 142 94 107
125 155 155 103 112 127 117 120
112 135 132 111 125 104 106 139
134 119 97 89 118 136 125 143
120 103 113 124 138
a) Se separa cada observacin en dos partes: tallo y hoja.b) Se lista en forma vertical y creciente los tallos y agregamos las hojas a la
derecha del tallo.c) Generalmente las hojas es la unidad del nmero y el tallo es la decena, centena,
etc.d) Se separa esos dgitos de los restantes, que constituirn los tallos.
8 | 899 | 3445667
10 | 334678
11 | 12233778912 | 0045557713 | 245689914 | 23815 | 556
Qu podemos ver en este diagrama? Rango de las observaciones, valores mximo y mnimo. Forma de la distribucin: simetra, asimetra a la izquierda, asimetra a derecha y
cuantas modas tiene la distribucin.
16
-
8/4/2019 Libroestdescriptiva2009 Ing
17/45
Posicin del centro de la distribucin y concentracin de los datos. Desviaciones marcadas respecto al comportamiento general: outlier o valores
atpicos.
Los grficos de tallo y hoja tambin son tiles para comparar la distribucin de una
variable en dos condiciones o grupos. El grfico se denomina grfico de tallo y hojas conespalda porque ambos grupos comparten los tallos.
Ejemplo 6.- Consideremos la longitud en centmetros de 20 partes consecutivas de unalnea de ensamble del proceso 1 y la longitud de 20 partes consecutivas de una lnea deensamble del proceso 2.
Tabla 1.6Datos de longitud de 20 partes.
PROC1 19.969 19.975 19.984 19.984 19.985 19.992 19.994 19.997 19.998 20.000
PROC2 19.989 19.994 19.994 19.996 20.000 20.000 20.000 20.000 20.001 20.001
PROC1 20.001 20.001 20.002 20.004 20.004 20.004 20.007 20.008 20.008 20.011
PROC2 20.001 20.003 20.005 20.007 20.007 20.008 20.009 20.010 20.010 20.011
1996 9
1997 5
9 1998 445
644 1999 2478
9877531110000 2000 112444788
100 2001 1
En este caso vemos que el segundo proceso es menos variable que el primero que lalongitud mxima para ambos proceso es 20.011 y longitud mnimo para el proceso 1 es19.969 y para el proceso 2 es 19.989.
Aunque en las tablas se puede mostrar gran cantidad de informacin estadstica, aveces es conveniente presentar esta informacin de una manera ms clara y efectiva pormedio de grficos. Existen varios tipos de grficos o representaciones grficasutilizndose cada uno de ellos de acuerdo al tipo de informacin que se est utilizando ylos objetivos que se persiguen al presentar la informacin
Los grficos utilizados en variables cuantitativas discretas o continuas con un gran
nmero de datos que se encuentran en una distribucin de frecuencias son elhistogramay el polgono de frecuencias.
Un histogramase construye en el plano cartesiano. En el eje de las abscisas se colocalos lmites de cada intervalo y en el eje de las ordenadas las frecuencias de clase(absoluta, relativas o relativas porcentuales), representando sobre cada intervalo unrectngulo que tiene a este segmento como base y como altura la frecuencia de cadaclase.
Las caractersticas geomtricas del histograma nos permiten descubrir informacin tilsobre los datos, por ejemplo:
17
-
8/4/2019 Libroestdescriptiva2009 Ing
18/45
1. La localizacin del centro de los datos.2. El grado de dispersin.3. El lado al cual se sesga, es decir, cuando no cae simtricamente en ambos lados
del mximo.4. El grado de agudeza del mximo.
Sueldo ejecutivos
Sueldo
ni
30 40 50 60 70 80 90
0
5
10
15
Figura 1.6. Histograma de los ingresos de los ejecutivos
El polgono de frecuenciases un grfico de lnea cerrado, en el eje de las abscisas valas marcas de clase y en el eje de las ordenadas alguna de las frecuencias (absoluta,relativas o relativas porcentuales) los puntos correspondientes a estos pares se unenmediante rectas. La marca de clase del primer y ltimo intervalo se une con la marca declase anterior y siguiente, respectivamente.
20 40 60 80 100
0
5
10
15
Polgono de Frecuencias Sueldo Ejecutivos
xi
ni
Figura 1.7. Polgono de frecuencia de los ingresos de los ejecutivos
18
-
8/4/2019 Libroestdescriptiva2009 Ing
19/45
La Ojiva es un grfico de lnea, en el eje de las abscisas van lo lmites superiores decada clase y en el eje de las ordenadas la frecuencia acumulada absoluta o la frecuenciaacumulada relativa porcentual.
20 40 60 80
0
10
20
30
40
50
60
Ojiva Sueldos Ejecutivos
limsup
Ni2
Figura 1.8. Ojiva de los ingresos de los ejecutivos
Grfico de tiempo Cuando los datos de una variable estn tomados a travs de tiempo,puede ser de gran inters el grfico de los datos a travs del tiempo o el orden en quelos datos fueron obtenidos.
Un grfico de tiempo llamado tambin grfico de series, es un grfico de lasobservaciones a travs del tiempo u orden en que fueron observados. Los puntosconsecutivos se conectan con lneas para ayudarnos a determinar si se producencambios en la distribucin a medida que pasa el tiempo.
Ejemplo 7.- Los datos siguientes corresponden al nmero de estudiante que llegarontarde al colegio A durante un periodo de tres semanas.
Tabla 1.7 Datos del N de estudiantes que llegan tarde
Lunes Martes Mircoles Jueves ViernesSemana 1 10 7 6 8 11Semana 2 14 5 10 8 7Semana 3 9 3 6 4 6
Grfico de tiempo
0
5
10
15
Lune
s
Marte
s
Juev
es
Vierne
s
Tiempo
Ndealumnos
atrasados
Semana 1
Semana 2
Semana 3
Figura 1.9. Grfico de tiempo N de estudiantes que llegaron tarde al colegio
19
-
8/4/2019 Libroestdescriptiva2009 Ing
20/45
Resumen numrico de los datosPara ampliar la informacin acerca de esta distribucin y completar as el anlisisdescriptivo de una poblacin o muestra, es necesario recurrir a ciertos valores numricosque permiten cuantificar ciertas caractersticas de la distribucin. Se les llama a estosvalores medidas estadsticas o estadgrafos. Las de uso frecuente en un anlisis
descriptivo son las medidas de tendencia central y las medidas de dispersin.
Las medidas descriptivas numricas que caracterizan lo mejor posible a los datosoriginales o a la distribucin de frecuencias mas frecuentes son:
Las medidas tendencia centralde los datos;Las medidas de dispersino variacincon respecto a este centro;
Las medidas de tendencia central permiten determinar un valor caracterstico de unadistribucin de frecuencias ubicado hacia el centro de la distribucin.Las tres medidas ms usuales de tendencia central son: la media, la mediana, la moda.
La mediaLlamada tambin promedio aritmtico o simplemente media o promedio, es una de lasmedidas ms importantes y de mayor uso en diversas aplicaciones estadsticas. Sedenota por si es obtenida de la poblacin y porx si es obtenida de una muestra y se
calcula de la siguiente manera:.i) Para datos no agrupados sea x1, x2,...xn un conjunto de n valores, entonces
Poblacin (tamao N) Muestra (tamao n)
Media o promedio aritmticopoblacional Media o promedio aritmticomuestral
N
xN
ii
== 1 n
xx
n
ii= = 1
para datos agrupados
Poblacin (tamao N) Muestra (tamao n)Media o promedio aritmtico
poblacional
Media o promedio aritmtico
muestral
N
xnN
iii
== 1 n
xnx
n
iii
== 1
donde xi es la marca de clases
20
-
8/4/2019 Libroestdescriptiva2009 Ing
21/45
Observacin1. En general, la media aritmtica obtenida a partir de las marcas de clase xi, diferir de
la media obtenida con los valores reales, xi. Es decir, habr una prdida de precisinque ser tanto mayor, cuanto mayor sea la diferencia entre los valores reales y lasmarcas de clase, o sea, cuando mayores sean las amplitudes ai, de los intervalos.
2. La media aritmtica es sensible a valores extremos.3. De las observaciones x1, x2, ..., xn se tiene la siguiente propiedad elemental que
tendr grandes consecuencias en la definicin una medida de la variabilidad,
= 0)xx( i
En efecto
=
=
======
n
i
n
iin
i
n
iii xnxnxn)
n
x
(nxx)xx(1
1
110
Este resultado es en cierta manera desalentador, puesto que el error o desviacin deuna observacin en particular respecto de la media es compensado con los demserrores, de manera que sumando los errores de esta forma no nos entregainformacin sobre la variabilidad o sobre cuan alejado estn las observaciones delpromedio. De manera que si consideramos las desviaciones de la observacinrespecto de la media como positivo, tendramos una medida del error. Podemosconsiderar las siguientes situaciones para medir el error,
4.
mximoerrorxxmx
cuadrticoErrorxx
cuadrticoError)xx(
in,...,i
n
ii
n
ii
=
=
=
21
1
1
2
5. El error ms usual utilizado en estadstica es el error cuadrtico. Este error tieneinteresantes propiedades. Veremos una de ellas.
Supongamos que tenemos las observaciones x1, x2, ..., xn. Si elegimos cualquier
representante de estas observaciones, digamos a , entonces el error cuadrtico ser
mayor si elegimos la media como representante de estas observaciones, de otraforma si ax
Entonces ==
-
8/4/2019 Libroestdescriptiva2009 Ing
22/45
=
= ==
=
===
=
++=
++=
+=+=
n
ii
n
i
positivo
n
i
n
iii
n
iii
n
ii
n
ii
n
ii
)xx(
luego
)ax()xx()ax()xx(
))ax()ax)(xx()xx((
))ax()xx(()axxx()ax(
1
2
1 1
2
0
1
2
1
22
1
2
1
2
1
2
2
2
4342143421
Vamos a ver otra propiedad interesante de la media. Supongamos que tenemos lassiguientes observaciones x1, x2, ..., xn, por razones que ms adelante veremos puede seraltamente conveniente realizar una transformacin lineal de estas observaciones, porejemplo hacer yi = a + b xi, entonces la media de estas nuevas variables y1, y2, ... , yn es
xbay += . En efecto,
xbaxnbna
nxb
na
n)bxa(
ny
n
n
ii
n
i
n
ii
n
ii
n
ii +=+=+=+=
== === 11 111
111111
Ejemplo 8. Determinar el promedio de los sueldos de los ejecutivos para datos sinagrupados y agrupados
Para datos sin agrupar la media es:
05,6260
7369...8976581 === =n
xx
n
ii
Para datos agrupados la media es:
Tabla 1.8 Tabla de frecuencias de los ingreso anuales de 60 ejecutivos
Clases Intervalos ni Ni xi ni*xi ni*xi^2
1 (24 , 34] 3 3 29
2 (34 , 44] 6 9 39
3 (44 , 54] 8 17 49
4 (54 , 64] 12 29 59
5 (64 , 74] 19 48 69
6 (74 , 84] 9 57 79
7 (84 , 94] 3 60 89
22
-
8/4/2019 Libroestdescriptiva2009 Ing
23/45
Suponga que los sueldos de los gerentes generales de estas empresas es una funcin
lineal de los sueldos de los ejecutivos dada por 300230 += ii xy determine le sueldo
promedio de los gerentes de estas empresas.
,361,833333360
89*379*969*1959*1249*839*629*31 === =n
xnx
n
iii
5145713000562230300230
300230
,,*xy
xy ii
=+=+=
+=
Propiedades de la media aritmticao Puede ser calculada en distribuciones con escala relativa y de intervaloso .Todos los valores son incluidos en el cmputo de la media.o Una serie de datos solo tiene una media.o Es una medida muy til para comparar dos o ms poblacioneso Es la nica medida de tendencia central donde la suma de las desviaciones de cada
valor respecto a la media es igual a cero.o Por lo tanto podemos considerar a la media como el punto de balance de una serie de
datos.
Desventajas de la media aritmticao Si alguno de los valores es extremadamente grande o extremadamente pequeo, la
media no es el promedio apropiado para representar la serie de datos.o No se puede determinar si en una distribucin de frecuencias hay intervalos de clase
abiertos.
Ejemplo 9.a)
0
1
2
1 2 3
Media = 2
La media tambin se define como elpunto de equilibrio Si la distribucin essimtrica, como en la figura a), la media
est exactamente en el centro de ladistribucin
23
-
8/4/2019 Libroestdescriptiva2009 Ing
24/45
b)
Cuando la observacin mayor se muevems a la derecha, como en la figura b) lamedia tiende hacia la observacin.
0
1
2
1 2 3 4 5
Media = 2,5
c)
0
1
2
1 2 3 4 5 6 7 8 9 10 11
Si la distribucin tiene un valorextremo, como en la figura c) lamedia tiende hacia este valorextremo.
Media = 4
Promedio Ponderado.En muchas ocasiones, los datos observados no tienen la misma importancia relativa.Para hacer presente este hecho en la bsqueda de un 'centro' que represente a losdatos, es necesario asignar a cada uno de stos, una ponderacin (peso o coeficiente)que represente su importancia dentro de la muestra.
Por ejemplo, considrese el sistema de calificacin del curso donde las pruebas tienendistinta ponderaciones, segn su importancia en el proceso de evaluacin del trabajo delalumno. En este caso, no resulta apropiado el promedio simple. Cada nota parcial debeser multiplicada por su coeficiente o ponderacin, para luego sumar estos resultados ydividirlos por la suma de los coeficientes respectivos.
Definicin. Seanx1 ,x2 ,....,xn , n datos y w1 ,w2,....,wn, n, nmeros reales tales que wi 0;i=1,2,....n; con a lo menos un wi> 0. Entonces el promedio ponderado de los datos, estdado por:
=
==+++
+++=
n
ii
n
iii
n
nnw
w
xw
w...ww
xw...xwxwx
1
1
21
2211
Si wi= k, kconstante positiva, entonces wx coincide conx .
Esto equivale a decir que, si cada observacin tiene la misma ponderacin, entonces elpromedio y el promedio ponderado son iguales.
24
-
8/4/2019 Libroestdescriptiva2009 Ing
25/45
Ejemplo.Si un alumno obtiene un 5.5 en la primera evaluacin 4.9 en la segunda evaluacin si laprimera evaluacin corresponde a un 45% y un 55% la segunda evaluacin. Cul esnota promedio de estas dos pruebas?
175550450
9455055450 ,,,
,*,,*,xw =++=
La media geomtrica.Como se puede observar en la grfica 1, la funcin logaritmo (en este caso logaritmonatural) "suaviza" los datos, si son muy grandes los datos los disminuye, y adems los"contrae", es decir si x1 y x2 estn muy separados, no lo estarn tanto los valorestransformados ln ( x1) y ln ( x2).
.
De tal manera que en el manejo de datos estadsticos a veces es conveniente utilizar latransformacin tales como, y = ln (x). Supongamos que tenemos un conjunto deobservaciones x1, x2, ... , xn, luego si a cada una de estas observaciones le aplicamoslogaritmo natural tenemos que yi = ln ( xi ). Vamos a calcular la media de estas nuevasobservaciones y1, y2, ... , yn, esto es
nn
y
nn
nn
n
nn
)x...xx(e
)x...xx(lny
)x...xxln(
)x...xxln(n
n
)xln(...)xln()xln(
n
y...yy
y
21
21
1
21
21
2121
1
=
=
=
=
+++
=
+++
=
25
-
8/4/2019 Libroestdescriptiva2009 Ing
26/45
a la expresin de la derecha se le define como la media geomtrica, y se denota por
nng x...xxx 21=
Ejemplos.
1. Encontrar la media de los siguientes nmeros 2, 4, 8. obsrvese que entre ellos existeuna razn o proporcin constante, cada uno de ellos es el doble del anterior, por tantola media a utilizar es la media geomtrica, de la siguiente manera
4842
3
== **xg
Respuesta: la media geomtrica de los datos es 4
Un caso de aplicacin del promedio geomtrico, es el de clculo de inters en undepsito a plazo.
Suponga que una persona desea depositar $1.000.000. durante un mes a una tasa de2%. Esto significa que al trmino del mes, el banco le entrega $1.020.000.Al siguientemes, toma el capital inicial ms los intereses y los deposita por otro mes. Esta vez elbanco ofrece una tasa de 3%. Al trmino del segundo mes recibe $1.050.600.
Finalmente, deposita este nuevo capital por un tercer mes, ahora al 4%, obteniendo alfinal $1.092.624. A qu tasa mensual debera ponerse el capital inicial para obtener elmismo capital final al cabo de los tres meses?
Esta pregunta quiere dilucidar cul sera la tasa fija que el banco debiese haber aplicadoen cada uno de los tres meses en que el capital estuvo depositado (con los interesesvariables - 2%, 3%, 4% - que vimos).
El capital total finalmente obtenido, puede expresarse como:
1000000*1.02*1.03*1.04 = 1000000*1.092624
Esto significa que la tasa total aplicada es de 9.2624%
Entonces, la tasa mensual estara dada por la raz cbica de 1.092624, cuyo valor es1.029968. Es decir, se habra necesitado una tasa mensual de 2.9968%. Cantidadlevemente inferior al 3% que se obtendra si, errneamente, se hubiese promediado 2%,3% y 4%. Para ver claramente cmo interviene el promedio geomtrico en este ejemplo,escribamos las tasas de inters como un factor multiplicativo del capital al cual seaplican. De este modo, las sucesivas tasas son: 1.02, 1.03, 1.04.
26
-
8/4/2019 Libroestdescriptiva2009 Ing
27/45
El promedio geomtrico de estos nmeros es:
02996810410310213 ,,*,*,xg ==
Propiedades de la media geomtrica La media geomtrica esta basada en todas las observaciones, por lo que estafectada por todos los valores de la variable. Sin embargo, da menos pesos a losvalores extremadamente grandes que el que les da la media aritmtica.
La media geomtrica es igual a cero si algunos de los valores es cero, y se puedevolver imaginaria si ocurren valores negativos. Con la excepcin de estos dos casos,su valor siempre es definitivo y est rgidamente definido.
La media geomtrica es la que se debe utilizar cuando lo que se va a promediar sontasas de cambios o proporciones, y se intenta dar igual peso a tasas de cambiosiguales.
La media armnica.Se denota por xa y se define como el valor inverso de la media delos valores recprocos de las observaciones x1, x2, ... , xn; esto es
n
a
x...
xx
nx
111
21
+++
=
Ejemplo
Un.automvil que hace viajes de ida y vuelta entre las ciudades A y B, realiza el viajeentre A y B a razn de 80 Km por hora y el viaje entre B y A a 120 Km por hora, Lavelocidad promedio del viaje de ida y vuelta ser de
hr/Kmxa 96
120
1
80
1
2=
+
=
Propiedades de la media armnicao La media armnica se basa en todas las observaciones por lo que est afectada por
todos los valores de la variable. Da a los valores extremadamente grandes un pesomenor que el que les da la media geomtrica, mientras que a los valores pequeosles da un peso mayor que el que les da tanto la media aritmtica como la mediageomtrica.
o La media armnica esta indeterminada si alguno de los valores es cero, pues hallar elrecproco de cero implica dividir entre cero, lo cual no es vlido. La media armnicaest rgidamente definida y siempre es definitiva, excepto cuando uno de los valoreses cero.
o La media armnica es el promedio que se ha de usar, cuando lo que se va apromediar son proporciones donde los numeradores de las razones son los mismospara todas las proporciones.
27
-
8/4/2019 Libroestdescriptiva2009 Ing
28/45
MedianaSupongamos que tenemos un conjunto de observaciones x1, x2, ..., xn. Ordenamos estasobservaciones de menor a mayor, y supongamos que el ordenamiento se consigue de laforma x(1), x(2), ..., x(n); es decir x(i) es el i-simo nmero en orden entre las n observaciones,en los casos extremos se tiene que x(1) es la menor de todas las observaciones y que x (n)
es la mayor de todas las observaciones.La mediana es el valor central de la variable, despus que se ha ordenado en ordencreciente, es el valor que divide en dos partes la muestra.
Para calcular la mediana debemos tener en cuenta si la variable cuantitativa est sinagrupar o si est agrupada, si es discreta con muchos datos y rango pequeo o discretao continua tabulada en intervalos.
Clculo de la mediana en el caso discreto no agrupadoSi el conjunto de observaciones los denotamos por x1,...,xn y al conjunto deobservaciones ordenadas las denotamos por x(1) ,... ,x(n). Se define la posicin de la
mediana como:
2
1)(
+==n
MedPoss
Si s es un entero el valor de la mediana estado por
Med = xsSi s no es un entero, entonces se determina un entero i tal que i
-
8/4/2019 Libroestdescriptiva2009 Ing
29/45
Ejemplo 11 Determinar la mediana para el ejemplo de los sueldos de los ejecutivo, paralos datos sin agrupar y agrupados.
Para los datos sin agrupar primero ordenamos los datos
31 45 57 65 71 7634 46 58 66 71 77
34 47 61 67 72 77
36 50 61 69 73 79
38 50 62 69 73 79
38 51 62 69 74 79
39 54 62 69 74 79
39 55 64 69 74 85
40 56 64 69 75 87
45 56 65 71 76 89
Como el nmero de elementos es par se ubican los dos valore centrales y se promedia.
652
6565
2
)1()( =+=+
= iixx
Med
Clculo de la mediana para datos agrupados
Para el caso de datos agrupados las observaciones estn agrupadas en intervalos declase, de manera que primero tenemos que fijarnos en la frecuencia absoluta acumulada,y en aquel intervalo de clase en que el valor correspondiente a la primera frecuenciaabsoluta acumulada que supera o es igual al 50% del nmero de observaciones, se diceque es el intervalo donde se encuentra la mediana.
i
i
i
i an
)Nn
(
lmed1
1
2
+=
Donde:li-1 : lmite inferior de la clase de la medianan : nmero de observaciones
Ni-1: frecuencia absoluta de la clase anterior a la clase medianani : frecuencia absoluta del intervalo medianoai : amplitud del intervalo de la clase de la mediana
Cambio en los valores extremos en los valores ordenados de la muestra no afectansignificativamente a la mediana, no as la media. En efecto, supongamos la muestraanterior 1, 1, 2, 3, 3, 3, 4, 4, 5, 7, 8; donde la mediana es med = 3, y la media de estamuestra es x = 3,72; sin embargo si cambiamos el ltimo valor de esta muestra, que es8, por 12, tenemos que la mediana sigue siendo la misma no obstante que la mediacambia su valor a 4,09. De manera que, en algunas ocasiones es ms representativa la
29
-
8/4/2019 Libroestdescriptiva2009 Ing
30/45
mediana que la media, fundamentalmente en muestras en que aparecen observacionesextremas.
Ejemplo.El ejemplo de los sueldos de los ejecutivos el valor de la mediana para datos agrupados
se obtiene determinando la clase de la mediana, es la primera clase, donde la frecuenciaacumulada supera o iguala a la mitad de los datos.
En este ejemplo es la 5 clase.
64,526315810*19
292
60
64*21 =
+
+ ii
li
i an
Nn
lMed
La modaEn el lenguaje cotidiano, la palabra moda describe una situacin que es frecuente, queest mayoritariamente en uso, en particular y como ejemplo se utiliza mucho en elvestuario, sobre todo de las damas. Pues bien, en lo que respecta a la estadsticadiramos que tiene el mismo significado, para el caso discreto es la observacin absoluta(o relativa) ms frecuente respecto de las observaciones vecinas, de modo que puedehaber ms de una moda. Intentaremos dar un lenguaje ms formal a esta definicin.Como antes estudiaremos ambos casos, el discreto y el continuo.
Caso discretoLa moda es el valor de mayor frecuencia absoluta, la que ms se repite, es la nicamedida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues noprecisa la realizacin de ningn clculo.
Por su propia definicin, la moda no es nica. Pues puede haber dos o ms valores de lavariable que tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremosuna distribucin bimodal o polimodal segn el caso.
Ejemplo: Supongamos que tenemos las siguientes observaciones (ordenadas)1, 1, 2, 2, 2, 3, 4, 4, 5, 5, 5, 6, 6, 7, 8, 8, 9, 9. En este caso podemos observar que haydos modas, a saber: 2 y 5.
Caso continuoEn este caso tiene ms sentido hablar de intervalo modal. En efecto, esta vez nosfijamos en los intervalos de clase con sus respectivas frecuencias absolutas. Si unintervalo tiene mayor frecuencia que sus intervalos inmediatamente adyacentes se diceentonces que es un intervalo modal. De manera ms formal, diremos que (l i - 1, li] es unintervalo modal si la frecuencia absoluta (o relativa) ni es mayor que las frecuenciasadyacentes ni - 1 y ni + 1.
Ahora el problema es qu valor elegir de este intervalo modal y definirlo como moda?De momento digamos que una moda se denotar pormoda.
30
-
8/4/2019 Libroestdescriptiva2009 Ing
31/45
de modo que la moda es
donde ai es la amplitud del intervalo, que por lo general es constante.
Esta estadstica debe usarse con cuidado. Su objetivo es identificar zonas donde seproducen aglomeraciones de datos, sin embargo, podra ser que por el solo hecho dehaber una observacin extra en un punto aislado, ste pudiese aparecer como unamoda.
Este inconveniente es especialmente delicado cuando hay pocas observaciones en lamuestra, tal como es el caso que se observa en el grfico siguiente.
Como puede apreciarse, cuatro alumnas tienen una estatura de 165 cm.. Si no se poneatencin al resto de las observaciones, se podra reportar este valor como la modaprincipal, lo que tiende a confundir ya que alrededor 159 cm. hay una gran concentracinde datos. La mayor utilidad de la moda, se presenta al usarla con muestras relativamentegrandes, donde la influencia de un dato individual no distorsiona el anlisis.
Ejemplo 11.- Determinar la moda del sueldo de los ejecutivos para datos agrupados ysin agrupar.
31
-
8/4/2019 Libroestdescriptiva2009 Ing
32/45
Relacin entre media, mediana y modaEn el caso de distribuciones unimodales, la mediana est con frecuencia comprendidaentre la media y la moda (incluso ms cerca de la media)En las distribuciones que presentan valores extremos, es ms aconsejable el uso de lamediana. Sin embargo en estudios relacionados con propsitos estadsticos y de
inferencia suele ser ms apta la media.
Principales Caractersticas de la Moda, Mediana y Media
Moda Mediana Media
1Es el valor mas frecuente en a distribucin. Esel punto mas alto en la funcin.
Es el valor del punto medio de los datosordenados, tal que la mitad de losdatos estn por arriba y la otra pordebajo de ella.
Es el valor promedio de todas lasobservaciones
2Su valor es establecido por las frecuenciapredominante, no por r los valores en ladistribucin.
El valor de la mediana es fijado o porsu u posicin en la seleccin, y norefleja valores individuales.
La suma algebraica de sus desviacionees cero.
3Una distribucin puede tener mas de 2 modas,pero no existe moda en una distribucin
rectangular.
Cada seleccin tiene solo unamediana.
Una muestra tiene solo una media.
4No puede ser manipulada algebraicamente.Modas de subgrupos no pueden ser ponderadaso combinadas.
No puede ser manipuladaalgebraicamente.Medianas de subgrupos no pueden serponderadas o combinadas.
Pueden ser manipuladas algebraicamente.Medias de subgrupos pueden sercombinadas cuando son ponderadasapropiadamente.
5Es inestable, puede ser influenciada en elproceso de agrupacin.
Es estable en cuanto a queprocedimientos para agrupar no afectasu apreciacin.
Es estable en cuanto a queprocedimientos para agrupar no afecta suapreciacin.
6 Puede ser aplicada a datos cualitativos. No es aplicable para datos cualitativos.
Podra ser calculada igualmente cuandoalgn valor individual es desconocido, sise posee la suma de los valores y eltamao de la muestra.
7Puede ser calculada cuando los extremos delos valores de los grupos son abiertos.
Puede ser calculado cuando los valoresextremos son abiertos.
No puede ser calculado de una tabla defrecuencia cuando sus valoresextremos son abiertos.
8Valores no necesitan ser ordenados para suclculo.
Valores deben ser ordenadosagrupados para su clculo.
Los valores no necesitan ser ordenadospara su clculo.
32
-
8/4/2019 Libroestdescriptiva2009 Ing
33/45
CuantilesComo sabemos, la mediana es un valor del recorrido de los datos que particiona a ladistribucin de frecuencias en dos partes, cada una conteniendo el 50% del total de ladistribucin.
Podemos realizar una particin mayor de la distribucin de frecuencias dividindola en 4,10 100 partes. Llamamos a estas particiones cuantiles y segn el nmero de divisionesobtenemos cuartiles, deciles o percentiles.
Si los datos no estn agrupados al igual que en la mediana se debe ordenar el conjuntode datos y determinar primero la posicin para posteriormente determinar el valor.
)(*,0,
)1(100
)(
1
)(
tttk
skk
xxrxPrtsenterounesnossi
xPenterossink
PPoss
++==
=+==
+
Si los datos estn agrupados de determina mediante la frmula:
i
i
i
ika
n
Nkn
lP *100
*1
1
+=
Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de ladistribucin, por lo que no se puede considerar como una medida de tendencia central.
Los cuartiles, Qi, son un caso particular de los percentiles. Hay 3, y se define como:
Q1 = P25 Q2 = P50= Med Q3 = P75De forma anloga se definen los deciles como los valores de la variable que dividen alas observaciones en 10 grupos de igual tamao. Ms precisamente, definamos D1,D2,...,D9 como:
Di = P10*i
Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambin son denominadosestadsticos de posicin).
33
-
8/4/2019 Libroestdescriptiva2009 Ing
34/45
Medidas de variabilidad o dispersinLos estadsticos de tendencias central o posicin nos indican donde se sita un conjuntode observaciones. Los de variabilidad o dispersin nos indican si esas observaciones ovalores estn prximas entre si o por el contrario estn o muy dispersas.
Hasta ahora hemos estudiado en las observaciones los estadsticos de posicin(percentiles) y de tendencia central (medias, medianas y modas). Sin embargo debemostener una nocin en cuanto a la relacin existente entre estas observaciones, unamedida de cuan alejada est una determinada observacin del resto, o de una medida dedisgregacin que tienen estas observaciones. En rigor la primera medida de dispersinque ya hemos estudiado es el rango de las observaciones. Pero es claro que estamedida presenta varios inconvenientes. En primer lugar solo considera dosobservaciones, la ms pequea y la mayor, de modo que no puede ser muy fiable todavez que uno de estos valores extremos se aleje demasiado y el resto se encuentre muyagrupado. En segundo lugar, podemos aumentar el nmero de observaciones, estosignifica tener ms precisin en el fenmeno en estudio, y es posible que las nuevas
observaciones se agrupen, por ejemplo en torno a la media, y el rango no disminuir.Finalmente, basta que una observacin nueva sea mayor o menor que el resto de lasanteriores para que el rango aumente. De manera que es conveniente que creemos otrasmedidas de dispersin.
Ejemplo 12. considere los siguientes conjuntos de datos:Datos 1: 55, 56, 57, 58, 59, 60, 60, 60, 61, 62, 63, 64, 65
Media =Moda =Mediana = 60
XXX
XXXXXXXXXXX35 40 45 50 55 60 65 70 75 80 85
Datos 2: 35, 40, 45, 50, 55, 60, 60, 60, 65, 70,75, 75, 80, 85Media =Moda =Mediana = 60
XXX
X X X X X X X X X X X35 40 45 50 55 60 65 70 75 80 85
Se puede observar que lo datos1 estn muy cercanos alrededor del centro, mientras queen datos2 estn mas dispersos o alejados.
Ahora, veremos medidas de dispersin mejores que la anterior. Estas se determinan enfuncin de la distancia entre las observaciones y algunos estadsticos de tendenciacentral.
34
-
8/4/2019 Libroestdescriptiva2009 Ing
35/45
Desviacin media, DMSe define la desviacin media como la media de las diferencias en valor absoluto de losvalores de la variable a la media, es decir, si tenemos un conjunto de n observaciones,x1,...,xn entonces:
Poblacin (tamao N) Muestra (tamao n)Desviacin Media Poblacinal Desviacin Media Muestral
N
xx
DM
N
i
i=
= 1||
n
xxDM
n
ii
=
= 1
||
ii) para datos agrupados
Poblacin (tamao N) Muestra (tamao n)Desviacin Media Poblacinal Desviacin Media Muestral
N
nxx
DM
k
i
ii=
= 1||
n
nxxDM
k
iii
=
= 1
||
Varianza y desviacin estndarLa varianza, S2, se define como la media de las diferencias cuadrticas de nobservaciones con respecto a su media aritmtica, es decir:
Poblacin (tamao N) Muestra (tamao n)Varianza Poblacinal Varianza Muestral
N
)xx(
)X(V
N
ii
X
=
== 1
2
2
N
xnxS)X(V
N
ii
X
= == 1
22
2
1
1
2
2
===
n
)xx(
S)X(V
n
ii
X
n
)xx(
S)X(V
n
i
i
X
=
== 1
2
2
1
1
22
2
==
=
n
xnx
S)X(V
n
ii
X
n
xnx
S)X(V
n
ii
X
=
== 1
22
2
35
-
8/4/2019 Libroestdescriptiva2009 Ing
36/45
iii) para datos agrupados
Poblacin (tamao N) Muestra (tamao n)Varianza Poblacinal Varianza Muestral
N
n)xx(
S)X(V
N
iii
X
=
== 1
2
2
N
xnxn
S)X(V
k
iii
X
=
== 1
2
2
1
1
2
2
==
=
n
n)xx(
s)X(V
n
iii
X
n
n)xx(
s)X(V
n
iii
X
=
== 1
2
2
1
1
2
2
==
=
n
xnxn
s)X(V
k
i iiX
n
xnxn
s)X(V
k
iii
X
=
== 1
2
2
La varianza no tiene la misma magnitud que las observaciones (ej. Si las observacionesse miden en metros, la varianza lo hace en metros cuadrados). Si queremos que lamedida de dispersin sea de la misma dimensionalidad que las observaciones bastarcon tomar su raz cuadrada, Por ello se define la desviacin estndar o tpica, como:
)X(VSX =
Propiedades de la varianza.Supongamos que tenemos las siguientes observaciones x1, ..., xi, ..., xn, cuya varianza ladenotaremos por V(X). Supongamos que sobre cada una de estas observacionesrealizamos la siguiente transformacin
Entonces para estas nuevas observaciones transformadas linealmente calcularemos suvarianza, esto es
36
-
8/4/2019 Libroestdescriptiva2009 Ing
37/45
Notemos lo siguiente, que si tenemos una serie de observaciones, a saber ,entonces si hacemos un "traslado" de todas estas observaciones a una distancia que nosinteresa, como por ejemplo
entonces, lo que nos dice la propiedad anterior, que la varianza es la misma que lasobservaciones anteriores. Es decir que si trasladamos "conjuntamente" lasobservaciones a otro sitio, las observaciones siguen manteniendo el mismo grado dedispersin.
Finalmente, si hacemos un cambio de escala, es decir multiplicamos cada una de lasobservaciones por una cantidad constante, entonces la varianza de este cambio deescala ser proporcional a la anterior en un factor cuadrtico de la cantidad constante.
Una ltima propiedad de la varianza que daremos sin demostracin es la siguiente: Si
tenemos las observaciones , entonces en el intervalo realse encuentra al menos el 75% de las observaciones.
La desviacin intercuartlica se define como:
RIQ = Q3 Q1
37
-
8/4/2019 Libroestdescriptiva2009 Ing
38/45
Caractersticas Principales de
la Desviacin Cuartl, la Media de Desviacin Absoluta y la Desviacin Estndar
La Desviacin intercuatlica Desviacin media La Desviacin Estndar
1
La desviacin intercuatlica es fcil decalcular y entender. Sin embargo, esta
es inconsis- tente si existen brechaentre los datos alrededor de locuartiles.
La Desviacin media tiene laventaja de dar igual peso a la
desviacin de cada valor conrespecto a la media o lamediana.
La Desviacin Estndar esnormalmente mas til y mejor
adaptada a un anlisis masprofundos que lo que es desviacinmedia.
2Solo depende de dos valores, loscuales incluyen la mitad central de losmismos.
Es una medida de dispersinms sensitiva que cualquierade las descritas anteriormente,y normalmente tiene errores demuestreo ms pequeos.
Es ms adaptable como estimadorde la dispersin de la poblacin quecualquier otra medicin, haciendoque la distribucin sea normal.
3Es normalmente superior al rango comouna medida cruda de dispersin.
Es ms fcil de calcular yentender, adems es menossensible que la desviacinestndar a valores extremos.
Es la ms amplia medida dedispersin usada, y la ms fcil demanejar algebraicamente.
4
Esta podra ser determinada en una
distribucin abierta en los extremos, oen una en la cual los datos pueden serseleccionados pero no medidoscuantitativamente.
Desafortunadamente, es muy
difcil de manejaralgebraicamente, dado que elsigno negativo debe serignorado cuando se calcula.
En comparacin con los dems, estaes mas difcil de calcular y deentender.
5
Es muy til en distribuciones muysesgadas, o en aquellas en las cualesotras medidas de dispersin seriandeformadas por valores extremos.
Su aplicacin principal es laprecisa eleccin de modelosen tcnicas de prediccionescomparativas.
Es normalmente afectada por valoresextremos, los cuales podranocasionar el sesgamiento de losdatos.
Coeficiente de variacinEs un ndice que puede servir para la comparacin entre poblaciones en que se midendistintas caractersticas. Dada un conjunto de observaciones x1, x2, ..., xn se define el
coeficiente de variacin, CV, como
%100*x
SCV=
Segn esta definicin, es claro que no tiene sentido para observaciones cuya media esnula.
El CV es independiente de las unidades de medida. En la estimacin de un parmetro,
cuando su CV es menos del 10%, la estimacin se asume aceptable.
Si a la muestra x1, x2, ..., xn le hacemos la transformacin yi = xi + b, y si denotamos porCVy al coeficiente de variacin de las y1, y2, ... yn, entonces
Si a la muestra x1, x2, ..., xn le hacemos la transformacin yi = xi + b, y si denotamos porCVy al coeficiente de variacin de las y1, y2, ... yn, entonces
38
-
8/4/2019 Libroestdescriptiva2009 Ing
39/45
Adems, y como es de prever, es invariante bajo cambio de escala, es decir si yi = a xientonces CVy = CVx. En efecto, viene del hecho de que Sy = a Sx y de que y = a x
En definitiva, si tenemos dos tipos de observaciones diferentes, esto es que miden dosatributos X e Y diferentes, entonces con el clculo de los coeficientes de variacin
respectivos podemos tener una medida de que tipo de atributo est ms disperso (entorno de la media) en comparacin con el otro atributo. Esto es si CVx < CVy entonces losdatos relativos al atributo Y estn ms dispersos que los datos del atributo X.
Generalmente el coeficiente de variacin nos sirve para comparar la variacin de dos oms conjuntos de datos
Ejemplo 13.- Determinar las medidas de dispersin del ejemplo 4, ingresos de losejecutivos para datos sin agrupar y agrupados.
Tabla 11.
Medidas de dispersinMedidas de dispersin Datos no agrupados Datos agrupados
Rango o recorrido 58 90
Desviacin media 12,2783 12,4056
Varianza 217,0475 226,9722
Desviacin estndar 14,7325 15,0656
39
-
8/4/2019 Libroestdescriptiva2009 Ing
40/45
Asimetra y apuntamientoSabemos cmo calcular valores alrededor de los cuales se distribuyen las observacionesde una variable sobre una muestra y sabemos cmo calcular la dispersin que ofrecenlos mismos con respecto al valor de central. Nos proponemos dar un paso ms all en elanlisis de la variable. En primer lugar, se estudia si la distribucin de los datos es la
simetra. Un conjunto de datos que no se distribuye simtricamente, se llama asimtrico.La asimetra puede verse en el diagrama de tallo y hoja o en el histograma. Tambinpuede verse a travs de la posicin relativa entre la media y la mediana.
Estadsticos de asimetraPara saber si una distribucin de frecuencias es simtrica, hay que precisar con respectoa qu. Un buen candidato es la mediana, ya que para variables continuas, divide alhistograma de frecuencias en dos partes de igual rea. Podemos basarnos en ella para,de forma natural, decir que una distribucin de frecuencias es simtrica si el ladoderecho de la grfica (a partir de la mediana) es la imagen por un espejo del ladoizquierdo.
Distribucin Simtrica
0
1
2
3
4
5
6
7
1 2 3 4 5 6 7
Dentro de los tipos de asimetra, vamos a destacar los dos fundamentales:
Asimetra positivaSi las frecuencias ms altas se encuentran en el lado izquierdo de la media, mientras queen derecho hay frecuencias ms pequeas (cola)
Distribucin Asimtr ica Positiva
0
2
4
6
8
1012
1 2 3 4 5 6 7
40
-
8/4/2019 Libroestdescriptiva2009 Ing
41/45
Asimetra negativaSi las frecuencias ms altas se encuentran en el lado derecho de la media, mientras queen el izquierdo hay frecuencias ms pequeas (cola)
Distribucin Asimtrica Negativa
0
2
4
6
8
10
12
1 2 3 4 5 6 7
Cuando realizamos un estudio descriptivo es altamente improbable que la distribucinde frecuencias sea totalmente simtrica. En la prctica diremos que la distribucin defrecuencias es simtrica si lo es de un modo aproximado. Por otro lado, an observandocuidadosamente la grfica, podemos no ver claro de qu lado estn las frecuencias msaltas. Conviene definir entonces unos estadsticos que ayuden a interpretar la asimetra,a los que llamaremos ndices de asimetra, y que denotaremos mediante As.
3
3
X
SSMA = donde
n
n)xx(
M
n
)xx(
M
n
ii
pi
p
n
i
pi
p
=
=
=
=
1
1
es denominado el psimo momento central (alrededor de la media) y
33))X(V(SX =
Apoyndonos en este ndice, diremos que hay asimetra positiva si 0>As , y que laasimetra es negativa si 00 =< ss AsiyA la distribucin es simtrica.
En las distribuciones sesgadas negativamente siempre la media est a la izquierda de lamediana y la moda a la derecha de ella. En las distribuciones sesgadas positivamente lamoda est a la izquierda de la mediana y la media a la derecha de la mediana.
41
-
8/4/2019 Libroestdescriptiva2009 Ing
42/45
Curva bimodal (simtrica o asimtrica por estratos):
0
0.1
0.2
0.3
0.4
0.5
-3 2
Estadsticos de apuntamiento
Uno de los coeficientes que nos indica el apuntamiento de una distribucin de frecuenciaes el coeficiente de aplastamiento de Fisher o coeficiente de curtosis definido por:
2
2
4
M
MK=
De este modo, las distribuciones de frecuencias se clasifican en:1) Leptocrtica: cuando, K>0, o sea, si la distribucin de frecuencias es ms apuntada
que la normal:
2) Mesocrtica: cuando K=0, es decir, cuando la distribucin de frecuencias es tanapuntada como lo normal;3) Platicrtica: cuando K
-
8/4/2019 Libroestdescriptiva2009 Ing
43/45
Medidas descriptivas de la variable Ingreso de los Ejecutivos
Media 62,05 Rango 58
Mediana 65 Mnimo 31
Moda 69 Mximo 89
Desviacin estndar 14,8569 Suma 3723Varianza de la muestra 220,7263 Cuenta 60Curtosis -0,727577
Coeficiente de asimetra -0,451824
Se aprecia que el ingreso promedio de los ejecutivos es de US$ 625000, con unadesviacin estndar de US$ 14857.El valor de la mediana es de US$ 65000 es decir el 50% de los ejecutivos tienen uningreso de a lo mas este valor y el otro 50% tienen un ingreso mayor a este valor.El ingreso mas frecuente es de US$ 69000.
Como el valor de la curtosis es menor que 3 la curva es leptocrtica.El coeficiente de asimetra es negativo la curva o histograma es asimtrico a izquerda loque significa que hay una mayor variacin de los ingresos en los entre los ejecutivos demenor ingreso.
43
-
8/4/2019 Libroestdescriptiva2009 Ing
44/45
Cmo Construir un BoxPlotUn BoxPlot es un grfico que tiene muchas caractersticas. Incluye la presencia deposibles outliers. Muestra el rango de los datos. Muestra una medida de dispersin talcomo el cuartl superior, cuartl inferior y los rangos intercuartiles (RIC) de un conjunto dedatos, as como tambin a la mediana como medida central ubicacin, el cual es til para
comparar grupos de datos. Tambin indica acerca de la simetra o de la asimetra de ladistribucin. La razn principal de utilizar los boxplots es porque ofrecen muchainformacin de una manera compacta.
Pasos para Construir un Boxplot1.- Calcular los 3 cuartiles (Q1, Q2, y Q3). La porcin central de la distribucin que seencuentre entre Q1 y Q3 se representa por una caja (no interesa el ancho de ella). Dentrode esta caja se ubica el valor de la mediana (Q2).
2.- Calcular el recorrido intercuartlico (Q).
3.- Calcular las barreras internas BI1 y BI2en la forma:
BI1 = Q1 1.5Q
BI2= Q3 + 1.5Q
4.- Calcular las barreras externas BE1 y BE2en la forma:
BE1 = Q1 3 QBE2= Q3 + 3Q
5.- Identifique lospuntos adyacentes
Se llamanpuntos adyacentes al mnimo y mximo dato que se encuentran dentro de lasbarreras internas. Desde los extremos de la caja se trazan lneas hasta los respectivosvalores adyacentes. A estas lneas se les llama antenas o bigotes.
6.- Identificar lospuntos atpicos y extremos:
Se llaman puntos atpicos o outliers a aquellos datos que se encuentran fuera de lasbarreras internas y dentro de las barreras externas. Se llaman puntos extremos aaquellos puntos ubicados fuera de las barreras externas.
Un punto atpico o extremo puede deberse, por ejemplo, a una mala lectura, mal registro,causa fortuita, etc. Este tipo de datos no puede eliminarse inmediatamente sin un anlisispreliminar de las causas que lo originan.
A travs de un grfico caja podemos identificar el tipo de asimetra de una distribucin defrecuencias unimodal de la siguiente manera:
i) Si la posicin de la mediana se encuentra en la mitad de la caja y las antenastiene la misma longitud, la distribucin es simtrica.
44
-
8/4/2019 Libroestdescriptiva2009 Ing
45/45
ii) Sil a posicin de la mediana se encuentra ubicada ms cerca del primer cuartil y laantena superior es de mayor longitud que la antena inferior, la distribucinpresenta sesgo positivo.
iii) Si la posicin de la mediana se encuentra ubicada ms cerca del tercer cuartil y laantena superior es de menor longitud que la antena inferior, la distribucin
presenta sesgo negativo.
Ejemplo 15.- El grfico de caja para el ejemplo 3 (ingreso de los ejecutivos) es:
Box Plot Ingresos Ejecutivos
Mediana= 65
Q1 = 51
Q3 = 74
No hay puntos outlierIngreso Ejecutivos
20
30
40
50
60
70
80
90
100
110