Estadística descriptiva

28
Autor: Abel Barrantes Herrera Página 1 Tema : Estadística Descriptiva Estadística Descriptiva La Estadística Descriptiva es la parte de la estadística que trata de la colección, organización, análisis e interpretación de los datos. Colección de datos es el proceso de obtener información por medidas o conteos o clasificaciones. La conclusiones serán validas si los datos son representativos y la colección se ha hecho de manera correcta. Organización de los datos es el proceso de presentar los datos en una forma apropiada para poder analizarlos y llegar a conclusiones lógicas. Los métodos más representativos de presentar los datos son tablas y gráficos Análisis de los datos es el proceso de extraer información relevante a partir de la cual podamos formular una clara descripción de su comportamiento. Interpretación de los datos es la tarea de derivar conclusiones basadas en el análisis de los datos y que usualmente incluye predicciones acerca de un gran conjunto de datos basados en el estudio de una pequeña parte de ellos. Colección de datos: Población y Muestra Población o universo es la totalidad de elementos que tienen una determinada característica susceptible de ser estudiada. Por ejemplo : a) La población de todas las cuentas de ahorro del Banco de la Nación b) La población de los glóbulos rojos de un paciente del IPSS c) La población de la pesca anual de anchoveta en los puertos del litoral peruano Muestra es el conjunto de datos (observaciones), extraído de población; la muestra es un subconjunto de la población. La distinción entre muestra y población depende del objeto del estudio, así si se desea estudiar la estatura de los alumnos de secundaria del distrito del Rimac, entonces las mediciones de todos los alumnos de ese distrito constituyen una población, pero si el estudio se realiza para toda Lima Metropolitana, esas mediciones constituyen una muestra. Dato estadístico.- Son medidas fruto de observaciones que pueden ser comparados, analizados e interpretados. Un número aislado que no tenga relación significativa con otros números, o que no pueda ser comparado con otros números no es un dato estadístico. Clasificación de variables 1. Variables cualitativas.- son aquellas cuyos valores son categorías de clasificación referidas a una cualidad de la población por ejemplo la variable “Sexo” puede asumir los valores: Masculino ó Femenino; la variable “Clase social” puede asumir los valores: Alta, Media, Baja. Estas variables se subdividen en: a) Variables cualitativas nominales.- Cuando sólo se cuenta el número de observaciones de cada categoría y no hay ningún orden en las posibles modalidades, por ejemplo “Color de cabello” con sus posibles modalidades: Negro, Castaño, Rubio, etc.

Transcript of Estadística descriptiva

Page 1: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 1

Tema : Estadística Descriptiva

Estadística Descriptiva

La Estadística Descriptiva es la parte de la estadística que trata de la colección, organización, análisis e interpretación de los datos.

Colección de datos es el proceso de obtener información por medidas o conteos o clasificaciones. La conclusiones serán validas si los datos son representativos y la colección se ha hecho de manera correcta.

Organización de los datos es el proceso de presentar los datos en una forma apropiada para poder analizarlos y llegar a conclusiones lógicas. Los métodos más representativos de presentar los datos son tablas y gráficos

Análisis de los datos es el proceso de extraer información relevante a partir de la cual podamos formular una clara descripción de su comportamiento.

Interpretación de los datos es la tarea de derivar conclusiones basadas en el análisis de los datos y que usualmente incluye predicciones acerca de un gran conjunto de datos basados en el estudio de una pequeña parte de ellos.

Colección de datos: Población y Muestra

Población o universo es la totalidad de elementos que tienen una determinada característica susceptible de ser estudiada. Por ejemplo :

a) La población de todas las cuentas de ahorro del Banco de la Nación

b) La población de los glóbulos rojos de un paciente del IPSS

c) La población de la pesca anual de anchoveta en los puertos del litoral peruano

Muestra es el conjunto de datos (observaciones), extraído de población; la muestra es un subconjunto de la población.

La distinción entre muestra y población depende del objeto del estudio, así si se desea estudiar la estatura de los alumnos de secundaria del distrito del Rimac, entonces las mediciones de todos los alumnos de ese distrito constituyen una población, pero si el estudio se realiza para toda Lima Metropolitana, esas mediciones constituyen una muestra.

Dato estadístico.- Son medidas fruto de observaciones que pueden ser comparados, analizados e interpretados. Un número aislado que no tenga relación significativa con otros números, o que no pueda ser comparado con otros números no es un dato estadístico.

Clasificación de variables

1. Variables cualitativas.- son aquellas cuyos valores son categorías de clasificación referidas a una cualidad de la población por ejemplo la variable “Sexo” puede asumir los valores: Masculino ó Femenino; la variable “Clase social” puede asumir los valores: Alta, Media, Baja. Estas variables se subdividen en:

a) Variables cualitativas nominales.- Cuando sólo se cuenta el número de observaciones de cada categoría y no hay ningún orden en las posibles modalidades, por ejemplo “Color de cabello” con sus posibles modalidades: Negro, Castaño, Rubio, etc.

Page 2: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 2

Tema : Estadística Descriptiva

b) Variables cualitativas ordinales.- donde no solo se clasifica sino que se ordena en términos del grado que posee una característica, ejemplo: “Grado de Instrucción”con las posibles modalidades Primaria, Secundaria, Superior

2. Variable cuantitativas.- se obtienen de mediciones o conteos y se subdividen en:

a) Variable discretas.- que toman valores aislados y son susceptibles de ser contados. Ejemplo número de pacientes ambulatorios en un hospital del IPSS, Número de aviones que llegan a un aeropuerto en un día dado, Número de accidentes de tránsito en una ciudad durante un periodo de tiempo dado

b) Variables continuas.- que si asumen dos valores cualquiera, asumen todos los valores intermedios. Ejemplo: peso de los estudiantes de ingeniería de la UTP, Estatura de los alumnos de secundaria de Lima Metropolitana, etc.

Organización de los datos

La presentación de los datos es una forma importante de ayudarnos a comprenderlos e interpretarlos correctamente. Dos métodos son los mas comunes de presentar los datos cuantitativos, uno de ellos son los cuadros ó tabulaciones y el otro son los gráficos y diagramas. La representación de los datos por cualquiera de estos métodos esta orientada sobre todo a la mejor comprensión de la información en análisis.

Métodos de presentación de datos

Ejemplo de tabulación 1: las notas de un examen rendido por 150m alumnos son mostrados en el cuadro 1:

Nota 6 7 8 9 10 11 12 13 14 15 16 18

Alumnos 3 9 12 18 25 26 21 15 11 4 4 2

CUADRO 1

Esta tabla puede graficarse como un diagrama de barras

0

5

10

15

20

25

30

6 7 8 9 10 11 12 13 14 15 16 18

de A

lum

no

s

Notas

GRAFICO 1

Page 3: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 3

Tema : Estadística Descriptiva

Supongamos ahora que tenemos las tierras de cultivo en hectáreas de los siguientes departamentos

Departamento Tierra de Cultivo

1000Ha

Tumbes 1360

Piura 1840

Lambayeque 1570

Cajamarca 1970

La Libertad 2100

Gráfico de barras

Grafico de sectores

0 500 1000 1500 2000 2500

Tumbes

Piura

Lambayeque

Cajamarca

La Libertad

1000Ha

Tierras de Cultivo

Page 4: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 4

Tema : Estadística Descriptiva

ANÁLISIS DE LOS DATOS

El análisis de los datos pasa necesariamente por determinar un “centro” de los datos y que tan juntos o distantes están los datos entre si, es decir que tan dispersos están los datos. Las medidas de centralización y dispersión responden a diversos criterios que veremos a continuación.

Los datos de una variable discreta aparecen 1 2, , , nx x x dato por dato, ó

indicando cuantas veces se repite cada dato 1 1 2 2( , );( , ); ;( , )k kx f x f x f donde los

if indican las veces que se repite el i-ésimo dato y se denomina como

Frecuencia Absoluta

Si 1

k

i

i

n f

, (total de los datos), al cociente ii

fh

n lo denominamos frecuencia

relativa, cumpliéndose 1

1k

ih

Definimos adicionalmente las frecuencias acumuladas:

1

l

l i

i

F f

Frecuencia absoluta acumulada, hasta el dato lx ;

1

l

l i

i

H h

Frecuencia relativa acumulada, hasta el dato lx

En este caso los datos se tabulan mostrando las frecuencias. Para el caso del ejemplo 1 tenemos:

i

Nota

ix

Frecuencia

Absoluta

if

Frecuencia

Absoluta

Acumulada iF

Frecuencia

Relativa

ih

Frecuencia

Relativa

Acumulada iH

1 06 3 3 0.020 0.020

Tierras de Cultivo

Tumbes

Piura

Lambayeque

Cajamarca

La Libertad

Page 5: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 5

Tema : Estadística Descriptiva

2 07 9 12 0.060 0.080

3 08 12 24 0.080 0.160

4 09 18 42 0.120 0.280

5 10 25 67 0.167 0.447

6 11 26 93 0.173 0.620

7 12 21 114 0.140 0.760

8 13 15 129 0.100 0.860

9 14 11 140 0.073 0.933

10 15 4 144 0.027 0.960

11 16 4 148 0.027 0.987

12 18 2 150 0.013 1.000

Σ 150 1.000

Los datos de una variable continua aparecen agrupados en clases de manera que cada clase se representa por un intervalo cerrado a la izquierda , abierto a

la derecha cumpliéndose que 1 1 2 2[ , ) [ , ) [ , )k ka b a b a b cubre todos los

datos. La frecuencia absoluta if de un intervalo es el número de datos que

cumplen con i ia x b

Para cada intervalo ó clase definimos:

il : Límite inferior de la clase i

iL : Límite superior de la clase i

2

i ii

l Lx

: Marca de la clase i (punto medio del intervalo)

i i iC L l Ancho de la clase i

if : frecuencia absoluta de la clase i, siendo 1

k

i

i

n f

ii

fh

n : frecuencia relativa de la clase i, se cumple que

1

1k

ih

1

l

l i

i

F f

Frecuencia absoluta acumulada de la clase l

1

l

l i

i

H h

Frecuencia relativa acumulada de la clase l

Ejemplo de datos agrupados. Sean las notas de un examen :

Notas Frecuencia

Page 6: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 6

Tema : Estadística Descriptiva

90 –99 2

80-89 6

70-79 12

60-69 20

50-59 10

40-49 2

Para tabular estos datos es necesario modificar los intervalos conforme a lo definido anteriormente.

Los nuevos intervalos serán:

[39.5,49.5); [49.5,59.5);[59.5,69.5);....[89.5,99.5)

Definidos los límites de cada clase es posible formar el cuadro de frecuencias

Cuadro De Frecuencias ó Histograma de frecuencias

i

Límite inf.

De Clase

il

Límite Sup.

De Clase

iL

Marca de Clase

ix

Frecuencia

Absoluta

if

Frecuencia

Absoluta Ac.

iF

Frecuencia

Relativa

ih

Frecuencia

Relativa Ac

iH

1 39.5 49.5 44.5 2 2 0.04 0.04

2 49.5 59.5 54.5 10 12 0.20 0.24

3 59.5 69.5 64.5 18 30 0.36 0.60

4 69.5 79.5 74.5 12 42 0.24 0.84

5 79.5 89.5 84.5 6 48 0.12 0.96

6 89.5 99.5 94.5 2 50 0.04 1.00

Page 7: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 7

Tema : Estadística Descriptiva

0

2

4

6

8

10

12

14

16

18

20

44.5 54.5 64.5 74.5 84.5 94.5

GRAFICO DE BARRAS - FRECUENCIAS ABSOLUTAS

Page 8: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 8

Tema : Estadística Descriptiva

Medidas de Centralización.- Las medidas de centralización buscan ubicar un punto central entre los datos analizados. La determinación de este punto se hace por diversos criterios:

1. Media Aritmética

1

1 n

ix xn

para datos no agrupados

1

1 n

i ix f xn

para datos agrupados

1

1

1 k

i ik

i

x f x

f

para datos agrupados en k clases, donde ix es

la marca de clase

Propiedades:

(i) 1

( ) 0n

i if x x

(ii) Para un conjunto de datos la media es única

(iii) Si un valor se modifica la media también se modifica

(iv) 2 2

1 1

( ) ( )n n

i i i if x x f x B B significando que la media

aritmética es el punto que minimiza la suma de los cuadrados de las distancias de los datos a un punto dado

(v) Si a todos los valores de una variable X se les suma (resta) una constante C, entonces la media aritmética aumenta (disminuye) en C

si y x C y x C

(vi) Si los valores se multiplican por una constante la media queda multiplicada por dicha constante

si y Cx y Cx

Ejemplos: sean los datos

Page 9: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 9

Tema : Estadística Descriptiva

Media ponderada.- Si 1 2, , , rx x x son las medias aritméticas

de conjuntos de tamaño 1 2, , , rn n n ; respectivamente, entonces

la media ponderada pX está dada por:

1 1 2 2

1 2

r rp

r

n x n x n xX

n n n

2. Mediana

Para datos sueltos

Si la variables es discreta, se procede a ordenar los datos en forma ascendente ó descendente y se define

1

2

( ) nMed x x cuando n es impar

12 2( )

2

n nx x

Med x

Para datos agrupados (la variables es continua ó se considera continua) la mediana es el punto que divide a los datos en 2 partes iguales 50% antes, 50% después.

Resolveremos el caso de manera genérica, para dividir los datos en 2 partes %p a la derecha, 100 %p a la izquierda. Al número p le llamamos

percentil y lo denominamos por pP .

a) Calcular /100p donde p = 1,2,....,100

b) Se identifica la clase que contiene al percentil analizando su frecuencia relativa acumulada. Esta clase, a la que denominaremos por k es la que cumple con:

1 /100k kH p H

c) Conocida la clase donde se encuentra el percentil, lo calculamos por una simple regla de tres dividiendo la fracción del percentil contenida en dicha clase entre la frecuencia relativa de la clase y multiplicando este cociente por el ancho de clase.

1

1

100k

p k k

k k

pH

X l CH H

Page 10: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 10

Tema : Estadística Descriptiva

ó también, si deseamos expresarlo en términos de frecuencias absolutas

1

1

*

100k

p k k

k k

p nF

X l CF F

Donde :

kl es el límite inferior de la clase que contiene a p

n es el numero total de datos

kC es el ancho de la clase que contiene a p

kH es la frecuencia relativa acumulada de la clase que contiene a p

1kH es la frecuencia relativa acumulada de la clase anterior de la

clase que contiene a p

kF es la frecuencia relativa acumulada de la clase que contiene a p

1kF es la frecuencia relativa acumulada de la clase anterior de la

clase que contiene a p

Esta fórmula permite calcular la mediana (caso 50P )

Propiedades de la mediana

(i) 1 1

| ( ) | | |k k

i i i if x Med x f x A A

(ii) La mediana depende del número de valores observados y no del tamaño de los valores extremos

(iii) La mediana no es adecuada para operaciones algebraicas

Nota esta fórmula es aplicable a todo los percentil, especialmente a :

Primer cuartil = 25P

Tercer cuartil = 75P

Primer decil = 10P , etc.

Page 11: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 11

Tema : Estadística Descriptiva

3. La Moda

Para el caso de datos sueltos la moda es el dato que mas veces se repite, puede no ser única.

Una distribución con una moda se denomina unimodal

Una distribución con dos modas se denomina bimodal

Una distribución con tres modas se denomina trimodal, etc.

Para calcular la moda con datos continuos agrupados en clases:

a) Identificar la clase modal Cm (la de mayor frecuencia) b) Usar la fórmula

1

1 2

( ) m mModa X l C

donde:

ml es el límite inferior de la clase modal

mC es el ancho de la clase modal

1 1Mo Mof f siendo Mof la frecuencia de la clase modal, 1Mof la

frecuencia de la clase anterior a la clase modal

2 1Mo Mof f siendo Mof la frecuencia de la clase modal, 1Mof la

frecuencia de la clase posterior a la clase modal

Propiedades

(i) El valor de la moda es independiente de los valores extremos (ii) Varía si cambia el intervalo de clase (iii) No se presta a manipulaciones algebraicas

Relación entre Media, Mediana y Moda

a) Para el caso

( ) ( )x Med x Moda x

La distribución es simétrica

b) Para el caso

Page 12: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 12

Tema : Estadística Descriptiva

( ) ( )x Med x Moda x

La distribución es sesgada a la derecha

c) Para el caso

( ) ( )x Med x Moda x

La distribución es sesgada a la izquierda

Nota sesgo significa donde está la mayor cola

4. Media Armónica

Si tenemos datos sueltos

1 2, , , kx x x con frecuencias 1 2, , , kf f f definimos la media

armónica por la fórmula

1 2

1 2

1

( ) ;k

k

k

i

nMh x

ff f

x x x

n f

5. Media Geométrica

La media geométrica para n datos sueltos 1 2, , , nx x x se define por:

1 2( ) * * *nnMG X x x x

Si los datos están agrupados en frecuencias, entonces

1 2

1 2( ) * * * kff fnkMG X x x x

donde 1

k

i

i

n f

Si aplicamos logaritmos a esta última fórmula

1 1 2 2 1

( )( ) ( ) ( )

( ( ))

k

i i

k k i

f Log xf Log x f Log x f Log x

Log MG Xn n

Page 13: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 13

Tema : Estadística Descriptiva

de donde 1 1

( )

( )

k

i i

i

f Log x

MG X Logn

de donde concluimos que la media geométrica es el antilogaritmo de la media aritmética de los logaritmos de los datos en análisis.

Propiedades

i. Si ( )

( )( )

ii

i

X MG XZ MG Z

Y MG Y

ii. El cálculo está basado en todos los datos u observaciones iii. No es aplicable a datos negativos iv. Si uno de los datos es 0 la media geométrica es 0 v. Es de utilidad cuando se aplica para promediar proporciones

NOTA.- la relación entre las medias es: ( ) ( )Mh X MG X X

6. Media Cuadrática

La media cuadrática para n datos sueltos 1 2, , , nx x x se define por:

2 2 2

1 2( ) nx x xMQ X

n

Si los datos están agrupados en frecuencias, entonces

2 2 2

1 1 2 2( ) k kf x f x f xMQ X

n

donde 1

k

i

i

n f

Medidas de Dispersión.- Las medidas de dispersión buscan definir que tan cerca (lejos) se encuentran los datos de su centro.

1. ( ) ( )Rango Max X Min X

2. Recorrido intercuartílico

3 1iQ Q Q

3. Recorrido semi-intercuartílico

Page 14: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 14

Tema : Estadística Descriptiva

3 1

2is

Q QQ

4. Desviación Media a un punto r

1

( ) | |k

M i iD r h x r

En el caso de datos agrupados xi es la marca de clase. Son de interés los casos cuando r es la media, la mediana, o la moda

Nótese que la Desviación Media usa todos los datos.

5. Varianza

a) Para datos sueltos:

2

2 1

( )

1

n

ix x

Sn

b) Para datos agrupados en frecuencias

2

2 1

( )

1

k

i if x x

Sn

c) Para datos agrupados en k clases

2

2 1

( )

1

k

i if x x

Sn

, donde ix es

la marca de clase

d) Llamamos Desviación Estándar a 22S S

Propiedades

i) 2 0S Para que sea 0 es necesario que 1 1 nx x x Cte

ii) Se tiene

( ) ( )Var x c Var x

Demostración:

( )Media x c x c

2

1

[( ) ( )]

( )1

k

i i if x c Media x c

Var x cn

2

1

[( ) ( )]

( )1

k

i i if x c x c

Var x cn

Page 15: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 15

Tema : Estadística Descriptiva

2

1

( )

( ) ( )1

k

i i if x x

Var x c Var xn

2( ) ( )Var cx c Var x

La demostración es similar usando ( )Media cx cx

iii) 2( ) ( )Var aX b a Var X para a y b constantes

iv) Para distribuciones simétricas se cumple que:

El 68.27% delos datos X S

El 95.45% de los datos 2X S

El 99.73% de los datos 3X S

v) Si conocemos 1 2,x x las medias y 2 2

1 2,S S las varianzas de dos

muestras de tamaño n1, n2, respectivamente, entonces:

2 22 21 1 2 22 1 1 2 2

1 2 1 2

( ) ( )( 1) ( 1)

1 1

p pn x x n x xn S n SS

n n n n

Esto se puede generalizar considerando 1 2, , , lx x x las medias y 2 2 2

1 2, , , lS S S las varianzas de l muestras de tamaño 1 2, , , ln n n

respectivamente, entonces

2 2

2 1 1

( 1) ( )

1 1

l l

i i i i pn S n x x

Sn n

, siendo

1

l

in n

2

1

( 1)

var1

l

i in S

Intra ianzan

2

1

( )

var1

l

i i pn x x

Inter ianzan

Medidas de dispersión relativa

Coeficiente de Variación

. .S

CVx

Page 16: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 16

Tema : Estadística Descriptiva

Considerando si . . 50%CV alto grado de dispersión

Momentos

Sean 1 2, , , kx x x valores de la variable X con frecuencias absolutas 1 2, , , kf f f ;

respectivamente. Definimos el momento de orden m respecto del punto C:

1 1

1

1

( ) ( )

( ) ( )

k kr r

i i i i kr

r i ik

i

f x C f x C

M C h x Cn

f

La interpretación es similar a la interpretación física, si consideramos a ih como

la masa concentrada en el punto ix y a ( )ix C la distancia de ix al punto C .

Así tenemos una similitud con los momentos de masa usados en física.

Son de particular interés los momentos respecto del origen (cuando 0C )

denominados rM y los momentos respecto de la media (C x ) denominados

rM teniéndose:

0 0

1 10 0

1 1

1 11 1

2 2

1 12 2

( )

1 1

( )

0

( )

( )

k k

i i i i

k k

i i i i

k k

i i i i

f x f x x

M Mn n

f x f x x

M x Mn n

f x f x x

M M Var Xn n

Page 17: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 17

Tema : Estadística Descriptiva

Medidas de Asimetría

Las medidas de dispersión nos muestran la magnitud de las variaciones sin indicarnos la dirección hacia donde ocurren. Las medidas de asimetría indican la deformación horizontal de las curvas de frecuencias, así sin la curva es alargada a la derecha decimos que tiene asimetría a la derecha o positiva, si es alargada a la izquierda decimos que tiene asimetría a la izquierda o negativa.

Coeficientes de Asimetría

Cuando disponemos de los valores de la media, moda, mediana, cuartiles y desviación estándar y la distribución es unimodal, debemos usar:

Primer coeficiente de Pearson

( ) ( )s

Media X Moda XA

S

En el caso que no podamos calcular la media ni la distribución estándar,

Segundo coeficiente de Pearson

3 1

3 1

2 ( )s

Q Q Mediana XA

Q Q

La lectura de los coeficientes es:

Si 0sA la distribución es simétrica

Si 0sA la distribución es sesgada al lado derecho

Si 0sA la distribución es sesgada al lado izquierdo

Coeficiente de Fisher

3

3 1

3 3

( )k

i i

s

f x xM

AS nS

Un valor | | 1kS indica una distribución altamente asimétrica, una distribución

con 1 | | 1/ 2kS indica una asimetría moderada, y si 1/ 2 | | 0kS la

distribución es simétrica

Medidas de Curtosis

Curtosis es el grado de deformación vertical (apuntamiento) esto es que tan alargadas hacia arriba ó aplanadas son las distribuciones de frecuencias.

Page 18: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 18

Tema : Estadística Descriptiva

Según el grado de apuntamiento las curvas se clasifican en Leptocúrticas, si su apuntamiento es alto, Mesocúrticas si su apuntamiento es medio y platicúrticas si son mas bien aplanadas. El siguiente cuadro muestra los tres casos

Una de las medidas de curtosis está dada por el coeficiente

3 1

90 102( )

Q Qk

P P

donde

Si K > 0.263 la curva de la distribución es leptocúrtica

Si k = 0.263 la curva de la distribución es mesocúrtica

Si k < 0.263 la curva de la distribución es platicúrtica

Otra forma de medir la curtosis es usando 4

4t

MK

S Esta medida es siempre

positiva y se interpreta por

Si 3tK la curva de la distribución es leptocúrtica

3Q : Cuartil 3° 1Q : Cuartil 1°

90P : Percentil 90 10P : Percentil 10

Page 19: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 19

Tema : Estadística Descriptiva

Si 3tK la curva de la distribución es mesocúrtica

Si 3tK la curva de la distribución es platicúrtica

Page 20: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 20

Tema : Estadística Descriptiva

Ejemplos

CALCULO DE MEDIDAS DE CENTRALIZACIÓN

CALCULO DE LA MODA.- Sea el cuadro de frecuencias

De a Marca de clase

Frecuencia relativa

Frecuencia relativa ac.

Frecuencia Absoluta

Frecuencia Absoluta ac.

1 0.50 2.50 1.50 0.02 0.02 4 4

2 2.50 4.50 3.50 0.10 0.12 20 24

3 4.50 6.50 5.50 0.20 0.32 40 64

4 6.50 8.50 7.50 0.16 0.48 32 96

5 8.50 10.50 9.50 0.40 0.88 80 176

6 10.50 12.50 11.50 0.10 0.98 20 196

7 12.50 14.50 13.50 0.02 1.00 4 200

Sumas 1 200

Clase modal : 5ª (la de mayor frecuencia absoluta ó relativa)

Fórmula

1

1 2

( ) m mModa X l C

donde:

ml es el límite inferior de la clase modal 8.5ml

mC es el ancho de la clase modal 2mC

1 1Mo Mof f siendo Mof la frecuencia de la clase modal, 1Mof la

frecuencia de la clase anterior a la clase modal

1 1 80 32 48Mo Mof f

2 1Mo Mof f siendo Mof la frecuencia de la clase modal, 1Mof la

frecuencia de la clase posterior a la clase modal

2 1 80 20 60Mo Mof f

1

1 2

48( ) 8.5 2 9.39

48 60m mModa X l C

Page 21: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 21

Tema : Estadística Descriptiva

CALCULO DE LA MEDIANA

De a Marca de clase

Frecuencia relativa

Frecuencia relativa ac.

Frecuencia Absoluta

Frecuencia Absoluta ac.

1 0.50 2.50 1.50 0.02 0.02 4 4

2 2.50 4.50 3.50 0.10 0.12 20 24

3 4.50 6.50 5.50 0.20 0.32 40 64

4 6.50 8.50 7.50 0.16 0.48 32 96

5 8.50 10.50 9.50 0.40 0.88 80 176

6 10.50 12.50 11.50 0.10 0.98 20 196

7 12.50 14.50 13.50 0.02 1.00 4 200

Sumas 1 200

Clase Mediana: 5ª (la menor de las clases cuya frecuencia relativa acumulada es mayor ó igual a 0.5 )

Usamos la fórmula para percentíles recordando que la mediana es el percentil 50 (p = 50)

1

1

100k

i k k

k k

pH

p l CH H

Donde :

kl es el límite inferior de la clase que contiene a p 8.5kl

n es el numero total de datos

kC es el ancho de la clase que contiene a p 2kC

kH es la frecuencia relativa acumulada de la clase que contiene a p

0.88kH

1kH es la frecuencia relativa acumulada de la clase anterior de la

clase que contiene a p 1 0.48kH

1

1

0.50 0.48100( ) 8.5 2 8.60.88 0.48

k

k k

k k

pH

Med X l CH H

Page 22: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 22

Tema : Estadística Descriptiva

Page 23: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 23

Tema : Estadística Descriptiva

CALCULO DE LA MEDIA

De a Marca de clase

Frecuencia relativa

Frecuencia Relativa Ac.

Frecuencia Absoluta

Frecuencia Absoluta Ac. Xi*hi

1 0.50 2.50 1.50 0.02 0.02 4 4 0.03

2 2.50 4.50 3.50 0.10 0.12 20 24 0.35

3 4.50 6.50 5.50 0.20 0.32 40 64 1.1

4 6.50 8.50 7.50 0.16 0.48 32 96 1.2

5 8.50 10.50 9.50 0.40 0.88 80 176 3.8

6 10.50 12.50 11.50 0.10 0.98 20 196 1.15

7 12.50 14.50 13.50 0.02 1.00 4 200 0.27

Sumas 1 200 7.9

1 1

1

1 k k

i i i ik

i

x f x h x

f

para datos agrupados en k clases,

donde ix es la marca de clase

En este caso 7.9x

Page 24: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 24

Tema : Estadística Descriptiva

CALCULO DE LAS MEDIDAS DE DISPERSION

De A Marca de clase

Frec. relativa

Frec. relat. ac.

Frec. Abs.

Frec. Abs. ac. *i ix h ix x

2( )ix x 2( )i ih x x

1 0.50 2.50 1.50 0.02 0.02 4 4 0.03 -6.40 40.96 0.8192

2 2.50 4.50 3.50 0.10 0.12 20 24 0.35 -4.40 19.36 1.9360

3 4.50 6.50 5.50 0.20 0.32 40 64 1.1 -2.40 5.76 1.1520

4 6.50 8.50 7.50 0.16 0.48 32 96 1.2 -0.40 0.16 0.0256

5 8.50 10.50 9.50 0.40 0.88 80 176 3.8 1.60 2.56 1.0240

6 10.50 12.50 11.50 0.10 0.98 20 196 1.15 3.60 12.96 1.2960

7 12.50 14.50 13.50 0.02 1.00 4 200 0.27 5.60 31.36 0.6272

Sumas 1 200 7.9 6.8800

CALCULO DE LA VARIANZA

2 2

2 1 1

22

( ) ( )

1 1

k k

i i i if x x n h x x

Sn n

S S

Siendo S la Desviación Estándar

En este caso 2 200*6.88 6.91

199S

2.63S

MEDIDAS DE DISPERSIÓN RELATIVAS:

CALCULO DEL COEFICIENTE DE VARIACIÓN

Coeficiente de variación 2.63

. . 33.27%7.9

SCV

x

Page 25: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 25

Tema : Estadística Descriptiva

PROBLEMAS RESUELTOS

1. La medida de los diámetros de un conjunto de rodamientos está dada por la siguiente tabla

De A frecuencia

2.35 2.45 7

2.45 2.55 13

2.55 2.65 19

2.65 2.75 23

2.75 2.85 17

2.85 2.95 7

2.95 3.05 4

a) Calcular la media b) Calcular la mediana c) Calcular la moda d) Calcular los cuartiles 1° y 3° e) Calcular los percentil 90 y 10 f) Evaluar la Asimetría g) Evaluar la Curtosis h) Calcular el Coeficiente de Variación

SOLUCION

El cuadro de frecuencias es:

i li Li fi Fi hi Hi Xi Xi*hi fi*(Xi - X)^2

1 2.35 2.45 7 7 0.078 0.078 2.4 0.1872 0.5271

2 2.45 2.55 13 20 0.144 0.222 2.5 0.36 0.3954

3 2.55 2.65 19 39 0.211 0.433 2.6 0.5486 0.1052

4 2.65 2.75 23 62 0.256 0.689 2.7 0.6912 0.0151

5 2.75 2.85 17 79 0.189 0.878 2.8 0.5292 0.2682

6 2.85 2.95 7 86 0.078 0.956 2.9 0.2262 0.3563

7 2.95 3.05 4 90 0.044 1 3 0.132 0.4241

90 1 2.6744 2.0912

a. Para calcular la media podemos usar las fórmulas

1

1

k

i i

k

i

f x

x

f

ó

1

k

i ix h x

usando la segunda obtenemos: Media(X) = 2.6744

Page 26: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 26

Tema : Estadística Descriptiva

b. Cálculo de la Mediana(X) Fórmula:

1

1

100k

i k k

k k

pH

p l CH H

i. 50p ; Clase mediana: 4ª (nótese: 3 40.50H H )

ii. 2.65kl

iii. 0.1kC

iv. 0.689kH

v. 1 0.433kH

Mediana(X)=2.676

c. Moda :

1

1 2

( ) m mModa X l C

Clase modal: 4ª

lm = 2.65

1

1

23 19 4

23 17 5

0.1mC

Moda = 2.690

d. Rango Intercuartílico

i. p = 25 ; Clase: 3ª

ii. 2.55kl

iii. 0.1kC

iv. 0.433kH

v. 1 0.222kH

p(25) =2.563

vi. p = 75 ; Clase: 5ª

vii. 2.75kl

viii. 0.1kC

Page 27: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 27

Tema : Estadística Descriptiva

ix. 0.878kH

x. 1 0.689kH

p(75)=2.782

Rango intercuartílico = 2.782 – 2.563 = 0.219

e. Percentil 90

i. 90p ;Clase: 6ª

ii. 2.85kl

iii. 0.1kC

iv. 0.956kH

v. 1 0.878kH

p(90)=2.878

Percentil 10

vi. 10p ;Clase: 2ª

vii. 2.45kl

viii. 0.1kC

ix. 0.222kH

x. 1 0.078kH

p(10)=2.878

f. Asimetría.- Se cumple Moda > Mediana > Media, entonces, es sesgada a la derecha. Nótese que las diferencias entre las tres medidas son mínimas.

g. Curtosis

3 1

90 102( )

Q Qk

P P

;

2.782 2.5630.265

2(2.878 2.465)k

0.263k la curva es leptocúrtica

h. Coeficiente de variación

Varianza = 2.0912/89 = 0.0235

Desviación estándar = 0.153

Coeficiente de variación = 0.153/2.674 = 5.72%

Page 28: Estadística descriptiva

Autor: Abel Barrantes Herrera Página 28

Tema : Estadística Descriptiva

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

2.35 2.45 2.55 2.65 2.75 2.85 2.95 3.05

OJIVA