Descriptores numericos de una distribucion

51
Descriptores numericos de una distribucion

description

Descriptores numericos de una distribucion. Objetivos. Describiendo distribuciones con numeros Medidas de tendencia central: media y la mediana Medidas de dispersion: percentiles y desviacion estandar. Medida de tendencia central: la media. La media o el promedio aritmetico - PowerPoint PPT Presentation

Transcript of Descriptores numericos de una distribucion

Page 1: Descriptores numericos de una distribucion

Descriptores numericos de una distribucion

Page 2: Descriptores numericos de una distribucion

Objetivos

Describiendo distribuciones con numeros

Medidas de tendencia central: media y la mediana

Medidas de dispersion: percentiles y desviacion estandar

Page 3: Descriptores numericos de una distribucion

La media o el promedio aritmetico

Para calcular la media, se añaden todos

los valores y luego se divide entre el

numero de individuos. “Es el centro de

la masa.”

Suma de las alturas 1598.3

Dividido entre 25 mujeres = 63.9 cm

58.2 64.059.5 64.560.7 64.160.9 64.861.9 65.261.9 65.762.2 66.262.2 66.762.4 67.162.9 67.863.9 68.963.1 69.663.9

Medida de tendencia central: la media

Page 4: Descriptores numericos de una distribucion

n

nx....xxx

21

x 1598.3

2563.9

Nocion matematica:

x 1

n ixi1

n

(i) (x) (i) (x)

i = 1 x1= 58.2 i = 14 x14= 64.0

i = 2 x2= 59.5 i = 15 x15= 64.5

i = 3 x3= 60.7 i = 16 x16= 64.1

i = 4 x4= 60.9 i = 17 x17= 64.8

i = 5 x5= 61.9 i = 18 x18= 65.2

i = 6 x6= 61.9 i = 19 x19= 65.7

i = 7 x7= 62.2 i = 20 x20= 66.2

i = 8 x8= 62.2 i = 21 x21= 66.7

i = 9 x9= 62.4 i = 22 x22= 67.1

i = 10 x10= 62.9 i = 23 x23= 67.8

i = 11 x11= 63.9 i = 24 x24= 68.9

i = 12 x12= 63.1 i = 25 x25= 69.6

i = 13 x13= 63.9 n =25 =1598.3

Aprendamos inmediatamante como usar las calculadoras.

mujer altura alturamujer

Page 5: Descriptores numericos de una distribucion

Los resumenes numericos deben tener sentido

Aca la forma de la distribucion es muy irregular porque?

Podremos tener mas de una especie o fenotipo?

6.69x

La distribucion de las alturas parece ser coherente y simetrica. La media en un buen resumen numerico.

3.69x

altura de 25 mujeres en una clase

Page 6: Descriptores numericos de una distribucion

Height of plants by color

0

1

2

3

4

5

Height in centimeters

Num

ber

of p

lants

red

pink

blue

58 60 62 64 66 68 70 72 74 76 78 80 82 84

Un resumen numerico unico no tendria sentido

9.63x 5.70x 3.78x

Page 7: Descriptores numericos de una distribucion

Medidas de tendencia central: la medianaLa mediana es el punto central de una distribucion- un numero tal que la mitad de

las observaciones son mas pequeñas y la otra mitad son mas grandes

1. Ordenar las observaciones desde la mas pequeña hasta la mas grande.

n = numero de observaciones______________________________

1 1 0.62 2 1.23 3 1.64 4 1.95 5 1.56 6 2.17 7 2.38 8 2.39 9 2.510 10 2.811 11 2.912 3.313 3.414 1 3.615 2 3.716 3 3.817 4 3.918 5 4.119 6 4.220 7 4.521 8 4.722 9 4.923 10 5.324 11 5.6

n = 24 n/2 = 12

Mediana = (3.3+3.4) /2 = 3.35

3. Si n es par, la mediana es el promedio de las 2 observaciones centrales

1 1 0.62 2 1.23 3 1.64 4 1.95 5 1.56 6 2.17 7 2.38 8 2.39 9 2.510 10 2.811 11 2.912 12 3.313 3.414 1 3.615 2 3.716 3 3.817 4 3.918 5 4.119 6 4.220 7 4.521 8 4.722 9 4.923 10 5.324 11 5.625 12 6.1

n = 25 (n+1)/2 = 26/2 = 13 Mediana = 3.4

2. Si n es impar, la mediana es la observacion (n+1)/2 en la lista

Page 8: Descriptores numericos de una distribucion

Media y mediana en una distribución asimétrica

Media y mediana en una distribución simétrica

Sesgo Izq Sesgo Der

MediaMediana

MediaMediana

MediaMediana

Comparemos la Mediana y la Media

La mediana y la media son la misma sólo si la distribucion es simétrica.

La mediana es una medida de tendencia central que es resistente a

sesgo y a los outliers. La Media no lo es.

Page 9: Descriptores numericos de una distribucion

La mediana, es solo modificada

ligeramente por los outliers (de

3.4 a 3.6).

La media es desviada

considerablemente hacia la

derecha por los outliers

(de 3.4 a 4.2).

P

erc

en

t o

f p

eo

ple

dyi

ng

Media y Mediana de una distribucion con outliers

4.3x

Sin outliers

2.4x

Con outliers

Page 10: Descriptores numericos de una distribucion

Enfermedad X:

La Media y la Mediana son iguales

Media y mediana de una distribucion simetrica

4.3

4.3

M

x

Mieloma Multiple :

5.2

4.3

M

x

En una distribucion sesgada

La Media esta desviada hacia el sesgo

Impacto de datos sesgados

Page 11: Descriptores numericos de una distribucion

La desviacion estandar se usa para describir la variacion alrededor de la media

2

1

2 )(1

1xx

ns

n

i

1) Primero se calcula la variancia s2.

2

1

)(1

1xx

ns

n

i

2) Luego se calcula la raiz cuadrada

para obtener la desviacion

estandar s.

Medidas de dispersion: desviación estandar

Media± 1 s.d.

x

Page 12: Descriptores numericos de una distribucion

Cálculos …

Uno NUNCA calcula esto a mano, Favor practicar con su calculadora.

2

1

1( )

1

n

is x xn

Media = 63.4

Suma de las desviaciones al cuadrado from

mean = 85.2

Degrees freedom (df) = (n − 1) = 13

s2 = variance = 85.2/13 = 6.55 inches squared

s = standard deviation = √6.55 = 2.56 inches

Altura de mujeres (pulgadas)

Page 13: Descriptores numericos de una distribucion

La distribucion Normal

Page 14: Descriptores numericos de una distribucion

Objetives

Las distribuciones normales

Curvas de densidad

Distribucion Normal

La regla 68-95-99.7

La distribucion Normal estandar

Usando la tabla Normal estandar

Encontrar un valor dada una proporcion

Page 15: Descriptores numericos de una distribucion

Curvas de densidadUna curva de densidad es un modelo matematico de distribucion.

Siempre esta sobre el eje horizontal.

El area total bajo la curva es, por definicion igual a 1 ó 100%.

El area bajo la curva para un rango de variables esta en proporcion de todas las observaciones para ese rango

Histograma de una muestra con su curva de densidad teorica que describe a la

poblacion

Page 16: Descriptores numericos de una distribucion

Las curvas de densidad vienen

en cualquier forma.

Algunas son conocidas

matematicamante otras no.

Page 17: Descriptores numericos de una distribucion

Distribucion Normal

e = 2.71828… la base del logaritmo natural

π = pi = 3.14159…

Las distribuciones Normales—o de Gauss— son una familia de curvas

de densidad con forma de campana, simetricas y definidas por una

media (mu) y una desviacion estandar (sigma): N ().

2

2

1

2

1)(

x

exf

xx

Page 18: Descriptores numericos de una distribucion

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

Una familia de curvas de densidad

Las medias son diferentes

( = 10, 15, y 20) Mientras que las

desviaciones estandar son las

mismas ( = 3).

Las medias son la misma ( = 15)

Mientras las desviaciones estandar

son diferentes ( = 2, 4, y 6).

Page 19: Descriptores numericos de una distribucion

media µ = 64.5 desviacion estandar = 2.5

N(µ, ) = N(64.5, 2.5)

Todas las curvas Normales N ) comparten las mismas propiedades

Recordatorio: µ (mu) es la media de la curva ideal mientras que es el promedio de una muestra

σ (sigma) es la desviacion estandar de la curva ideal, mientras que s es la d.e. de una muestra.

Cerca de 68% de todas las

observaciones estan dentro de 1

desviacion estandar (de la

media ().

Cerca de 95% de todas las

observaciones estan dentro de 2

de la media .

Casi todas (99.7%) las

observaciones estan dentro de las

3 de la media.

Punto de inflexion

x

Page 20: Descriptores numericos de una distribucion

Debido a que todas las distribuciones estandar comparten las mismas

propiedades podemos estandarizar nuestros datos para transformar

cualquier curva normal N () en la curva normal estandar N (0,1).

La distribucion normal estandar

Para cada x calculamos un nuevo valor, z (llamado el valor z).

N(0,1)

=>

z

x

N(64.5, 2.5)

Standardized height (no units)

Page 21: Descriptores numericos de una distribucion

z (x )

Un valor-z mide el numero de desviaciones estandar a la que un dato x

se encuentra de la media .

Estandarizando: calculando los valores z

Cuando x es mayor que la media, z es positivo.

Cuando x es menor que la media, z es negativo

1 ,

zxpara

Cuando x es 1 desviacion estandar mas

grande que la media entonces z = 1.

222

,2

zxpara

Cuando x es 1 desviacion estandar mas

grande que la media entonces z = 2.

Page 22: Descriptores numericos de una distribucion

Media µ = 64.5"

Desviacion estandar = 2.5" x (altura) = 67"

Calculamos z,el valor estandarizado de x:

media la deestandar desv. 1 15.2

5.2

5.2

)5.6467( ,

)(

z

xz

Gracias a la regla 68-95-99.7 , podemos concluir que el porcentaje de

mujeres mas pequeñas de 67” debe ser aproximadamante: .68 + mitad de

(1 − .68) = .84, or 84%.

Area= ???

Area = ???

N(µ, ) = N(64.5, 2.5)

= 64.5″ x = 67″

z = 0 z = 1

Ejemplo: altura en mujeres

La altura en mujeres sigue la distribucion

N(64.5″,2.5″). Cual es el porcentaje de

mujeres mas pequeñas de 67 pulgadas?

Page 23: Descriptores numericos de una distribucion

Usando la Tabla

(…)

La tabla de z muestra el area bajo la curva Normal estandar hacia la izquierda de

cualquier valor de z.

.0082 es el area

bajo N(0,1) a la izq de z = -2.40

.0080 es el area bajo

N(0,1) Izq de z = -2.41

0.0069 es el area bajo

N(0,1) Izq de z = -2.46

Page 24: Descriptores numericos de una distribucion

Area ≈ 0.84

Area ≈ 0.16

N(µ, ) =

N(64.5”, 2.5”)

= 64.5” x = 67” z = 1

Conclusion:

84.13% de la mujeres son mas pequeñas

que 67″.

restando 1 − 0.8413, o 15.87%, de mujeres

son mas grandes que 67".

Para z = 1.00, el area bajo

la curva Normal estandar a

la izquierda de z es 0.8413.

Porcentaje de mujeres mas pequeñas de 67”

Page 25: Descriptores numericos de una distribucion

Tips usando la Tabla Z

Gracias a que la distribucion

normal es simetrica, hay dos

maneras en las que se puede

calcular el area bajo la curva

normal a la derecha del valor Z.

Area a la derecha de z = 1 − area izquierda de z

Area = 0.9901

Area = 0.0099

z = -2.33

Area a la derecha de z =

area izquierda de -z

Page 26: Descriptores numericos de una distribucion

La asociacion de colegios atleticos (NCAA) requiere que los atletas tengan por lo

menos 820 en los examenes de SAT combinados verbal y matematicos para

completar su primer año. Los scores SAT del 2003 fueron aproximadamante

normales con una media 1026 y desviacion estandar 209.

Que proporcion de estudiantes calificaran para NCAA (SAT ≥ 820)?

16%. approx.or

0.1611 is .99- z

ofleft the toN(0,1)

under area :A Table

99.0209

206209

)1026820(

)(

209

1026

820

z

z

xz

x

Note: The actual data may contain students who scored exactly 820 on the SAT. However, the proportion of scores exactly equal to 820 being 0 for a normal distribution is a consequence of the idealized smoothing of density curves.

Area right of 820 = Total area − Area left of 820= 1 − 0.1611

≈ 84%

Page 27: Descriptores numericos de una distribucion

Tips usando la Tabla Z

Para calcular el area entre dos valores z, primero obtener el area bajo

N(0,1) a la izquierda del valor z de la Tabla.

area entre z1 y z2 =

area izq de z1 – area izq de z2

Un error comun es restar los

valores de z.

Luego restar el area

pequeña del area

grande.

El area bajo N(0,1) para un valor cualquiera es cero.

Page 28: Descriptores numericos de una distribucion

La NCAA define un “partial qualifier” como alguien elegible para practicar y recibir

una bolsa de estudiante atleta pero no para competir si tienen un SAT de por lo

menos 720. Cual es la proporcion de todos los estudiantes que toman el

SAT que serian partial qualifiers? O dicho de otra manera, cual es la

proporcion que tendra scores entre 720 y 820?

7%. aprox. o

0.0721 es .99- z

de izq la a N(0,1)

bajo area :A Table

46.1209

306209

)1026720(

)(

209

1026

720

z

z

xz

x

Alrededor de 9% de todos los estudiantes que toman el

SAT tendran scores entre720 y 820.

Area entre = Area izq de 820 − Area izq de 720 720 y 820 = 0.1611 − 0.0721

≈ 9%

Page 29: Descriptores numericos de una distribucion

N(0,1)

z (x )

Lo divertido de trabajar con datos normalemente distribuidos es que podemos manipularlos y encontrar respuestas a preguntas que involucran distribuciones aparentemente no comparables.

Lo hacemos estandarizando los datos. Lo que implica cambiar la escala de tal manera que la media es 0 y la desv. Estandar es igual a 1. si hacemos esto a distribuciones diferentes las hacemos comparables.

Page 30: Descriptores numericos de una distribucion

What are the effects of better maternal care on gestation time and premies?

The goal is to obtain pregnancies of 240 days (8 months) or longer.

Example: Gestation time in malnourished mothers

What improvement did we get

by adding better food?

Page 31: Descriptores numericos de una distribucion

0.3085. is 0.5- z ofleft the

toN(0,1)under area :A Table

deviation) standard a (half

5.020

1020

)250240(

)(

20

250

240

z

z

xz

x

Vitamins only

Under each treatment, what percent of mothers failed to carry their babies at

least 240 days?

Vitamins only: 30.85% of women

would be expected to have gestation

times shorter than 240 days.

= 250, = 20, x = 240

Page 32: Descriptores numericos de una distribucion

0.0418. is 1.73- z ofleft the

toN(0,1)under area :A Table

mean) from sd 2almost (

73.115

2615

)266240(

)(

15

266

240

z

z

xz

x

Vitamins and better food

Vitamins and better food: 4.18% of women

would be expected to have gestation times

shorter than 240 days.

= 266, = 15, x = 240

Compared to vitamin supplements alone, vitamins and better food resulted in a much

smaller percentage of women with pregnancy terms below 8 months (4% vs. 31%).

Page 33: Descriptores numericos de una distribucion

When you know the proportion, but you don’t know the x-value that

represents the cut-off, you need to use Table A backward.

Finding a value given a proportion

1. State the problem and draw a picture.

2. Use Table A backward, from the inside out to the margins, to find the corresponding z.

3. Unstandardize to transform z back to the original x scale by using the formula:

x z

Page 34: Descriptores numericos de una distribucion

mean µ = 64.5"

standard deviation = 2.5" proportion = area under curve=0.25

We use Table A backward to get the z.

On the left half of Table A (with proportions 0.5), we find that a proportion of 0.25 is between z = -0.67 and –0.68.

We’ll use z = –0.67.

Now convert back to x:

64.5 ( 0.67)(2.5) 62.825"x z

The 25th percentile for women’s heights is 62.825”, or 5’ 2.82”.

Example: Women’s heightsWomen’s heights follow the N(64.5″,2.5″)

distribution. What is the 25th percentile for

women’s heights?

Page 35: Descriptores numericos de una distribucion

Relaciones: correlacion

Page 36: Descriptores numericos de una distribucion

Variable explicativa (independiente) : numero de cervezas

Respuesta

(variable

dependiente) :

Contenido

de alcohol

en sangre

xy

Variables explicativas y de respuesta

Una variable de respuesta mide el resultado de un estudio. Una

variable explicativa explica cambios en la variable de respuesta.

Tipicamante, la variable explicativa o independiente se grafica en el

eje x y la variable de respuesta o dependiente en el eje y.

Page 37: Descriptores numericos de una distribucion

Algunos plots no tienen varibles claras.

Las calorias explican los

los contenidos de sodio?

Page 38: Descriptores numericos de una distribucion

Forma y direccion de una asociacion

Linear

No linear

No relacion

Page 39: Descriptores numericos de una distribucion

Asociacion Positiva : Valores altos de una variable tienden a ocurrir

junto con valores altos de la la otra variable.

Asociacion Negativa: Valores altos de una variable tienden a ocurrir junto con

valores bajos de la la otra variable.

Page 40: Descriptores numericos de una distribucion

One way to remember this: The equation for this line is y = 5.x is not involved.

Sin relacion: x e y varian independendientemente.Conocer x no dice nada acerca de y.

Page 41: Descriptores numericos de una distribucion

El coeficiente de correlacion es una medida de la direccion y la fuerza

de una relacion. Se calcula usando la media y la desviacion estandar

de las variables x e y .

El coeficiente de correlacion “r”

La correlacion solo puede ser usada para describir variables CUANTITATIVAS. Variables categoricas no tienen medias ni desv. estandar.

Tiempo de nado: x = 35, sx = 0.7

Pulso: y = 140 sy = 9.5

Page 42: Descriptores numericos de una distribucion

Parte del calculo involucra encontrar a z, el valor estandarizado que usamos cuando se trabaja con una distribucion normal.

Uds. No quieren hacer esto a mano. Asegurense de saber otener este valor con su calculadora!

Page 43: Descriptores numericos de una distribucion

Estandarizacion:Nos permite comparar correlaciones entre data sets donde las variables estan medidas en unidades diferentes o cuando las variables son diferentes.

Por ejemplo podemos comparar la correlacion entre tiempo de nado y pulso y tiempo de nado y ritmo respiratorio.

Page 44: Descriptores numericos de una distribucion

“r” no distingue entre variables explicativas y de respuesta

El coeficiente de correlacion , r, trat a x e y simetricamente.

r = -0.75 r = -0.75

Page 45: Descriptores numericos de una distribucion

Cambiar las unidades de la variable no cambia el coeficiente de correlacion “r,” porque eliminamos todas las unidades al estandarizar z-scores).

“r” no tiene unidadesr = -0.75

r = -0.75

z-score plot is the same for both plots

Page 46: Descriptores numericos de una distribucion

“r” va de −1 a +1

“r” cuantifica la fuerza y la direccion de una relacion linear entre dos variables cuantitativas.

Fuerza: Que tan bien los puntos siguen una linea recta.

Direccion es positiva cuando individuos con valores de x mas altos tienden a tener valores de y mas altos.

Page 47: Descriptores numericos de una distribucion

Cuando la variabilidad

en una o ambas

variables decrece, el

coeficiente de

correlacion se hace mas

fuerte

(cerca a +1 o −1).

Page 48: Descriptores numericos de una distribucion

Solo para relaciones lineares.

Nota: a veces se puede transformar datos no lineares a formas lineares, por ejemplo tomando el logarithmo. Luego se puede calcular la correlacion usando los datos transformados.

Cuidado usando la correlacion

Page 49: Descriptores numericos de una distribucion

Correlaciones se calculan usando

medias y dsv. Estandar y por lo

tanto NO son resistentes a los

outliers.

Mover un solo punto fuera de la

tendencia general disminuye la

correlacion de −0.91 a −0.75.

Puntos de influencia

Page 50: Descriptores numericos de una distribucion

Añadir 2 outliers disminuye r de 0.95 a 0.61.

Prueben en el website

http://www.whfreeman.com/bps3e

Page 51: Descriptores numericos de una distribucion

Preguntas en correlacion

1. Porque no hay diferencia entre las variables explicativas y de rspuesta en una correlacion?

2. Porque ambas variables deben ser cuantitativas?

3. Como el cambiar las unidades de una variable afecta la correlacion?

4. Cual es el efecto de los outliers en las correlaciones?

5. Porque un ajuste excelente a una linea horizontal NO implica una correlacion fuerte?