Tema 3 ~ Genetica

24
ESTAD ´ ISTICA APLICADA A LA BIOQU ´ IMICA BLOQUE I. AN ´ ALISIS DESCRIPTIVO DE UN CONJUNTO DE DATOS Tema 3. Caracter´ ısticas asociadas a una distribuci´ on de fre- cuencias 3.1 Medidas de localizaci´on 3.2 Medidas de dispersi´on OBJETIVO: buscar un n´ umero reducido de magnitudes que resuman la informaci´ on contenida en los datos y que nos permitan comparar dos om´ as series de datos. - Centraremos nuestro estudio en: Medidas de localizaci´ on Medidas de dispersi´ on. 23

description

Tema 3 ~ Genetica

Transcript of Tema 3 ~ Genetica

Page 1: Tema 3 ~ Genetica

ESTADISTICA APLICADA A LA BIOQUIMICA

BLOQUE I. ANALISIS DESCRIPTIVO DE UN CONJUNTO DE

DATOS

Tema 3. Caracterısticas asociadas a una distribucion de fre-

cuencias

3.1 Medidas de localizacion

3.2 Medidas de dispersion

OBJETIVO: buscar un numero reducido de magnitudes que resuman

la informacion contenida en los datos y que nos permitan comparar dos

o mas series de datos.

- Centraremos nuestro estudio en:

• Medidas de localizacion

• Medidas de dispersion.

23

Page 2: Tema 3 ~ Genetica

3.1 Medidas de localizacion

Objetivo: Elegir un unico valor que represente a todos los datos.

• Media aritmetica

• Moda

• Mediana

24

Page 3: Tema 3 ~ Genetica

3.1.1 La media aritmetica

x =

n∑i=1

xi

n

- Ejemplo: Edades de alumnos: 24, 19, 18, 18, 18

x =24 + 19 + 18 + 18 + 18

5= 19.4

[ La media aritmetica se mide en las mismas unidades que los datos]

- Tabla de frecuencias:

x =

k∑i=1

xini

no bien x =

k∑i=1

xifi

xi denota las modalidades de la variable en el caso discreto, o la marca

de clase en el caso continuo.

25

Page 4: Tema 3 ~ Genetica

Ejemplo 3.1: Se tienen 100 cajas de semillas y se observa que en cada

una de ellas hay entre 0 y 5 semillas germinadas. Sea

X : “numero de semillas germinadas en una caja”.

¿Cual es el numero medio de semillas germinadas, a partir de

los datos recogidos en la siguiente tabla?:

xi ni Ni

0 4 4

1 20 24

2 45 69

3 25 94

4 5 99

5 1 100

100

x =

k∑i=1

xini

n=

=0×4+1×20+2×45+3×25+4×5+5×1

100= 2.10

26

Page 5: Tema 3 ~ Genetica

- Ejemplo 3.2: Calculamos el tiempo medio (en seg.) de reaccion de

la sustancia quımica cuya tabla construimos en el Ejemplo 2.

[Variables agrupadas en intervalos: xi marcas de clase]

(Li−1, Li] ni Ni fi Fi xi ai hi

(0,1] 2 2 0.1 0.1 0.5 1 2

(1,3] 3 5 0.15 0.25 2 2 1.5

(3,5] 5 10 0.25 0.5 4 2 2.5

(5,6] 2 12 0.1 0.6 5.5 1 2

(6,8] 3 15 0.15 0.75 7 2 1.5

(8,10] 5 20 0.25 1 9 2 2.5

20 1

x =

k∑i=1

xini

n=

0.5× 2 + 2× 3 + 4× 5 + 5.5× 2 + 7× 3 + 9× 5

20= 5.2

27

Page 6: Tema 3 ~ Genetica

Propiedades de la media: Linealidad

1.- Si yi = a + bxi, con a, b constantes fijadas entonces:

y = a + bx

-Ejemplo: Medir temperaturas.

Escala Fahrenheit (USA). Escala Celsius.

oC =oF − 32

1.8

- Otros ejemplos: de ptas a euros,..

2.- Si Z = aX + bY , entonces:

z = ax + by

- Ejemplo:

xi: nota en examen de teorıa,

yi: nota en examen de problemas.

Nota final dada por:

zi = (0.4× xi) + (0.6× yi)

28

Page 7: Tema 3 ~ Genetica

3.1.2 Moda:

Es el valor o valores de la variable que mas veces se presenta.

• Si una muestra tiene solo una moda se denomina unimodal.

• Si tiene 2 modas se llama bimodal.

• Si tiene varias modas multimodal.

• Para calcular la moda en variables no agrupadas:

buscamos la observacion xi que tenga mayor frecuencia (absoluta o

relativa).

- Ejemplo 3.1 Mo = 2 [distribucion unimodal]

Dibujar el diagrama de barras y el polıgono de frecuen-

cias.

Comentar que ocurre

29

Page 8: Tema 3 ~ Genetica

• Para el caso continuo, se busca el intervalo que tenga mayor

hi = ni/ai

Dicho intervalo se llama intervalo modal.

Mo = xi

- Ejemplo 2 habrıa 2 intervalos modales, que serıan (3, 5] y (8, 10],

distribucion bimodal,

las modas son 4 y 9.

Observar el histograma y el polıgono de frecuencias.

Comentar que ocurre

Figura 7: Histograma y polıgono para los datos del ejemplo 2.

30

Page 9: Tema 3 ~ Genetica

3.1.3 Mediana

Es el valor que deja a su izquierda el 50% de las observaciones de la

muestra y a su derecha el otro 50%.

- Ejemplo: Edades de alumnos: 24, 19, 18, 18, 18

Ordeno los datos:

18, 18, 18, 19, 24

me = 18

- Caso Discreto:

Mediana es el valor xi tal que Fi = 1/2 (o equivalente, Ni = n/2).

Metodo de calculo:

Sea i tal que

Ni−1 < n/2 ≤ Ni

es decir, i indica el primer Ni que es mayor o igual que n/2.

Entonces

me = xi

31

Page 10: Tema 3 ~ Genetica

- Ejemplo 3.4: Numero de semillas germinadas en 100 cajas

xi ni Ni

0 4 4

1 20 24

2 45 69

3 25 94

4 5 99

5 1 100

100

El primer Ni que supera n/2 = 50 es Ni = 69.

Por tanto la mediana sera

me = 2

[ En el 50% de las cajas hay 2 o menos semillas germinadas,

y a la derecha de 2 queda el otro 50%.]

32

Page 11: Tema 3 ~ Genetica

- Caso continuo:

1.- Hay que identificar en que intervalo se situa la mediana: para ello

buscamos el primer intervalo cuya frecuencia absoluta acumulada es mayor

o igual que n/2.

2.- A continuacion, la mediana se calcula con la formula

me = Li−1 + ain/2−Ni−1

Ni −Ni−1= Li−1 + ai

n/2−Ni−1

ni,

donde (Li−1, Li] es el intervalo donde hemos situado la mediana, denom-

inado intervalo mediano.

[ Observese que si Ni = n/2, entonces la mediana vale Li.]

Geometricamente, esta formula nos da la coordenada x de la inter-

seccion de la curva acumulativa con la recta y = n/2 (ver Figura 8).

33

Page 12: Tema 3 ~ Genetica

- Significado geometrico de la mediana en el caso continuo

Consideramos la curva acumulativa para las Ni:

Figura 8: Significado geometrico de la mediana

- Ejemplo 3.5 Calcule la mediana de los siguientes datos:

(Li−1, Li] ni Ni

(0, 3] 121 121

(3, 5] 49 170

(5, 7] 130 300

n/2 = 150 entonces la mediana esta en el intervalo (3, 5], ya que

N1 = 121 < n/2 = 150 < N2 = 170 .

Usando la formula de la mediana obtenemos

me = Li−1 + ain/2−Ni−1

Ni −Ni−1=

= 3 + 2150− 121

49= 4.1836

34

USUARIO
Cuadro de texto
y=n/2
Page 13: Tema 3 ~ Genetica

Percentiles: Motivacion

- Ejemplo: notas en Matematicas de 15 alumnos:

xi ni Ni fi Fi

3 2 2 0.133 0.133

4 4 6 0.266 0.4

5 4 10 0.266 0.666

6 2 12 0.133 0.8

7 3 15 0.2 1

15 1

me = 5

[ El 50% de los alumnos ha sacado una nota menor o igual que 5]

¿ Que nota no ha sido superada por el 75% de los alumnos?

P75 = ?

35

Page 14: Tema 3 ~ Genetica

3.1.4 Percentiles

- La idea de percentil generaliza a la mediana.

- El percentil de orden α, con 0 < α < 100, es aquel punto que deja

a su izquierda el α% de las observaciones y a su derecha (100−α)% de las

observaciones.

- Se denota Pα

P20 es el valor que deja el 20% de las observaciones a su izquierda,

P55 el que deja un 55%, etc.

Observese que P50 =me.

- El calculo de los percentiles es analogo al de la mediana, pero susti-

tuyendo n/2 = n× 50/100 por

nα/100.

En particular, la formula para el caso continuo sera

Pα = Li−1 + aiαn/100−Ni−1

Ni −Ni−1

36

Page 15: Tema 3 ~ Genetica

- Los percentiles

• P25

• P50

• P75

tambien se llaman cuartiles y dividen a los datos en 4 partes con igual

numero de observaciones.

Tambien se representan por Q1, Q2 y Q3

37

Page 16: Tema 3 ~ Genetica

- Ejemplo

Para calcular el tercer cuartil, P75 = Q3, con los datos del ejemplo de las

notas de Matematicas

xi ni Ni fi Fi

3 2 2 0.133 0.133

4 4 6 0.266 0.4

5 4 10 0.266 0.666

6 2 12 0.133 0.8

7 3 15 0.2 1

15 1

- En la columna Ni buscamos 75n/100 = 11.25.

- Se busca el primer valor cuya frecuencia absoluta acumulada sea mayor

o igual que 11.25, que en este caso es xi = 6 con Ni = 12, y entonces

Q3 = P75 = xi = 6,

[ Un 75% de los alumnos ha sacado una nota menor o igual

que 6].

38

Page 17: Tema 3 ~ Genetica

- Ejemplo Calculemos P20 para los datos del Ejemplo 2.

(Li−1, Li] ni Ni fi Fi xi ai hi

(0,1] 2 2 0.1 0.1 0.5 1 2

(1,3] 3 5 0.15 0.25 2 2 1.5

(3,5] 5 10 0.25 0.5 4 2 2.5

(5,6] 2 12 0.1 0.6 5.5 1 2

(6,8] 3 15 0.15 0.75 7 2 1.5

(8,10] 5 20 0.25 1 9 2 2.5

20 1

- En este caso, hay que buscar aquel intervalo (Li−1, Li] tal que Ni−1 <

20n/100 = 4 ≤ Ni.

- El primer intervalo con frecuencia absoluta acumulada mayor o igual

que 4 es (1, 3], y por tanto

P20 = Li−1 + aiαn/100−Ni−1

Ni −Ni−1=

1 +

(2

4− 2

5− 2

)= 1 + 1.34 = 2.34 .

[ En el 20% de las muestras el tiempo de reaccion es menor

o igual a 2.34 segundos ]

39

Page 18: Tema 3 ~ Genetica

3.2 Medidas de dispersion

Si yo me he comido un pollo y tu ninguno, “en media” nos hemos comido

“medio” pollo.

Dado que las medidas de localizacion resumen los datos en un valor,

es interesante conocer si este valor representa bien la serie, es decir, si los

datos se encuentran concentrados en torno a este valor, o bien estan muy

dispersos.

Las medidas de dispersion sirven para medir la representativi-

dad de las medidas de localizacion.

40

Page 19: Tema 3 ~ Genetica

3.2.1 Rango o recorrido

Rango es el mayor valor observado menos el menor.

Matematicamente

Rango = xmax − xmin

Si los datos estan agrupados por intervalos, se tomarıa xmax como el

extremo derecho del ultimo intervalo y xmin como el extremo izquierdo del

primer intervalo.

- En el ejemplo 1, de las notas de Matematicas, el rango vale

Rango = 7− 3 = 4 .

- En el ejemplo 2, de los tiempos de reaccion de una sustancia quımica,

el rango es

Rango = 10− 0 = 10 .

3.2.2 Recorrido intercuartılico

Se denota por IQR y se define como

IQR = Q3 −Q1 .

- En el ejemplo 1, IQR = 6− 4 = 2 .

- En el ejemplo 2, IQR = 8− 3 = 5 .

41

Page 20: Tema 3 ~ Genetica

3.2.3 Varianza y desviacion tıpica

- Se define la varianza, que denotaremos por S2, como

S2 =

n∑i=1

(xi − x)2

n=

k∑i=1

(xi − x)2ni

n

[ los xi denotan las observaciones o las marcas de clase en el caso agru-

pado].

- En la practica:

S2 =

k∑i=1

x2ini

n− x2 .

- Otra forma de denotar la varianza de una variable X es V ar(X).

Propiedades

1. S2 ≥ 0.

2. S2 = 0 ⇐⇒ los valores observados son todos iguales.

3. Si yi = a + bxi, entonces

S2y = b2S2

x

donde S2y es la varianza de Y y S2

x es la varianza de X .

4. Las unidades en que se mide la varianza son las de los datos (X) al

cuadrado.

42

Page 21: Tema 3 ~ Genetica

- Desviacion Tıpica:

Se define como

S = +√S2.

Propiedades:

• S ≥ 0.

• S = 0 ⇐⇒ S2 = 0 ⇐⇒ los valores observados son todos iguales.

• Si Y = a + bX ⇒

Sy = |b|Sx.

• Las unidades en que se mide la desviacion tıpica son las mismas

que las de los datos.

43

Page 22: Tema 3 ~ Genetica

3.2.4 Coeficiente de variacion:

El problema que plantea el uso de la varianza y de la desviacion

tıpica, como medidas de dispersion, es la dependencia de las unidades.

Por ello, es conveniente definir una medida adimensional de dis-

persion (es decir, que no tenga unidades), que sea objetiva y ademas, que

permita la comparacion de la dispersion entre distintas va-

riables.

Definicion: Si x 6= 0, el coeficiente de variacion se define como

CV = 100 · S|x|

- Cuanto mas se separen las observaciones de la media, mayor es la

dispersion y el valor de la varianza, y por tanto mayor es el coeficiente de

variacion.

- Cuanto menor sea S, mas representativa es la media y por tanto menor

es el coeficiente de variacion.

44

Page 23: Tema 3 ~ Genetica

Ejemplo coeficiente de variacion

Comparamos la dispersion de las siguientes dos variables

Planteamos:

X : peso en Kgs.

Pesos: 79.2; 64.0; 67.0; 78.4; 66.0; 63.0; 65.9; 63.1; 73.2; 66.5

x = 68.63, S2X = 33.334, SX = 5.7736.

Y : ingestion en Kcal.

Ingestion: 2.6; 0.8; 1.2; 2.6; 1.2; 0.8; 1.2; 1.1; 1.8; 1.2

y = 1.45, S2Y = 0.3985, SY = 0.6313.

¿ Como comparar la dispersion ?

Tenemos dos variables distintas, medidas en distintas unidades

Coeficiente de variacion:

CV =S

|x|× 100

Ası:

CVx =SX|x|

100 =5.7736

68.63× 100 = 8.4

CVy =SY|y|

100 =0.6313

1.45× 100 = 43.54

45

Page 24: Tema 3 ~ Genetica

- Propiedades del coeficiente de variacion:

• El coeficiente de variacion es adimensional.

• Menor dispersion ≡ ≡ menor coeficiente de variacion ≡≡mayor representatividad de la media.

Habıamos obtenido:

CVx =Sx|x|

100 =5.7736

68.63× 100 = 8.4

CVy =Sy|y|

100 =0.6313

1.45× 100 = 43.54

La dispersion relativa del peso es menor que la de la in-

gestion en Kcal.

46