Tema 1- Monovariante

BIOESTADSTICA Y ANLISIS DE DATOS

TEMA1ESTADISTICAYDESCRIPTIVA

MONOVARIANTE

1. Introduccin a la estadstica

En la estadstica gracias a la informacin que extraemos de un grupo seleccionado mediante

tcnicas de muestreo de la poblacin obtenemos una muestra de personas que se ajustan al

objetivo de nuestra investigacin para mediante la estadstica descriptiva clasificarlas y

estimar unos ciertos parmetros poblacionales que ms tarde podamos extrapolar y aplicar a

grupos ms amplios, es decir a partir de una muestra seleccionada de la poblacin podemos

inferir frecuencias de parmetros en la propia poblacin (inferencia estadstica). Dentro de

este mbito de inferencias debemos distinguir, adems de muestra/poblacin, los trminos

estadstico/parmetro:

Estadstico: caractersticas numricas de la muestra a partir de las cuales estimar un

parmetro (estimar lo mismo en el grupo amplio de individuos del que hemos extrado la

muestra) / Parmetro: caractersticas numricas de la poblacin.

La estadstica se emplea en muchas situaciones, por ejemplo nos exponen una ancdota del

bombardeo de los aviones y se nos plantea si es correcto el modo de trabajo. Para adelantarse

a los enemigos se pretenda reforzar en las flotas de aviones, mediante una optimizacin con

restricciones de la estructura, las zonas en las que reciban impactos habitualmente de modo

que fuesen nica y exclusivamente estas zonas para evitar aadir exceso de peso. La muestra

de aviones escogida era la de aquellos que volvan con impactos es esto correcto?: no, por el

hecho de que no se trata de una muestra representativa de la poblacin ya que estos aviones

que volvan con impactos no sufran alteracin de sus funciones bsicas, es decir, el hecho de

que volviesen no hace el impacto recibido peligroso. De este modo, la muestra vlida deba ser

una escogida entre los aviones que no volvan sino que se estrellaban para reforzar las zonas

que en caso de colisin impiden la continuacin del vuelo e interrumpen sus funciones.

2. Tipos de variables

Tipos de

variables

Cualitativas/Categricas (no medibles)

Nominales (no importa el

orden - sexo)

Ordinales (importa el orden -grado de dolor)

Cuantitativas (medibles)

Discretas (valores aislados - n de hijos) -> tablas de frecuencia

Continuas (valores infinitos entre dos valores - altura)

En el caso de las variables cuantitativas podemos hacer una clasificacin y agrupar los valores

en rangos convirtindolos en categoras para as poder discretizarlas para tratarlas como

variables cualitativas o categricas y aplicarles valores clnicos y diagnsticos. Por ejemplo:

podemos discretizar la presin arterial es una variable cuantitativa pero si queremos que la

informacin sea aplicable mejor debemos hacerla cualitativa o categrica y de este modo son

las mediciones en rangos que sealan si un sujeto es hipo/normo/hipertenso.

2.1 Variables cualitativas y cuantitativas discretas

Las variables cualitativas y cuantitativas discretas son aquellas de valores aislados, con ellas es

frecuente el uso de tablas de frecuencias en las que se exponen los valores para cada opcin

de la variable, por

ejemplo si es el sexo se

nos pueden mostrar el

nmero de nios y de

nias (frecuencia). Es

comn que en muestras

de tamaos grandes haya alguna laguna de informacin, seran valores perdidos que aplicado

al ejemplo, aunque en este caso no hay porque la muestra es pequea, sera tener un

individuo que no sabemos si es nio o nia. Tambin se muestra en la tabla el porcentaje de

unos sobre otros y el porcentaje vlido (con el que habitualmente se trabaja en investigacin,

no tiene en cuenta los valores perdidos porque no son informacin exacta) o el porcentaje

acumulado que en este caso no tiene mucho valor pero que puede ser utilizado para

extrapolar datos en rangos.

Como modos de representacin grfica de los datos se emplean los diagramas de barras y los

de sectores (de quesito).

2.1.1 Nomenclatura de las tablas de frecuencia

Frecuencia absoluta (fi) - nmero de veces que se repite un determinado valor en un

estudio estadstico

Frecuencia relativa (fr) - nmero de casos de un parmetro de los existentes

Por ejemplo, podemos tener una fr(nios)=0.3 as sabemos que la fr(nias)=0.7. Por lo

tanto se cumple que fr1+fr2++frn=1.

Porcentaje - frecuencia relativa sobre cien 100

2.2 Variables cuantitativas

A partir variables cuantitativas, es decir medibles podemos hacer tablas de frecuencia de clase

con datos como pueden ser medidas de la talla en cm de nios, esta informacin ha sido

categorizada en rangos de diez en diez centmetros y los datos de la tabla son la frecuencia, el

porcentaje, el porcentaje vlido (excluye los valores perdidos) y el porcentaje acumulado que

en este caso nos puede servir para por ejemplo decir los nios que tienen una talla hasta 90

cm (seran un 71%). La representacin grfica de estos datos se realiza en histogramas.

Estadsticos de tendencia central

Media

Mediana

Percentiles

Moda

no tiene sentido en una variable

cuantitativa pura porque no hay

nadie 'que mida igual que tu'

se emplea en variables cualitativas

o en cuantitativas discretizadas

Resumen con tendencia central los datos para tratar

de expresar de forma representativa cmo es la

muestra.

No debemos confundir los histogramas con los diagramas de barras,

una de las diferencias es que en los diagramas de barras en el eje x

tenemos la variable cualitativa pero no valores como en los

histogramas; otra diferencia sera que en el diagrama de barras los

datos se colocan en el eje y de modo que lo que da informacin es la

altura, pero en un histograma no lo es porque la informacin se

extrae del rea debajo de la curva.

Al depender de la precisin

de las medidas que se

realicen de la variable

cuantitativa podemos decir

que hay valores infinitos,

cuanta ms precisin en medir la altura de un nio, ms decimales llevar la talla y ms

complicado que haya otro nio que mida igual.

3. Descriptiva monovariante

La descriptiva monovariante comnmente se emplea para variables cuantitativas puras) y se

caracteriza por la presencia bsica de tres factores que describen los datos: forma, posicin y

dispersin.

Estadsticos de dispersin

Rango

Rango intercuartlico (relacionado con percentiles)

Varianza (desviacin de la media)

Desviacin estndard/tpica (a

partir de la varianza)

Coeficiente de variacin (media y desviacin estndard)

Reflejan hasta que punto estas medidas de tendencia central son

representativas como sntesis de la informacin.

Las medidas de diispersin cuantifican la separacin, dispersin y variabilidad

de los valores de la distribucin respecto al central.

3.1 Estadsticos de tendencia central

La media para un conjunto de valores en rangos puede hacerse a partir las medias de los

intervalos multiplicada por los individuos sumando los resultados y dividiendo entre el total, es

la media agrupada por clases, de manera que el resultado es muy aproximado a hacer la

media real.

En caso de que la muestra presente valores extremos/outlayers la media se desva muchsimo,

es sensible a valores extremos, mientras que la mediana es ms fiel al centro de equilibrio real

de la muestra. Se recomienda el uso de la mediana para evitar la desviacin de los datos.

Cuando no hay presencia de estos valores ambas tendencias no difieren de manera

significativa respecto al resultado.

Estadsticos morfolgicos

Sesgo

Coeficiente de Pearson

Curtosis

Los estadsticos morfolgicos permiten establecer una relacin de forma con la campana gausiana tpica.

La media () es el promedio de los datos, el valormedio de la variable en la muestra.

1 2

xi: nmero de valores concetros

n: tamao de la muestra

Ejemplo: 3,12,9,6,1

3 12 9 6 1

5 6.2

La mediana () es el valor de la muestra que deja aambos lados el mismo nmero de observaciones,deja la mitad de los datos de la variable por debajouna vez han sido ordenados de menor a mayor.

N casoso impar: 3,12,9,6,1

1,3,6,9,12 -> 6

N casos par: 1,3,12,6,9,1

1,1,3,6,9,12 -> media de los dos del centro -> (6+3)/2=4.5

Dado un conjunto de datos, los percentiles y cuartilesson aquellos elementos que una vez hemos rdenadola serie numrica de forma creciente y consideramosque el centro es la mediana, sera el segundo cuartil(Q2), podemos fijarnos en:

- El primer valor que supera o iguala al 25% (primer cuartil - Q1) o al 75% (tercer cuartil - Q3)

- Para otros valores como el 10% o el 80% hablamos de los percentiles diez y ochenta (P10, P80)

- El percentil 25 sera el 1 cuartil, P50=Q2, P75=Q3...

La moda () es el valor ms repetido de una muestra,sera el dato de la variable con mayor ferecuenciaabsoluta. Se calcula a partir del recuento de los datos.

Tendencia central

3.2 Estadsticos de dispersin

Tenemos dos posibles poblaciones con sus dos posibles promedios, el rango es la diferencia

entre el mnimo y el mximo valor de una dispersin. El rango intercuartilico es la distancia

entre el percentil 75 y el 25 (la mitad de las observaciones). Trabajar con estos datos da mucho

juego porque dividimos las observaciones segn nos interesa. Si evaluamos el rango

intercuartlico podemos saber la precisin, un rango intercuartilico ms pequeo nos da una

precisin mayor porque el

recorrido es ms pequeo y

hay ms densidad de

individuos, nos puede servir

para ver la precisin, la heterogeneidad o la homogeneidad de las muestras.

Por ejemplo, en una tabla de tres columnas calculamos el promedio de la primera observacin

de valores, en la segunda ponemos el promedio de la primera y la tercera columna es la

diferencia del promedio y la primera medicin, esto nos sirve para valorar el promedio. Si

estamos analizando tensin sana y alguien est alejado tal vez es porque el parmetro est

alterado. Este es un modo de identificar si una observacin se ajusta al promedio o no. Si

sumamos la tercera columna o la de promedio dar

0 porque es el punto de equilibrio, a lo largo de la

tabla habr compensaciones debido a la resta. La

suma de los valores al cuadrado no nos interesa

porque no nos aporta informacin pero si la

promediamos dividiendo entre las tensiones, s. As es como se obtiene la varianza. Se divide

segn los grados de libertad que son (n-1) porque si conocemos la media y eliminamos al azar

uno de los valores, lo podemos identificar

(p.ej: 3+7+10+15+5=40, si eliminamos el 7

sabemos el que me falta), podemos prescindir

de uno de los valores porque ya tenemos

definido el valor de la media. En resumen, los grados de libertad son el nmero elementos

independientes necesarios para definir el sistema. *ANOVA: anlisis de la varianza

La varianza debe estar en las mismas unidades, no es til para aplicar tal cual porque si estoy

midiendo mmHg me dar mmHg^2, me dar las unidades al cuadrado, para evitarlo le hacemos

la raz cuadrada y obtendremos la desviacin estndar o desviacin tpica. Cuanto ms

dispersa sea, mayor es la desviacin estndar.

Cuando estimamos la varianza en la muestra empleamos los grados de libertad porque

trabajamos con muestras para estimar parmetros que creemos que se comportan igual en la

poblacin, al utilizar el promedio, utilizamos la suma y podemos prescindir de un caso

sabiendo el que quitamos. La variacin estndar solo tiene sentido si las medias son iguales.

Rango intercuartlico

pequeo.

+ precisin, poco recorrido.

Rango intercuartlico grande. - precisin, ms recorrido.

El coeficiente de variacin no tiene

unidades porque comparar desviaciones no

tiene sentido si las dispersiones tienen

diferentes unidades, es decir, si tienen

medias diferentes no podemos compararlas. Comparando ambos coeficientes de variacin

sabremos cual tiene mayor dispersin porque el c.v. Podemos utilizar la desviacin tpica

cuando tienen la media igual pero si las medias son diferentes tenemos que utilizar el

coeficiente de variacin. Ms disperso, mayor variabilidad.

EJERCICIO 1.2: Calcular la media, la desviacin tpica y la mediana de los dos grupos de datos

sabiendo que los datos del grupo A son n de hijos de una familia y los del B pesos en Kg de 5

personas. Cul de los dos grupos tiene mayor dispersin de datos?

GRUPO A GRUPO B

2 5 1 7 3 2

71 68 73 56 80

Media () = !"!!#!$!

%= 3.3 hijos

Media () = #!%&!#$!"%!&'

"= 69.6 Kg

Mediana (() =2.5 hijos 1-2-2-3-5-7

Mediana (() = 71 56 68 -71 -73-80

Desviacin tpica (sx) ->

Calculamos la varianza=5.068

(sx) = 5.068= 2.2 hijos

Desviacin tpica (sx) ->

Calculamos la varianza = 77.44

(sx) = 77.44 = 8.8 Kg

Coeficiente de variacin (cv) =-

= .

$.$=0.67,

67%

Coeficiente de variacin (cv)=-

=&.&

.%.%=0.13, 13%

El grupo A, es decir, los datos de la cantidad de hijos tienen mayor dispersin que el peso de

las 5 personas de los datos del grupo B.

Esta imagen demuestra que para comparar dispersin entre grupos como en la varianza est

directamente implicada la media, solo podemos trabajar con la misma media. Como esto es

improbable, cuando las medias sean distintas, trabajaremos con el coeficiente de variacin.

3.3 Estadsticos morfolgicos

El sesgo es la estadstica respecto a un

promedio, cuando una cola est ms

estirada que la otra podemos decir

que tiene un sesgo, ser positivo si

tiene a +infinito, si tiende a infinito

ser un sesgo negativo.

La frmula que se emplea para determina el sesgo es la que mide el grado de asimetra.

Grado de asimetra: g1 = /01234567

-83

Asimtrica positiva: g1

mayor que 0 (es +) sesgado a

la derecha, hacia +infinito

g1=0 simtrica Asimtrica negativa: g1 ms

pequea que 0 (es -), sesgado

a la izquierda, hacia - infinito

El coeficiente de Pearson es negativo cuando la mediana es mucho mayor que la media pero si

es positivo se debe a que la media es mucho mayor que la mediana.

9 ;(

<

Estadsticos

morfolgicos

Sesgo:

simetra respecto a un promedio, puede estar

sesgado hacia la derecha (+) o hacia la izquierda (-).

Coeficiente de Pearson:

ndice para medir el grado de relacin de dos variables siempre y cuando ambas

sean cuantitativas.

Curtosis:

proporcin de la varianza que se explica por la

combinacin de datos extremos respecto a la

media en contraposicin con datos poco alejados de

la misma.

La curtosis analiza el grado de concentracin que presentan los valores alrededor de la zona

central de la distribucin.

Mesocrtica es una campana de

gauss.

Platicrtica (g20.

La frmula que se emplea para calcular la curtosis es =2 /0102>4?67

-0>

EJERCICIO 1.4: Se consideran 20 grupos de 4 pacientes con bronquitis crnica,

estudiando en cada paciente si fuma ms de un paquete diario (F) o no (N). Los

resultados obtenidos son:

Describir la variable n de personas por grupo que fuman ms de un paquete diario,

mediante: media, mediana, moda, desviacin tpica, coeficiente de variacin.

Media () = @!'!&!% '

= @&

' = 2.4 personas

Mediana (() = 2.5 0 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 Moda () = 3 Desviacin tpica (s) =1.2 Coeficiente de variacin =-

0

.

.@ 0.496, 49.6% respecto a la media

Sesgo, g1 = /01234

567

-83-0.22 < 0 (asimetra negativa, sesgada

hacia la izquierda, es decir, hacia infinito)

Coeficiente de Pearson: 9

010(

- =

.@1 ."

. ;0.083

Curtosis,=2 /0102>4

?67

-8>=1.88 < 3 (platicrtica ms dispersa que una camapana

gausiana clsica)

http://www.eduteka.org/proyectos.php/1/3053

Tema 1- Monovariante

Documents

Transcript of Tema 1- Monovariante