Tema 1- Monovariante
-
Upload
angelasf95 -
Category
Documents
-
view
3 -
download
0
Transcript of Tema 1- Monovariante
-
BIOESTADSTICA Y ANLISIS DE DATOS
TEMA1ESTADISTICAYDESCRIPTIVA
MONOVARIANTE
1. Introduccin a la estadstica
En la estadstica gracias a la informacin que extraemos de un grupo seleccionado mediante
tcnicas de muestreo de la poblacin obtenemos una muestra de personas que se ajustan al
objetivo de nuestra investigacin para mediante la estadstica descriptiva clasificarlas y
estimar unos ciertos parmetros poblacionales que ms tarde podamos extrapolar y aplicar a
grupos ms amplios, es decir a partir de una muestra seleccionada de la poblacin podemos
inferir frecuencias de parmetros en la propia poblacin (inferencia estadstica). Dentro de
este mbito de inferencias debemos distinguir, adems de muestra/poblacin, los trminos
estadstico/parmetro:
Estadstico: caractersticas numricas de la muestra a partir de las cuales estimar un
parmetro (estimar lo mismo en el grupo amplio de individuos del que hemos extrado la
muestra) / Parmetro: caractersticas numricas de la poblacin.
La estadstica se emplea en muchas situaciones, por ejemplo nos exponen una ancdota del
bombardeo de los aviones y se nos plantea si es correcto el modo de trabajo. Para adelantarse
a los enemigos se pretenda reforzar en las flotas de aviones, mediante una optimizacin con
restricciones de la estructura, las zonas en las que reciban impactos habitualmente de modo
que fuesen nica y exclusivamente estas zonas para evitar aadir exceso de peso. La muestra
de aviones escogida era la de aquellos que volvan con impactos es esto correcto?: no, por el
hecho de que no se trata de una muestra representativa de la poblacin ya que estos aviones
que volvan con impactos no sufran alteracin de sus funciones bsicas, es decir, el hecho de
que volviesen no hace el impacto recibido peligroso. De este modo, la muestra vlida deba ser
una escogida entre los aviones que no volvan sino que se estrellaban para reforzar las zonas
que en caso de colisin impiden la continuacin del vuelo e interrumpen sus funciones.
2. Tipos de variables
Tipos de
variables
Cualitativas/Categricas (no medibles)
Nominales (no importa el
orden - sexo)
Ordinales (importa el orden -grado de dolor)
Cuantitativas (medibles)
Discretas (valores aislados - n de hijos) -> tablas de frecuencia
Continuas (valores infinitos entre dos valores - altura)
En el caso de las variables cuantitativas podemos hacer una clasificacin y agrupar los valores
en rangos convirtindolos en categoras para as poder discretizarlas para tratarlas como
variables cualitativas o categricas y aplicarles valores clnicos y diagnsticos. Por ejemplo:
podemos discretizar la presin arterial es una variable cuantitativa pero si queremos que la
informacin sea aplicable mejor debemos hacerla cualitativa o categrica y de este modo son
las mediciones en rangos que sealan si un sujeto es hipo/normo/hipertenso.
2.1 Variables cualitativas y cuantitativas discretas
Las variables cualitativas y cuantitativas discretas son aquellas de valores aislados, con ellas es
frecuente el uso de tablas de frecuencias en las que se exponen los valores para cada opcin
de la variable, por
ejemplo si es el sexo se
nos pueden mostrar el
nmero de nios y de
nias (frecuencia). Es
comn que en muestras
de tamaos grandes haya alguna laguna de informacin, seran valores perdidos que aplicado
al ejemplo, aunque en este caso no hay porque la muestra es pequea, sera tener un
individuo que no sabemos si es nio o nia. Tambin se muestra en la tabla el porcentaje de
unos sobre otros y el porcentaje vlido (con el que habitualmente se trabaja en investigacin,
no tiene en cuenta los valores perdidos porque no son informacin exacta) o el porcentaje
acumulado que en este caso no tiene mucho valor pero que puede ser utilizado para
extrapolar datos en rangos.
Como modos de representacin grfica de los datos se emplean los diagramas de barras y los
de sectores (de quesito).
2.1.1 Nomenclatura de las tablas de frecuencia
Frecuencia absoluta (fi) - nmero de veces que se repite un determinado valor en un
estudio estadstico
Frecuencia relativa (fr) - nmero de casos de un parmetro de los existentes
Por ejemplo, podemos tener una fr(nios)=0.3 as sabemos que la fr(nias)=0.7. Por lo
tanto se cumple que fr1+fr2++frn=1.
Porcentaje - frecuencia relativa sobre cien 100
2.2 Variables cuantitativas
A partir variables cuantitativas, es decir medibles podemos hacer tablas de frecuencia de clase
con datos como pueden ser medidas de la talla en cm de nios, esta informacin ha sido
categorizada en rangos de diez en diez centmetros y los datos de la tabla son la frecuencia, el
porcentaje, el porcentaje vlido (excluye los valores perdidos) y el porcentaje acumulado que
en este caso nos puede servir para por ejemplo decir los nios que tienen una talla hasta 90
cm (seran un 71%). La representacin grfica de estos datos se realiza en histogramas.
-
Estadsticos de tendencia central
Media
Mediana
Percentiles
Moda
no tiene sentido en una variable
cuantitativa pura porque no hay
nadie 'que mida igual que tu'
se emplea en variables cualitativas
o en cuantitativas discretizadas
Resumen con tendencia central los datos para tratar
de expresar de forma representativa cmo es la
muestra.
No debemos confundir los histogramas con los diagramas de barras,
una de las diferencias es que en los diagramas de barras en el eje x
tenemos la variable cualitativa pero no valores como en los
histogramas; otra diferencia sera que en el diagrama de barras los
datos se colocan en el eje y de modo que lo que da informacin es la
altura, pero en un histograma no lo es porque la informacin se
extrae del rea debajo de la curva.
Al depender de la precisin
de las medidas que se
realicen de la variable
cuantitativa podemos decir
que hay valores infinitos,
cuanta ms precisin en medir la altura de un nio, ms decimales llevar la talla y ms
complicado que haya otro nio que mida igual.
3. Descriptiva monovariante
La descriptiva monovariante comnmente se emplea para variables cuantitativas puras) y se
caracteriza por la presencia bsica de tres factores que describen los datos: forma, posicin y
dispersin.
Estadsticos de dispersin
Rango
Rango intercuartlico (relacionado con percentiles)
Varianza (desviacin de la media)
Desviacin estndard/tpica (a
partir de la varianza)
Coeficiente de variacin (media y desviacin estndard)
Reflejan hasta que punto estas medidas de tendencia central son
representativas como sntesis de la informacin.
Las medidas de diispersin cuantifican la separacin, dispersin y variabilidad
de los valores de la distribucin respecto al central.
3.1 Estadsticos de tendencia central
La media para un conjunto de valores en rangos puede hacerse a partir las medias de los
intervalos multiplicada por los individuos sumando los resultados y dividiendo entre el total, es
la media agrupada por clases, de manera que el resultado es muy aproximado a hacer la
media real.
En caso de que la muestra presente valores extremos/outlayers la media se desva muchsimo,
es sensible a valores extremos, mientras que la mediana es ms fiel al centro de equilibrio real
de la muestra. Se recomienda el uso de la mediana para evitar la desviacin de los datos.
Cuando no hay presencia de estos valores ambas tendencias no difieren de manera
significativa respecto al resultado.
Estadsticos morfolgicos
Sesgo
Coeficiente de Pearson
Curtosis
Los estadsticos morfolgicos permiten establecer una relacin de forma con la campana gausiana tpica.
La media () es el promedio de los datos, el valormedio de la variable en la muestra.
1 2
xi: nmero de valores concetros
n: tamao de la muestra
Ejemplo: 3,12,9,6,1
3 12 9 6 1
5 6.2
La mediana () es el valor de la muestra que deja aambos lados el mismo nmero de observaciones,deja la mitad de los datos de la variable por debajouna vez han sido ordenados de menor a mayor.
N casoso impar: 3,12,9,6,1
1,3,6,9,12 -> 6
N casos par: 1,3,12,6,9,1
1,1,3,6,9,12 -> media de los dos del centro -> (6+3)/2=4.5
Dado un conjunto de datos, los percentiles y cuartilesson aquellos elementos que una vez hemos rdenadola serie numrica de forma creciente y consideramosque el centro es la mediana, sera el segundo cuartil(Q2), podemos fijarnos en:
- El primer valor que supera o iguala al 25% (primer cuartil - Q1) o al 75% (tercer cuartil - Q3)
- Para otros valores como el 10% o el 80% hablamos de los percentiles diez y ochenta (P10, P80)
- El percentil 25 sera el 1 cuartil, P50=Q2, P75=Q3...
La moda () es el valor ms repetido de una muestra,sera el dato de la variable con mayor ferecuenciaabsoluta. Se calcula a partir del recuento de los datos.
Tendencia central
-
3.2 Estadsticos de dispersin
Tenemos dos posibles poblaciones con sus dos posibles promedios, el rango es la diferencia
entre el mnimo y el mximo valor de una dispersin. El rango intercuartilico es la distancia
entre el percentil 75 y el 25 (la mitad de las observaciones). Trabajar con estos datos da mucho
juego porque dividimos las observaciones segn nos interesa. Si evaluamos el rango
intercuartlico podemos saber la precisin, un rango intercuartilico ms pequeo nos da una
precisin mayor porque el
recorrido es ms pequeo y
hay ms densidad de
individuos, nos puede servir
para ver la precisin, la heterogeneidad o la homogeneidad de las muestras.
Por ejemplo, en una tabla de tres columnas calculamos el promedio de la primera observacin
de valores, en la segunda ponemos el promedio de la primera y la tercera columna es la
diferencia del promedio y la primera medicin, esto nos sirve para valorar el promedio. Si
estamos analizando tensin sana y alguien est alejado tal vez es porque el parmetro est
alterado. Este es un modo de identificar si una observacin se ajusta al promedio o no. Si
sumamos la tercera columna o la de promedio dar
0 porque es el punto de equilibrio, a lo largo de la
tabla habr compensaciones debido a la resta. La
suma de los valores al cuadrado no nos interesa
porque no nos aporta informacin pero si la
promediamos dividiendo entre las tensiones, s. As es como se obtiene la varianza. Se divide
segn los grados de libertad que son (n-1) porque si conocemos la media y eliminamos al azar
uno de los valores, lo podemos identificar
(p.ej: 3+7+10+15+5=40, si eliminamos el 7
sabemos el que me falta), podemos prescindir
de uno de los valores porque ya tenemos
definido el valor de la media. En resumen, los grados de libertad son el nmero elementos
independientes necesarios para definir el sistema. *ANOVA: anlisis de la varianza
La varianza debe estar en las mismas unidades, no es til para aplicar tal cual porque si estoy
midiendo mmHg me dar mmHg^2, me dar las unidades al cuadrado, para evitarlo le hacemos
la raz cuadrada y obtendremos la desviacin estndar o desviacin tpica. Cuanto ms
dispersa sea, mayor es la desviacin estndar.
Cuando estimamos la varianza en la muestra empleamos los grados de libertad porque
trabajamos con muestras para estimar parmetros que creemos que se comportan igual en la
poblacin, al utilizar el promedio, utilizamos la suma y podemos prescindir de un caso
sabiendo el que quitamos. La variacin estndar solo tiene sentido si las medias son iguales.
Rango intercuartlico
pequeo.
+ precisin, poco recorrido.
Rango intercuartlico grande. - precisin, ms recorrido.
El coeficiente de variacin no tiene
unidades porque comparar desviaciones no
tiene sentido si las dispersiones tienen
diferentes unidades, es decir, si tienen
medias diferentes no podemos compararlas. Comparando ambos coeficientes de variacin
sabremos cual tiene mayor dispersin porque el c.v. Podemos utilizar la desviacin tpica
cuando tienen la media igual pero si las medias son diferentes tenemos que utilizar el
coeficiente de variacin. Ms disperso, mayor variabilidad.
EJERCICIO 1.2: Calcular la media, la desviacin tpica y la mediana de los dos grupos de datos
sabiendo que los datos del grupo A son n de hijos de una familia y los del B pesos en Kg de 5
personas. Cul de los dos grupos tiene mayor dispersin de datos?
GRUPO A GRUPO B
2 5 1 7 3 2
71 68 73 56 80
Media () = !"!!#!$!
%= 3.3 hijos
Media () = #!%&!#$!"%!&'
"= 69.6 Kg
Mediana (() =2.5 hijos 1-2-2-3-5-7
Mediana (() = 71 56 68 -71 -73-80
Desviacin tpica (sx) ->
Calculamos la varianza=5.068
(sx) = 5.068= 2.2 hijos
Desviacin tpica (sx) ->
Calculamos la varianza = 77.44
(sx) = 77.44 = 8.8 Kg
Coeficiente de variacin (cv) =-
= .
$.$=0.67,
67%
Coeficiente de variacin (cv)=-
=&.&
.%.%=0.13, 13%
El grupo A, es decir, los datos de la cantidad de hijos tienen mayor dispersin que el peso de
las 5 personas de los datos del grupo B.
Esta imagen demuestra que para comparar dispersin entre grupos como en la varianza est
directamente implicada la media, solo podemos trabajar con la misma media. Como esto es
improbable, cuando las medias sean distintas, trabajaremos con el coeficiente de variacin.
-
3.3 Estadsticos morfolgicos
El sesgo es la estadstica respecto a un
promedio, cuando una cola est ms
estirada que la otra podemos decir
que tiene un sesgo, ser positivo si
tiene a +infinito, si tiende a infinito
ser un sesgo negativo.
La frmula que se emplea para determina el sesgo es la que mide el grado de asimetra.
Grado de asimetra: g1 = /01234567
-83
Asimtrica positiva: g1
mayor que 0 (es +) sesgado a
la derecha, hacia +infinito
g1=0 simtrica Asimtrica negativa: g1 ms
pequea que 0 (es -), sesgado
a la izquierda, hacia - infinito
El coeficiente de Pearson es negativo cuando la mediana es mucho mayor que la media pero si
es positivo se debe a que la media es mucho mayor que la mediana.
9 ;(
<
Estadsticos
morfolgicos
Sesgo:
simetra respecto a un promedio, puede estar
sesgado hacia la derecha (+) o hacia la izquierda (-).
Coeficiente de Pearson:
ndice para medir el grado de relacin de dos variables siempre y cuando ambas
sean cuantitativas.
Curtosis:
proporcin de la varianza que se explica por la
combinacin de datos extremos respecto a la
media en contraposicin con datos poco alejados de
la misma.
La curtosis analiza el grado de concentracin que presentan los valores alrededor de la zona
central de la distribucin.
Mesocrtica es una campana de
gauss.
Platicrtica (g20.
La frmula que se emplea para calcular la curtosis es =2 /0102>4?67
-0>
EJERCICIO 1.4: Se consideran 20 grupos de 4 pacientes con bronquitis crnica,
estudiando en cada paciente si fuma ms de un paquete diario (F) o no (N). Los
resultados obtenidos son:
Describir la variable n de personas por grupo que fuman ms de un paquete diario,
mediante: media, mediana, moda, desviacin tpica, coeficiente de variacin.
Media () = @!'!&!% '
= @&
' = 2.4 personas
Mediana (() = 2.5 0 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 Moda () = 3 Desviacin tpica (s) =1.2 Coeficiente de variacin =-
0
.
.@ 0.496, 49.6% respecto a la media
Sesgo, g1 = /01234
567
-83-0.22 < 0 (asimetra negativa, sesgada
hacia la izquierda, es decir, hacia infinito)
Coeficiente de Pearson: 9
010(
- =
.@1 ."
. ;0.083
Curtosis,=2 /0102>4
?67
-8>=1.88 < 3 (platicrtica ms dispersa que una camapana
gausiana clsica)
http://www.eduteka.org/proyectos.php/1/3053