Tema 1- Monovariante

4
BIOESTADÍSTICA Y ANÁLISIS DE DATOS TEMA 1 – ESTADISTICA Y DESCRIPTIVA MONOVARIANTE 1. Introducción a la estadística En la estadística gracias a la información que extraemos de un grupo seleccionado mediante técnicas de muestreo de la población obtenemos una muestra de personas que se ajustan al objetivo de nuestra investigación para mediante la estadística descriptiva clasificarlas y estimar unos ciertos parámetros poblacionales que más tarde podamos extrapolar y aplicar a grupos más amplios, es decir a partir de una muestra seleccionada de la población podemos inferir frecuencias de parámetros en la propia población (inferencia estadística). Dentro de este ámbito de inferencias debemos distinguir, además de muestra/población, los términos estadístico/parámetro: Estadístico: características numéricas de la muestra a partir de las cuales estimar un parámetro (estimar lo mismo en el grupo amplio de individuos del que hemos extraído la muestra) / Parámetro: características numéricas de la población. La estadística se emplea en muchas situaciones, por ejemplo nos exponen una anécdota del bombardeo de los aviones y se nos plantea si es correcto el modo de trabajo. Para adelantarse a los enemigos se pretendía reforzar en las flotas de aviones, mediante una optimización con restricciones de la estructura, las zonas en las que recibían impactos habitualmente de modo que fuesen única y exclusivamente estas zonas para evitar añadir exceso de peso. La muestra de aviones escogida era la de aquellos que volvían con impactos ¿es esto correcto?: no, por el hecho de que no se trata de una muestra representativa ‘de la población’ ya que estos aviones que volvían con impactos no sufrían alteración de sus funciones básicas, es decir, el hecho de que volviesen no hace el impacto recibido peligroso. De este modo, la muestra válida debía ser una escogida entre los aviones que no volvían sino que se estrellaban para reforzar las zonas que en caso de colisión impiden la continuación del vuelo e interrumpen sus funciones. 2. Tipos de variables Tipos de variables Cualitativas/Categóricas (no medibles) Nominales (no importa el orden - sexo) Ordinales (importa el orden - grado de dolor) Cuantitativas (medibles) Discretas (valores aislados - nº de hijos) -> tablas de frecuencia Continuas (valores infinitos entre dos valores - altura) En el caso de las variables cuantitativas podemos hacer una clasificación y agrupar los valores en rangos convirtiéndolos en categorías para así poder discretizarlas para tratarlas como variables cualitativas o categóricas y aplicarles valores clínicos y diagnósticos. Por ejemplo: podemos discretizar la presión arterial es una variable cuantitativa pero si queremos que la información sea aplicable mejor debemos hacerla cualitativa o categórica y de este modo son las mediciones en rangos que señalan si un sujeto es hipo/normo/hipertenso. 2.1 Variables cualitativas y cuantitativas discretas Las variables cualitativas y cuantitativas discretas son aquellas de valores aislados, con ellas es frecuente el uso de tablas de frecuencias en las que se exponen los valores para cada opción de la variable, por ejemplo si es el sexo se nos pueden mostrar el número de niños y de niñas (frecuencia). Es común que en muestras de tamaños grandes haya alguna laguna de información, serían valores perdidos que aplicado al ejemplo, aunque en este caso no hay porque la muestra es pequeña, sería tener un individuo que no sabemos si es niño o niña. También se muestra en la tabla el porcentaje de unos sobre otros y el porcentaje válido (con el que habitualmente se trabaja en investigación, no tiene en cuenta los valores perdidos porque no son información exacta) o el porcentaje acumulado que en este caso no tiene mucho valor pero que puede ser utilizado para extrapolar datos en rangos. Como modos de representación gráfica de los datos se emplean los diagramas de barras y los de sectores (de quesito). 2.1.1 Nomenclatura de las tablas de frecuencia Frecuencia absoluta (fi) - número de veces que se repite un determinado valor en un estudio estadístico Frecuencia relativa (fr) - número de casos de un parámetro de los existentes Por ejemplo, podemos tener una fr(niños)=0.3 así sabemos que la fr(niñas)=0.7. Por lo tanto se cumple que fr1+fr2+…+frn=1. Porcentaje - frecuencia relativa sobre cien 100 2.2 Variables cuantitativas A partir variables cuantitativas, es decir medibles podemos hacer tablas de frecuencia de clase con datos como pueden ser medidas de la talla en cm de niños, esta información ha sido categorizada en rangos de diez en diez centímetros y los datos de la tabla son la frecuencia, el porcentaje, el porcentaje válido (excluye los valores perdidos) y el porcentaje acumulado que en este caso nos puede servir para por ejemplo decir los niños que tienen una talla hasta 90 cm (serían un 71%). La representación gráfica de estos datos se realiza en histogramas.

Transcript of Tema 1- Monovariante

  • BIOESTADSTICA Y ANLISIS DE DATOS

    TEMA1ESTADISTICAYDESCRIPTIVA

    MONOVARIANTE

    1. Introduccin a la estadstica

    En la estadstica gracias a la informacin que extraemos de un grupo seleccionado mediante

    tcnicas de muestreo de la poblacin obtenemos una muestra de personas que se ajustan al

    objetivo de nuestra investigacin para mediante la estadstica descriptiva clasificarlas y

    estimar unos ciertos parmetros poblacionales que ms tarde podamos extrapolar y aplicar a

    grupos ms amplios, es decir a partir de una muestra seleccionada de la poblacin podemos

    inferir frecuencias de parmetros en la propia poblacin (inferencia estadstica). Dentro de

    este mbito de inferencias debemos distinguir, adems de muestra/poblacin, los trminos

    estadstico/parmetro:

    Estadstico: caractersticas numricas de la muestra a partir de las cuales estimar un

    parmetro (estimar lo mismo en el grupo amplio de individuos del que hemos extrado la

    muestra) / Parmetro: caractersticas numricas de la poblacin.

    La estadstica se emplea en muchas situaciones, por ejemplo nos exponen una ancdota del

    bombardeo de los aviones y se nos plantea si es correcto el modo de trabajo. Para adelantarse

    a los enemigos se pretenda reforzar en las flotas de aviones, mediante una optimizacin con

    restricciones de la estructura, las zonas en las que reciban impactos habitualmente de modo

    que fuesen nica y exclusivamente estas zonas para evitar aadir exceso de peso. La muestra

    de aviones escogida era la de aquellos que volvan con impactos es esto correcto?: no, por el

    hecho de que no se trata de una muestra representativa de la poblacin ya que estos aviones

    que volvan con impactos no sufran alteracin de sus funciones bsicas, es decir, el hecho de

    que volviesen no hace el impacto recibido peligroso. De este modo, la muestra vlida deba ser

    una escogida entre los aviones que no volvan sino que se estrellaban para reforzar las zonas

    que en caso de colisin impiden la continuacin del vuelo e interrumpen sus funciones.

    2. Tipos de variables

    Tipos de

    variables

    Cualitativas/Categricas (no medibles)

    Nominales (no importa el

    orden - sexo)

    Ordinales (importa el orden -grado de dolor)

    Cuantitativas (medibles)

    Discretas (valores aislados - n de hijos) -> tablas de frecuencia

    Continuas (valores infinitos entre dos valores - altura)

    En el caso de las variables cuantitativas podemos hacer una clasificacin y agrupar los valores

    en rangos convirtindolos en categoras para as poder discretizarlas para tratarlas como

    variables cualitativas o categricas y aplicarles valores clnicos y diagnsticos. Por ejemplo:

    podemos discretizar la presin arterial es una variable cuantitativa pero si queremos que la

    informacin sea aplicable mejor debemos hacerla cualitativa o categrica y de este modo son

    las mediciones en rangos que sealan si un sujeto es hipo/normo/hipertenso.

    2.1 Variables cualitativas y cuantitativas discretas

    Las variables cualitativas y cuantitativas discretas son aquellas de valores aislados, con ellas es

    frecuente el uso de tablas de frecuencias en las que se exponen los valores para cada opcin

    de la variable, por

    ejemplo si es el sexo se

    nos pueden mostrar el

    nmero de nios y de

    nias (frecuencia). Es

    comn que en muestras

    de tamaos grandes haya alguna laguna de informacin, seran valores perdidos que aplicado

    al ejemplo, aunque en este caso no hay porque la muestra es pequea, sera tener un

    individuo que no sabemos si es nio o nia. Tambin se muestra en la tabla el porcentaje de

    unos sobre otros y el porcentaje vlido (con el que habitualmente se trabaja en investigacin,

    no tiene en cuenta los valores perdidos porque no son informacin exacta) o el porcentaje

    acumulado que en este caso no tiene mucho valor pero que puede ser utilizado para

    extrapolar datos en rangos.

    Como modos de representacin grfica de los datos se emplean los diagramas de barras y los

    de sectores (de quesito).

    2.1.1 Nomenclatura de las tablas de frecuencia

    Frecuencia absoluta (fi) - nmero de veces que se repite un determinado valor en un

    estudio estadstico

    Frecuencia relativa (fr) - nmero de casos de un parmetro de los existentes

    Por ejemplo, podemos tener una fr(nios)=0.3 as sabemos que la fr(nias)=0.7. Por lo

    tanto se cumple que fr1+fr2++frn=1.

    Porcentaje - frecuencia relativa sobre cien 100

    2.2 Variables cuantitativas

    A partir variables cuantitativas, es decir medibles podemos hacer tablas de frecuencia de clase

    con datos como pueden ser medidas de la talla en cm de nios, esta informacin ha sido

    categorizada en rangos de diez en diez centmetros y los datos de la tabla son la frecuencia, el

    porcentaje, el porcentaje vlido (excluye los valores perdidos) y el porcentaje acumulado que

    en este caso nos puede servir para por ejemplo decir los nios que tienen una talla hasta 90

    cm (seran un 71%). La representacin grfica de estos datos se realiza en histogramas.

  • Estadsticos de tendencia central

    Media

    Mediana

    Percentiles

    Moda

    no tiene sentido en una variable

    cuantitativa pura porque no hay

    nadie 'que mida igual que tu'

    se emplea en variables cualitativas

    o en cuantitativas discretizadas

    Resumen con tendencia central los datos para tratar

    de expresar de forma representativa cmo es la

    muestra.

    No debemos confundir los histogramas con los diagramas de barras,

    una de las diferencias es que en los diagramas de barras en el eje x

    tenemos la variable cualitativa pero no valores como en los

    histogramas; otra diferencia sera que en el diagrama de barras los

    datos se colocan en el eje y de modo que lo que da informacin es la

    altura, pero en un histograma no lo es porque la informacin se

    extrae del rea debajo de la curva.

    Al depender de la precisin

    de las medidas que se

    realicen de la variable

    cuantitativa podemos decir

    que hay valores infinitos,

    cuanta ms precisin en medir la altura de un nio, ms decimales llevar la talla y ms

    complicado que haya otro nio que mida igual.

    3. Descriptiva monovariante

    La descriptiva monovariante comnmente se emplea para variables cuantitativas puras) y se

    caracteriza por la presencia bsica de tres factores que describen los datos: forma, posicin y

    dispersin.

    Estadsticos de dispersin

    Rango

    Rango intercuartlico (relacionado con percentiles)

    Varianza (desviacin de la media)

    Desviacin estndard/tpica (a

    partir de la varianza)

    Coeficiente de variacin (media y desviacin estndard)

    Reflejan hasta que punto estas medidas de tendencia central son

    representativas como sntesis de la informacin.

    Las medidas de diispersin cuantifican la separacin, dispersin y variabilidad

    de los valores de la distribucin respecto al central.

    3.1 Estadsticos de tendencia central

    La media para un conjunto de valores en rangos puede hacerse a partir las medias de los

    intervalos multiplicada por los individuos sumando los resultados y dividiendo entre el total, es

    la media agrupada por clases, de manera que el resultado es muy aproximado a hacer la

    media real.

    En caso de que la muestra presente valores extremos/outlayers la media se desva muchsimo,

    es sensible a valores extremos, mientras que la mediana es ms fiel al centro de equilibrio real

    de la muestra. Se recomienda el uso de la mediana para evitar la desviacin de los datos.

    Cuando no hay presencia de estos valores ambas tendencias no difieren de manera

    significativa respecto al resultado.

    Estadsticos morfolgicos

    Sesgo

    Coeficiente de Pearson

    Curtosis

    Los estadsticos morfolgicos permiten establecer una relacin de forma con la campana gausiana tpica.

    La media () es el promedio de los datos, el valormedio de la variable en la muestra.

    1 2

    xi: nmero de valores concetros

    n: tamao de la muestra

    Ejemplo: 3,12,9,6,1

    3 12 9 6 1

    5 6.2

    La mediana () es el valor de la muestra que deja aambos lados el mismo nmero de observaciones,deja la mitad de los datos de la variable por debajouna vez han sido ordenados de menor a mayor.

    N casoso impar: 3,12,9,6,1

    1,3,6,9,12 -> 6

    N casos par: 1,3,12,6,9,1

    1,1,3,6,9,12 -> media de los dos del centro -> (6+3)/2=4.5

    Dado un conjunto de datos, los percentiles y cuartilesson aquellos elementos que una vez hemos rdenadola serie numrica de forma creciente y consideramosque el centro es la mediana, sera el segundo cuartil(Q2), podemos fijarnos en:

    - El primer valor que supera o iguala al 25% (primer cuartil - Q1) o al 75% (tercer cuartil - Q3)

    - Para otros valores como el 10% o el 80% hablamos de los percentiles diez y ochenta (P10, P80)

    - El percentil 25 sera el 1 cuartil, P50=Q2, P75=Q3...

    La moda () es el valor ms repetido de una muestra,sera el dato de la variable con mayor ferecuenciaabsoluta. Se calcula a partir del recuento de los datos.

    Tendencia central

  • 3.2 Estadsticos de dispersin

    Tenemos dos posibles poblaciones con sus dos posibles promedios, el rango es la diferencia

    entre el mnimo y el mximo valor de una dispersin. El rango intercuartilico es la distancia

    entre el percentil 75 y el 25 (la mitad de las observaciones). Trabajar con estos datos da mucho

    juego porque dividimos las observaciones segn nos interesa. Si evaluamos el rango

    intercuartlico podemos saber la precisin, un rango intercuartilico ms pequeo nos da una

    precisin mayor porque el

    recorrido es ms pequeo y

    hay ms densidad de

    individuos, nos puede servir

    para ver la precisin, la heterogeneidad o la homogeneidad de las muestras.

    Por ejemplo, en una tabla de tres columnas calculamos el promedio de la primera observacin

    de valores, en la segunda ponemos el promedio de la primera y la tercera columna es la

    diferencia del promedio y la primera medicin, esto nos sirve para valorar el promedio. Si

    estamos analizando tensin sana y alguien est alejado tal vez es porque el parmetro est

    alterado. Este es un modo de identificar si una observacin se ajusta al promedio o no. Si

    sumamos la tercera columna o la de promedio dar

    0 porque es el punto de equilibrio, a lo largo de la

    tabla habr compensaciones debido a la resta. La

    suma de los valores al cuadrado no nos interesa

    porque no nos aporta informacin pero si la

    promediamos dividiendo entre las tensiones, s. As es como se obtiene la varianza. Se divide

    segn los grados de libertad que son (n-1) porque si conocemos la media y eliminamos al azar

    uno de los valores, lo podemos identificar

    (p.ej: 3+7+10+15+5=40, si eliminamos el 7

    sabemos el que me falta), podemos prescindir

    de uno de los valores porque ya tenemos

    definido el valor de la media. En resumen, los grados de libertad son el nmero elementos

    independientes necesarios para definir el sistema. *ANOVA: anlisis de la varianza

    La varianza debe estar en las mismas unidades, no es til para aplicar tal cual porque si estoy

    midiendo mmHg me dar mmHg^2, me dar las unidades al cuadrado, para evitarlo le hacemos

    la raz cuadrada y obtendremos la desviacin estndar o desviacin tpica. Cuanto ms

    dispersa sea, mayor es la desviacin estndar.

    Cuando estimamos la varianza en la muestra empleamos los grados de libertad porque

    trabajamos con muestras para estimar parmetros que creemos que se comportan igual en la

    poblacin, al utilizar el promedio, utilizamos la suma y podemos prescindir de un caso

    sabiendo el que quitamos. La variacin estndar solo tiene sentido si las medias son iguales.

    Rango intercuartlico

    pequeo.

    + precisin, poco recorrido.

    Rango intercuartlico grande. - precisin, ms recorrido.

    El coeficiente de variacin no tiene

    unidades porque comparar desviaciones no

    tiene sentido si las dispersiones tienen

    diferentes unidades, es decir, si tienen

    medias diferentes no podemos compararlas. Comparando ambos coeficientes de variacin

    sabremos cual tiene mayor dispersin porque el c.v. Podemos utilizar la desviacin tpica

    cuando tienen la media igual pero si las medias son diferentes tenemos que utilizar el

    coeficiente de variacin. Ms disperso, mayor variabilidad.

    EJERCICIO 1.2: Calcular la media, la desviacin tpica y la mediana de los dos grupos de datos

    sabiendo que los datos del grupo A son n de hijos de una familia y los del B pesos en Kg de 5

    personas. Cul de los dos grupos tiene mayor dispersin de datos?

    GRUPO A GRUPO B

    2 5 1 7 3 2

    71 68 73 56 80

    Media () = !"!!#!$!

    %= 3.3 hijos

    Media () = #!%&!#$!"%!&'

    "= 69.6 Kg

    Mediana (() =2.5 hijos 1-2-2-3-5-7

    Mediana (() = 71 56 68 -71 -73-80

    Desviacin tpica (sx) ->

    Calculamos la varianza=5.068

    (sx) = 5.068= 2.2 hijos

    Desviacin tpica (sx) ->

    Calculamos la varianza = 77.44

    (sx) = 77.44 = 8.8 Kg

    Coeficiente de variacin (cv) =-

    = .

    $.$=0.67,

    67%

    Coeficiente de variacin (cv)=-

    =&.&

    .%.%=0.13, 13%

    El grupo A, es decir, los datos de la cantidad de hijos tienen mayor dispersin que el peso de

    las 5 personas de los datos del grupo B.

    Esta imagen demuestra que para comparar dispersin entre grupos como en la varianza est

    directamente implicada la media, solo podemos trabajar con la misma media. Como esto es

    improbable, cuando las medias sean distintas, trabajaremos con el coeficiente de variacin.

  • 3.3 Estadsticos morfolgicos

    El sesgo es la estadstica respecto a un

    promedio, cuando una cola est ms

    estirada que la otra podemos decir

    que tiene un sesgo, ser positivo si

    tiene a +infinito, si tiende a infinito

    ser un sesgo negativo.

    La frmula que se emplea para determina el sesgo es la que mide el grado de asimetra.

    Grado de asimetra: g1 = /01234567

    -83

    Asimtrica positiva: g1

    mayor que 0 (es +) sesgado a

    la derecha, hacia +infinito

    g1=0 simtrica Asimtrica negativa: g1 ms

    pequea que 0 (es -), sesgado

    a la izquierda, hacia - infinito

    El coeficiente de Pearson es negativo cuando la mediana es mucho mayor que la media pero si

    es positivo se debe a que la media es mucho mayor que la mediana.

    9 ;(

    <

    Estadsticos

    morfolgicos

    Sesgo:

    simetra respecto a un promedio, puede estar

    sesgado hacia la derecha (+) o hacia la izquierda (-).

    Coeficiente de Pearson:

    ndice para medir el grado de relacin de dos variables siempre y cuando ambas

    sean cuantitativas.

    Curtosis:

    proporcin de la varianza que se explica por la

    combinacin de datos extremos respecto a la

    media en contraposicin con datos poco alejados de

    la misma.

    La curtosis analiza el grado de concentracin que presentan los valores alrededor de la zona

    central de la distribucin.

    Mesocrtica es una campana de

    gauss.

    Platicrtica (g20.

    La frmula que se emplea para calcular la curtosis es =2 /0102>4?67

    -0>

    EJERCICIO 1.4: Se consideran 20 grupos de 4 pacientes con bronquitis crnica,

    estudiando en cada paciente si fuma ms de un paquete diario (F) o no (N). Los

    resultados obtenidos son:

    Describir la variable n de personas por grupo que fuman ms de un paquete diario,

    mediante: media, mediana, moda, desviacin tpica, coeficiente de variacin.

    Media () = @!'!&!% '

    = @&

    ' = 2.4 personas

    Mediana (() = 2.5 0 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 Moda () = 3 Desviacin tpica (s) =1.2 Coeficiente de variacin =-

    0

    .

    .@ 0.496, 49.6% respecto a la media

    Sesgo, g1 = /01234

    567

    -83-0.22 < 0 (asimetra negativa, sesgada

    hacia la izquierda, es decir, hacia infinito)

    Coeficiente de Pearson: 9

    010(

    - =

    .@1 ."

    . ;0.083

    Curtosis,=2 /0102>4

    ?67

    -8>=1.88 < 3 (platicrtica ms dispersa que una camapana

    gausiana clsica)

    http://www.eduteka.org/proyectos.php/1/3053