Roberto Pastor-Barriuso - Experto Universitario en ... · 8.3est de los rangos con signo de...

262
Roberto Pastor-Barriuso Instituto Carlos III de Salud Centro Nacional de Epidemiología BIOESTADÍSTICA MINISTERIO DE ECONOMÍA Y COMPETITIVIDAD Instituto de Salud Carlos III Centro Nacional de Epidemiología

Transcript of Roberto Pastor-Barriuso - Experto Universitario en ... · 8.3est de los rangos con signo de...

  • Roberto Pastor-Barriuso

    Instituto

    Carlos IIIde Salud

    Centro Nacional deEpidemiologa

    Instituto

    Carlos IIIde Salud

    Centro Nacional deEpidemiologa

    BIOESTADSTICA

    MINISTERIODE ECONOMAY COMPETITIVIDAD Instituto

    de SaludCarlos III

    CentroNacional deEpidemiologa

  • Centro Nacional de EpidemiologaInstituto de Salud Carlos IIIMonforte de Lemos, 528029 MADRID (ESPAA)Tel.:91 822 20 00Fax: 91 387 78 15http://www.isciii.es

    Catlogo general de publicaciones oficiales:http://publicacionesoficiales.boe.es/

    Para obtener este libro de forma gratuita en internet (formato pdf):http://publicaciones.isciii.es/

    http://creativecommons.org/licenses/by-nc-sa/2.1/es/

    EDITA: CENTRO NACIONAL DE EPIDEMIOLOGA

    Instituto de Salud Carlos III

    Madrid, diciembre de 2012

    N.I.P.O. (en lnea): 477-11-083-3I.S.B.N.: 978-84-695-3775-6

    Imprime: Agencia Estatal Boletn Oficial del Estado.Avda. de Manoteras, 54. 28050 MADRID

  • BIOESTADSTICA

    Roberto Pastor-Barriuso

    Cientfico Titular

    Centro Nacional de Epidemiologa, Instituto de Salud Carlos III,

    Madrid

  • Para citar este libro

    Pastor-Barriuso R. Bioestadstica. Madrid: Centro Nacional de Epidemiologa, Instituto de Salud Carlos III, 2012.

    Este texto puede ser reproducido siempre que se cite su procedencia.

  • A la memoria de Carmen

    A Marta, Pablo, Miguel y Antonio

  • vii

    NDICE

    1 Estadstica descriptiva 1

    1.1 Introduccin 11.2 Medidas de tendencia central 3

    1.2.1 Media aritmtica 31.2.2 Mediana 41.2.3 Media geomtrica 5

    1.3 Medidas de posicin: cuantiles 51.4 Medidas de dispersin 6

    1.4.1 Varianza y desviacin tpica 61.4.2 Rango intercuartlico 71.4.3 Coeficiente de variacin 7

    1.5 Representaciones grficas 81.5.1 Diagrama de barras 81.5.2 Histograma y polgono de frecuencias 91.5.3 Grfico de tallo y hojas 101.5.4 Diagrama de caja 11

    1.6 Referencias 12

    2 Probabilidad 13

    2.1 Introduccin 132.2 Concepto y definiciones de probabilidad 142.3 Probabilidad condicional e independencia de sucesos 162.4 Regla de la probabilidad total 182.5 Teorema de Bayes 182.6 Referencias 20

    3 Variables aleatorias y distribuciones de probabilidad 21

    3.1 Introduccin 213.2 Distribuciones de probabilidad discretas 22

    3.2.1 Distribucin binomial 243.2.2 Distribucin de Poisson 263.2.3 Aproximacin de Poisson a la distribucin binomial 29

    3.3 Distribuciones de probabilidad continuas 293.3.1 Distribucin normal 313.3.2 Aproximacin normal a la distribucin binomial 343.3.3 Aproximacin normal a la distribucin de Poisson 36

    3.4 Combinacin lineal de variables aleatorias 373.5 Referencias 39

  • viii

    ndice

    4 Principios de muestreo y estimacin 41

    4.1 Introduccin 414.2 Principales tipos de muestreo probabilstico 42

    4.2.1 Muestreo aleatorio simple 434.2.2 Muestreo sistemtico 434.2.3 Muestreo estratificado 444.2.4 Muestreo por conglomerados 464.2.5 Muestreo polietpico 47

    4.3 Estimacin en el muestreo aleatorio simple 494.3.1 Estimacin puntual de una media poblacional 494.3.2 Error estndar de la media muestral 514.3.3 Teorema central del lmite 534.3.4 Estimacin de una proporcin poblacional 55

    4.4 Referencias 58

    5 Inferencia estadstica 59

    5.1 Introduccin 595.2 Estimacin puntual 605.3 Estimacin por intervalo 62

    5.3.1 Distribucin t de Student 625.3.2 Intervalo de confianza para una media poblacional 63

    5.4 Contraste de hiptesis 675.4.1 Formulacin de hiptesis 675.4.2 Contraste estadstico para la media de una poblacin 695.4.3 Errores y potencia de un contraste de hiptesis 72

    5.5 Referencias 76

    6 Inferencia sobre medias 79

    6.1 Introduccin 796.2 Inferencia sobre una media y varianza poblacional 80

    6.2.1 Inferencia sobre la media de una poblacin 806.2.2 Inferencia sobre la varianza de una poblacin 81

    6.3 Comparacin de medias en dos muestras independientes 836.3.1 Comparacin de medias en distribuciones con igual varianza 856.3.2 Contraste para la igualdad de varianzas 886.3.3 Comparacin de medias en distribuciones con distinta varianza 90

    6.4 Comparacin de medias en dos muestras dependientes 926.5 Referencias 95

  • ix

    7 Inferencia sobre proporciones 97

    7.1 Introduccin 977.2 Inferencia sobre una proporcin poblacional 977.3 Comparacin de proporciones en dos muestras independientes 997.4 Asociacin estadstica en una tabla de contingencia 1027.5 Test de tendencia en una tabla r2 1067.6 Medidas de efecto en una tabla de contingencia 107

    7.6.1 Riesgo relativo 1087.6.2 Odds ratio 111

    7.7 Comparacin de proporciones en dos muestras dependientes 1147.8 Apndice: correccin por continuidad 1177.9 Referencias 120

    8 Mtodos no paramtricos 121

    8.1 Introduccin 1218.2 Test de la suma de rangos de Wilcoxon 1228.3 Test de los rangos con signo de Wilcoxon 1298.4 Test exacto de Fisher 1348.5 Referencias 138

    9 Determinacin del tamao muestral 139

    9.1 Introduccin 1399.2 Tamao muestral para la estimacin de un parmetro poblacional 140

    9.2.1 Tamao muestral para la estimacin de una media 1409.2.2 Tamao muestral para la estimacin de una proporcin 141

    9.3 Tamao muestral para la comparacin de medias 1429.3.1 Tamao muestral para la comparacin de medias en dos muestras independientes 1439.3.2 Tamao muestral para la comparacin de medias en dos muestras dependientes 146

    9.4 Tamao muestral para la comparacin de proporciones 1489.4.1 Tamao muestral para la comparacin de proporciones en dos muestras independientes 1489.4.2 Tamao muestral para la comparacin de proporciones en dos muestras dependientes 152

    9.5 Referencias 154

    10 Correlacin y regresin lineal simple 155

    10.1 Introduccin 15510.2 Coeficiente de correlacin 155

    ndice

  • x

    ndice

    10.2.1 Coeficiente de correlacin muestral de Pearson 15810.2.2 Coeficiente de correlacin de los rangos de Spearman 161

    10.3 Regresin lineal simple 16410.3.1 Estimacin de la recta de regresin 16610.3.2 Contraste del modelo de regresin lineal simple 16910.3.3 Inferencia sobre los parmetros de la recta de regresin 17310.3.4 Bandas de confianza y prediccin para la recta de regresin 17510.3.5 Evaluacin de las asunciones del modelo de regresin lineal simple 17810.3.6 Observaciones atpicas e influyentes 18410.3.7 Variable explicativa dicotmica 190

    10.4 Referencias 191

    11 Regresin lineal mltiple 193

    11.1 Introduccin 19311.2 Estructura de la regresin lineal mltiple 19411.3 Estimacin e inferencia de la ecuacin de regresin 196

    11.3.1 Estimacin de los coeficientes de regresin 19711.3.2 Inferencia sobre los coeficientes de regresin 20011.3.3 Inferencia sobre la ecuacin de regresin 201

    11.4 Contrastes de hiptesis en regresin lineal mltiple 20311.4.1 Contraste global del modelo de regresin lineal mltiple 20311.4.2 Contrastes parciales 206

    11.5 Variables explicativas politmicas 21011.6 Regresin polinomial 21511.7 Confusin e interaccin en regresin lineal 218

    11.7.1 Control de la confusin en regresin lineal 21811.7.2 Evaluacin de la interaccin en regresin lineal 221

    11.8 Apndice: formulacin matricial de la regresin lineal mltiple 22811.9 Referencias 232

    Apndice: tablas estadsticas 233

  • 1Pastor-Barriuso R.

    TEMA 1

    ESTADSTICA DESCRIPTIVA

    1.1 INTRODUCCIN

    La estadstica es la rama de las matemticas aplicadas que permite estudiar fenmenos cuyos resultados son en parte inciertos. Al estudiar sistemas biolgicos, esta incertidumbre se debe al desconocimiento de muchos de los mecanismos fisiolgicos y fisiopatolgicos, a la incapacidad de medir todos los determinantes de la enfermedad y a los errores de medida que inevitablemente se producen. As, al realizar observaciones en clnica o en salud pblica, los resultados obtenidos contienen una parte sistemtica o estructural, que aporta informacin sobre las relaciones entre las variables estudiadas, y una parte de ruido aleatorio. El objeto de la estadstica consiste en extraer la mxima informacin sobre estas relaciones estructurales a partir de los datos recogidos.

    En estadstica se distinguen dos grandes grupos de tcnicas:

    y La estadstica descriptiva, en la que se estudian las tcnicas necesarias para la organizacin, presentacin y resumen de los datos obtenidos.

    y La estadstica inferencial, en la que se estudian las bases lgicas y las tcnicas mediante las cuales pueden establecerse conclusiones sobre la poblacin a estudio a partir de los resultados obtenidos en una muestra.

    El anlisis de una base de datos siempre partir de tcnicas simples de resumen de los datos y presentacin de los resultados. A partir de estos resultados iniciales, y en funcin del diseo del estudio y de las hiptesis preestablecidas, se aplicarn las tcnicas de inferencia estadstica que permitirn obtener conclusiones acerca de las relaciones estructurales entre las variables estudiadas. Las tcnicas de estadstica descriptiva no precisan de asunciones para su interpretacin, pero en contrapartida la informacin que proporcionan no es fcilmente generalizable. La estadstica inferencial permite esta generalizacin, pero requiere ciertas asunciones que deben verificarse para tener un grado razonable de seguridad en las inferencias.

    A continuacin se definen algunos conceptos generales que aparecen repetidamente a lo largo de la exposicin:

    y Poblacin es el conjunto de todos los elementos que cumplen ciertas propiedades y entre los cuales se desea estudiar un determinado fenmeno.

    y Muestra es un subconjunto de la poblacin seleccionado mediante un mecanismo ms o menos explcito. En general, rara vez se dispone de los recursos necesarios para estudiar a toda la poblacin y, en consecuencia, suelen emplearse muestras obtenidas a partir de estas poblaciones.

    Ejemplo 1.1 Algunos ejemplos de poblaciones son:

    Las personas residentes en Washington D.C. a 1 de enero de 2010. Las personas infectadas con el virus de inmunodeficiencia humana en Brasil a da de hoy.

  • 2

    Estadstica descriptiva

    Pastor-Barriuso R.

    Para estas poblaciones, algunas muestras podran ser: 500 residentes en Washington D.C. a 1 de enero de 2010 seleccionados mediante

    llamadas telefnicas aleatorias. Todas las personas que acuden a un hospital de Ro de Janeiro durante el presente ao

    para realizarse un test del virus de inmunodeficiencia humana y que resultan ser positivas.

    y Variables son propiedades o cualidades que presentan los elementos de una poblacin. Las variables pueden clasificarse en: Variables cualitativas o atributos son aquellas que no pueden medirse numricamente y que, a su vez, pueden ser:

    Nominales, en las que no pueden ordenarse las diferentes categoras. Ordinales, en las que pueden ordenarse las categoras, pero no puede establecerse

    la distancia relativa entre las mismas. Variables cuantitativas son aquellas que tienen una interpretacin numrica y que se subdividen en:

    Discretas, slo pueden tomar unos valores concretos dentro de un intervalo. Continuas, pueden tomar cualquier valor dentro de un intervalo.

    En la prctica, todas las variables continuas que medimos son discretas en el sentido de que, debido a las limitaciones de los sistemas de medida, las variables continuas no pueden adoptar todos los valores dentro de un intervalo. De cara a los anlisis posteriores, la principal distincin se establece, por tanto, entre variables con relativamente pocas categoras (como nmero de hijos) frente a variables con muchas categoras (como niveles de colesterol en sangre).

    Ejemplo 1.2 Algunos ejemplos de variables son:

    Variables cualitativas nominales: sexo, raza, estado civil (soltero, casado, viudo, separado, divorciado), religin (catlico, protestante, otros), nacionalidad.

    Variables cualitativas ordinales: salud auto-percibida (buena, regular, mala), severidad de la enfermedad (leve, moderada, grave). Por ejemplo, para esta ltima variable ordinal, podemos establecer un orden de severidad, pero no podemos decir que la diferencia de severidad entre un paciente moderado y uno leve sea la misma que entre uno grave y uno moderado.

    Variables cuantitativas discretas: nmero de hijos, nmero de dientes cariados. Variables cuantitativas continuas: edad, peso, altura, presin arterial, niveles de colesterol en sangre.

    y Estadstico es cualquier operacin realizada sobre los valores de una variable. y Parmetro es un valor de la poblacin sobre el que se desea realizar inferencias a partir de estadsticos obtenidos de la muestra, que en este caso se denominan estimadores. Por convencin, los parmetros poblacionales se denotan con letras del alfabeto griego, mientras que los estimadores muestrales se denotan con letras de nuestro alfabeto.

  • 3

    Medidas de tendencia central

    Pastor-Barriuso R.

    Ejemplo 1.3 Algunos ejemplos de estadsticos incluyen:

    La media de los valores de colesterol de una muestra. El valor ms alto de colesterol de una muestra. La suma de los valores de colesterol de una muestra elevados al cuadrado.

    As, por ejemplo, la media del colesterol en una poblacin, que se denotara por , es un parmetro que se estima a partir de la media de los valores de colesterol en una muestra obtenida de esa poblacin, que se representara por

    5

    1.2 MEDIDAS DE TENDENCIA CENTRAL

    Las medidas de tendencia central informan acerca de cul es el valor ms representativo

    de una determinada variable o, dicho de forma equivalente, estos estimadores indican

    alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia

    central de la muestra sirven tanto para resumir los resultados observados como para

    realizar inferencias acerca de los parmetros poblacionales correspondientes. A

    continuacin se describen los principales estimadores de la tendencia central de una

    variable.

    1.2.1 Media aritmtica

    La media aritmtica, denotada por x , se define como la suma de cada uno de los

    valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

    por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,

    la media vendra dada por

    nxxx

    xn

    x nn

    ii

    +++==

    =

    ...1 211

    .

    La media es la medida de tendencia central ms utilizada y de ms fcil

    interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su

    principal limitacin es que est muy influenciada por los valores extremos y, en este

    caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.

    Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se

    utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

    estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

    the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

    entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

    .

    En el presente tema, se revisan las herramientas fundamentales para la realizacin de un anlisis descriptivo de las variables recogidas en una muestra, tanto mediante estimadores de la tendencia central, posicin y dispersin como mediante la utilizacin de representaciones grficas.

    1.2 MEDIDAS DE TENDENCIA CENTRAL

    Las medidas de tendencia central informan acerca de cul es el valor ms representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parmetros poblacionales correspondientes. A continuacin se describen los principales estimadores de la tendencia central de una variable.

    1.2.1 Media aritmtica

    La media aritmtica, denotada por

    5

    1.2 MEDIDAS DE TENDENCIA CENTRAL

    Las medidas de tendencia central informan acerca de cul es el valor ms representativo

    de una determinada variable o, dicho de forma equivalente, estos estimadores indican

    alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia

    central de la muestra sirven tanto para resumir los resultados observados como para

    realizar inferencias acerca de los parmetros poblacionales correspondientes. A

    continuacin se describen los principales estimadores de la tendencia central de una

    variable.

    1.2.1 Media aritmtica

    La media aritmtica, denotada por x , se define como la suma de cada uno de los

    valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

    por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,

    la media vendra dada por

    nxxx

    xn

    x nn

    ii

    +++==

    =

    ...1 211

    .

    La media es la medida de tendencia central ms utilizada y de ms fcil

    interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su

    principal limitacin es que est muy influenciada por los valores extremos y, en este

    caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.

    Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se

    utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

    estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

    the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

    entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

    , se define como la suma de cada uno de los valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, la media vendra dada por

    5

    1.2 MEDIDAS DE TENDENCIA CENTRAL

    Las medidas de tendencia central informan acerca de cul es el valor ms representativo

    de una determinada variable o, dicho de forma equivalente, estos estimadores indican

    alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia

    central de la muestra sirven tanto para resumir los resultados observados como para

    realizar inferencias acerca de los parmetros poblacionales correspondientes. A

    continuacin se describen los principales estimadores de la tendencia central de una

    variable.

    1.2.1 Media aritmtica

    La media aritmtica, denotada por x , se define como la suma de cada uno de los

    valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

    por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,

    la media vendra dada por

    nxxx

    xn

    x nn

    ii

    +++==

    =

    ...1 211

    .

    La media es la medida de tendencia central ms utilizada y de ms fcil

    interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su

    principal limitacin es que est muy influenciada por los valores extremos y, en este

    caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.

    Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se

    utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

    estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

    the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

    entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

    La media es la medida de tendencia central ms utilizada y de ms fcil interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su principal limitacin es que est muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.

    Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en estos 10 participantes es

    6

    antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en

    hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84,

    1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en

    estos 10 participantes es

    1053,1...58,189,0

    101 10

    1

    +++== =i

    ixx = 1,223 mmol/l.

    La media aritmtica presenta las siguientes propiedades:

    Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos

    de una muestra, la media de la muestra resultante es igual a la media inicial ms la

    constante utilizada; si yi = xi + c, entonces y = x + c. Un cambio de origen que

    se realiza con frecuencia es el centrado de la variable, que consiste en restar a

    cada valor de la muestra su media. La media de una variable centrada ser, por

    tanto, igual a 0.

    Cambio de escala (unidades). Si se multiplica cada uno de los datos de una

    muestra por una constante, la media de la muestra resultante es igual a la media

    inicial por la constante utilizada; si yi = cxi, entonces y = c x .

    Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de

    una muestra por una constante y al resultado se le suma otra constante, la media

    de la muestra resultante es igual a la media inicial por la primera constante, ms la

    segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2.

    Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se

    multiplica por el factor de conversin 38,8. As, utilizando la propiedad del

    cambio de escala, la media del colesterol HDL en mg/dl se calculara

    directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl.

  • 4

    Estadstica descriptiva

    Pastor-Barriuso R.

    La media aritmtica presenta las siguientes propiedades:

    y Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos de una muestra, la media de la muestra resultante es igual a la media inicial ms la constante utilizada; si yi = xi + c, entonces

    6

    antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en

    hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84,

    1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en

    estos 10 participantes es

    1053,1...58,189,0

    101 10

    1

    +++== =i

    ixx = 1,223 mmol/l.

    La media aritmtica presenta las siguientes propiedades:

    Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos

    de una muestra, la media de la muestra resultante es igual a la media inicial ms la

    constante utilizada; si yi = xi + c, entonces y = x + c. Un cambio de origen que

    se realiza con frecuencia es el centrado de la variable, que consiste en restar a

    cada valor de la muestra su media. La media de una variable centrada ser, por

    tanto, igual a 0.

    Cambio de escala (unidades). Si se multiplica cada uno de los datos de una

    muestra por una constante, la media de la muestra resultante es igual a la media

    inicial por la constante utilizada; si yi = cxi, entonces y = c x .

    Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de

    una muestra por una constante y al resultado se le suma otra constante, la media

    de la muestra resultante es igual a la media inicial por la primera constante, ms la

    segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2.

    Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se

    multiplica por el factor de conversin 38,8. As, utilizando la propiedad del

    cambio de escala, la media del colesterol HDL en mg/dl se calculara

    directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl.

    =

    5

    1.2 MEDIDAS DE TENDENCIA CENTRAL

    Las medidas de tendencia central informan acerca de cul es el valor ms representativo

    de una determinada variable o, dicho de forma equivalente, estos estimadores indican

    alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia

    central de la muestra sirven tanto para resumir los resultados observados como para

    realizar inferencias acerca de los parmetros poblacionales correspondientes. A

    continuacin se describen los principales estimadores de la tendencia central de una

    variable.

    1.2.1 Media aritmtica

    La media aritmtica, denotada por x , se define como la suma de cada uno de los

    valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

    por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,

    la media vendra dada por

    nxxx

    xn

    x nn

    ii

    +++==

    =

    ...1 211

    .

    La media es la medida de tendencia central ms utilizada y de ms fcil

    interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su

    principal limitacin es que est muy influenciada por los valores extremos y, en este

    caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.

    Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se

    utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

    estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

    the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

    entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

    + c. Un cambio de origen que se realiza con frecuencia es el centrado de la variable, que consiste en restar a cada valor de la muestra su media. La media de una variable centrada ser, por tanto, igual a 0.

    y Cambio de escala (unidades). Si se multiplica cada uno de los datos de una muestra por una constante, la media de la muestra resultante es igual a la media inicial por la constante utilizada; si yi = cxi, entonces

    6

    antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en

    hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84,

    1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en

    estos 10 participantes es

    1053,1...58,189,0

    101 10

    1

    +++== =i

    ixx = 1,223 mmol/l.

    La media aritmtica presenta las siguientes propiedades:

    Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos

    de una muestra, la media de la muestra resultante es igual a la media inicial ms la

    constante utilizada; si yi = xi + c, entonces y = x + c. Un cambio de origen que

    se realiza con frecuencia es el centrado de la variable, que consiste en restar a

    cada valor de la muestra su media. La media de una variable centrada ser, por

    tanto, igual a 0.

    Cambio de escala (unidades). Si se multiplica cada uno de los datos de una

    muestra por una constante, la media de la muestra resultante es igual a la media

    inicial por la constante utilizada; si yi = cxi, entonces y = c x .

    Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de

    una muestra por una constante y al resultado se le suma otra constante, la media

    de la muestra resultante es igual a la media inicial por la primera constante, ms la

    segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2.

    Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se

    multiplica por el factor de conversin 38,8. As, utilizando la propiedad del

    cambio de escala, la media del colesterol HDL en mg/dl se calculara

    directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl.

    = c

    5

    1.2 MEDIDAS DE TENDENCIA CENTRAL

    Las medidas de tendencia central informan acerca de cul es el valor ms representativo

    de una determinada variable o, dicho de forma equivalente, estos estimadores indican

    alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia

    central de la muestra sirven tanto para resumir los resultados observados como para

    realizar inferencias acerca de los parmetros poblacionales correspondientes. A

    continuacin se describen los principales estimadores de la tendencia central de una

    variable.

    1.2.1 Media aritmtica

    La media aritmtica, denotada por x , se define como la suma de cada uno de los

    valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

    por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,

    la media vendra dada por

    nxxx

    xn

    x nn

    ii

    +++==

    =

    ...1 211

    .

    La media es la medida de tendencia central ms utilizada y de ms fcil

    interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su

    principal limitacin es que est muy influenciada por los valores extremos y, en este

    caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.

    Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se

    utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

    estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

    the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

    entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

    . y Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de una muestra por una constante y al resultado se le suma otra constante, la media de la muestra resultante es igual a la media inicial por la primera constante, ms la segunda constante; si yi = c1xi + c2, entonces

    6

    antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en

    hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84,

    1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en

    estos 10 participantes es

    1053,1...58,189,0

    101 10

    1

    +++== =i

    ixx = 1,223 mmol/l.

    La media aritmtica presenta las siguientes propiedades:

    Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos

    de una muestra, la media de la muestra resultante es igual a la media inicial ms la

    constante utilizada; si yi = xi + c, entonces y = x + c. Un cambio de origen que

    se realiza con frecuencia es el centrado de la variable, que consiste en restar a

    cada valor de la muestra su media. La media de una variable centrada ser, por

    tanto, igual a 0.

    Cambio de escala (unidades). Si se multiplica cada uno de los datos de una

    muestra por una constante, la media de la muestra resultante es igual a la media

    inicial por la constante utilizada; si yi = cxi, entonces y = c x .

    Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de

    una muestra por una constante y al resultado se le suma otra constante, la media

    de la muestra resultante es igual a la media inicial por la primera constante, ms la

    segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2.

    Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se

    multiplica por el factor de conversin 38,8. As, utilizando la propiedad del

    cambio de escala, la media del colesterol HDL en mg/dl se calculara

    directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl.

    = c1

    5

    1.2 MEDIDAS DE TENDENCIA CENTRAL

    Las medidas de tendencia central informan acerca de cul es el valor ms representativo

    de una determinada variable o, dicho de forma equivalente, estos estimadores indican

    alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia

    central de la muestra sirven tanto para resumir los resultados observados como para

    realizar inferencias acerca de los parmetros poblacionales correspondientes. A

    continuacin se describen los principales estimadores de la tendencia central de una

    variable.

    1.2.1 Media aritmtica

    La media aritmtica, denotada por x , se define como la suma de cada uno de los

    valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

    por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,

    la media vendra dada por

    nxxx

    xn

    x nn

    ii

    +++==

    =

    ...1 211

    .

    La media es la medida de tendencia central ms utilizada y de ms fcil

    interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su

    principal limitacin es que est muy influenciada por los valores extremos y, en este

    caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.

    Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se

    utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

    estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

    the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

    entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

    + c2.

    Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se multiplica por el factor de conversin 38,8. As, utilizando la propiedad del cambio de escala, la media del colesterol HDL en mg/dl se calculara directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl.

    1.2.2 Mediana

    La mediana es el valor de un variable que deja por encima el 50% de los datos de la muestra y por debajo el otro 50%. Para calcular la mediana, es necesario ordenar los valores de la muestra de menor a mayor. Si el tamao muestral n es impar, la mediana viene dada por el valor (n + 1)/2-simo. Si n es par, la mediana viene dada por la media aritmtica de los valores (n/2) y (n/2 + 1)-simos. La principal ventaja de la mediana es que no est influenciada por los valores extremos. No obstante, se utiliza menos que la media como medida de tendencia central porque su tratamiento estadstico es ms complejo.

    Ejemplo 1.6 Para obtener la mediana del colesterol HDL en la muestra del estudio EURAMIC, se ordena en primer lugar los valores de menor a mayor; esto es, 0,79, 0,84, 0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Como el tamao muestral es par (n = 10), la mediana ser la media de los dos valores centrales (en este caso, el 5 y el 6), que corresponde a (1,06 + 1,29)/2 = 1,175 mmol/l.

    Comparacin de la media aritmtica y la mediana. En las distribuciones simtricas (ambas colas de la distribucin son semejantes), la media es aproximadamente igual a la mediana. En distribuciones sesgadas positivamente (la cola superior de la distribucin es mayor que la inferior), la media tiende a ser mayor que la mediana; mientras que en distribuciones sesgadas negativamente (la cola inferior de la distribucin es mayor que la superior), la media tiende a ser menor que la mediana. La comparacin de la media y la mediana permite evaluar, por tanto, la asimetra de una distribucin.

    Ejemplo 1.7 En la muestra del estudio EURAMIC la media del colesterol HDL es ligeramente superior a la mediana (1,223 y 1,175 mmol/l, respectivamente). En consecuencia, la distribucin de estos 10 valores del colesterol HDL es aproximadamente simtrica con un leve sesgo positivo.

  • 5

    Medidas de posicin: cuantiles

    Pastor-Barriuso R.

    1.2.3 Media geomtrica

    La media geomtrica, denotada por

    8

    consecuencia, la distribucin de estos 10 valores del colesterol HDL es

    aproximadamente simtrica con un leve sesgo positivo.

    1.2.3 Media geomtrica

    La media geomtrica, denotada por Gx , se define como la raz n-sima del producto de

    los valores de una muestra de tamao n,

    nn

    nn

    iiG xxxxx =

    = =

    ...21/1

    1

    .

    En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en

    calcular primero el logaritmo de cada valor muestral, hallar a continuacin la media de

    los logaritmos y deshacer finalmente la transformacin logartmica. Para calcular los

    logaritmos se puede usar cualquier base, siempre y cuando el logaritmo y el

    antilogaritmo estn en la misma base. Notar que la media geomtrica slo puede

    emplearse como medida de tendencia central en variables que toman valores positivos.

    Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra

    del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los

    valores y a continuacin se calcula su media aritmtica,

    .155,010

    425,0...117,010

    )53,1log(...)89,0log(log101log

    10

    1

    =++=

    ++== =i

    iG xx

    La media geomtrica es, por tanto, Gx = exp(0,155) = 1,168 mmol/l.

    Al igual que la mediana, la media geomtrica es til como medida de tendencia

    central para variables muy asimtricas, en las que un pequeo grupo de observaciones

    extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica

    , se define como la raz n-sima del producto de los valores de una muestra de tamao n,

    8

    consecuencia, la distribucin de estos 10 valores del colesterol HDL es

    aproximadamente simtrica con un leve sesgo positivo.

    1.2.3 Media geomtrica

    La media geomtrica, denotada por Gx , se define como la raz n-sima del producto de

    los valores de una muestra de tamao n,

    nn

    nn

    iiG xxxxx =

    = =

    ...21/1

    1

    .

    En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en

    calcular primero el logaritmo de cada valor muestral, hallar a continuacin la media de

    los logaritmos y deshacer finalmente la transformacin logartmica. Para calcular los

    logaritmos se puede usar cualquier base, siempre y cuando el logaritmo y el

    antilogaritmo estn en la misma base. Notar que la media geomtrica slo puede

    emplearse como medida de tendencia central en variables que toman valores positivos.

    Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra

    del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los

    valores y a continuacin se calcula su media aritmtica,

    .155,010

    425,0...117,010

    )53,1log(...)89,0log(log101log

    10

    1

    =++=

    ++== =i

    iG xx

    La media geomtrica es, por tanto, Gx = exp(0,155) = 1,168 mmol/l.

    Al igual que la mediana, la media geomtrica es til como medida de tendencia

    central para variables muy asimtricas, en las que un pequeo grupo de observaciones

    extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica

    En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en calcular primero el logaritmo de cada valor muestral, hallar a continuacin la media de los logaritmos y deshacer finalmente la transformacin logartmica. Para calcular los logaritmos se puede usar cualquier base, siempre y cuando el logaritmo y el antilogaritmo estn en la misma base. Notar que la media geomtrica slo puede emplearse como medida de tendencia central en variables que toman valores positivos.

    Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los valores y a continuacin se calcula su media aritmtica,

    8

    consecuencia, la distribucin de estos 10 valores del colesterol HDL es

    aproximadamente simtrica con un leve sesgo positivo.

    1.2.3 Media geomtrica

    La media geomtrica, denotada por Gx , se define como la raz n-sima del producto de

    los valores de una muestra de tamao n,

    nn

    nn

    iiG xxxxx =

    = =

    ...21/1

    1

    .

    En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en

    calcular primero el logaritmo de cada valor muestral, hallar a continuacin la media de

    los logaritmos y deshacer finalmente la transformacin logartmica. Para calcular los

    logaritmos se puede usar cualquier base, siempre y cuando el logaritmo y el

    antilogaritmo estn en la misma base. Notar que la media geomtrica slo puede

    emplearse como medida de tendencia central en variables que toman valores positivos.

    Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra

    del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los

    valores y a continuacin se calcula su media aritmtica,

    .155,010

    425,0...117,010

    )53,1log(...)89,0log(log101log

    10

    1

    =++=

    ++== =i

    iG xx

    La media geomtrica es, por tanto, Gx = exp(0,155) = 1,168 mmol/l.

    Al igual que la mediana, la media geomtrica es til como medida de tendencia

    central para variables muy asimtricas, en las que un pequeo grupo de observaciones

    extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica

    La media geomtrica es, por tanto,

    8

    consecuencia, la distribucin de estos 10 valores del colesterol HDL es

    aproximadamente simtrica con un leve sesgo positivo.

    1.2.3 Media geomtrica

    La media geomtrica, denotada por Gx , se define como la raz n-sima del producto de

    los valores de una muestra de tamao n,

    nn

    nn

    iiG xxxxx =

    = =

    ...21/1

    1

    .

    En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en

    calcular primero el logaritmo de cada valor muestral, hallar a continuacin la media de

    los logaritmos y deshacer finalmente la transformacin logartmica. Para calcular los

    logaritmos se puede usar cualquier base, siempre y cuando el logaritmo y el

    antilogaritmo estn en la misma base. Notar que la media geomtrica slo puede

    emplearse como medida de tendencia central en variables que toman valores positivos.

    Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra

    del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los

    valores y a continuacin se calcula su media aritmtica,

    .155,010

    425,0...117,010

    )53,1log(...)89,0log(log101log

    10

    1

    =++=

    ++== =i

    iG xx

    La media geomtrica es, por tanto, Gx = exp(0,155) = 1,168 mmol/l.

    Al igual que la mediana, la media geomtrica es til como medida de tendencia

    central para variables muy asimtricas, en las que un pequeo grupo de observaciones

    extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica

    = exp(0,155) = 1,168 mmol/l.

    Al igual que la mediana, la media geomtrica es til como medida de tendencia central para variables muy asimtricas, en las que un pequeo grupo de observaciones extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica tiene la ventaja adicional de presentar un tratamiento estadstico ms sencillo que la mediana.

    1.3 MEDIDAS DE POSICIN: CUANTILES

    Los cuantiles indican la posicin relativa de una observacin con respecto al resto de la muestra. A continuacin se describen los cuantiles ms utilizados:

    y Percentiles son los valores de una variable que dejan un determinado porcentaje de los datos por debajo de ellos. As, por ejemplo, el percentil 10 es el valor superior al 10% de las observaciones, pero inferior al 90% restante. La mediana corresponde, por tanto, al percentil 50. En una muestra de tamao n, previamente ordenada de menor a mayor, el percentil p-simo se define como:

    Si np/100 es un nmero entero, la media de las observaciones (np/100) y (np/100 + 1)-simas.

    Si np/100 no es un nmero entero, el valor k-simo de la muestra, siendo k el menor entero superior a np/100.

    y Deciles, corresponden a los percentiles 10, 20, ..., 90. Los deciles se utilizan para dividir la muestra en 10 grupos de igual tamao.

    y Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra en 5 grupos de igual tamao.

  • 6

    Estadstica descriptiva

    Pastor-Barriuso R.

    y Cuartiles, corresponden a los percentiles 25, 50 y 75, y dividen la muestra en 4 grupos de igual tamao.

    y Terciles, corresponden a los percentiles 33,3 y 66,7, y dividen la muestra en 3 grupos de igual tamao.

    Ejemplo 1.9 Los 10 valores del colesterol HDL ordenados de menor a mayor son 0,79, 0,84, 0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Dado que 10p/100 = 1 es un nmero entero para p = 10, el percentil 10 es la media de la primera y segunda observacin, que corresponde a (0,79 + 0,84)/2 = 0,815 mmol/l. De igual forma, como 10p/100 = 2,5 no es un nmero entero para p = 25, el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.

    Es importante recordar que, para calcular cuantiles, los valores de la muestra deben estar previamente ordenados. Si el tamao muestral es grande, la forma ms rpida de obtener los cuantiles manualmente es realizando un grfico de tallo y hojas (ver ms adelante).

    1.4 MEDIDAS DE DISPERSIN

    Las medidas de dispersin indican el grado de variabilidad de los datos y se complementan con las medidas de tendencia central en la descripcin de una muestra. En este apartado se presentan las principales medidas de dispersin.

    1.4.1 Varianza y desviacin tpica

    La varianza muestral, denotada por s2, se define como la suma de los cuadrados de las diferencias entre cada valor de la muestra y su media, dividida por el tamao muestral menos 1,

    10

    10p/100 = 1 es un nmero entero para p = 10, el percentil 10 es la media de la

    primera y segunda observacin, que corresponde a (0,79 + 0,84)/2 = 0,815

    mmol/l. De igual forma, como 10p/100 = 2,5 no es un nmero entero para p = 25,

    el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.

    Es importante recordar que, para calcular cuantiles, los valores de la muestra deben

    estar previamente ordenados. Si el tamao muestral es grande, la forma ms rpida de

    obtener los cuantiles manualmente es realizando un grfico de tallo y hojas (ver ms

    adelante).

    1.4 MEDIDAS DE DISPERSIN

    Las medidas de dispersin indican el grado de variabilidad de los datos y se

    complementan con las medidas de tendencia central en la descripcin de una muestra.

    En este apartado se presentan las principales medidas de dispersin.

    1.4.1 Varianza y desviacin tpica

    La varianza muestral, denotada por s2, se define como la suma de los cuadrados de las

    diferencias entre cada valor de la muestra y su media, dividida por el tamao muestral

    menos 1,

    =

    = ==

    n

    ii

    n

    ii xnxn

    xxn

    s1

    22

    1

    22

    11)(

    11 .

    Como puede apreciarse, cuanto ms dispersos estn los datos, mayores sern los

    cuadrados de las desviaciones (xi - x )2 y mayor ser la varianza s2. Notar que las

    desviaciones de cada valor respecto de la media se elevan al cuadrado para evitar que se

    compensen las desviaciones positivas (valores superiores a la media) con las negativas

    (valores inferiores a la media). Cabe destacar tambin que, en la frmula de la varianza

    muestral, el denominador es n - 1 en lugar de n. Esto se debe a que, una vez calculada la

    Como puede apreciarse, cuanto ms dispersos estn los datos, mayores sern los cuadrados de las desviaciones (xi

    5

    1.2 MEDIDAS DE TENDENCIA CENTRAL

    Las medidas de tendencia central informan acerca de cul es el valor ms representativo

    de una determinada variable o, dicho de forma equivalente, estos estimadores indican

    alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia

    central de la muestra sirven tanto para resumir los resultados observados como para

    realizar inferencias acerca de los parmetros poblacionales correspondientes. A

    continuacin se describen los principales estimadores de la tendencia central de una

    variable.

    1.2.1 Media aritmtica

    La media aritmtica, denotada por x , se define como la suma de cada uno de los

    valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

    por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,

    la media vendra dada por

    nxxx

    xn

    x nn

    ii

    +++==

    =

    ...1 211

    .

    La media es la medida de tendencia central ms utilizada y de ms fcil

    interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su

    principal limitacin es que est muy influenciada por los valores extremos y, en este

    caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.

    Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se

    utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

    estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

    the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

    entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

    )2 y mayor ser la varianza s2. Notar que las desviaciones de cada valor respecto de la media se elevan al cuadrado para evitar que se compensen las desviaciones positivas (valores superiores a la media) con las negativas (valores inferiores a la media). Cabe destacar tambin que, en la frmula de la varianza muestral, el denominador es n 1 en lugar de n. Esto se debe a que, una vez calculada la media, el nmero de valores independientes de la muestra (denominado grados de libertad) para el clculo de la varianza es n 1 (conocida la media y n 1 valores, el valor restante se deducira automticamente). Una justificacin ms formal para esta definicin de la varianza se aporta en el Tema 5.

    La varianza muestral es difcil de interpretar como medida de dispersin, ya que sus unidades son las de la variable original al cuadrado. La medida de dispersin ms utilizada es la desviacin tpica o desviacin estndar s, que se define como la raz cuadrada de la varianza

    11

    media, el nmero de valores independientes de la muestra (denominado grados de

    libertad) para el clculo de la varianza es n - 1 (conocida la media y n - 1 valores, el

    valor restante se deducira automticamente). Una justificacin ms formal para esta

    definicin de la varianza se aporta en el Tema 5.

    La varianza muestral es difcil de interpretar como medida de dispersin, ya que sus

    unidades son las de la variable original al cuadrado. La medida de dispersin ms

    utilizada es la desviacin tpica o desviacin estndar s, que se define como la raz

    cuadrada de la varianza

    =

    =n

    ii xxn

    s1

    2)(1

    1

    y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que

    la media, la desviacin tpica est influenciada por valores muy extremos (gran

    desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un

    buen reflejo de la dispersin global de los datos.

    Ejemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros

    participantes del estudio EURAMIC, x = 1,223 mmol/l, la varianza vendra dada

    por

    2

    2210

    1

    22

    (mmol/l) 156,09

    094,0...111,09

    )223,153,1(...)223,189,0()(91

    =++=

    ++== =i

    i xxs

    y la desviacin tpica por s = 156,0 = 0,395 mmol/l.

    Algunas propiedades de la varianza y la desviacin tpica son:

    y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que la media, la desviacin tpica est influenciada por valores muy extremos (gran desviacin respecto de la

  • 7

    Medidas de dispersin

    Pastor-Barriuso R.

    media), que inflaran la estimacin resultante, no siendo un buen reflejo de la dispersin global de los datos.

    Ejemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros participantes del estudio EURAMIC,

    5

    1.2 MEDIDAS DE TENDENCIA CENTRAL

    Las medidas de tendencia central informan acerca de cul es el valor ms representativo

    de una determinada variable o, dicho de forma equivalente, estos estimadores indican

    alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia

    central de la muestra sirven tanto para resumir los resultados observados como para

    realizar inferencias acerca de los parmetros poblacionales correspondientes. A

    continuacin se describen los principales estimadores de la tendencia central de una

    variable.

    1.2.1 Media aritmtica

    La media aritmtica, denotada por x , se define como la suma de cada uno de los

    valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

    por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,

    la media vendra dada por

    nxxx

    xn

    x nn

    ii

    +++==

    =

    ...1 211

    .

    La media es la medida de tendencia central ms utilizada y de ms fcil

    interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su

    principal limitacin es que est muy influenciada por los valores extremos y, en este

    caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.

    Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se

    utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

    estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

    the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

    entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

    = 1,223 mmol/l, la varianza vendra dada por

    11

    media, el nmero de valores independientes de la muestra (denominado grados de

    libertad) para el clculo de la varianza es n - 1 (conocida la media y n - 1 valores, el

    valor restante se deducira automticamente). Una justificacin ms formal para esta

    definicin de la varianza se aporta en el Tema 5.

    La varianza muestral es difcil de interpretar como medida de dispersin, ya que sus

    unidades son las de la variable original al cuadrado. La medida de dispersin ms

    utilizada es la desviacin tpica o desviacin estndar s, que se define como la raz

    cuadrada de la varianza

    =

    =n

    ii xxn

    s1

    2)(1

    1

    y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que

    la media, la desviacin tpica est influenciada por valores muy extremos (gran

    desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un

    buen reflejo de la dispersin global de los datos.

    Ejemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros

    participantes del estudio EURAMIC, x = 1,223 mmol/l, la varianza vendra dada

    por

    2

    2210

    1

    22

    (mmol/l) 156,09

    094,0...111,09

    )223,153,1(...)223,189,0()(91

    =++=

    ++== =i

    i xxs

    y la desviacin tpica por s = 156,0 = 0,395 mmol/l.

    Algunas propiedades de la varianza y la desviacin tpica son:

    y la desviacin tpica por

    11

    media, el nmero de valores independientes de la muestra (denominado grados de

    libertad) para el clculo de la varianza es n - 1 (conocida la media y n - 1 valores, el

    valor restante se deducira automticamente). Una justificacin ms formal para esta

    definicin de la varianza se aporta en el Tema 5.

    La varianza muestral es difcil de interpretar como medida de dispersin, ya que sus

    unidades son las de la variable original al cuadrado. La medida de dispersin ms

    utilizada es la desviacin tpica o desviacin estndar s, que se define como la raz

    cuadrada de la varianza

    =

    =n

    ii xxn

    s1

    2)(1

    1

    y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que

    la media, la desviacin tpica est influenciada por valores muy extremos (gran

    desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un

    buen reflejo de la dispersin global de los datos.

    Ejemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros

    participantes del estudio EURAMIC, x = 1,223 mmol/l, la varianza vendra dada

    por

    2

    2210

    1

    22

    (mmol/l) 156,09

    094,0...111,09

    )223,153,1(...)223,189,0()(91

    =++=

    ++== =i

    i xxs

    y la desviacin tpica por s = 156,0 = 0,395 mmol/l.

    Algunas propiedades de la varianza y la desviacin tpica son: Algunas propiedades de la varianza y la desviacin tpica son:

    y Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos de una muestra, la varianza y la desviacin tpica no cambian; si yi = xi + c, entonces sy2 = sx2 y sy = sx.

    y Cambio de escala (unidades). Si se multiplica cada uno de los datos de una muestra por una constante, la varianza resultante es igual a la varianza inicial por la constante al cuadrado y la desviacin tpica es igual a la desviacin tpica inicial por dicha constante; si yi = cxi, entonces sy2 = c2 sx2 y sy = csx. Un cambio de escala que se realiza con frecuencia es la divisin de todos los valores de una muestra por su desviacin tpica. La desviacin tpica de la variable resultante ser, por tanto, igual a 1.

    Las propiedades del cambio de origen y escala se emplean para la estandarizacin de variables, que consiste en restarle a los valores de una variable su media y dividirlos por su desviacin tpica. La variable estandarizada resultante tiene media 0 y desviacin tpica 1; es decir, si zi = (xi

    5

    1.2 MEDIDAS DE TENDENCIA CENTRAL

    Las medidas de tendencia central informan acerca de cul es el valor ms representativo

    de una determinada variable o, dicho de forma equivalente, estos estimadores indican

    alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia

    central de la muestra sirven tanto para resumir los resultados observados como para

    realizar inferencias acerca de los parmetros poblacionales correspondientes. A

    continuacin se describen los principales estimadores de la tendencia central de una

    variable.

    1.2.1 Media aritmtica

    La media aritmtica, denotada por x , se define como la suma de cada uno de los

    valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

    por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,

    la media vendra dada por

    nxxx

    xn

    x nn

    ii

    +++==

    =

    ...1 211

    .

    La media es la medida de tendencia central ms utilizada y de ms fcil

    interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su

    principal limitacin es que est muy influenciada por los valores extremos y, en este

    caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.

    Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se

    utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

    estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

    the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

    entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

    )/sx, entonces

    12

    Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos

    de una muestra, la varianza y la desviacin tpica no cambian; si yi = xi + c,

    entonces 2ys = 2xs y sy = sx.

    Cambio de escala (unidades). Si se multiplica cada uno de los datos de una

    muestra por una constante, la varianza resultante es igual a la varianza inicial por

    la constante al cuadrado y la desviacin tpica es igual a la desviacin tpica

    inicial por dicha constante; si yi = cxi, entonces 2ys = c2 2

    xs y sy = csx. Un cambio

    de escala que se realiza con frecuencia es la divisin de todos los valores de una

    muestra por su desviacin tpica. La desviacin tpica de la variable resultante

    ser, por tanto, igual a 1.

    Las propiedades del cambio de origen y escala se emplean para la estandarizacin de

    variables, que consiste en restarle a los valores de una variable su media y dividirlos por

    su desviacin tpica. La variable estandarizada resultante tiene media 0 y desviacin

    tpica 1; es decir, si zi = (xi - x )/sx, entonces z = 0 y sz = 1.

    1.4.2 Rango intercuartlico

    El rango intercuartlico se define como la diferencia entre el tercer y el primer cuartil

    (percentiles 75 y 25, respectivamente). El rango intercuartlico indica la amplitud del

    50% central de la muestra y se usa como medida de dispersin cuando la variable

    presenta valores extremos. En tal caso, suele ir acompaado de la mediana como

    medida de tendencia central.

    Ejemplo 1.11 A partir de los 10 valores del colesterol HDL ordenados de menor a

    mayor, los percentiles 25 y 75 vienen determinados por la tercera (0,87 mmol/l) y

    octava observacin (1,53 mmol/l), respectivamente. El rango intercuartlico se

    = 0 y sz = 1.

    1.4.2 Rango intercuartlico

    El rango intercuartlico se define como la diferencia entre el tercer y el primer cuartil (percentiles 75 y 25, respectivamente). El rango intercuartlico indica la amplitud del 50% central de la muestra y se usa como medida de dispersin cuando la variable presenta valores extremos. En tal caso, suele ir acompaado de la mediana como medida de tendencia central.

    Ejemplo 1.11 A partir de los 10 valores del colesterol HDL ordenados de menor a mayor, los percentiles 25 y 75 vienen determinados por la tercera (0,87 mmol/l) y octava observacin (1,53 mmol/l), respectivamente. El rango intercuartlico se calcula entonces como la diferencia entre ambos percentiles, 1,53 0,87 = 0,66 mmol/l.

    1.4.3 Coeficiente de variacin

    El coeficiente de variacin se define como el cociente entre la desviacin tpica y la media aritmtica, expresado como porcentaje, 100s/

    5

    1.2 MEDIDAS DE TENDENCIA CENTRAL

    Las medidas de tendencia central informan acerca de cul es el valor ms representativo

    de una determinada variable o, dicho de forma equivalente, estos estimadores indican

    alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia

    central de la muestra sirven tanto para resumir los resultados observados como para

    realizar inferencias acerca de los parmetros poblacionales correspondientes. A

    continuacin se describen los principales estimadores de la tendencia central de una

    variable.

    1.2.1 Media aritmtica

    La media aritmtica, denotada por x , se define como la suma de cada uno de los

    valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

    por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,

    la media vendra dada por

    nxxx

    xn

    x nn

    ii

    +++==

    =

    ...1 211

    .

    La media es la medida de tendencia central ms utilizada y de ms fcil

    interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su

    principal limitacin es que est muy influenciada por los valores extremos y, en este

    caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.

    Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se

    utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

    estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

    the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

    entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

    . Este estimador no est afectado por cambios de escala ya que, al multiplicar los valores de una variable por un mismo factor, tanto la media como la desviacin tpica cambian por dicho factor y su cociente permanece inalterable. El coeficiente de variacin relaciona la desviacin tpica con la media y es til para comparar la variabilidad de diferentes variables con distintas medias. As, por ejemplo, una desviacin tpica de 10 kg en una muestra de adultos con un peso medio de 70 kg indicara un mismo grado de dispersin que una desviacin

  • 8

    Estadstica descriptiva

    Pastor-Barriuso R.

    tpica de 0,5 kg en una muestra de recin nacidos con un peso medio de 3,5 kg (ambos coeficientes de variacin son 10010/70 = 1000,5/3,5 = 14,3%).

    Ejemplo 1.12 El coeficiente de variacin de los 10 primeros valores del colesterol HDL en el estudio EURAMIC sera 100s/

    5

    1.2 MEDIDAS DE TENDENCIA CENTRAL

    Las medidas de tendencia central informan acerca de cul es el valor ms representativo

    de una determinada variable o, dicho de forma equivalente, estos estimadores indican

    alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia

    central de la muestra sirven tanto para resumir los resultados observados como para

    realizar inferencias acerca de los parmetros poblacionales correspondientes. A

    continuacin se describen los principales estimadores de la tendencia central de una

    variable.

    1.2.1 Media aritmtica

    La media aritmtica, denotada por x , se define como la suma de cada uno de los

    valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

    por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,

    la media vendra dada por

    nxxx

    xn

    x nn

    ii

    +++==

    =

    ...1 211

    .

    La media es la medida de tendencia central ms utilizada y de ms fcil

    interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su

    principal limitacin es que est muy influenciada por los valores extremos y, en este

    caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.

    Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se

    utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del

    estudio European Study on Antioxidants, Myocardial Infarction and Cancer of

    the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

    entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los

    = 1000,395/1,223 = 32,3%; es decir, la desviacin tpica es aproximadamente un tercio de la media.

    1.5 REPRESENTACIONES GRFICAS

    En el anlisis e interpretacin de los datos de un estudio, es importante no limitarse a realizar medidas de resumen numricas. Las medidas de tendencia central y dispersin deben completarse con grficos que permitan observar directamente las caractersticas y relaciones de las variables estudiadas. En esta seccin se revisan los principales mtodos grficos para presentar y resumir una variable.

    1.5.1 Diagrama de barras

    Los diagramas de barras son adecuados para representar variables cualitativas y cuantitativas discretas. En estos diagramas se representan las categoras de la variable en el eje horizontal y sus frecuencias (absolutas o relativas) en el eje vertical. Para cada categora de la variable se construye un rectngulo de anchura constante y altura proporcional a la frecuencia. Los rectngulos estn separados unos de otros por la misma distancia para reflejar la discontinuidad de la variable.

    Ejemplo 1.13 La representacin del diagrama de barras del hbito tabquico en el grupo control del estudio EURAMIC se ilustra en la Figura 1.1. De los 700 controles del estudio que no haban padecido un infarto agudo de miocardio, todos salvo uno presentaban informacin sobre el consumo de tabaco. De stos, un 27,2% (190/699) eran nunca fumadores, un 35,3% (247/699) eran ex fumadores, y el restante 37,5% (262/699) eran fumadores actuales.

    Figura 1.1

    Nuncafumador

    Ex fumador Fumadoractual

    0

    10

    20

    30

    40

    Frec

    uenc

    ia re

    lativ

    a (%

    )

    Figura 1.1 Diagrama de barras del hbito tabquico en el grupo control del estudio EURAMIC.

  • 9

    Representaciones grficas

    Pastor-Barriuso R.

    1.5.2 Histograma y polgono de frecuencias

    El histograma es el principal mtodo grfico para la representacin de variables cuantitativas continuas. En primer lugar, los valores de la variable continua se agrupan en categoras exhaustivas (cubren todo el rango de la variable) y mutuamente excluyentes (no se solapan). En el eje horizontal del histograma se representan las categoras o intervalos y en el eje vertical las frecuencias (absolutas o relativas) de cada intervalo. Posteriormente, se construye un rectngulo para cada categora, cuya anchura es igual a la longitud del intervalo y cuyo rea es proporcional a la frecuencia (si los intervalos tienen distinta longitud, las alturas de los rectngulos del histograma no sern proporcionales a las frecuencias).

    El polgono de frecuencias se construye uniendo con lneas rectas los puntos medios de las bases superiores de los rectngulos que conforman un histograma. Tanto el histograma como el polgono de frecuencias sirven para representar grficamente la distribucin de una variable continua.

    Ejemplo 1.14 El histograma de la distribucin del colesterol HDL en el grupo control del estudio EURAMIC se presenta en la Figura 1.2. En este caso, se representa la frecuencia absoluta en el eje vertical e intervalos de distinta longitud en el eje horizontal. Para los intervalos de menor longitud (0,2 mmol/l), la altura de los rectngulos es igual a la frecuencia; as, por ejemplo, la altura del rectngulo en el intervalo 1,2-1,4 mmol/l es igual a los 86 sujetos con niveles del colesterol HDL dentro de este rango. Sin embargo, para los intervalos de mayor longitud, la altura de la barra es igual a la frecuencia dividida por el incremento relativo de la longitud del intervalo; as, por ejemplo, para el intervalo 1,4-1,7 mmol/l, cuya frecuencia es 55 y su longitud es 1,5 veces la longitud mnima, la altura de la barra es 55/1,5 = 36,7. La Figura 1.2 se completa con el polgono de frecuencias, que muestra una distribucin del colesterol HDL aproximadamente simtrica con la cola superior ligeramente mayor que la inferior.

    Figura 1.2

    0 0,3 0,6 0,8 1 1,2 1,4 1,7 2 2,5

    0

    25

    50

    75

    100

    125

    150

    Colesterol HDL (mmol/l)

    Frec

    uenc

    ia a

    bsol

    uta

    Figura 1.2 Histograma y polgono de frecuencias del colesterol HDL en el grupo control del estudio EURAMIC.

  • 10

    Estadstica descriptiva

    Pastor-Barriuso R.

    1.5.3 Grfico de tallo y hojas

    Este grfico tiene la ventaja de reflejar los datos originales de la muestra, a la vez que permite visualizar la distribucin de frecuencias. En primer lugar, para cada observacin de la variable, se separa el ltimo dgito significativo (hoja) de los restantes dgitos del valor de la variable (tallo). A continuacin, todos los posibles tallos se colocan ordenados en una misma columna. Finalmente, para cada valor de la variable, se coloca su hoja a la derecha del tallo correspondiente. Las hojas de un mismo tallo suelen colocarse en orden creciente. El resultado se conoce con el nombre de grfico de tallo y hojas.

    Ejemplo 1.15 La Figura 1.3 muestra el grfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC con datos para esta variable. Los 2 valores ms bajos del colesterol HDL son 0,21 y 0,26 mmol/l, cuyo tallo comn es 0,2 y sus respectivas hojas son 1 y 6, que aparecen a la derecha de la primera lnea del grfico. El siguiente tallo es 0,3, que no tiene ninguna hoja ya que no hay valores entre 0,30 y 0,39 mmol/l, y lo mismo sucede con el tallo 0,4. En el tallo 0,5 hay una hoja igual a 7, que corresponde al valor 0,57 mmol/l. En el tallo 0,6 hay 5 hojas (35558), que corresponden a los 5 valores del colesterol HDL entre 0,60 y 0,69 mmol/l y que son 0,63, 0,65, 0,65, 0,65 y 0,68 mmol/l. El resto de los tallos se interpreta de la misma manera. A partir de este grfico resulta sencillo calcular los cuantiles; as, por ejemplo, la mediana se obtendra como la media de los valores ordenados en las posiciones 50 y 51, (1,10 + 1,12)/2 = 1,11 mmol/l.

    Figura 1.3

    Frecuencia Tallo Hoja 2 0,2 16 0 0,3 0 0,4 1 0,5 7 5 0,6 35558 3 0,7 467 12 0,8 002344455579 13 0,9 0013334566779 13 1,0 0111123455559 9 1,1 023456789 15 1,2 000023356689999 7 1,3 1223778 6 1,4 345789 6 1,5 133689 2 1,6 44 2 1,7 34 2 1,8 36 1 1,9 0 1 2,0 9

    Figura 1.3 Grfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC.

  • 11

    Representaciones grficas

    Pastor-Barriuso R.

    1.5.4 Diagrama de caja

    El diagrama de caja permite evaluar la tendencia central, la dispersin y la simetra de la distribucin de una variable, as como identificar valores extremos. Los lmites inferior y superior de la caja corresponden a los percentiles 25 y 75; es decir, la altura de la caja representa el rango intercuartlico e indica la dispersin de la muestra. La lnea horizontal dentro de la caja corresponde a la mediana y representa la tendencia central de la muestra. El grfico se completa con barras verticales a ambos lados de la caja de longitud 1,5 veces el rango intercuartlico. Los valores extremos, aquellos distanciados de los lmites de la caja entre 1,5 y 3 veces el rango intercuartlico, se representan con un crculo y los valores muy extremos, aquellos alejados de la caja ms de 3 veces el rango intercuartlico, se denotan mediante un asterisco.

    En este grfico, si la distribucin es simtrica, los lmites superior e inferior de la caja estarn aproximadamente a la misma distancia de la mediana, mientras que si la distribucin est sesgada positivamente, el lmite superior estar ms alejado de la mediana que el inferior y si la distribucin est sesgada negativamente, el lmite inferior estar ms alejado de la mediana que el superior.

    Ejemplo 1.16 La Figura 1.4 muestra el diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC. Como puede observarse, esta distribucin presenta un leve sesgo positivo ya que el lmite superior de la caja est ligeramente ms alejado de la mediana que el lmite inferior.

    Figura 1.4

    0

    0,5

    1

    1,5

    2

    2,5

    Col

    este

    rol H

    DL

    (mm

    ol/l)

    Figura 1.4 Diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC.

  • 12

    Estadstica descriptiva

    Pastor-Barriuso R.

    1.6 REFERENCIAS

    1. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.2. Glantz SA. Primer of Biostatistics, Fifth Edition. New York: McGraw-Hill/Appleton &

    Lange, 2001.3. Pagano M, Gauvreau K. Principles of Biostatistics, Second Edition. Belmont, CA: Duxbury

    Press, 2000.4. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,

    2006.

  • 13Pastor-Barriuso R.

    TEMA 2

    PROBABILIDAD

    2.1 INTRODUCCIN

    Se denominan experimentos estocsticos, aleatorios o no determinsticos a aquellos en los que pueden obtenerse resultados distintos cuando se repiten en idnticas circunstancias. Los fenmenos biolgicos tienen en este sentido una componente aleatoria importante. La herramienta matemtica que constituye la base para el estudio de fenmenos con una componente aleatoria es la teora de la probabilidad, que proporciona modelos tericos aplicables a la frecuencia de los distintos resultados de un experimento.

    A continuacin, se revisan algunos conceptos previos que van a ser necesarios para sistematizar la nocin de probabilidad.

    y Espacio muestral, denotado por W, es el conjunto de los posibles resultados de un experimento aleatorio.

    y Se denomina suceso a cualquier subconjunto del espacio muestral W. Los sucesos pueden ser elementos simples de W o conjuntos de elementos. Dos sucesos particulares son el suceso seguro W, que contiene todos los elementos del espacio muestral, y el suceso imposible o conjunto vaco , que no contiene ningn elemento.

    Ejemplo 2.1 Si el experimento consiste en observar el nmero de supervivientes a los 6 meses de 4 pacientes con cncer sometidos a tratamiento, el espacio muestral ser W = {0, 1, 2, 3, 4}. Si el experimento consiste en medir los niveles de colesterol HDL de una persona, el espacio muestral ser W = (0, ).

    En el primer experimento, algunos sucesos podran ser: no observar ningn superviviente A = {0}, observar 1 2 supervivientes B = {1, 2} u observar al menos 2 supervivientes C = {2, 3, 4}. En el segundo experimento, algunos de los posibles sucesos incluiran: tener un colesterol HDL 1 mmol/l A = (0, 1] o tener un colesterol HDL > 1,5 mmol/l B = (1,5, ).

    y El suceso unin AB es el evento constituido por los elementos que pertenecen a A o B, o a ambos a la vez.

    y El suceso interseccin AB es el evento formado por los elementos que pertenecen simultneamente a A y B.

    y Sucesos disjuntos, incompatibles o mutuamente excluyentes son aquellos que no pueden ocurrir simultneamente; es decir, su interseccin es el conjunto vaco, AB = .

    y El suceso complementario del suceso A, denotado por Ac, es el evento que ocurre cuando no se realiza A.

    Estos sucesos estn representados en los diagramas de la Figura 2.1. En general, las operaciones entre sucesos se rigen por la teora de conjuntos, de la cual pueden derivarse algunas propiedades importantes como A(BC) = (AB)(AC), A(BC) = (AB)(AC), (AB)c = AcBc y (AB)c = AcBc.

  • 14

    Probabilidad

    Pastor-Barriuso R.

    Figura 2.1

    A

    B

    A

    B

    A

    (a) AB (b) AB

    (c) AB = (d) Ac

    A

    B

    A

    B

    A

    B

    A

    B

    A

    B

    AA

    (a) AB (b) AB

    (c) AB = (d) Ac

    A

    B

    A

    B

    Figura 2.1 Diagramas de los sucesos unin (a), interseccin (b), sucesos mutuamente excluyentes (c) y suceso complementario (d).

    Ejemplo 2.2 En el experimento de supervivencia a los 6 meses de 4 pacientes con cncer, la unin de los sucesos B = {1, 2} y C = {2, 3, 4} es BC = {1, 2, 3, 4} y su interseccin es BC = {2}. Al medir los niveles de colesterol HDL de una persona, los sucesos A = (0, 1] y B = (1,5, ) son mutuamente excluyentes ya que AB = . Asimismo, en este experimento el complementario de A es el suceso Ac = (1, ).

    En este tema se define el concepto de probabilidad y se introducen las reglas bsicas para operar con probabilidades. Estas reglas constituyen la base para el clculo e interpretacin de los procedimientos de inferencia estadstica (por ejemplo, el valor P de un contraste de hiptesis vase Tema 5) y permiten tambin evaluar la sensibilidad, la especificidad y los valores predictivos de las pruebas diagnsticas.

    2.2 CONCEPTO Y DEFINICIONES DE PROBABILIDAD

    El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: la probabilidad de un suceso refleja la verosimilitud de que ste ocurra, de forma que los sucesos ms probables se darn con mayor frecuencia que los menos probables. Sin embargo, para abordar la probabilidad de forma sistemtica, es necesaria una definicin rigurosa, a la vez que compatible con nuestra intuicin. Dos definiciones de probabilidad de uso comn son:

    y Definicin frecuentista (von Mises). Al repetir un experimento indefinidamente, la probabilidad de un suceso es el lmite del cociente entre el nmero de veces que ocurre dicho suceso y el nmero de experimentos realizados,

    3

    su interseccin es BC = {2}. Al medir los niveles de colesterol HDL de una

    persona, los sucesos A = (0, 1] y B = (1,5, ) son mutuamente excluyentes ya que

    AB = . Asimismo, en este experimento el complementario de A es el suceso Ac

    = (1, ).

    En este tema se define el concepto de probabilidad y se introducen las reglas bsicas

    para operar con probabilidades. Estas reglas constituyen la base para el clculo e

    interpretacin de los procedimientos de inferencia estadstica (por ejemplo, el valor P

    de un contraste de hiptesis vase Tema 5) y permiten tambin evaluar la

    sensibilidad, la especificidad y los valores predictivos de las pruebas diagnsticas.

    2.2 CONCEPTO Y DEFINICIONES DE PROBABILIDAD

    El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano:

    la probabilidad de un suceso refleja la verosimilitud de que ste ocurra, de forma que

    los sucesos ms probables se darn con mayor frecuencia que los menos probables. Sin

    embargo, para abordar la probabilidad de forma sistemtica, es necesaria una definicin

    rigurosa, a la vez que compatible con nuestra intuicin. Dos definiciones de

    probabilidad de uso comn son:

    Definicin frecuentista (von Mises). Al repetir un experimento indefinidamente,

    la probabilidad de un suceso es el lmite del cociente entre el nmero de veces que

    ocurre dicho suceso y el nmero de experimentos realizados,

    P(A) = nA

    n

    #lim

    ,

    donde #A es el nmero de veces que se realiza A en los n experimentos. donde #A es el nmero de veces que se realiza A en los n experimentos.

  • 15

    Concepto y definiciones de probabilidad

    Pastor-Barriuso R.

    Ejemplo 2.3 Supongamos que se desea conocer la probabilidad de ser mujer entre todos los recin nacidos vivos en Espaa. Segn los datos del Instituto Nacional de Estadstica, se registraron 226.170 nias de 466.371 nacimientos en 2005, 233.773 de 482.957 en 2006 y 238.632 de 492.527 en 2007. La proporcin acumulada de nias es 226.170/466.371 = 0,4850 en 2005, 459.943/949.328 = 0,4845 en 2005-2006 y 698.575/1.441.855 = 0,4845 en 2005-2007. Aumentando indefinidamente los registros anuales, el lmite de estos cocientes 0,4850, 0,4845, 0,4845, ... determinara la probabilidad de ser mujer. En la prctica, sin embargo, no es posible realizar infinitos experimentos y las probabilidades tericas se estiman mediante probabilidades empricas obtenidas a partir de un nmero finito de experimentos. As, utilizando los datos disponibles de nacimientos en 2005-2007, se estimara una probabilidad de ser mujer de 0,4845.

    y Definicin axiomtica (Kolmogorov). La probabilidad es una funcin que asigna a cada posible suceso de un experimento un valor numrico, de tal forma que se cumplan los siguientes axiomas:(i) No negatividad: P(A) 0,

    (ii) Normatividad: P(W) = 1,

    (iii) Aditividad: Si A1, A2, ... son sucesos mutuamente excluyentes, entonces

    4

    Ejemplo 2.3 Supongamos que se desea conocer la probabilidad de ser mujer entre

    todos los recin nacidos vivos en Espaa. Segn los datos del Instituto Nacional

    de Estadstica, se registraron 226.170 nias de 466.371 nacimientos en 2005,

    233.773 de 482.957 en 2006 y 238.632 de 492.527 en 2007. La proporcin

    acumulada de nias es 226.170/466.371 = 0,4850 en 2005, 459.943/949.328 =

    0,4845 en 20052006 y 698.575/1.441.855 = 0,4845 en 20052007. Aumentando

    indefinidamente los registros anuales, el lmite de estos cocientes 0,4850, 0,4845,

    0,4845, ... determinara la probabilidad de ser mujer. En la prctica, sin embargo,

    no es posible realizar infinitos experimentos y las probabilidades tericas se

    estiman mediante probabilidades empricas obtenidas a partir de un nmero finito

    de experimentos. As, utilizando los datos disponibles de nacimientos en 2005

    2007, se estimara una probabilidad de ser mujer de 0,4845.

    Definicin axiomtica (Kolmogorov). La probabilidad es una funcin que asigna

    a cada posible suceso de un experimento un valor numrico, de tal forma que se

    cumplan los siguientes axiomas:

    (i) No negatividad: P(A) 0,

    (ii) Normatividad: P() = 1,

    (iii) Aditividad: Si A1, A2, ... son sucesos mutuamente excluyentes, entonces

    =

    =

    =++==

    12121

    1

    )(...)()(...)(i

    ii

    i APAPAPAAPAP .

    Notar que esta definicin de probabilidad tan slo especifica las propiedades

    generales que debe tener una funcin de probabilidad, pero no permite la

    asignacin de probabilidades a un suceso concreto. No obstante, de la definicin

    Notar que esta definicin de probabilidad tan slo especifica las propiedades generales que debe tener una funcin de probabilidad, pero no permite la asignacin de probabilidades a un suceso concreto. No obstante, de la definicin axiomtica se derivan algunas propiedades importantes de la funcin de probabilidad:

    (iv) P() = 0,

    (v) P(Ac) = 1 P(A),

    (vi) Si A est incluido en B, A B, entonces P(A) P(B),

    (vii) 0 P(A) 1,

    (viii) Sub-aditividad: Para cualquier coleccin de sucesos A1, A2, ...,

    5

    axiomtica se derivan algunas propiedades importantes de la funcin de

    probabilidad:

    - P() = 0,

    - P(Ac) = 1 - P(A),

    - Si A est incluido en B, A B, entonces P(A) P(B),

    - 0 P(A) 1,

    - Sub-aditividad: Para cualquier coleccin de sucesos A1, A2, ...,

    =

    =

    11

    )(i

    ii

    i APAP ,

    - Principio de inclusin-exclusin: Sean A1, A2, ..., Ak sucesos cualesquiera,

    )....()1(

    ...)()(

    211

    111

    kk

    kjiji

    k

    ii

    k

    ii

    AAAP

    AAPAPAP

    +

    +=

    +

  • 16

    Probabilidad

    Pastor-Barriuso R.

    excluyentes: la probabilidad de la unin de dos sucesos cualesquiera es la suma de sus probabilidades por separado, menos la probabilidad de la interseccin,

    5

    axiomtica se derivan algunas propiedades importantes de la funcin de

    probabilidad:

    - P() = 0,

    - P(Ac) = 1 - P(A),

    - Si A est incluido en B, A B, entonces P(A) P(B),

    - 0 P(A) 1,

    - Sub-aditividad: Para cualquier coleccin de sucesos A1, A2, ...,

    =

    =

    11

    )(i

    ii

    i APAP ,

    - Principio de inclusin-exclusin: Sean A1, A2, ..., Ak sucesos cualesquiera,

    )....()1(

    ...)()(

    211

    111

    kk

    kjiji

    k

    ii

    k

    ii

    AAAP

    AAPAPAP

    +

    +=

    +

  • 17

    Probabilidad condicional e independencia de sucesos

    Pastor-Barriuso R.

    y la probabilidad de que un no bebedor sea diabtico como

    7

    no expuestos y RR = P(D|E)/P(D|Ec) es el riesgo relativo de la enfermedad entre los

    expuestos y los no expuestos.

    Ejemplo 2.5 Continuando con el ejemplo anterior, la probabilidad de que un

    bebedor sea diabtico se calcula como

    P(D|B) = 20,001,0

    )()( =

    BPDBP = 0,05