Material Bioestadística 2013

190
Material Bioestadística 2011 Material preparado para el curso de Bioestadística Material Bioestadística Prof. Joana Martín Rojo

Transcript of Material Bioestadística 2013

Page 1: Material Bioestadística 2013

Material Bioestadística 2011

Material preparado para el curso de Bioestadística

Material Bioestadística Prof. Joana Martín Rojo

Page 2: Material Bioestadística 2013

Material Bioestadística 2011

ÍNDICEÍndice................................................................................................................... i

¿Qué es la Estadística?....................................................................................1Bioestadística...................................................................................................3Objetivo de la Estadística.................................................................................3Tipos de Estadística.........................................................................................4

Estadística Teórica....................................................................................4Estadística Aplicada..................................................................................4Estadística Descriptiva.............................................................................5Estadística Inferencial..............................................................................5Estadística Paramétrica...........................................................................5Estadística No Paramétrica.....................................................................6

Conceptos Básicos de la Estadística...................................................................7Población....................................................................................................7Muestra.......................................................................................................8Muestreo.....................................................................................................9

Unidades Estadísticas....................................................................................10Dato estadístico......................................................................................10Unidad Estadística..................................................................................11Unidad de Investigación.........................................................................11Unidad de Análisis..................................................................................11Unidad de Observación..........................................................................11Unidades de Muestreo............................................................................11Técnicas de selección de Muestra o Clases de Muestreo.................11En Muestreo Probabilístico:..................................................................12En Muestreo No Probabilístico..............................................................14

Deducir..........................................................................................................15Inferir.............................................................................................................15Inferencia Estadística.....................................................................................15Estadístico.....................................................................................................16Parámetro......................................................................................................16Estimador.......................................................................................................16Estimación.....................................................................................................16

Medidas Estadísticas.........................................................................................17Medidas de Tendencia Central.......................................................................17

Media o Promedio...................................................................................17Propiedades del promedio:...................................................................18Media o Promedio Geométrico..............................................................18Media o Promedio Armónico.................................................................18Media o Promedio móvil........................................................................19Mediana....................................................................................................19Moda o Modo............................................................................................20Relación entre la Media, Mediana y Moda..........................................20Utilización de los Promedios.................................................................20Proporción................................................................................................21

Medidas de Posición.......................................................................................21Cuartiles...................................................................................................21

Material Bioestadística Prof. Joana Martín Rojo

Page 3: Material Bioestadística 2013

Material Bioestadística 2011

Percentiles...............................................................................................22Deciles.......................................................................................................23

Medidas de Dispersión...................................................................................23Rango........................................................................................................26Intervalo semidecil o desviación percentílica....................................26Desviación Intercuartílica......................................................................26Desviación Semi-cuartil o Rango semicuartílico................................27Desviación Media....................................................................................27Varianza....................................................................................................27Desviación Estándar o Típica................................................................28Propiedades de la Desviación Estándar..............................................28Coeficiente de Variación........................................................................29

Medidas de Forma.........................................................................................29Simetría....................................................................................................29Kurtosis.....................................................................................................31

Ejemplo 1.......................................................................................................32Ejemplo 1.......................................................................................................36

Representación de los Datos.............................................................................39Tablas............................................................................................................39Gráficos de Torta, Circulares o Pie.................................................................40Gráficos de Barra...........................................................................................41Gráficos de Línea...........................................................................................43Gráficos o Diagramas de Cajas (Boxplot).......................................................44

Valor atípico leve...........................................................................................47[editar]Valor atípico extremo...........................................................................48

Polígonos de Frecuencias...............................................................................52Histograma....................................................................................................54Ojiva..............................................................................................................55

Probabilidad......................................................................................................57Probabilidad.............................................................................................57

Definiciones Básicas de Probabilidad.............................................................58Suceso.......................................................................................................58Experimento Aleatorio............................................................................58Espacio Muestral y Punto Muestral......................................................58Formulación de la Definición Clásica de Probabilidad......................59

Variable Aleatoria..........................................................................................61Distribución de Probabilidad..........................................................................62

Función de Probabilidad........................................................................62Función de Probabilidad o Masa...........................................................62Función de Densidad..............................................................................63Función de Distribución.........................................................................63Esperanza Matemática, Valor Esperado o Valor Medio....................63Varianza o Variancia...............................................................................64Distribución de Bernoulli.......................................................................64Distribución Binomial.............................................................................65Distribución de Poisson..........................................................................66Distribución Normal................................................................................67Distribución 2 o Chi Cuadrado.............................................................69Distribución t de Student.......................................................................70

Material Bioestadística Prof. Joana Martín Rojo

Page 4: Material Bioestadística 2013

Material Bioestadística 2011

Distribución F de Snedecor...................................................................71Aproximación de la Distribución Binomial a la Distribución Normal................................................................................................................... 71Ley de los Grandes Números.................................................................71Teorema Central del Límite...................................................................72

Inferencia Estadística........................................................................................73Población..................................................................................................73Muestra.....................................................................................................74

Inferir.............................................................................................................74Deducir..........................................................................................................75Inferencia Estadística.....................................................................................75Estadístico.....................................................................................................75Parámetro......................................................................................................75Estimador.......................................................................................................75Estimación.....................................................................................................75Estimación Puntual y por Intervalos...............................................................76

Estimador Puntual...................................................................................76Estimador por Intervalo.........................................................................76Propiedades de los Estimadores..........................................................76Intervalo de Confianza...........................................................................78Coeficiente de confianza........................................................................78Error de estimación................................................................................78Distribución Muestral.............................................................................79Límites de Confianza para Intervalos de Confianza..........................80Contraste de Hipótesis...........................................................................81Pruebas de hipótesis para diferentes parámetros y distribuciones................................................................................................................... 84

Relación entre Variables...................................................................................87Tipos de relaciones.................................................................................87

Análisis de Correlación...................................................................................89Correlación...............................................................................................89

Regresión Lineal Bivariante...........................................................................93Análisis de Regresión.............................................................................93Supuestos de la Regresión Lineal........................................................94Ecuación de Regresión Lineal...............................................................95

Regresión Lineal Multivariante.......................................................................96Objetivos de la Regresión Lineal Multivariante.................................97Ecuación de la Regresión Lineal Multivariante..................................98Supuestos de la Regresión Lineal Multivariante...............................99

Diseño de una Investigación Estadística.........................................................100Planteamiento de la Investigación.....................................................100Análisis Exploratorio de Datos............................................................108Análisis Confirmatorio de Hipótesis...................................................110

Investigación Exploratoria...........................................................................112Diseño de la Muestra............................................................................113

Investigación Descriptiva.............................................................................119Diseño de la Muestra............................................................................119

Investigación Cualitativa (Técnicas de Investigación No Paramétrica)........119Pruebas No Paramétricas....................................................................120

Material Bioestadística Prof. Joana Martín Rojo

Page 5: Material Bioestadística 2013

Material Bioestadística 2011

Medidas de Asociación o Efecto..........................................................127Investigación Causal....................................................................................130

Definiciones Básicas de Diseño Estadístico de Experimentos (DE)................................................................................................................. 130

Medición, Variables, Medición y Escalas de Medición.....................................137Medición.................................................................................................137Variable...................................................................................................139

Material Bioestadística Prof. Joana Martín Rojo

Page 6: Material Bioestadística 2013

Material Bioestadística 2011

¿Qué es la Estadística?

Existen diferentes conceptos de Estadística, en esta sección nos pasearemos por algunos de ellos.

Seguramente en algún momento hemos escuchado de estadísticas referidas a algo, a algún juego de pelota, estadísticas de bateo, eficiencia de los jugadores, etc. Además de esto también hemos visto algo sobre estadísticas políticas, encuestas por televisión, el rating o el censo. Cuando revisamos publicaciones vemos la aplicación de métodos estadísticos para llegar a conclusiones, o vemos las incidencias de enfermedades en la población. Pues todo eso es estadística, cuando se habla de indicadores económicos o la tasa de sobrevivencia a una enfermedad, hubo un trabajo estadístico para poder determinarlo, incluso cuando en las medicinas se ve la lista de efectos secundarios, éstos fueron determinados por experimentos estadísticos. También hemos oído de investigaciones sobre tratamiento de enfermedades o riesgo de sufrir una enfermedad, si se el paciente cumple con ciertas condiciones. Todo lo que hemos mencionado antes son el resultado de cálculos, métodos o investigaciones estadísticas, son un pedacito de lo que es la Estadística.

Coloquialmente todo lo que describimos en el párrafo anterior es Estadística. Diariamente cuando calculamos el tiempo que invertiremos en un recorrido particular, o cuando hacemos la compra del mercado, o cuando verificamos el clima estamos utilizando estadística, aún sin saberlo.

A continuación presentaremos algunas definiciones de estadística, la primera de ellas especifica que la Estadística tiene por objeto el proceso de inferencia, y en particular el planeamiento y análisis de experimentos o encuestas, la naturaleza de los errores de las observaciones y fuentes de variabilidad, que oscurecen los modelos fundamentales, y el resumen eficiente de conjuntos de datos (Enciclopedia Internacional de las Ciencias Sociales, editorial Aguilera, Pág. 390). Este es el concepto de Inferencia Estadística. Otro concepto que podemos citar es el siguiente:

La estadística es según G.U. Yule: “la ciencia que trata de la recolección, clasificación y presentación de los hechos sujetos a una apreciación numérica como base a la explicación descripción y comparación del fenómeno”. (José Tomás Estévez Arria Diccionario Razonado de Economía, Editorial Panapo, Pág. 292-293)

La Estadística es un conjunto de métodos y técnicas de recopilación y análisis de datos sobre cualquier tipo de fenómeno, mediante los cuales

Material Bioestadística Prof. Joana Martín Rojo 1

Page 7: Material Bioestadística 2013

Material Bioestadística 2011

se obtienen conclusiones acerca de su comportamiento (Prof. Guillermo Ramírez, 2001)

Desde la perspectiva de las Ciencias Sociales podemos intentar ofrecer una aproximación al concepto de la Estadística:

Algunos de los enfoques abordados definen la Estadística como un conjunto de métodos aplicados a la recolección de hechos y realidades (en forma de datos), con sus correspondientes representaciones (tablas, gráficos, fórmulas, etc.). O sea, se trata de enfoques que identifican a la estadística tan solo como un conjunto de cifras, datos, parámetros y estadísticos asociados a un fenómeno.

Otra opción es tomar a la Estadística cómo una disciplina con una amplia base teórica, y que tiene como objeto el estudio de pequeños conjuntos o grandes masas de datos de cualquier naturaleza. Esto requiere de un trabajo sistemático en forma de cuadros, series, gráficos o representaciones de puntos, lo que permite que, con este ordenamiento, se pueda describir y explicar mejor los la naturaleza del fenómeno del cual proviene la información.

Según el DRAE: “Estudio de los datos cuantitativos de la población, de los recursos naturales e industriales, del tráfico o de cualquier otra manifestación de las sociedades humanas”.

Según Godofredo Ackenwall (año) el fin de la Estadística radica en enseñar la situación real y efectiva en una fecha determinada o en distintas épocas de los estados independientemente de su funcionamiento, y la política tiene como fin el de indicar como deben organizarse y funcionar los estados, para proporcionar el mayor bienestar a los ciudadanos (Rainiero Edigi Delli, 1960)

Podemos citar al respecto la siguiente frase del Profesor Miguel Bolívar Chollet (2000):

"El esfuerzo humano siempre coloca al intelecto o el intelecto siempre coloca al esfuerzo en la posición de "ir siempre un poco más allá ..." de manera que surjan nuevos ángulos de aproximación para fortalecer el conocimiento"

Y para ilustrar mejor este concepto citaremos otra frase del mismo profesor:

"Lo hermoso de la Estadística es la búsqueda de lo desconocido a partir de lo conocido"

Desde esta perspectiva la Estadística es Inducción, Deducción, Descripción, Inferencia, Experimentación y Medición. Es la posibilidad de determinar la diferencia o la cercanía entre la certeza y el error.

Material Bioestadística Prof. Joana Martín Rojo 2

Page 8: Material Bioestadística 2013

Material Bioestadística 2011

Podemos añadir que la Estadística no es una disciplina que trabaja con verdades absolutas, siempre trabaja con incertidumbre y error, lo que no hace posible una aproximación controlada y calculada de las realidades o de parte de éstas.

Bioestadística

Se define como Bioestadística a la aplicación de métodos estadísticos para solucionar problemas biológicos (Robert R Sokal, F. James Rohlf – 1986, Introducción a la Bioestadística Ed. Reverté). Una definición actualmente más utilizada es que la bioestadística es la aplicación de la estadística en las ciencias de la salud.

Debido a que los problemas a investigar en las ciencias de la salud son de naturaleza muy variada, la bioestadística ha expandido sus dominios para incluir cualquier modelo, no sólo estadístico, que pueda ser usado para responder a las diferentes necesidades, siendo su aplicación necesaria en innumerables campos, a saber: Salud Pública (epidemiología, nutrición, salud ambiental y en investigación de servicios sanitarios.), Genómica y Poblaciones Genéticas, Medicina o investigación clínica, Ecología, Bioensayos, etc.

Según el DRAE: “Ciencia que aplica el análisis estadístico a los problemas y objetos de estudio de la biología”.

Objetivo de la Estadística.

El objetivo de la Estadística puede definirse como el estudio de la naturaleza, de los fenómenos que ocurren en las distintas ciencias, y más específicamente de la obtención, recolección y tratamiento de los datos a través de instrumentos y herramientas propias de ésta.

Nota : Existe un intenso tráfico intelectual, o intercambio de pensamientos y filosofías, entre estadísticos y otros científicos, por lo que es recomendable el trabajo en grupos interdisciplinarios para un mejor desarrollo del proyecto o investigación a realizar.

Tipos de Estadística

La estadística puede ser clasificada de distintas maneras, en esta sección nos pasearemos por distintas clasificaciones.

La primera de las clasificaciones de la estadística que estudiaremos afirma que la Estadística puede dividirse en dos grandes tipos:

Estadística Teórica

Material Bioestadística Prof. Joana Martín Rojo 3

Page 9: Material Bioestadística 2013

Material Bioestadística 2011

Estadística Aplicada

Pero dentro de estos dos tipos existen otras clasificaciones de la Estadística, a saber: Estadística Paramétrica y No Paramétrica, Estadística Descriptiva e Inferencial, etc.

Estadística Teórica

Se refiere al estudio formal, en términos de lenguaje matemático, del proceso en el que se parte de las observaciones para llegar a la inferencia, conclusión o decisión. Es decir son los conceptos y métodos que componen a la estadística. Busca, bajo los conceptos y teorías existentes, la creación de nuevas teorías y modelos.

Estadística Aplicada

Es la aplicación en distintos ámbitos, investigaciones o ciencias de los conceptos y lenguaje matemático del estudio formal antes mencionado. O sea, que se trata de aplicar todos los conceptos y herramientas de la estadística en las demás ciencias o diversas situaciones. También podemos decir que es la aplicación de las teorías y modelos estadísticos a problemas concretos a fin de darles respuesta.

Estadística Teórica y Aplicada van de la mano, pues se alimentan constantemente una de la otra. La estadística teórica crece a medida que las situaciones empíricas generan nuevas necesidades, por lo cual, nuevos métodos estadísticos que permitan analizarlos, y no se puede hacer estadística aplicada sin conocer las teorías, herramientas y modelos d la estadística teórica.

Nota: Antes de realizar cualquier investigación es recomendable, y más que eso, debería tomarse como regla general, tener un conocimiento teórico, y de ser posible práctico, del tema sobre el cual se va a trabajar o investigar, es decir si se va a hacer una investigación de algún factor que incide en el desarrollo de una enfermedad debemos tener conocimientos sobre la dicha enfermedad, causas que la ocasionan, sintomatología y efectos de ella, pues son necesarios para saber si los resultados obtenidos son coherentes y poder enriquecer el análisis, orientarnos efectivamente a lo que queremos estudiar y poder hacer las recomendaciones convenientes.

Estadística Descriptiva

Se ocupa de la descripción de datos experimentales, específicamente de la recolección, organización y análisis de los mismos. Los datos en este caso pueden provenir tanto de una muestra como de la población. La

Material Bioestadística Prof. Joana Martín Rojo 4

Page 10: Material Bioestadística 2013

Material Bioestadística 2011

estadística descriptiva también puede entenderse como el conjunto de métodos y técnicas estadísticas (tales como: distribución de frecuencia, medidas de tendencia central, medidas de posición, etc.) que se aplican para describir un conjunto de datos.

Estadística Inferencial

Es el proceso mediante el cual se pueden deducir o “inferir” las propiedades o características de una población a través de la información de una muestra obtenida de ésta.

Uno de los aspectos principales de la inferencia es la estimación de parámetros estadísticos, es decir la estadística inferencial forma parte de la estadística paramétrica.

Las inferencias que se realizan dependen de la descripción de la muestra, la selección de ésta y la distribución de probabilidad de la población.

“Se denomina Inferencia estadística o estadística inferencial a la rama de la Estadística que estudia el comportamiento y propiedades de las muestras, así como la posibilidad de generalizar los resultados obtenidos a partir de ellas a las poblaciones de las cuales fueron extraídas. Esta generalización de tipo inductivo, se basa en la probabilidad. También se le denomina Estadística Matemática, por su complejidad matemática en relación a la Estadística Descriptiva. Tiene como objetivo, inferir las propiedades de la población bajo estudio, sobre la base de los resultados obtenidos de una muestra representativa de la población.

El objeto esencial de la Inferencia Estadística es el de obtener resultados válidos, para un conjunto o población a partir de las observaciones realizadas en una parte, subconjunto o muestra de dicha población. La estimación constituye, precisamente, el problema esencial de la inferencia estadística, que presenta distintas modalidades; pero a este problema esencial de la inferencia hay que añadirle el de la contrastación de hipótesis estadísticas para completar el cuadro de la Teoría de la Inferencia.

A partir del estudio de la muestra se pretende inferir aspectos relevantes de toda la población. Cómo se selecciona la muestra, cómo se realiza la inferencia, y qué grado de confianza se puede tener en ella son aspectos fundamentales de la estadística inferencial, para cuyo estudio se requiere un alto nivel de conocimientos de estadística, probabilidad y matemáticas.

Los modelos matemáticos que utiliza la inferencia estadística han sido tomados, en general, de los que estudiaba el antiguo Cálculo de Probabilidades y pueden hacer referencia a la estimación de características poblacionales (totales, proporciones, promedios) o a los parámetros “ratios” que establecen las relaciones funcionales

Material Bioestadística Prof. Joana Martín Rojo 5

Page 11: Material Bioestadística 2013

Material Bioestadística 2011

entre dos o más variables estadísticas (relación entre la edad mental y la cronológica, para el cálculo del cociente intelectual del individuo, por ejemplo).

La Inferencia Estadística como disciplina tiene fundamentalmente un carácter inductivo en contraposición al carácter deductivo de las Matemáticas, su objetivo es sacar conclusiones sobre una población a partir de la información que proporciona una muestra de la misma, y no el desarrollo de los teoremas propiamente dichos que sería objeto de la denominada Estadística Matemática. Un ejemplo similar sería el de la Física, con un campo propio, y el de los métodos matemáticos aplicados a la Física que forman parte de las Matemáticas. También es denominada Estadística Inductiva o Inferencia Inductiva ya que es un procedimiento para generar nuevo conocimiento científico.

La muestra se obtiene por observación o experimentación. La necesidad de obtener un subconjunto reducido de la población es obvia si tenemos en cuenta los costos económicos de la experimentación o el hecho de que muchos de los métodos de medida son destructivos.

Dentro de la Inferencia Estadística se presentan dos problemas esenciales: los de la estimación y de la contrastación de hipótesis. El primer problema consiste en inferir resultados válidos para un conjunto o población a partir de las observaciones realizadas en una parte, subconjuntos o muestra representativa de dicha población o universo y, utilizando los métodos estadísticos, estimar la cifra que interese. Los métodos de muestreo resuelven en la práctica el problema de la estimación, pero en los manuales corrientes de Estadística esta técnica se refiere a poblaciones infinitas, lo que facilita el tratamiento teórico, pero sus resultados no son aplicables directamente al tratar de inferir estimaciones válidas a partir de una muestra correspondiente a poblaciones finitas.

La contrastación de hipótesis estadísticas constituye la aportación más fecunda de los métodos estadístico-matemáticos para aceptar o rechazar hipótesis y teorías en cualquier campo científico que haya de contrastarse con la realidad, o también para resolver problemas menos científicos pero de indudable valor práctico.

La diferencia fundamental entre estos dos problemas está en su orientación. Mientras que en los problemas de estimación el objetivo es determinar el valor de un parámetro desconocido de una determinada distribución, en las prueba de hipótesis se debe decidir si se acepta o rechaza un valor especifico de un parámetro desconocido. Es importante señalar que la prueba de hipótesis puede estar relacionada no solo con el parámetro sino con el tipo o la naturaleza de la distribución.

La inferencia inductiva exacta es imposible ya que disponemos de información parcial, sin embargo es posible realizar inferencias imprecisas y medir el grado de error si el experimento se ha realizado de acuerdo con determinados principios. Uno de los

Material Bioestadística Prof. Joana Martín Rojo 6

Page 12: Material Bioestadística 2013

Material Bioestadística 2011

propósitos de la inferencia Estadística es el de diseñar técnicas para hacer inferencias inductivas y medir el grado de imprecisión de tales inferencias. La medida de la imprecisión se realiza en términos de probabilidad.

A veces por desconocimiento, o bien con la intención de simplificar, la Inferencia Estadística es presentada como una disciplina que estudia métodos que permiten tomar “muestras representativas” en el sentido de que serían muestras en las cuales si se replica en ella el estudio que se desea realizar en la población, se obtiene resultados iguales o muy parecidos a los que se obtendría en la población.

La inferencia estadística es la parte de la Estadística que incluye los métodos utilizados para tomar decisiones o para obtener conclusiones sobre una característica desconocida de la población a partir de los datos obtenidos con una muestra representativa de la población. Su aplicación requiere el estudio de la teoría de la probabilidad. Como ya se comentó anteriormente, la inferencia estadística estudia principalmente dos cuestiones:

a) La estimación de parámetros. Su objetivo es determinar una característica de la población. La estimación puede ser puntual o puede ser por intervalos. La estimación puntual determina el valor concreto de la población mediante un estadístico. La estimación por intervalos determina un intervalo en el que estará contenido el valor del parámetro con una cierta probabilidad.

b) El contraste de hipótesis. Su objetivo es determinar si es aceptable suponer, a partir de los datos de la muestra, que la característica estudiada tiene un determinado valor o se encuentra dentro de un intervalo de valores.

Las técnicas de inferencia estadística se clasifican en paramétricas y no paramétricas. La inferencia paramétrica comprende los procedimientos estadísticos y de decisión que están basados en las distribuciones de los datos reales. Estas son determinadas usando un número finito de parámetros. Esto es, por ejemplo, si se conoce que la altura de cierto grupo poblacional sigue una distribución normal, pero se desconoce cuál es su media y su desviación de dicha normal. La media y la desviación típica de la desviación normal son los dos parámetros que se desean estimar. Cuando se desconoce totalmente que distribución siguen los datos entonces se debe aplicar primero un test no paramétrico, que ayude a conocer la distribución en primer lugar.

Material Bioestadística Prof. Joana Martín Rojo 7

Page 13: Material Bioestadística 2013

Material Bioestadística 2011

La mayoría de procedimientos paramétricos requieren conocer la forma de distribución para las mediciones resultantes de la población estudiada. Para la inferencia paramétrica es requerida como mínimo una escala de intervalo, esto quiere decir que nuestros datos deben tener un orden y una numeración del intervalo.

Los métodos estadísticos paramétricos suponen que los datos que se analizan siguen una distribución normal (tipo gaussiana). La validez de esta hipótesis se basa en el teorema central del límite, que señala que la distribución muestral de la media puede ser aproximadamente normal aunque la población de referencia tenga una distribución muy diferente. La aproximación mejora a medida que el tamaño de la muestra aumenta.

Puede ocurrir que los datos de la muestra no cumplan los requisitos de las pruebas paramétricas o también puede que la variable dependiente no sea continua por lo que no se cumplen las restricciones establecidas para las pruebas paramétricas.

Cuando no se cumplen los requisitos anteriores entonces las pruebas paramétricas no son adecuadas y es preferible optar por la aplicación de pruebas estadísticas no paramétricas. Las pruebas no paramétricas tienen menos potencia para detectar un efecto si realmente existe pero tienen la ventaja de que no exigen que los datos del estudio cumplan los requisitos de las pruebas paramétricas y por eso se las denominan como “pruebas estadísticas libres de distribución”. Las pruebas no paramétricas más conocidas son la Ji Cuadrado de Pearson (χ2), la prueba de la probabilidad exacta de Fisher, los coeficientes de contingencia de Pearson y Cramer y el coeficiente de asociación ordinal de Goodman-Kruskal (coeficiente gamma).

Las pruebas no paramétricas son adecuadas cuando no se cumplen los supuestos de las pruebas paramétricas, por ejemplo si los datos no están en escala de intervalo o si la distribución de los datos es bastante asimétrica. Si los índices de asimetría son menores de 2 y los de curtosis menores de 4 se considera que la distribución está próxima a la normalidad (Curran, West and Finch, 1996). Valores superiores de

Material Bioestadística Prof. Joana Martín Rojo 8

Page 14: Material Bioestadística 2013

Material Bioestadística 2011

asimetría y curtosis implican que el investigador opte por ejecutar pruebas no paramétricas

La Inferencia Estadística efectivamente realiza la inferencia inductiva sobre parámetros o propiedades desconocidas de la Población sobre la base de una particular muestra. Naturalmente sería conveniente que esta muestra particular fuese representativa para lo que se desea investigar en el sentido de que “replicando” el estudio en la muestra se tendría las mismas conclusiones (inferencias) que si se efectuase en la Población.

La Teoría del muestreo es el estudio de las relaciones entre una población y las muestras que se extraen de ella. Del análisis de las muestras se pueden estimar o inferir datos de la población como su media (μ), varianza (σ2), etc., llamados parámetros poblacionales, denotados usualmente con letras griegas, a partir de los

valores obtenidos de la muestra, tales como la media muestral , la varianza muestral S2, etc.

Cuando el método de extracción de las muestras no asegure a cada individuo de la población o del estrato, igual probabilidad de ser elegido, entonces la muestra obtenida no es aleatoria”. (Pimentel, 2013)1

De lo anterior puedes tomar lo que consideres conveniente para enriquecer estos contenidos.

Estadística Paramétrica

Es toda la colección de técnicas estadísticas de estimación de parámetros, Intervalos de Confianza, Docimasia, Prueba o Contraste de Hipótesis, aplicadas básicamente a variables continuas. Estas técnicas están basadas en la especificación de la forma de la distribución de una variable aleatoria y de los estadísticos derivados de los datos provenientes de una muestra

Estadística No Paramétrica

La Estadística no paramétrica es también la colección de técnicas estadísticas que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos.

Cuando la distribución de probabilidad de una población no puede ser definida priori, la utilización de estos métodos se hace recomendable.

1 Tesis doctoral

Material Bioestadística Prof. Joana Martín Rojo 9

Page 15: Material Bioestadística 2013

Material Bioestadística 2011

CONCEPTOS BÁSICOS DE LA ESTADÍSTICA

Para poder entender la terminología estadística utilizada en libros, publicaciones o “papers” es necesario conocer los conceptos básicos a los cuales estos términos se refieren. En esta sección conoceremos conceptos básicos de la estadística, algunos de ellos se profundizarán en su sección correspondiente.

Población

La población es un conjunto de elementos agrupados o clasificados, de acuerdo a alguna característica en común. La población es definida según la investigación que se va a realizar.

Se puede definir como población a: Personas o individuos habitantes de una localidad, ciudad o país; Personas que asisten a un determinado centro de salud; un tipo particular de células humanas; familias con niños en edad escolar; Automóviles en una determinada ciudad de un año particular; pacientes con una enfermedad dada que viven en una localidad particular; etc. Por ejemplo si tenemos un proyecto para estudiar enfermedades pulmonares ¿cómo podríamos definir la población?, pudiéramos plantear la población como todas las personas que presentan una o más de las patologías que vamos a estudiar, pero también tendremos que definir el espacio geográfico y el tiempo, es decir, en la Gran Caracas, en Venezuela, y en el período comprendido entre determinadas fechas. El proyecto obviamente no podrá abarcar toda la población Venezolana, pero siendo ese nuestro objetivo, podremos diseñar una muestra que nos permita referirnos a esa población en las conclusiones que obtengamos, pero en cambio, sino definimos la población de manera exhaustiva, las conclusiones sólo podrán referirse a las personas que participaron en nuestro estudio, sin poder ir más allá.

Es importante antes de realizar una investigación definir claramente la Población que deseamos investigar, pues esto nos permite tener claridad en lo que estamos haciendo, en las conclusiones obtenidas, y en el caso de aplicar algún método de muestreo (cuyo concepto veremos un poco más adelante), tener el criterio de cuál de ellos será el mejor a aplicar.

El texto siguiente es para que revises si algunos conceptos que puedes incorporar:

“Se define tradicionalmente la población como “el conjunto de todos los individuos (objetos, personas, eventos, etc.) en los que se desea

Material Bioestadística Prof. Joana Martín Rojo10

Page 16: Material Bioestadística 2013

Material Bioestadística 2011

estudiar el fenómeno. Éstos deben reunir las características de lo que es objeto de estudio” (Latorre, Rincón y Arnal, 2003). El individuo, en esta acepción, hace referencia a cada uno de los elementos de los que se obtiene la información. Los individuos pueden ser personas, objetos o acontecimientos.

Hoy se prefiere hablar de “unidad de observación” o “elemento” para referirse al objeto sobre el cual se realiza una medición. En los estudios con poblaciones humanas, con frecuencia ocurre que la unidad de observación son los individuos.

3. Población y Universo:

El diccionario de la RAE (2001) define la población, en su acepción sociológica, como “Conjunto de los individuos o cosas sometido a una evaluación estadística mediante muestreo”. En cualquier investigación, el primer problema que aparece, relacionado con este punto, es la frecuente imposibilidad de recoger datos de todos los sujetos o elementos que interesen a la misma.

Los manuales clásicos de epistemología suelen definir la ‘población’ como el conjunto de todas las medidas o personas de un cierto tipo, y la hacen sinónima del concepto más antiguo de ‘universo’ (Jiménez Fernández, 1983; Sierra Bravo, 1988; Gil Pascual, 2004). Otros autores distinguen entre ‘universo’ y ‘población’ (Fox, 1981; Marín Ibáñez, 1985; Buendía, Colás y Hernández, 1998; Latorre, Rincón y Arnal, 2003). Estos autores consideran que el investigador casi nunca, o nunca, tiene acceso a todas las posibles medidas, elementos o personas y, por tanto, utilizan el término universo para designar “esa entidad que lo incluye todo”, reservando el concepto de población a la parte del universo de la que se selecciona la muestra y sobre la que deseamos hacer inferencia o aplicación de las generalizaciones que obtengamos de la investigación.

“El término universo designa a todos los posibles sujetos o medidas de un cierto tipo... La parte del universo a la que el investigador tiene acceso se denomina población”. (Fox, 1981: 368)

“Población es un conjunto definido, limitado y accesible del universo que forma el referente para la elección de la muestra. Es el grupo al que se intenta generalizar los resultados”. (Buendía, Colás y Hernández, 1998: 28)

Material Bioestadística Prof. Joana Martín Rojo11

Page 17: Material Bioestadística 2013

Material Bioestadística 2011

Marín Ibáñez (1985: 167) señala las diferencias entre ‘población’ o ‘universo general’ y ‘universo de trabajo. El primero hace referencia a toda la población a la que queremos extender las conclusiones de la muestra, mientras que el universo de trabajo “son los casos que de alguna manera tenemos consignados y de los que podemos extraer la muestra”. Sierra Bravo (1988) se refiere al universo de trabajo como ‘base de la muestra. Latorre, Rincón y Arnal (2003) también distinguen entre población y universo, haciendo sinónimo a este ultimo de ‘colectivo’ o ‘colectivo hipotético’. Paralelamente, Lohr (1999) habla de “población muestreada” para referirse a la población de la que se extrae la muestra y de “población objetivo”, entendida como la colección completa de observaciones que deseamos estudiar.

La definición de la población es una parte importante, y con frecuencia difícil, del estudio. Lohr, (1999: 3) advierte: “Por ejemplo, en una encuesta política, ¿la población objetivo deberían ser todos los adultos que pueden votar? ¿Todos los votantes registrados? ¿Todas las personas que votaron en la última elección?”. En cualquier caso, la elección de esta ‘población objetivo’ afectará profundamente al resultado de la investigación

La población se denota usualmente con la letra griega “”, y su tamaño con la letra “N”, siempre en mayúsculas, así mismo cuando se refieren a parámetros poblacionales se suele utiliza el símbolo correspondiente al mismo en letras mayúsculas.

Podemos clasificar la población en tres tipos

i.- Población Finita

Es cuando conocemos a todos los elementos que pertenecen a una población. Estas poblaciones pueden ser pequeñas o grandes, pero es importante destacar que todos los elementos que la conforman son conocidos por el investigador.

Ej. Médicos Residentes en un hospital dado, Pacientes de una enfermedad atendidos en un centro de salud en un período de tiempo particular, etc

ii.- Población Infinita Numerable

Es cuando las características son numerables pero no conocemos a todos los elementos de la población, en general la numeración de estas poblaciones se hace por aproximación.

Material Bioestadística Prof. Joana Martín Rojo12

Page 18: Material Bioestadística 2013

Material Bioestadística 2011

Ej. Enfermos de Asma en Venezuela; Cantidad de Linfocitos T en la sangre de un individuo, etc.

iii.- Población Infinita No Numerable

Las características no son contables, no tienen fin.

Ej. Agua en un río.

Muestra

Es un subconjunto o parte de una población, seleccionada para hacer una investigación, análisis, descripción o inferencia sobre dicha población. Si la selección de la muestra se hace con el fin de realizar algún tipo de investigación estadística, diremos que es una Muestra Estadística.

f 2. MUESTREO.

Habitualmente, el investigador no trabaja con todos los elementos de la población que estudia sino sólo con una parte o fracción de ella; a veces, por que es muy grande y no es fácil abarcarla en su totalidad. Por ello, se elige una muestra representativa y los datos obtenidos en ella se utilizan para realizar pronósticos en poblaciones futuras de las mismas características.

Salvo en el caso de poblaciones pequeñas, pocas veces en una investigación se cuenta con el tiempo, los recursos y los medios para estudiar una población completa. A veces ni siquiera podemos delimitar exactamente una población, otras veces la población total “aún no existe” como sucede en los estudios sobre predicción Estos motivos de tiempo, coste, accesibilidad a los individuos y complejidad de las operaciones de recogida, clasificación y análisis de los datos hacen que la gran mayoría de los proyectos de investigación no estudien más que una parte representativa de la población, denominada muestra. Esto se puede hacer así porque, si se selecciona correctamente la muestra, ésta puede aportarnos información representativa y exacta de toda la población.

Se conoce con el nombre de muestreo al proceso de extracción de una muestra a partir de la población. El proceso esencial del muestreo consiste en identificar la población que estará representada en el estudio.

Material Bioestadística Prof. Joana Martín Rojo13

Page 19: Material Bioestadística 2013

Material Bioestadística 2011

Entre las ventajas que proporciona el muestreo (Latorre, Rincón y Arnal, 2003) suele señalarse: el ahorro de tiempo en la realización de la investigación, la reducción de costos y la posibilidad de mayor profundidad y exactitud en los resultados. Los inconvenientes más comunes suelen ser: dificultad de utilización de la técnica de muestreo, una muestra mal seleccionada o sesgada distorsiona los resultados, las limitaciones propias del tipo de muestreo y tener que extraer una muestra de poblaciones que poseen pocos individuos con la característica que hay que estudiar.

La importancia del muestreo radica en que no es necesario trabajar con los ‘N’ elementos de una población para comprender con un nivel “razonable” de exactitud la naturaleza del fenómeno estudiado. Este conocimiento se puede obtener a partir de una muestra que se considere representativa de aquella población.

“Aunque la razón esencial por la que se muestrea es la imposibilidad de estudiar todos los sujetos, es un proceso lógico, porque en la práctica no es necesario obtener datos de todos los posibles sujetos para comprender con exactitud la naturaleza del fenómeno que se estudia, sino que, en general, se puede alcanzar esa comprensión con una parte de los sujetos. Debido a esto, se pueden aprovechar las ventajas del muestreo, que son la reducción del coste de la investigación en tiempo y en dinero... El ahorro de tiempo o dinero mediante el muestreo sólo es lógico cuando se puede justificar el hecho de que los datos obtenidos a partir de la muestra proporcionarán una base firme para determinar con exactitud las características del fenómeno que se estudia”. (Fox, 1981: 367)

2.1. Muestra.

El Diccionario de la Lengua Española (RAE, 2001) define la muestra, en su segunda acepción, como “parte o porción extraída de un conjunto por métodos que permiten considerarla como representativa de él”.

En el terreno epistemológico, Jiménez Fernández (1983) destaca la condición de representatividad que ha de tener la muestra:

“... es una parte o subconjunto de una población normalmente seleccionada de tal modo que ponga de manifiesto las propiedades de la población. Su característica más importante es la

Material Bioestadística Prof. Joana Martín Rojo14

Page 20: Material Bioestadística 2013

Material Bioestadística 2011

representatividad, es decir, que sea una parte típica de la población en la o las características que son relevantes para la investigación”. (Jiménez Fernández, 1983: 237)

Sierra Bravo hace hincapié en la generalización de resultados:

“... una parte representativa de un conjunto o población debidamente elegida, que se somete a observación científica en representación del conjunto, con el propósito de obtener resultados válidos, también para el universo total investigado”. (Sierra Bravo, 1988: 174)

Latorre, Rincón y Arnal ponen especial énfasis en la metodología del muestreo:

“Conjunto de casos extraídos de una población, seleccionados por algún método de muestreo”. (Latorre, Rincón y Arnal, 2003: 78)

De acuerdo con Briones (1995) “una muestra es representativa cuando reproduce las distribuciones y los valores de las diferentes características de la población..., con márgenes de error calculables,” (p. 83).

Las muestras tienen un fundamento matemático estadístico. Éste consiste en que obtenidos unos determinados resultados, de una muestra elegida correctamente y en proporción adecuada, se puede hacer la inferencia o generalización fundada matemáticamente de que dichos resultados son válidos para la población de la que se ha extraído la muestra, dentro de unos límites de error y probabilidad, que se pueden determinar estadísticamente en cada caso.

Las muestras presentan evidentes ventajas, respecto del estudio de poblaciones. Con una muestra relativamente reducida en relación a la población, se pueden encuestar grandes poblaciones y núcleos humanos, que de otra manera sería muy difícil o prácticamente imposible investigar. Suponen una gran economía en las encuestas y la posibilidad de mayor rapidez en su ejecución. A veces, “... una muestra puede ofrecer resultados más precisos que una encuesta total, aunque esté afectada del error que resulta de limitar el todo a una parte”. (Sierra Bravo, 1988: 175)

La selección correcta de la muestra implica crear una que represente a la población con la mayor fidelidad posible.

Material Bioestadística Prof. Joana Martín Rojo15

Page 21: Material Bioestadística 2013

Material Bioestadística 2011

Esto conlleva utilizar unas técnicas específicas de selección de la muestra, así como la necesidad de determinar su tamaño óptimo.

En este proceso de selección hemos de distinguir entre ‘elemento muestral’, ‘unidad de muestreo ’ y ‘marco de muestreo’. El elemento o individuo (muestral) es un objeto en el cual se toman las mediciones, la unidad más pequeña en que podemos descomponer la muestra. La unidad de muestreo hace referencia a la unidad donde realizamos la muestra, está constituida por grupos excluyentes de elementos de la población que completan la misma. Por ejemplo, podríamos desear estudiar a un grupo de personas (una ciudad, una barriada, un grupo de estudiantes de un determinado nivel educativo, los trabajadores de un sector de producción, etc.), pero no tenemos una lista de todos los individuos que pertenecen a la población. En su lugar las familias, los centros educativos, las empresas... podrían servir como unidades de muestreo. Las unidades de observación o elementos muestrales serían los individuos que viven en una familia o que trabajan en una determinada empresa... La lista de las ‘unidades de muestreo’ (familias, centros educativos, empresas...) constituyen el ‘marco de muestreo’.

2.2 Etapas del proceso de muestreo.

Fox (1981: 367-369) señala cinco etapas en el proceso de muestreo:

1) Definición o selección del universo o especificación de los posibles sujetos o elementos de un determinado tipo;

2) Determinación de la población o parte de ella a la que el investigador tiene acceso;

3) Selección de la muestra invitada o conjunto de elementos de la población a los que se pide que participen en la investigación;

4) Muestra aceptante o parte de la muestra invitada que acepta participar;

5) Muestra productora de datos; la parte que aceptó y que realmente produce datos.

2.3. Condiciones que ha de cumplir la muestra.

Las condiciones fundamentales que ha de cumplir una muestra son, para Sierra Bravo, cuatro:

Material Bioestadística Prof. Joana Martín Rojo16

Page 22: Material Bioestadística 2013

Material Bioestadística 2011

1. “Que comprendan parte del universo y no la totalidad de éste.

2. Que su amplitud sea estadísticamente proporcionada a la magnitud del universo. Esta condición se halla en relación con el punto práctico de determinación del tamaño de la muestra y sirve para decidir si, según las unidades que comprende respecto al universo, una muestra es o no admisible.

3. La ausencia de distorsión en la elección de los elementos de la muestra. Si esta elección presenta alguna anomalía, la muestra resultará por este mismo hecho viciada.

4. Que sea representativa o reflejo fiel del universo, de tal modo que reproduzca sus características básicas en orden a la investigación. Esto quiere decir que si hay sectores diferenciados en la población que se supone ofrecen características especiales, a efectos de los objetivos de la investigación, la muestra también deberá comprenderlos y precisamente en la misma proporción, es decir, deberá estar estratificada como el universo”. (Sierra Bravo, 1988: 175)

Para cumplir estas condiciones es necesario aplicar unas determinadas técnicas de selección de la muestra que garanticen su representatividad, determinar el tamaño óptimo de la muestra y tener en cuenta el ‘error muestral’. En los apartados siguientes desarrollaremos estos aspectos.

Muestreo

Se denomina Muestreo a la colección de técnicas o métodos empleados para seleccionar una muestra.

La notación utilizada para describir características de la muestra suele realizarse en letras minúsculas, así como su tamaño, el cual es denotado por la letra “n”, siempre en minúsculas.

Tenemos principalmente dos tipos de Muestras:

i.- Muestra Probabilística

Es donde todos los elementos de la población tienen una probabilidad conocida y diferente de cero de ser seleccionados, es decir donde cualquiera de los elementos de la población puede ser seleccionado para hacer una investigación y se conoce la probabilidad de todos y cada uno de los elementos de pertenecer a la muestra.

Material Bioestadística Prof. Joana Martín Rojo17

Page 23: Material Bioestadística 2013

Material Bioestadística 2011

Aplicación: Este es el tipo de muestreo idóneo para cualquier investigación estadística, pues permite aplicar todas las herramientas conocidas y hacer inferencias sobre la población. El único problema que presenta es que, en general debemos conocer a todos los elementos de la población, o por lo menos su cantidad y ubicación, y por esta razón se vuelve complejo y costoso.

Ej. El Banco Central de Venezuela (BCV) y el Instituto Nacional de Estadística (INE) trabajan realizan periódicamente un estudio conocido como “Encuesta de Hogares por Muestreo” cuyo objetivo principal es estudiar el estatus ocupacional y niveles de desempleo en el país. Si bien el contenido de éste estudio no es ilustrativo en la bioestadística, la forma de selección lo es, pues se aplican técnicas de muestreo a partir de información recolectada durante el Censo de Población y Vivienda para obtener la muestra sobre la que se hace esta encuesta, con lo que antes de hacer la selección se conoce la ubicación de las viviendas y hogares a nivel nacional, lo que permite a todos los elementos que puedan ser seleccionados, o por lo menos su cantidad y ubicación, por lo que esta encuesta es probabilística

ii.- Muestra no Probabilística

Es donde al menos un elemento de la población no tiene probabilidad de ser seleccionado o desconozco la probabilidad de selección de él, o donde algún elemento de la población queda exento de ser seleccionado por alguna razón, que pudiera ser que no conozco su ubicación o su existencia.

Aplicación: Este tipo de muestra no permite hacer inferencias estadísticas sobre la población, es decir aproximarse con precisión al verdadero comportamiento de la población, esto es por cómo está planteada la teoría de inferencia, y solo acepta una cantidad determinada de herramientas estadísticas para su análisis, que en general suele ser descriptivo para los elementos seleccionados. Por estas características no es necesario conocer todos los elementos de la población y suele ser menos costoso que el anterior.

Ej. Podemos citar como ejemplo de muestras no probabilísticas a las encuestas de muestreo que se realizan para cualquier producto que una compañía quiera sacar al mercado, o de opinión políticas, etc. También podemos citar como ejemplo de éste tipo de muestras a una investigación médica donde la muestra seleccionada sean los pacientes que ingresan al hospital con una determinada enfermedad, pues las personas que tengan la misma enfermedad que no ingresen a ese hospital no tendrán posibilidad de ser seleccionados.

Material Bioestadística Prof. Joana Martín Rojo18

Page 24: Material Bioestadística 2013

Material Bioestadística 2011

Antes de explicar diferentes tipos de muestreo es necesario conocer las unidades estadísticas, ya que son vitales para poder definir tanto el muestreo como el objetivo de éste.

Unidades Estadísticas

Dato estadístico

Resultado de una operación estadística hecha sobre las unidades estadísticas. También es el resultado de una medición o el que mide un fenómeno colectivo. Podemos afirmar que todo dato estadístico es un dato, pero no necesariamente todo dato es un dato estadístico.

Unidad Estadística

Son aquellas de las cuales estamos obteniendo información, las que contienen las partes que se van a analizar. Éstas se subdividen a su vez las Unidades de Análisis, Observación, Investigación y Muestreo.

Unidad de Investigación

Corresponde a las unidades que contienen las partes que se van a analizar, es decir puede ser un objeto, una parte o la persona “c” que tiene determinadas características o también puede ser el espacio físico donde se encuentre ésta.

Unidad de Análisis

Corresponde a las unidades que se examinan o serán objeto de análisis, de las que se busca información, y su naturaleza depende de los objetivos en estudio. Puede coincidir con los elementos de la población. En este caso las unidades pueden ser personas, partes de éstas, objetos o espacios físicos

Unidad de Observación

Son aquellas a través de las cuales se obtiene la información requerida para la investigación. Ésta puede ser o no la unidad que vamos a investigar, o sea, que si quiero obtener la información de una persona y ésta la puedo obtener por cualquier otra vía que no sea la entrevista directa, la unidad de observación puede ser tanto la persona como la fuente de información sobre la persona.

Material Bioestadística Prof. Joana Martín Rojo19

Page 25: Material Bioestadística 2013

Población de

tamaño NSelección Aleatoria

Muestra de

tamaño n

Material Bioestadística 2011

Unidades de Muestreo

Estas unidades han de coincidir o ser parte de las unidades de análisis y están sujetas a ser seleccionadas en la muestra. Para decirlo de otra forma son las unidades que quiero investigar y que pueden caer o no en la muestra.

Técnicas de selección de Muestra o Clases de Muestreo

Las técnicas de selección de una muestra dependen del tipo de muestreo a aplicar, en este curso veremos las siguientes:

En Muestreo Probabilístico:

Muestreo Aleatorio Simple

Consiste en seleccionar de la población de N individuos, n de ellos al azar, para lo cual existen varias técnicas, entre ellas la de números aleatorios.

Muestreo Estratificado

Consiste en dividir la población en grupos de tamaño Ni, que llamaremos estratos, y seleccionar aleatoriamente ni individuos en cada estrato. Los estratos serán creados de forma que los individuos que los contengan se parezcan mucho entre sí, en relación a alguna variable de interés para la investigación, pero sean distintos en entre los estratos. Un ejemplo de estrato lo tenemos en la estratificación socioeconómica donde cada estrato es distinto a los demás, pero los individuos que lo conforman tienen características comunes.

Material Bioestadística Prof. Joana Martín Rojo20

Page 26: Material Bioestadística 2013

1

2

k

2k

n

1

2

k

2k

n

1

2

k

2k

n

Material Bioestadística 2011

Muestreo Sistemático

En este tipo de muestreo se seleccionan 1 de cada k individuos de la población de tamaño N, es decir, se lista la población (según algún criterio propuesto por el investigador) y se seleccionan los individuos k, 2k, 3k, …, hasta llegar a los n individuos que conforman la muestra

Muestreo por Conglomerados

En el muestreo por Conglomerados la población de divide en N grupos de tamaño Mi, los cuales son parecidos entre los grupos, pero internamente diferentes entre si. La selección en este muestreo es de k conglomerados que en total contendrán n individuos.

Material Bioestadística Prof. Joana Martín Rojo21

El Muestreo Sistemático cumple con las condiciones:

K= Nn

se seleccionani , i+k , i+2k , . . . , i+(n−1)k

con: N= tamaño total de la Población, n= Tamaño total de la muestra y K= intervalo de selección sistemática

Page 27: Material Bioestadística 2013

M1

M3

M4

n1

M2

k

ii nM

1

C1

C2

C3

C4

C5

Material Bioestadística 2011

Muestreo Polietápico

Este tipo de muestreo es el que usualmente se aplica en las investigaciones donde la selección de la muestra es compleja, pues consiste en la aplicación de dos o más clases o técnicas de muestreo pero en distintas etapa, por ej. se realiza un estudio sobre niños y sus características de salud y antropométricas, la muestra se hace en los distintos ambulatorios del país, en la primera etapa se pueden clasificar en estratos los ambulatorios según su ubicación y características socioeconómicas de las personas que allí acuden (primera etapa: muestreo estratificado), luego en los distintos estratos se seleccionan ambulatorios (segunda etapa: muestreo por conglomerados, cada ambulatorio, dentro de cada estrato, tiene similaridad, pero los pacientes presentan diferencias). Luego de esto se pueden seleccionar pacientes según la lista que posee el médico que los atiende (tercera etapa: muestreo sistemático)

En Muestreo No Probabilístico

Entre las técnicas de muestreo probabilístico se pueden incluir las anteriormente descritas, siempre que se cumpla que no se conoce a toda la población, o se desconoce la probabilidad de al menos un elemento de la misma de ser seleccionado en la muestra. Otras técnicas de Muestreo No Probabilístico se mencionan a continuación:

Muestreo Por Cuotas

Este tipo de Muestreo es el más utilizado en las Investigaciones Médicas e Investigaciones de Mercado, pues consiste en cumplir cuotas de elementos a entrevistar, por ejemplo en una muestra de pacientes que acuden a un centro hospitalario con una afección cardiaca se selecciona

Material Bioestadística Prof. Joana Martín Rojo22

Page 28: Material Bioestadística 2013

Material Bioestadística 2011

a partes iguales entre los sexos (hombres y mujeres), de éstos se selecciona un 20% de fumadores, 30% que tengan antecedentes de afecciones, 40% que tengan familiares enfermos, etc. Así para completar la muestra se tienen que cumplir con cuotas de características.

Muestreo Opinático

En este tipo de muestreo el Investigador establece tanto el tamaño de la muestra cómo el criterio de selección.

Muestreo sin Norma

En este tipo de muestreo se establece un tamaño de muestra pero no existe ningún protocolo definido de selección de individuos, ese método es ampliamente utilizado en Investigaciones de Mercado denominadas Focus Group2.

La notación utilizada para describir características de la muestra suele realizarse en letras minúsculas, así como su tamaño, el cual es denotado por la letra “n”, siempre en minúsculas.

Deducir

Proceso que va de lo general a lo particular, también es el método por el cual de un gran conjunto de hechos, mediante procedimientos llamado deductivos, se llega a una conclusión.

Inferir

Es el proceso que va de lo particular (muestra) a lo general (población).

Inferencia Estadística

Es el proceso mediante el cual a partir de unos datos o resultados provenientes de una muestra se pretende obtener conclusiones acerca

2 Un Focus Group es una dinámica de Grupo que se realiza entre distintas personas para conocer su opinión respecto a nuevos productos o productos existentes, estas dinámicas se realizan con un facilitador que orienta la discusión y no presenta grandes requerimientos en términos de las personas que conforman el panel de entrevistados.

Material Bioestadística Prof. Joana Martín Rojo23

nN

nN

Page 29: Material Bioestadística 2013

Material Bioestadística 2011

de las poblaciones de las que provienen las muestras. O sea que se puede decir que es inferir a través de herramientas y modelos estadísticos.

Estadístico

Es un valor calculado a partir de los elementos de una muestra, puede ser descrito como un indicador o medición de la muestra, es decir, un valor que describe el comportamiento de la muestra. El más común ejemplo es la media muestral.

Parámetro

Es un indicador que describe el comportamiento de una población y es calculado a través de todos los elementos de ésta. Es un resultado numérico, un número, una constante. En este caso sería la media poblacional.

Estimador

Es un indicador relativo a describir el comportamiento de una población partiendo de una muestra. El indicador es la función, la forma de hacer el cálculo y no el resultado. En este caso sería la fórmula con la que calculamos la media, es decir:

X=∑ Xin

Estimación

Es el resultado que arroja el estimador. Por ej. una estimación podría ser el ingreso per cápita de los Venezolanos, que sería expresado en número, la esperanza de vida de un paciente con cáncer de vejiga luego de su diagnóstico, etc.

Para explicar mejor estos conceptos si queremos saber cuál es la cantidad de vehículos que posee cada Venezolano, la población será todos los Venezolanos mayores de edad, puesto que así legalmente pueden poseer un vehículo, la muestra serán los individuos seleccionados para hacerles el cuestionario o la pregunta, el estadístico será el número de automóviles por habitante que encontremos en nuestra muestra, es decir la proporción de vehículos, el parámetro será este valor pero referente a la población, el estimador será la forma de

cálculo de la proporción, es decir: p=Nºde Vehículos

Nº de Habitantes , y la estimación será el valor de p que está en la fórmula anterior.

Material Bioestadística Prof. Joana Martín Rojo24

Page 30: Material Bioestadística 2013

Material Bioestadística 2011

Material Bioestadística Prof. Joana Martín Rojo25

Page 31: Material Bioestadística 2013

Material Bioestadística 2011

MEDICIÓN, VARIABLES, MEDICIÓN Y ESCALAS DE MEDICIÓN

Medición

Antes de entrar en una definición de la medición veamos los siguientes pensamientos:

“Todo lo que existe, existe en un cierta cantidad”,

Y su corolario:

“Lo que exista en cierta cantidad se puede medir”

Edward Lee Thorndike Reunión de la Sociedad Británica para el Avance de la Ciencia (1940)

“La historia de la ciencia es la historia de la medida”.

James Cattel

“Suelo repetir con frecuencia que solo cuando es posible medir y expresar en forma numérica aquello de lo que se habla, se sabe algo acerca de ello; nuestro saber será insuficiente e insatisfactorio mientras no seamos capaces de expresarlo en números”.

Lord Kelvin (William Thompson 1824 -1907)

Cuando se realiza cualquier investigación, desde su concepción se plantean preguntas e hipótesis, además de conceptos y teorías para luego compararlos con la realidad, bien sea por experimentación u observación, esta comparación tiene un requisito básico, el cual es “Medir”.

Podemos presentar a continuación tres teorías de medición:

a) Teoría Clásica

Teoría que se remonta a Aristóteles y Euclides y que a fines del siglo XIX y comienzos del siglo XX produce interesantes progresos al tratar de medir en el campo de la Psicología Experimental. J. Michell (1986) presenta la siguiente consideración sobre esta teoría:

Material Bioestadística Prof. Joana Martín Rojo26

Page 32: Material Bioestadística 2013

Material Bioestadística 2011

“Los números no son asignados por la medición, más bien son descubiertas las relaciones numéricas mediante dicha operación”.

Según esta teoría la medición consta en el acto de asignar números o códigos a los resultados de la observación o experimento.

b) Teoría Representacional

Se origina en las consideraciones de H. Helmholtz quien dice que los atributos físicos básicos, en su naturaleza formal, tienen una estructura como la de los números reales positivos.

Por lo que esta corriente trata la medición como una correspondencia entre un sistema empírico cualquiera y el sistema de números reales3.

c) Teoría Operacional

Según esta corriente la Medición se puede definir como el acto mediante el cual se establece la relación de correspondencia entre un conjunto de números, símbolos o códigos y otro de personas u objetos, según ciertas normas establecidas. El conjunto de números va a depender de la característica que se pretenda medir y del tipo de instrumento de medición utilizada.

Veamos entonces los siguientes conceptos de Medición:

Concepto Clasificatorio

Este concepto establece que los eventos o resultados de un experimento se clasificarán en grupos según la teoría subyacente del evento o experimento. Esta clasificación deberá cumplir ciertas elaciones matemáticas que no se detallarán en este material.

Concepto Comparativo

En este caso la medición que se realice debe permitir comparaciones entre elementos y niveles medidos. La medición en este caso sigue también principios matemáticos, pero no se agruparán en conceptos jerárquicos, sino que la intensidad del fenómeno se debe reflejar de manera que se pueda comparar.

3 Veremos la medición según esta corriente a través de la propuesta de Stevens en el apartado de Niveles de Medición.

Material Bioestadística Prof. Joana Martín Rojo27

Page 33: Material Bioestadística 2013

Material Bioestadística 2011

Concepto Métrico

En este concepto se debe establecer correspondencia entre un sistema empírico y un sistema numérico, reconociendo propiedades matemáticas y un sistema de axiomas y teoremas que permitan definir con precisión estas correspondencias.

Resumiendo, la Medición entonces es la correspondencia entre lo observable de un fenómeno o los resultados de un experimento y un sistema de conceptos, bien sea un sistema de conceptos, de símbolos o numérico, que permita, según los objetivos de la investigación, comprender lo que se está estudiando.

Para ilustrar mejor estos conceptos, que hasta el momento se presentan de forma abstracta veamos a continuación el concepto de variable, y cómo se puede medir estadísticamente según reglas ya establecidas:

Variable

Toando la misma definición anterior de variable, que refrescamos en este momento del material, la Variable puede definirse como todas las características no determinadas o posibles que van a ser estudiadas en una población o situación. Es decir todas las características varían de un individuo u objeto a otro.

Nivel de Variable:

Variables Cualitativas

Son aquellas no medibles numéricamente, ya que expresan cualidades. Son atributos, características, rasgos.

Ej. Color de ojos, sexo, presencia o ausencia de un síntoma, etc.

Variables Cuantitativas

Son aquellas que son medibles en términos numéricos, ya que expresan cantidades.

Ej. Peso, talla, edad, cantidad de glóbulos rojos en la sangre, etc.

Material Bioestadística Prof. Joana Martín Rojo28

Page 34: Material Bioestadística 2013

Material Bioestadística 2011

Tipo de Variables:

Variables Dicotómicas

Son aquellas variables cualitativas que poseen sólo dos atributos, estos dos niveles pueden ser considerados como presencia o ausencia de una determinada característica.

Ej. Sexo, etc.

Variables Politómicas

Son aquellas variables cualitativas que poseen más de dos atributos, estas categorías pueden ser consideradas como nivel de una determinada característica.

Ej. Estado Civil, Actividad del Lupus, etc.

Variables Discretas

Son aquellas que no permiten ser expresadas en fracciones o decimales. Están asociadas a procesos de contaje, enumeración.

Ej. nº de hijos, nº de medicinas que toma el paciente, nº de personas que presentan determinado síntoma, etc.

Variables Continuas

Son aquellas que pueden ser expresadas en números enteros, fracciones o decimales. Están asociadas a procesos de medición con instrumentos.

Ej. Peso de una persona, proporción de fagocitos por células muertas en una muestra de sangre, etc.

La clase de medida obtenida es una función de las reglas bajo las cuales se asignan los números, símbolos o códigos.

Vamos a considerar cuatro niveles de medición que nos lleven a definir las cuatro escalas de medición según la propuesta de S.S. Stevens4, por ser la Escala de Medición de más amplio uso:

4 Un the Theory of Scales of Measurements, Science, Vol 103, 1946 y Mathematics, Measurement and Psychophisics in Handbook of Experimental Psychology J. Wiley, N. York 1951

Material Bioestadística Prof. Joana Martín Rojo29

Page 35: Material Bioestadística 2013

Material Bioestadística 2011

i.- Escala Nominal o Clasificatoria

La medición se realiza a un nivel elemental. Se utilizan números o símbolos con el fin de distinguir los grupos pertenecientes a una determinada categoría. El número o símbolo de la variable será tomado en cuenta como el nombre de la variable, no tiene valor cuantitativo, es decir, no podrá ser tomado como número, solo como registro.

Ej. Color de ojos, presencia o ausencia de una característica, clasificación de personas según si fuman o no, etc.

ii.- Escala Ordinal o de Rangos

Es similar a la anterior, más se diferencia de ésta en que se jerarquizan u ordenan las categorías según criterios predefinidos por el investigador (por ej. mayor que, mejor que, primero que). Las categorías difieren entre sí cuantitativamente.

Ej. Actividad del Lupus, etc.

iii.- Escala de Intervalo

Es una Escala de Orden, pero se puede medir la distancia entre los valores y se pueden manipular, lo que le confiere un nivel de refinamiento superior. Los valores se pueden operar matemáticamente, el resultado de estas operaciones es utilizable. En esta escala de medición no existe el cero absoluto.

Ej. Medición de temperatura, etc.

iv.- Escala de Razón o Proporción

El grado de refinamiento en la medición es mayor que en la medición cuantitativa. Esta escala tiene todas las características de la Escala de Intervalo, exceptuando que en la anterior no existe el cero absoluto (que es simplemente que cuando vemos el cero estamos presentes a la nada, es cero absoluto es un concepto matemático que nos dice que si una medida es cero es nula, la medición refleja nulidad) y en esta sí, la proporción es conocida entre los elementos de la escala. En ésta podemos hacer comparaciones entre los valores, además la proporción de un punto cualquiera de la escala a otro es independiente de la unidad de medida.

Ej. Peso, altura, porcentaje de células muertas en una muestra de orina, etc.

Material Bioestadística Prof. Joana Martín Rojo30

Page 36: Material Bioestadística 2013

Material Bioestadística 2011

En el siguiente Diagrama se muestra el Nivel de medición, Escala de Medición y tipo de variable

Otras Escalas:

Escala de Likert

En esta escala se debe reflejar la valoración con respecto a algún aspecto por parte del entrevistado, consta de una cantidad de niveles, cuyos extremos han de oponerse entre si, y los niveles intermedios deben ir pasando gradualmente de un estado al siguiente, es decir si se quiere saber la percepción de una persona en grado de acuerdo a determinada política de salud, se le presentarán al entrevistado opciones que vayan de acuerdo total a desacuerdo total, siendo los intermedios en niveles de acuerdo que desciendan gradualmente hasta el desacuerdo total.

Material Bioestadística Prof. Joana Martín Rojo31

N ivel Escala T ipo

Nominal Dicotómica

Cualit at iva

Ordinal Múltiples o Policotómicas

Medición

I ntervalos Discreta

Cuant it at iva

Razón Cont ínuas

N ivel Escala T ipo

Nominal Dicotómica

Cualit at iva

Ordinal Múltiples o Policotómicas

Medición

I ntervalos Discreta

Cuant it at iva

Razón Cont ínuas

Page 37: Material Bioestadística 2013

Material Bioestadística 2011

La escala puede ser construida con o sin centro. Además la ubicación de los polos define la dirección de la escala, es recomendable mantener una dirección única

Para

evitar que la mayoría de las respuestas se concentren en el centro de la escala es preferible utilizar la escala sin centro

Si bien la escala de likert usualmente se utiliza con números impares y relativamente pequeños, del 1 a 5, del 1 al 7, es recomendable utilizar escalas con mayor variabilidad y sin centro, es decir, números pares, como por ejemplo del 1 al 10

Esta longitud de escala resulta más manejable en la medición, pues uno

se puede ubicar en una puntuación del 1 al 10. Una posible aplicación de este tipo de escala es al asignar valores a las intensidades de banda, nivel de dolor, etc

Interpretación de los Indicadores por dimensión

Luego de calcular el porcentaje por dimensión de los p indicadores mediante la fórmula:

Donde:

Ij denota el indicador j-ésimo de la dimensión que se está analizando

p es el total de indicadores que conforman la dimensión.

k representa el total de niveles de los indicadores que conforman la dimensión,

Material Bioestadística Prof. Joana Martín Rojo32

1 2 3 4 51 2 3 4 5

1 2 3 41 2 3 4

PoloNegativo

PoloPositivo

Polo Negativo Polo Positivo

1 2 3 4 5 6 7 8 9 101 2 3 4 5 6 7 8 9 10

100*kp

I j

Page 38: Material Bioestadística 2013

Material Bioestadística 2011

Para este análisis suponemos que todas las escalas de Likert en la dimensión tienen 5 niveles.

Obtendremos resultados en los siguientes intervalos.

100%

 Este porcentaje refleja el mayor valor de la escala, que es representado por el 5

80%  Este porcentaje refleja el segundo mayor valor de la escala, que es representado por el 4

60%  Este porcentaje refleja el centro de la escala, que es representado por el 3

40%  Este porcentaje refleja el segundo menor valor de la escala, que es representado por el 2

20%  Este porcentaje refleja el menor valor de la escala, que es representado por el 1

Estos resultados se pueden interpretar de la siguiente manera:

Entre 20% a 39%: En porcentaje revela que la percepción de las personas en esta dimensión se caracteriza por una evaluación en el peor valor de la escala, es decir, si la escala es de acuerdo con alguna proposición, en esta dimensión las personas se encuentran en total desacuerdo con la misma.

Entre 40% a 59%: La percepción de las personas sobre esta dimensión se encuentra entre el centro de la escala y el nivel más bajo.

En el entorno del 60%: La percepción de las personas denota indecisión entre los extremos de la escala, ubicándose las percepciones en el centro de ella.

Entre 61% y 79%: La percepción de las personas en los indicadores que conforman la dimensión se hayan entre el centro y el extremo superior de la escala. Si la escala es de niveles de acuerdo las personas revelan acuerdo hacia la proposición, en términos de la dimensión que se está analizando.

Entre 80 y 100%: En este caso las puntuaciones tienden al extremo superior de la escala, es decir, si la escala está compuesta de niveles de

Material Bioestadística Prof. Joana Martín Rojo33

Page 39: Material Bioestadística 2013

Material Bioestadística 2011

acuerdo hacia una proposición, las personas se encuentran totalmente de acuerdo con las proposiciones que conforman la escala.

Cabe destacar que los límites de análisis de la escala pueden ser borrosos, por lo que hay que ser cuidadosos en su análisis.

También se debe tener en cuenta que este porcentaje y su análisis se especifican bajo el supuesto que todos los indicadores en la dimensión fueron medidos mediante una escala de Likert de 5 niveles, en el caso de existir escalas de distintos niveles de medición o Likert de más o menos niveles, el análisis ha de ser ajustado para el caso. También se supone la no existencia de datos perdidos, o el cálculo de los indicadores en la dimensión excluyendo todos los individuos que presenten no respuesta en alguna de las escalas de la dimensión, por lo que también se deberá tomar en cuenta en el análisis en último caso expuesto.

Estandarización

Otro análisis que puede realizarse, sin tener que ser tan estrictos con el número de niveles de la escala, es la estandarización de los indicadores, la cual se hace mediante la siguiente formulación:

Donde:

X es cada punto de la Distribución y y son la media y desviación estándar respectivas de la distribución poblacional.

Para el análisis de los puntos estandarizados recodemos alunas propiedades de la normal estandarizada:

El centro de la Distribución es cero y su desviación típica es uno.

Material Bioestadística Prof. Joana Martín Rojo34

X

Page 40: Material Bioestadística 2013

Material Bioestadística 2011

Cuando se construyen intervalos centrados en la media, se obtiene un porcentaje de agrupación de los individuos que pertenecen a éste. Esta propiedad es muy importante puesto que se obtiene un análisis más profundo de la información, incluyendo la presencia de puntos atípicos y extremos. Tres intervalos usuales para el análisis son los siguientes:

Contiene el 68% de los datos

Contiene el 95% de la información

Agrupa el 99% de los individuos

Escala de Comparaciones Apareadas

Esta escala es de amplio uso en las investigaciones por encuesta, y consta básicamente de un sistema de preferencias de un elemento sobre otro. Es decir, al entrevistado se le pedirá que seleccione entre dos proposiciones cuál es su preferida.

Escala de Suma Constante

También utilizada en investigaciones por encuesta, en este caso se le pedirá al entrevistado distribuir una cantidad constante (usualmente se presenta en términos de porcentaje para facilitar el cálculo mental del

Material Bioestadística Prof. Joana Martín Rojo35

2

5,2

Page 41: Material Bioestadística 2013

Material Bioestadística 2011

entrevistado) entre una cantidad dada de opciones, jerarquizando por la magnitud de la partición su nivel de preferencia.

Diferencial Semántico

En este caso se valora la actitud global de un individuo ante un estímulo mediante un conjunto de criterios, presentando también dos categorías polares y las intermedias que son la transición entre los dos polos. En este caso si queremos establecer la intensidad del dolor que se presenta en un paciente se identifican los dos extremos de la escala y se disponen los niveles intermedios para su selección.

Hasta aquí va la revisión

Material Bioestadística Prof. Joana Martín Rojo36

Page 42: Material Bioestadística 2013

Material Bioestadística 2011

MEDIDAS ESTADÍSTICAS

Una vez seleccionada la población y la muestra a estudiar, es necesario poder describir las características del fenómeno que nos interesa, la estadística ofrece una gama de medidas cuantitativas y cualitativas mediante las cuales podemos aproximarnos a describir las características subyacentes en una población o muestra.

Medidas de Tendencia Central.

En general las medidas de tendencia central y posición permiten resumir el comportamiento de un conjunto de datos según su tendencia, su centro, o el centro de su distribución, a continuación veremos algunas de las medidas más utilizadas.

Media o Promedio.

Para entender el concepto de la media revisemos las siguientes consideraciones:

“…Si tenemos una cantidad que varía ya sea en el espacio o en el tiempo, se necesita obtener su grado o nivel generalmente predominante”

“Se define el promedio aritmético como el valor más representativo de la serie de valores, el punto de equilibrio, el centro de gravedad de la serie”

Félix Seijas

“Un promedio es un valor simple, el cual es considerado como el valor más representativo o típico para un grupo de números”

Stephen Shao

En resumen, la Media Aritmética, Promedio Aritmético o Promedio es un valor que representa a un conjunto de datos, es el centro de los mismos, y su cálculo se efectúa de la siguiente manera:

La media, al ser una función que promedia todos los datos de la serie, es muy sensible a la presencia de puntos atípicos, éstos son valores que se

Material Bioestadística Prof. Joana Martín Rojo37

X=∑i=1

n x in=x1+x2+. ..+x n

n

Page 43: Material Bioestadística 2013

Material Bioestadística 2011

encuentran muy por debajo o muy por encima del resto; la media refleja su presencia ubicándose hacia estos valores.

Esto hace que en presencia de datos atípicos la media deja de ser representativa del conjunto de datos, por lo que se dice que la media es “sensible” a la presencia de datos atípicos.

Propiedades del promedio:

La media de una constante es una constante

La media de una serie de valores por una constante es la constante por la media de los valores

La suma de las desviaciones de los valores con respecto a la media es cero

Las desviaciones al cuadrado de los valores con respecto a la media siempre son menores a las desviaciones al cuadrado respecto a cualquier otro valor

Media o Promedio Geométrico.

Es el promedio apropiado para las secuencias de valores compuestos por la razón de un valor respecto a su valor inmediato. La media geométrica equilibra las razones de los valores individuales, y da igual ponderación a las razones de cambio iguales.

La forma de cálculo es la siguiente:

Media o Promedio Armónico.

Es la inversa de la media aritmética de las inversas de los valores de la variable, responde a la siguiente expresión:

H= n

∑nix i

= nn1

x1

+n2

x21

+n3

x3

+. .. .

Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los valores pequeños). Pero este promedio presenta el problema de que cuando algún valor de la variable es 0 o próximo a cero no se puede calcular.

Material Bioestadística Prof. Joana Martín Rojo38

G=n√∏i=1

n

x i=n√ x1∗x2∗. ..∗xn

Page 44: Material Bioestadística 2013

Material Bioestadística 2011

Media o Promedio móvil.

Los promedios móviles son promedios calculados en datos provenientes de series temporales. Dado que estas mediciones se ven afectadas por la tendencia asociada con el tiempo, el promedio móvil rescata esta tendencia temporal así como la tendencia central de la información.

Dada una serie de tiempo Xt (t = 1,...., N), se define el Promedio Móvil de tamaño S de la serie por:

donde t = 1, ...., N – S +1 y N es el número de datos.

Mediana

La mediana de un conjunto de mediciones es el valor que se encuentra en el punto medio o centro de una distribución cuando los datos son ordenados jerárquicamente. También puede definirse cómo el valor que divide la muestra en dos mitades.

Para obtener la mediana, ubicamos su posición en los datos, previamente ordenados, mediante la siguiente fórmula:

Y al tener la posición buscamos el valor correspondiente.

También puede obtenerse según el siguiente planteamiento:

En caso de tener una distribución de datos con puntos atípicos que creen sesgo en la media, la mediana es un buen sustituto, pues indica también la tendencia de los datos, pero no se ve afectada por los puntos atípicos.

Moda o Modo

La Moda de una distribución de datos, denotada por Mo, es simplemente el valor que más se repite. En algunas distribuciones se pueden presentar varias modas, en este caso no es recomendable utilizar esta medida como tendencia.

Material Bioestadística Prof. Joana Martín Rojo39

2

nsi n es par

si n es impar2

1nPosición Md = Md =

Xn/ 2 si n es par

X(n+1)/ 2 si n es impar

PM t=X t+X t−1+. .. .+X t-(S-1)

S

Page 45: Material Bioestadística 2013

Material Bioestadística 2011

Relación entre la Media, Mediana y Moda

La siguiente relación, expresada en términos de fórmulas, fue propuesta por Pearson:

Mo= x−3 ( x−Md )

Md= x+13

(Mo− x )

x=12

(Mo−3Md )

Donde:

x = Promedio o Media

Mo = Moda

Md = Mediana

Esta igualdad se cumple sólo si la distribución de los datos es unimodal, es decir, tiene una sola Moda.

Utilización de los Promedios

En general la media aritmética es la medida más representativa en las distribuciones, exceptuando los siguientes casos:

i. Cuando la distribución sea asimétrica utilizaremos el Modo, si este es de muy difícil cálculo utilizaremos la Mediana.

ii. Si la distribución es en forma de U o parabólica utilizaremos para su descripción el Modo.

iii. Si los datos son una progresión geométrica, tasas o índices se recomienda utilizar la media geométrica o promedios móviles.

iv. Si se presenta el caso en el que los logaritmos de los puntos medios son más simétricos que la distribución original, aplicaremos la media geométrica.

v. Cuando estamos promediando razones y necesitamos mantener constante el factor variable en la razón, utilizaremos la media harmónica.

vi. La media por ser un promedio aritmético, puede verse afectada por puntos extremos o atípicos en la distribución. En estos casos, a veces, conviene, aparte de comparar el promedio con la Moda y la Mediana, sustituirlo por alguno de ellos.

Proporción

Cuando una característica en vez de numérica se refiere a cualidad, podemos describir a la variable que nos interesa mediante la proporción. La cual la calcularemos mediante

Material Bioestadística Prof. Joana Martín Rojo40

Page 46: Material Bioestadística 2013

Material Bioestadística 2011

p=¿de individuos con una característica dadaTotalde individuos

Esta medida si se multiplica por 100% expresa que porcentaje de la población o muestra presenta determinada característica.

La proporción puede tomarse como un caso particular de la media aritmética cuando la variable que se va a describir toma dos únicos valores: cero si el individuo no posee la característica dada, uno si la posee.

Medidas de Posición

Si bien la Mediana es una medida de tendencia central, comparte este concepto también, pues es una medida que depende de su ubicación o posición en los datos (cuando están ordenados jerárquicamente). Estas medidas son muy útiles cuando existen puntos atípicos o distribuciones muy sesgadas, tanto para conocer la tendencia de los datos como su dispersión.

Cuartiles

Los Cuartiles son medidas similares a la mediana, pues dividen la distribución de datos (ordenados ascendentemente), pero en cuatro partes iguales.

Existen sólo tres Cuartiles, el Cuartil 1 (Q1) acumula un 25% de los datos a su izquierda y un 75% a su derecha, el Cuartil 2 es igual a la Mediana, y el Cuartil 3 acumula un 75% de los datos a su izquierda y un 25% a su derecha. Y su forma de cálculo se presenta a continuación:

Los cuartiles permiten conocer y describir la distribución de una población determinada, según la cercanía o lejanía de los valores de los cuartiles. Esto es, mientras más cercanos se encuentren los valores de dos cuartiles, menor dispersión existe entre ellos, y mientras mayor sea la distancia, mayor será la dispersión entre ellos. También, si las distancias entre los cuartiles no son iguales, éstos nos indican la simetría o asimetría existente en las distribuciones, pues esta depende de la distancia existente entre los cuartiles.

Material Bioestadística Prof. Joana Martín Rojo41

Qi =

Xi*n/ 4 si n es par

si n es imparXi*(n+1)/ 4

Page 47: Material Bioestadística 2013

Material Bioestadística 2011

Percentiles

Los Percentiles son medidas similares a los cuartiles, pero en vez de dividir la distribución de datos (ordenados ascendentemente) en cuatro partes iguales, lo hace en 100 partes iguales.

Al igual que en el caso de la mediana, la cantidad de percentiles que existe no es 100, sino 99, y al buscar un percentil particular (por ejemplo “n”, estamos buscando el valor que deja a su izquierda el n% de los datos y a su derecha el (100-n)% restante de información. Cabe destacar que los percentiles 25y 75 coinciden con los cuartiles 1 y 3, y el percentil 50 coincide con el cuartil 2 y la mediana.

La forma de cálculo es la siguiente:

Los percentiles, al igual que los cuartiles, permiten conoce y describir la distribución de una población determinada, según la cercanía o lejanía de los valores de los percentiles. Así como también permiten, analizar con mayor profundidad, la existencia de datos atípicos o extremos.

Deciles

Los Deciles son medidas similares a los percentiles, que divididen la distribución de datos (ordenados ascendentemente) en diez partes iguales.

Al igual que en el los casos anteriores, la cantidad de deciles que existe no es 10, sino 99 y al buscar un decil particular (por ejemplo “n”, estamos buscando el valor que deja a su izquierda el (n*10)% de los datos y a su derecha el (10-n*10)% restante de información. Cabe destacar que el decil 50 coincide con el percentil 50, el cuartil 2 y la mediana.

La forma de cálculo es la siguiente:

Material Bioestadística Prof. Joana Martín Rojo42

Pn =

Xi*(n/ 100)

Xi*(n+1/ 100)

Si n es par

Si n es impar

Dn =

Xi*(n/ 10)

Xi*(n+1/ 10)

Si n es par

Si n es impar

Page 48: Material Bioestadística 2013

Material Bioestadística 2011

Los percentiles, cuartiles y deciles son medidas de posición, pues dependen de la posición en que se encuentra el valor, cuando los datos se han organizado ascendentemente. Estas medidas son básicas para el estudio de asimetrías de las distribución, así como permiten conocer también, de manera intuitiva, la dispersión de la información, esto último mediante la cercanía de valores que tomen las medidas entre ellas, es decir, mientras más cercanos se encuentren los valores de los cuartiles, más compacta será la distribución de la información, y mientras más lejana, encontraremos más “regados” los datos en la distribución.

Medidas de Dispersión

La dispersión, como medida de descripción de un conjunto de datos, resulta de gran importancia, pues si bien el valor elegido de tendencia central describe a los datos, su dispersión es igual de importante en el análisis. Pues si se tienen dos poblaciones que tengan la misma tendencia central en término de edades, pero sus dispersiones son diferentes, estamos en presencia de dos poblaciones diferente, y no podemos asumir equidad entre ellas sólo por la coincidencia de su valor central. Es recomendable que a la hora de realizar cualquier análisis siempre se acompañe el valor de tendencia central con su medida de dispersión respectiva.

Las medidas de dispersión indican que tan dispersos están los valores de una distribución con respecto a su centro de gravedad o tendencia central, es decir que tan “agrupados” o “regados” están los datos de una distribución respecto a un valor central.

Existen varias medidas que ayudan a interpretar la dispersión de los datos, a continuación veremos algunas de ellas

1. Variables categóricas: la razón de variación y el índice de variación cualitativa.

1.1. La razón de variación (RV)

• Se obtiene a partir de la siguiente expresión, donde n

Mo representa la frecuencia absoluta de la

categoría de la variable que sea la moda:

RV= 1-(nsubMo)/n

Material Bioestadística Prof. Joana Martín Rojo43

Page 49: Material Bioestadística 2013

Material Bioestadística 2011

• La RV indica el grado en que los valores observados en la muestra no coinciden con el de la moda.

Cuanto más próximo sea n

Mo a n, más cercano a 0 será RV, indicando que el valor de muchos casos

coincide con el de la moda (=> poca dispersión). Cuanto menor sea la frecuencia absoluta de la Gabriel Molina y María F. Rodrigo

Estadística descriptiva en Psicología

Curso 2009-2010

3

moda respecto al tamaño de la muestra y, por lo tanto, mayor la frecuencia absoluta de otros valores

que no son la moda, más próximo a 1 será RV (=> mucha dispersión).

1.2. El índice de variación cualitativa (IVC)

• Se obtiene a través de la siguiente fórmula, donde k es el número de categorías de la variable y pi

la frecuencia relativa asociada a cada una de ellas:

IVC=(1-suma(desde i hasta k) pi al cuadrado) entre (k-1)/k

• El IVC expresa el grado en que los casos están dispersos en las diferentes categorías de la variable,

alcanzando su máximo (IVC = 1) en el caso en que las frecuencias relativas sean iguales para todas

las categorías de la variable (caso que se corresponde al de una variable con una distribución

uniforme). El IVC sería igual a 0 cuando la frecuencia relativa de una categoría de la variable fuese

igual a 1, esto es, el caso en que todos los casos tuviesen el mismo valor observado en la variable

(dispersión nula).

Material Bioestadística Prof. Joana Martín Rojo44

Page 50: Material Bioestadística 2013

Material Bioestadística 2011

Medida de forma

Concentración, mide si los valores de la variable están más o menos uniformemente repartidos a lo largo de la muestra. Para medir el nivel de concentración de una distribución de frecuencia se pueden utilizar distintos indicadores, entre ellos el Índice de Gini, para medir el nivel de concentración de una distribución de frecuencia se pueden utilizar distintos indicadores, entre ellos el Índice de Gini, el cual se calcula

I g=∑i=1

n−1

(Pi−Qi )

∑i=1

n−1

Pi

El Índice Gini (Ig) puede tomar valores entre 0 y 1, es 0, cuando la concentración es mínima, o la muestra está uniformemente repartida a lo largo de todo su rango; es 1 cuando la concentración es máxima, y en este caso un sólo valor de la muestra acumula el 100% de los resultados

Rango

El máximo o límite superior es el valor mayor o más grande de una distribución.

El mínimo o límite inferior es el valor más pequeño de una distribución.

Una medida de dispersión de utilidad que se obtiene a través del máximo y el mínimo es el Rango. Esta medida nos indica en recorrido de todos los datos, y se calcula según la diferencia del límite superior y el límite inferior:

Rango = Máximo - Mínimo

Intervalo semidecil o desviación percentílica

Esta medida “descarta” los valores extremos de una distribución, centrándose únicamente en el 80% central de los datos de la distribución, se calcula según la siguiente diferencia: P90-P10

Desviación Intercuartílica

El rango Intercuartílico de una distribución es una medida de la amplitud o de la homogeneidad asociada al conjunto de datos que se encuentra

Material Bioestadística Prof. Joana Martín Rojo45

Page 51: Material Bioestadística 2013

Material Bioestadística 2011

entre el primer y tercer cuartil de una distribución. Al aplicar esta medida se trabajará únicamente con el 50% central de los datos, y se calcula de la siguiente manera: Dq=Q3-Q1.

Desviación Semi-cuartil o Rango semicuartílico

Esta medida de dispersión se deriva de la anterior, siendo su forma de cálculo::

Dqm=Q3−Q1

2

La desviación semi-cuartil indica un promedio de desviación existente entre el 50% central de la informacón

Desviación Media

La desviación media es el valor absoluto de la suma de los desvíos con respecto al centro de una distribución, aunque esta medida se puede calcular con respecto a cualquier centro es recomendable calcularla con respecto a la media, por sus propiedades matemáticas. La fórmula de cálculo es:

DM=∑i=1

n |X i−X|n

Varianza

La Varianza indica la cantidad promedio en que los valores difieren del centro de la distribución. Mientras más cercanos se encuentren los datos en conjunto a la media, la Varianza será menor. Recíprocamente, mientras más difieran del valor central, mayor será la varianza. En otras palabras, es una medida de cuanto difieren, o visto de otra manera, de cuanto se parece una serie de datos entre sí.

La varianza se calcula promediando los desvíos de cada dato con respecto al centro de gravedad, la formula es la siguiente:

Aunque en la mayoría de la bibliografía la fórmula de la varianza aparezca con el divisor n, utilizaremos esta fórmula, pues este es el estimador insesgado de la varianza poblacional.

Material Bioestadística Prof. Joana Martín Rojo46

S2=∑i=1

n ( xi− x )2

n−1=( x1− x )

2+( x2− x )2+. ..+( xn− x )

2

n−1

Page 52: Material Bioestadística 2013

Material Bioestadística 2011

Desviación Estándar o Típica

Dado que el cálculo de la media eleva los datos al cuadrado, las unidades en que estén medidos estos también estarán al cuadrado, dificultando su interpretación, para ello se calcula la desviación típica, que no es más que la raíz cuadrada de la varianza, y este valor viene representado en las mismas unidades que los datos.

Para poder interpretar la Desviación Estándar hace falta que esta venga acompañada del valor de la media, pues sólo de esta manera se puede verificar, comparando ambos valores, la magnitud de la dispersión presente en los datos.

La forma de cálculo de la Desviación Estándar es la siguiente:

S=√S2=√∑i=1

n

( x i− x )2

n−1

Propiedades de la Desviación Estándar

Es siempre una cantidad no negativa (S≥0 )

La desviación típica de una constante es cero (S(k )=0 )

La desviación típica de una constante por una variable es igual al producto de la constante tomada en valor absoluto por la desviación

típica de la variable (S(kx )=|k|S(x ))

La desviación típica de la suma algebraica de una constante y una

variable es igual a la desviación típica de de la variable (S(k+ x )=S(x ))

La desviación típica de la serie total, puede expresarse como una

función de las desviaciones típicas (S1 ,S2 ,. . .,Sk ) y las medias de las

respectivas series componentes

En el caso de que los datos se distribuyan normalmente5 tenemos que en el intervalo x±S se encuentra el 68,27% de los datos, en el intervalo x±2S el 95,45% y en el intervalo x±3 S el 99,73%.

Esta medida de dispersión es la mayormente utilizada, ya que es la medida que mejor representa la dispersión de los datos.

5 Concepto que ampliaremos en la sección de probabilidad

Material Bioestadística Prof. Joana Martín Rojo47

k21 X,...,X,X

Page 53: Material Bioestadística 2013

Material Bioestadística 2011

Coeficiente de Variación

Dado que en ciertas circunstancias la interpretación de la desviación estándar se dificulta, y siempre ésta ha de venir acompañada por la media, esta medida de dispersión es muy útil en términos interpretativos, pues viene en términos de porcentaje respecto a unidades de media.

El Coeficiente de Variación se define como la razón de la desviación típica con respecto a la media, indicando que tan dispersos se encuentran u grupo de datos respecto a su media en unidades de media, es decir un 50% indicará una dispersión de la mitad de unidades correspondientes a la magnitud de la media, un 100% indicará una dispersión igual a la magnitud de la media, etc.

Su fórmula de cálculo es la siguiente:

CV= SX∗100 %

Medidas de Forma

Simetría

La simetría es una medida que nos ayuda a interpretar la dispersión de los datos, indicando si la distribución es asimétrica, esto es, como los datos se encuentra agrupados a un lado de la media, más que alrededor de ella.

Para el cálculo del coeficiente de Asimetría tenemos tres planteamientos:

Coeficiente de asimetría de Pearson:

Donde x corresponde al promedio aritmético de los datos, Md

corresponde a la mediana de los datos y S corresponde a la desviación típica

Coeficiente de Asimetría de Bowley

Donde Qi corresponden a los cuartiles de la distribución

Coeficiente de Asimetría por Momentos

Material Bioestadística Prof. Joana Martín Rojo48

13

123 2

QQ

QQQSK

SK=3( x−Md )

S

Page 54: Material Bioestadística 2013

<0, la asimetría es negativa

SK= =0, la curva es simétrica

>0, la asimetría es positiva

Material Bioestadística 2011

α 3=μ3

σ3

Donde:

σ 3: es la desviación típica al cubo

El resultado de cualquiera de los coeficientes se encuentra en el intervalo (-1,1), y se interpreta de la siguiente manera:

Ahora veamos la asimetría gráficamente

Kurtosis

La Kurtosis también es una medida de homogeneidad de los datos, según la forma que adopte la curva. Se puede decir que la Kurtosis tiene por objeto determinar si una distribución es Normal. El Coeficiente de Kurtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución. También mide la cantidad de valores extremos que tiene una distribución de datos

Se definen 3 tipos de distribuciones según su grado de Kurtosis:

Material Bioestadística Prof. Joana Martín Rojo49

XMdMo

Asimetría Positiva

MoMdX

Asimetría Negativa

MoMdX

Simétrica

n

Xxμ

n

1ii

3

3

Page 55: Material Bioestadística 2013

Material Bioestadística 2011

Distribución mesokúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).

Pero si la cantidad de valores extremos es igual a la normal la curva es mesokúrtica.

Distribución leptokúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable.

Si tiene un número de valores extremos menores que la normal la curva es leptokúrtica.

Distribución platikúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

En cambio si la cantidad de valores extremos es mayor que la normal la curva es platikúrtica.

Para el cálculo de la Kurtosis se aplica la siguiente fórmula:

Donde:

∑i=1

n ( xi−X )4

n=μ4

es el momento central de orden 4 y S4 es la

desviación típica a la 4 o la varianza al cuadrado

La kurtosis se analiza según la siguiente regla de decisión

= 0 la distribución es mesokúrtica

K > 0 la distribución es leptokúrtica

< 0 la distribución es platikúrtica

En el caso que en la fórmula no se reste el número 3, la regla de decisión se modifica de la siguiente manera:

= 3 la distribución es mesokúrtica

K > 3 la distribución es leptokúrtica

< 3 la distribución es platikúrtica

Material Bioestadística Prof. Joana Martín Rojo50

K=∑i=1

n ( xi− X )4

n

S4−3

Page 56: Material Bioestadística 2013

Material Bioestadística 2011

Ya que la presencia de este número en el cálculo es con fines de facilitar la interpretación de los datos, aportando una relación de signo a la forma de la curva, más que una relación ordinal con el número 3.

Veamos a continuación algunos ejemplos de todas las medidas que hemos visto y sus posibles interpretaciones.

Ejemplo 1

Se calcularon las estadísticas descriptivas para tres de las variables continuas pertenecientes al proyecto Asma-Epoc. Los resultados se presentan a continuación

Estadísticas Descriptivas sobre Edad, CVF (L) y VEF1 (L)Proyecto Asma-EpocEstadísticas Descriptivas

Estadísticas Edad CVF (L) VEF1 (L)Media 50,31 2,98 2,07

Mediana 52,00 2,90 2,01Varianza 263,89 1,22 1,09

Desviación Estándar 16,24 1,11 1,04Coef. De Variación (%) 32,29 37,10 50,27

Mínimo 13,00 0,00 0,00Máximo 93,00 7,36 5,44

Rango 80,00 7,36 5,44Rango Intercuartílico 22,75 1,35 1,47

Simetría -0,21 0,34 0,53Kurtosis -0,51 1,05 0,09

Fuente: Cálculos propios

Se deja al alumno realizar la interpretación de las medidas calculadas.

Material Bioestadística Prof. Joana Martín Rojo51

Page 57: Material Bioestadística 2013

Estadísticas Descriptivas sobre Edad, CVF (L) y VEF1 (L)Por grupo de enfermedad

Proyecto Asma-Epoc

Estadísticas Descriptivas

Edad CVF (L) VEF1 (L)

Estadísticas Control

Asma Epoc Control

Asma

Epoc Control

Asma

Epoc

Media 42,63 44,60 63,69

3,62 2,81 2,52 2,94 1,90 1,38

Mediana 42,00 45,50 64,00

3,60 2,75 2,30 2,84 1,82 1,27

Varianza 193,00

231,66

99,00

1,29 1,02 0,73 0,93 0,63 0,45

Desviación Estándar 13,89 15,22 9,95 1,14 1,01 0,86 0,96 0,80 0,67

Coef. De Varianción (%)

32,59 34,13 15,62

31,40 35,99

33,98

32,86 41,96

48,62

Mínimo 16,00 13,00 40,00

0,00 0,00 1,10 0,00 0,00 0,44

Máximo 73,00 79,00 93,00

6,42 7,36 5,11 5,39 5,44 3,41

Rango 57,00 66,00 53,00

6,42 7,36 4,01 5,39 5,44 2,97

Rango Intercuartílico 18,75 21,00 16,75

1,09 0,96 1,23 0,98 0,97 0,95

Simetría 0,00 -0,07 0,21 -0,78 0,87 0,89 -0,53 1,01 0,99

Kurtosis -0,61 -0,46 -0,27 2,71 4,20 0,54 2,17 3,06 0,45

Fuente: Cálculos propios

En este cuadro destacan las diferencias presentes entre los grupos formados por el tipo de enfermedad para las tres variables. Se deja como tarea al estudiante realizar el análisis, comparar los grupos y comparar con las medidas sin considerar los grupos del cuadro anterior.

A continuación se presentan, de la misma base de datos, la información correspondiente a los percentiles, cuartiles y datos atípicos.

Percentiles de las variables Edad, CVF (L) y VEF1 (L)Proyecto Asma-Epoc

Variables

Percentiles

5 10 25=Q1 50=Q2=Md

75=Q3 90 95

Edad 20,05 26,00 39,00 52,00 61,75 72,00 74,95

CVF (L) 1,42 1,71 2,26 2,90 3,61 4,44 5,01

VEF1 (L) 0,69 0,77 1,27 2,01 2,74 3,44 4,00VEF1 % pred

27,05 39,00 53,00 78,00 101,00 115,90 127,85

Material Bioestadística Prof. Joana Martín Rojo52

Page 58: Material Bioestadística 2013

Fuente: Cálculos propios

Valores Extremos de las variables Edad, CVF (L) y VEF1 (L)Proyecto Asma-Epoc

Posición NºEdad CVF (L) VEF1 (L)

Nº Caso Valor Nº Caso Valor Nº Caso Valor

Superiores

1 247 93,00 167 7,36 167 5,44

2 271 84,00 29 6,42 29 5,39

3 280 84,00 34 5,86 34 4,85

4 254 83,00 72 5,60 44 4,74

5 253 81,00 21 5,57 51 4,72

Inferiores

1 189 13,00 197 0,00 197 0,00

2 174 13,00 155 0,00 100 0,00

3 156 14,00 100 0,00 99 0,00

4 171 15,00 99 0,00 98 0,00

5 185 16,00 98 0,00 97 0,00

Fuente: Cálculos propios

Percentiles de las variables Edad, CVF (L) y VEF1 (L)Por Tipo de Enfermedad

Proyecto Asma-EpocVariable Tipo

Enfermedad

Percentiles

5 10 25=Q1

50=Q2=Md

75=Q3

90 95

Edad Control 19 21 34 42 52,75 61 67,9

Asma 16,1

24 33 45,5 54 64 69,9

Epoc 49,1

51 55,25 64 72 75 81

CVF (L) Control 1,89

2,7 3,12 3,6 4,21 5,1 5,52

Asma 1,36

1,7 2,32 2,75 3,27 4,1 4,49

Epoc 1,41

1,6 1,84 2,3 3,07 3,9 4,08

VEF1 (L) Control 1,43

2,1 2,55 2,84 3,52 4,4 4,62

Asma 0,79

0,9 1,41 1,82 2,38 3 3,21

Epoc 0,68

0,7 0,79 1,27 1,74 2,4 2,85

Fuente: Cálculos propios

Material Bioestadística Prof. Joana Martín Rojo53

Page 59: Material Bioestadística 2013

Ejemplo 1

Esta ilustración ha sido tomada de una investigación llevada a cabo en la Facultad de Medicina de la UCV, bajo la coordinación del Dr. Francisco Tapanes.

La población objeto de análisis está conformada por 91 enfermos de LES, que acuden regularmente a la consulta del Hospital Clínico Universitario.

La información se organizará en una hoja Excel de la siguiente manera:

Las variables involucradas en el estudio se verifican en la siguiente tabla:

Código Código de Historia

Sexo Sexo del Paciente

Edad Edad del Paciente

Tiempo de Tratamiento

Tiempo transcurrido desde que el paciente está bajo tratamiento (en Años)

Grupo Ena Grupo Ena

Actividad Actividad del Lupus

Proteinuria Nivel de Proteinuria en la Orina (g/100)

Hematuria Nivel de Hematuria en la Orina

Piuria Nivel de Piuria en la Orina

Creatinina Mg/100

Material Bioestadística Prof. Joana Martín Rojo54

Las Variables se organizan en columnas, mientras que los I ndividuos en filas

Este arreglo permite hacer todo tipo de cálculos y arreglos posteriores y es conveniente guardarlo

Page 60: Material Bioestadística 2013

Dep. Creatitina Depuración de Creatinina

Para calcular las frecuencias y porcentajes n la tabla utilizaremos las siguientes fórmulas:

Para el cálculo de las medidas descriptivas vistas en esta sección utilizaremos las siguientes fórmulas:

Material Bioestadística Prof. Joana Martín Rojo55

Fórmula de Cálculo, CONTAR.SIpermite contar bajo una condición, CONTARA cuenta todas las celdas no vacías

Page 61: Material Bioestadística 2013

En resumen, las fórmulas para el cálculo de medidas descriptivas que ofrece Excel se verifica en la siguiente tabla:

Material Bioestadística Prof. Joana Martín Rojo56

Para la gran mayoría de los Cálculos Estadísticos están las fórmulas, en pocos casos hace uno los cálculos

curtosis(rango)Kurtosiscoeficiente.asimetria(rango)Asimetría

(celda de la Desviación estándar)/ (celda del Promedio)/*100

Coeficiente de Variación

desvest(rango)Desviación Estándar

var(rango)VarianzaMAX(rango)-MIN(rango)Rango

cuartil(rango;3)Tercer Cuartil

cuartil(rango;1)Primer Cuartil

moda(rango)Modamediana(rango)Mediana

PROMEDIO(rango)Promedio

Fórmula en ExcelMedidas Descriptivas

curtosis(rango)Kurtosiscoeficiente.asimetria(rango)Asimetría

(celda de la Desviación estándar)/ (celda del Promedio)/*100

Coeficiente de Variación

desvest(rango)Desviación Estándar

var(rango)VarianzaMAX(rango)-MIN(rango)Rango

cuartil(rango;3)Tercer Cuartil

cuartil(rango;1)Primer Cuartil

moda(rango)Modamediana(rango)Mediana

PROMEDIO(rango)Promedio

Fórmula en ExcelMedidas Descriptivas

Page 62: Material Bioestadística 2013

Donde el rango a incluir corresponde a la dirección donde se encuentran los datos, es decir, si la hoja de datos se llama base de datos, y vamos a calcular las medidas descriptivas de la variable proteinuria, nuestro rango vendrá dado de la siguiente manera: 'base de datos'!F2:F92, cabe destacar que los números que se observan al lado d la letra (2 y 92) corresponden a los números de fila donde se encuentra la información

Material Bioestadística Prof. Joana Martín Rojo57

Page 63: Material Bioestadística 2013

REPRESENTACIÓN DE LOS DATOS

Existen dos maneras de realizar la representación de los datos, una de ellas a través de tablas, y la otra mediante gráficos

Tablas

La opción más común para la presentación de datos es la de forma tabular, cuadros estadísticos y gráficos. Estos se conforman de tres partes: Encabezamiento, Columna Matriz y Cuerpo, que construiremos según los siguientes criterios:

El título del cuadro debe además de tener el título propiamente dicho, el número del cuadro, fecha de recolección de los datos, unidades de medida de los datos, y cualquier nota adicional correspondiente a la descripción de la tabla que no pueda considerarse pie de página.

En a Columna Matriz se ordenarán los nombres de las variables (alfabéticamente, jerárquicamente por la ordinalidad de la variable, jerárquicamente por los resultados, etc.), por ej. Se realizó un estudio de Nefropatía Lúpica por el Dr. Francisco Tápanez y la Prof. Maura Vásquez. De esta forma en el cuerpo construiremos columnas Actividad Lúpica y Filas para Neuropatías, un poco más de detalle se ve más adelante.

Al final de la tabla se colocarán notas, siempre que sea necesario, para aclarar o especificar la selección o la fuente de información del cuadro. Ésta también puede ser para cualquier detalle concerniente a la investigación que el investigador considere que deba ser mencionado. Veamos como sería el cuadro con las notas al pie:

En un estudio realizado sobre 91 enfermos de Lupus se estudia el riesgo de nefropatía lúpica en asociación con la presencia de autoanticuerpos extractables del núcleo tipo Rnp. La información correspondiente se presenta en una tabla cruzada:

Material Bioestadística Prof. Joana Martín Rojo58

Page 64: Material Bioestadística 2013

Este cuadro es un ejemplo de una tabla cruzada con una variable dicotómica (Actividad Lúpica) y la otra politómica (Nefropatía).

Es importante decir que las tablas pueden expresarse tanto en unidades como números absolutos, fracciones, proporciones o porcentajes

De este tipo de cuadros es que se derivan las tablas de contingencia, que no son más que tablas de doble entrada (véase ej. anterior), pero únicamente para variables dicotómicas. Estas tablas serán de gran utilidad para realizar contrastes de hipótesis no paramétricos, que son una herramienta de la estadística para trabajar con datos cualitativos y que veremos más adelante.

Gráficos de Torta, Circulares o Pie

Estos gráficos son utilizados para expresar información de una variable, en términos de porcentajes de sus partes, es decir, para describir la muestra en término de género, polimorfismo, tipo de la enfermedad, etc.

Los gráficos de torta resultan muy útiles para describir una a una las variables, pero a la hora de realizar comparaciones entre grupos para esa variable es preferible utilizar gráficos de barra.

Por ejemplo, en el Proyecto Asma-Epoc, una muestra de 300 personas (100 Controles, 100 Asma y 100 Epoc) se verifica el polimorfismo GSTM resultando los siguientes gráficos:

Material Bioestadística Prof. Joana Martín Rojo59

913853Total1019Severo1468He+Pr1129Hema19811Prot372116Sin

TotalAusenciaPresenciaActividad del Lupus

Nefropatías

913853Total1019Severo1468He+Pr1129Hema19811Prot372116Sin

TotalAusenciaPresenciaActividad del Lupus

NefropatíasCol

umna

Mat

riz

Cuadro 1

Nefropatías por Actividad del Lupus

Encabezamiento

Título

Fuente: F. Tapanez y M. Vásquez, Nefropatía Lúpica 2001

Notas al Pie

CuerpoCol

umna

Mat

riz

Col

umna

Mat

riz

Cuadro 1

Nefropatías por Actividad del Lupus

Encabezamiento

Título

Cuadro 1

Nefropatías por Actividad del Lupus

Encabezamiento

Título

Fuente: F. Tapanez y M. Vásquez, Nefropatía Lúpica 2001

Notas al Pie

Fuente: F. Tapanez y M. Vásquez, Nefropatía Lúpica 2001

Notas al Pie

CuerpoCuerpo

Page 65: Material Bioestadística 2013

Donde se puede observar que el grupo GSTM10 tiene más frecuencia, pero no es tan trivial observar la comparación de esa variable dentro de los tres grupos

Gráficos de Barra

Los gráficos de barra son gráficos donde se expresan los valores en términos absolutos o porcentuales de las variables, pueden ser las frecuencias de estas si son cualitativas, o sus valores al ser cuantitativas. Estos gráficos son más potentes que los de torta, ya que permiten realizar comparaciones de una misma variable en varios grupos, o de varias variables.

En el ejemplo anterior el gráfico de barras resultante sería:

Material Bioestadística Prof. Joana Martín Rojo60

Polimorfismo en el grupo Control

69%

31%

GSTM11 GSTM10

Polimorfismo en el grupo Control

69%

31%

GSTM11 GSTM10

Polimorfismo en el grupo Asma

53%

47%

GSTM11 GSTM10

Polimorfismo en el grupo Asma

53%

47%

GSTM11 GSTM10

Polimorfismo en el grupo Asma

57%

43%

GSTM11 GSTM10

Polimorfismo en el grupo Asma

57%

43%

GSTM11 GSTM10

Page 66: Material Bioestadística 2013

Donde si se pueden comparar las frecuencias del polimorfismo dentro de cada grupo y entre los grupos.

Donde se pueden realizar comparaciones dentro de los grupos de las otras patologías presentadas, así como entre ellos, por ejemplo, en el gráfico se observa que el grupo de Asma presenta mayor cantidad de Rinitis alérgica actual, mientras si bien la hipertensión es más frecuente en el grupo Epoc, tiene presencia en todos los grupos, y su alta frecuencia puede deberse a las edades del grupo.

Material Bioestadística Prof. Joana Martín Rojo61

69

31

53

47

57

43

0

10

20

30

40

50

60

70

Control Asma Epoc

Frecuencia GSTM por grupo

GSTM11 GSTM10

0

5

10

15

20

25

30

35

40

45

Control Asma Epoc

Frecuencias por grupo otras Patologías

Hipercolesterole Hipertrigliceride Hipertensión Rinitis a actual

Page 67: Material Bioestadística 2013

Gráficos de Línea

Los gráficos de línea so otra herramienta gráfica para el análisis y presentación de la información, pero la información que poseerían estos gráficos es muy puntual, es decir, la línea representará el valor de los promedios, máximos, mínimos, u otros. Otra manera de representarlos es mediante áreas, que se construyen y analizan de la misma manera, pero la información en vez de visualizase mediante líneas, se visualiza en el área de cada una de estas líneas.

Estos gráficos son ampliamente utilizados en control de calidad, ya que permiten graficar en un mismo espacio el promedio, y las líneas del promedio más y menos 2 y 3 desviaciones estándar, en la ANOVA para verificar las posiciones de las medias, en estudios prospectivos o fenómenos asociados al tiempo (en este caso el valor se observa en el eje Y y los momentos de tiempo en el eje X), comparaciones de variables numéricas, etc.

Un ejemplo de estos gráficos para control de calidad se observa a continuación, en una prueba realizada en los laboratorios del IDI, donde se prueba la concentración de un reactivo.

Como se puede observar en el gráfico la línea central viene dada por el promedio, y las superiores e inferiores por las desviaciones para cada una de las concentraciones estudiadas, queda el análisis del grafico al alumno, en términos de como podemos analizar la varianza de esta variable.

Material Bioestadística Prof. Joana Martín Rojo62

Gráfico Control

0,00

0,50

1,00

1,50

2,00

2,50

3,00

6,50 3,25 1,62 0,81 0,41 0,20 0,10

Concentración

Val

or

Promedio X-3s X-2s X+2s X+3s

Page 68: Material Bioestadística 2013

Gráficos o Diagramas de Cajas (Boxplot)

los Gráficos de Cajas son una herramienta de análisis descriptivo de los datos, mediante este tipo de gráfico se puede enriquecer el análisis de varias variables al mismo tiempo o de una sola variable pero con respecto a grupos de individuos. Éstos gráficos constan de un rectángulo central limitado por los cuartiles de la distribución.

Estos gráficos permiten captar visualmente:

Localización: podemos ver donde se encuentran los datos Dispersión: La longitud del rectángulo nos permitirá apreciar la

variabilidad de los datos en la zona central (50% central) de la distribución

Longitud de las colas: Ésta nos permite ver la dispersión existente en el 25% inferior y el 25% superior de la distribución

Simetría: La posición de la mediana, indicada por una línea que divide la caja en dos, nos indica la simetría de los datos, esto según la posición que ocupe la línea dentro de la caja.

Puntos atípicos: En las cajas también se describen dos categorías de puntos atípicos: los remotos, se son representados por asteriscos (*), y los extremos, representados por círculos (o).

Comparaciones de grupos: Si tenemos más de una muestra, en la misma escala de medida, podemos dibujar una caja al lado de la otra y comparar ambas muestras a través de sus cajas

Nota: Para poder interpretar las cajas, debemos tener en cuenta los puntos anteriores, pues éstas se interpretan en función de sus partes, por ej. La amplitud de la caja, la posición de la mediana dentro de la caja, la longitud de las colas, etc.

Pasos para la construcción de un Gráfico de Cajas:

i.- Calcular: Mediana Cuartiles Mínimo y máximo de la distribución Puntos atípicos y extremos

Material Bioestadística Prof. Joana Martín Rojo63

Page 69: Material Bioestadística 2013

ii.- Ubicar estas medidas en una recta real

iii.- Ubicar una línea provisional perpendicular a cada una de estas medidas

iv.- Construir una caja (rectángulo) desde el cuartil 1 hasta el cuartil 3

Material Bioestadística Prof. Joana Martín Rojo64

Min. Q1Q2= Md Q3 Máx.Min. Q1Q2= Md Q3 Máx.

Min. Q1Q2= Md Q3 Máx.Min. Q1Q2= Md Q3 Máx.

Min. Q1Q2= Md Q3 Máx.Min. Q1Q2= Md Q3 Máx.

Page 70: Material Bioestadística 2013

v.- Dibujar los “bigotes”, esto es una línea que parte desde el valor mínimo a la caja y desde la caja hasta el valor máximo, desde la mitad exacta del lateral de la caja

vi.- Dibujar la línea que divide la caja en dos, correspondiente a la posición de la mediana

vii.- Dibujar, en el caso de existir los puntos remotos o atípicos

viii.- Borrar las líneas provisionales, y ya tenemos el gráfico de caja con todos sus componentes

Material Bioestadística Prof. Joana Martín Rojo65

Min. Q1Q2= Md Q3 Máx.Min. Q1Q2= Md Q3 Máx.

*

Pto. Extremo

Pto. Remoto

Línea de la mediana

BigotesBigotes

Caja

Min. Q1Q2= Md Q3 Máx.Min. Q1Q2= Md Q3 Máx.

*

Min. Q1Q2= Md Q3 Máx.Min. Q1Q2= Md Q3 Máx.

Min. Q1Q2= Md Q3 Máx.Min. Q1Q2= Md Q3 Máx.

Page 71: Material Bioestadística 2013

En el ejemplo de construcción de un Gráfico de Cajas se considera una sola variable perfectamente simétrica, lo cual en la realidad es poco frecuente que ocurra. En la realidad los gráficos de cajas difieren en sus tamaños y longitudes, tanto de la caja, como de los bigotes. También es importante destacar que la mayoría de los software que calculan y dibujan estos gráficos utilizan una representación vertical de éstos. En los ejemplos de este tipo de gráficos y sus análisis veremos esto, desde una variable con diferentes simetrías, a la comparación de una variable dentro de varios grupos.

Valor atípico leve

Siendo   y   el primer y tercer cuartil, y   el rango intercuartil ( ), un valor

atípico leve será aquel que:

o

 y   determinan, pues, los llamados limites interiores, a partir de los cuales la

observación se considera un atípico leve.

[editar]Valor atípico extremo

Los atípicos extremos son observaciones más allá de los límites externos:

o

Material Bioestadística Prof. Joana Martín Rojo66

Page 72: Material Bioestadística 2013

Material Bioestadística Prof. Joana Martín Rojo67

Page 73: Material Bioestadística 2013

VEF1 % pred

120

100

80

60

40

20

Las distancias entre el cuartil 1 y la mediana y entre la mediana y el cuartil 3 son diferentes

Ambos bigotes tienen diferentes longitudes

Ejemplo

VEF 1

% predicción

Fuente: Proyecto Asma-EPOC

En el gráfico anterior se puede ver que hay mayor dispersión en los valores superiores a la mediana, también que la mayor concentración de valores, que se traduce en el pico de la curva o el histograma, se ve entre el cuartel 1 y la mediana.

En el siguiente gráfico observamos una asimetría más pronunciada que en el caso anterior, así como se detecta la presencia de datos atípicos, que el software (SPSS) identifica con el número del caso. Esta información es importante, pues nos sirve para poder ver con mayor detenimiento el caso particular y decidir si se mantiene en la base de datos, o si las causas de su atipicidad son lo suficientemente fuertes y argumentables como para no considerar este o estos casos atípicos y/o extremos en el estudio.

Material Bioestadística Prof. Joana Martín Rojo68

Page 74: Material Bioestadística 2013

Cómo se explicó anteriormente, el gráfico indica una fuerte asimetría hacia los valores grandes, es decir, que la cola de la curva o el histograma, se extiende más, puesto que presenta menores frecuencias, en los valores altos de paquetes al año. En los valores bajos de la variable se agrupan el 25% inferior de los datos. Si bien la caja tiene longitudes invertidas con respecto a los bigotes, se aprecia que la curva tiene su pico en los valores bajos, y tiene un crecimiento entre l mediana y el tercer cuartil. Para ilustrar mejor este ejemplo se incluye el histograma correspondiente.

Material Bioestadística Prof. Joana Martín Rojo69

Paquetes/año

120

100

80

60

40

20

0

109

101

Esta vez, se invierten las agrupaciones de datos con respecto a la longitud de los bigotes

E bigote inferior se aprecia cómo casi inexistente, mientras el superior es incluso de mayor longitud que la caja

Se aprecian dos puntos atípicos en el gráfico, el número que los acompaña es la posición que tiene el paciente en la base de datos

Cantidad de Paquetes al año fumados por el pacientePaquetes al año

Fuente: Proyecto Asma-EPOC

Pico que se observa en el primer bigote, y aumento que se observa entre la mediana y el cuartil 3

Esta extensión corresponde al bigote superior, y los dos últimos puntos a los atípicos.

Cantidad de Paquetes al año fumados por el pacientePaquetes al año

Fuente: Proyecto Asma-EPOC

Page 75: Material Bioestadística 2013

Este ejemplo ilustra mejor la presencia de puntos atípicos y extremos, estos puntos pueden ocasionar sesgos en las medidas de tendencia central y de variación, e incluso, pueden ocasionar que el análisis que se obtenga de la información no resulte tan fiable como se espera. Estos puntos requieren un análisis particular caso por caso, con el objeto de tomar decisiones. Estas decisiones se refieren a mantenerlos en la base de datos, excluirlos de la base de datos, más no del análisis global, excluirlos del estudio, etc.

Una de las ventajas de utilizar esta herramienta de análisis se presenta cuando se tienen grupos dentro de la base de datos, en el proyecto Asma-EPOC, que se encuentra actualmente activo en el IDI, los grupos formados, a manera de ilustrar esta herramienta, corresponden al tipo de enfermedad del paciente, por lo que se encuentran tres grupos de referencia, a saber: Control, Asma y EPOC. Veamos como la información que proporciona un gráfico de cajas en para una variable que se encuentra por grupos.

Material Bioestadística Prof. Joana Martín Rojo70

FMM % pred

140

120

100

80

60

40

20

0

50

14054

FMM% predicción

Fuente: Proyecto Asma-EPOC

En este caso la longitud de ambas partes de la caja se aprecia de igual magnitud

Los bigotes tienen longitudes diferentes, pero la diferencia no se aprecia tan pronunciada como en casos antriores

Adicional a los puntos atípicos, en este caso, se presentan puntos extremos, que “alargarán” la cola de la curva, pero merecen por ser tan disímiles un estudio particular

Page 76: Material Bioestadística 2013

Los Gráficos de Cajas o Boxplots, se convierten en una herramienta poderosa para el análisis exploratorio de los datos, en este caso confirma al investigador que existen diferencias entre las edades de los grupos, tal y como se planteó en los lineamientos del estudio, pero así mismo sugiere que el grupo control podría ser complementado con pacientes de edades superiores, pues en el momento de hacer comparaciones entre el grupo control y EPOC, las diferencias pueden deberse tanto a la variable en estudio, cómo a la diferencia de edades entre los grupos. Esto quiere decir, que nos permite conocer mejor la información que disponemos, y se puede ir aplicando a medida que se levanta la información, para poder realizar correcciones (casos atípicos, complementar los controles respecto a una variable de interés, etc.), en caso de ser necesario.

Polígonos de Frecuencias

Es una representación lineal de los puntos medios, teniendo como referencia el eje “x” o eje de las abscisas, y las correspondientes frecuencias, el eje de las “y” u ordenadas. Esto lo haremos colocando en el eje de las “x” las clases en orden ascendente, de izquierda a derecha del eje, y en el eje de las “y” la escala de medida que contenga las frecuencias correspondientes a cada clase, y colocaremos, para cada una de las clases, un punto que quede a la altura de su correspondiente frecuencia, es decir que el punto estará ubicado ortogonal o

Material Bioestadística Prof. Joana Martín Rojo71

Las líneas azules ilustran la diferencia que existe entre las edades del grupo EPOC con respecto a los demás grupos. Esto induce a aplicar Test de hipótesis de comparación de medias entre los grupos

Un análisis inicial corresponde a las posiciones de las medianas, si estas difieren de grupo a grupo, ello proporciona indicios sobre diferencias que existen en medias entre los grupos

Otro punto de análisis de estos gráficos se refiere a la variación que existe dentro de los grupos, es decir, comparar las longitudes totales de las cajas para cada grupo. En este caso particular parece (para corroborarlo o dar una conclusión es necesario realizar la docimasia) no existir diferencias importantes entre las variaciones de los grupos.

Edad de los pacientes por Tipo de EnfermedadAños cumplidos

Fuente: Proyecto Asma-EPOC

Las líneas verdes por su parte indican que esta diferencia de edades entre los grupos no se debe a una asimetría, pues la caja de EPOC se encuentra desplazada hacia niveles superiores a los que se encuentran las cajas de Controles y Asmáticos

Page 77: Material Bioestadística 2013

perpendicularmente a la marca de la clase, del eje “x”, y a su respectiva marca de la frecuencia en el eje “y”. Una vez dibujados todos los puntos los uniremos con una línea segmentada.

Esta representación se aplica en general para variables continuas, y es de utilidad para visualizar el comportamiento de las variables, es decir como se distribuyen las frecuencias entre las clases, también es muy útil para observar la asimetría de una distribución (tema que trataremos más adelante)

Veamos como ejemplo como sería el polígono de los niveles de Piuria en 91 pacientes de Lupus:

Ejemplo

Niveles de Piuria en pacientes con LupusMililitros/decilitros

Fuente: F. Tapanez, M. Vásquez, Cluster Venezolano 2001

En este gráfico se puede apreciar que las mayores frecuencias se encuentran en los niveles por debajo de 6 mililitros por decilitro, es decir que el peso de la agrupación se encuentra a la izquierda de la media. También se aprecia la presencia de valores altos, por o que sería conveniente adjuntar al gráfico las medidas de tendencia central y dispersión (que veremos en la siguiente sección) para acompañar el análisis e ilustrarlo.

Material Bioestadística Prof. Joana Martín Rojo72

Page 78: Material Bioestadística 2013

Histograma

En el eje “x” tenemos las clases y en el eje “y” las frecuencias, pero en vez de ser una representación lineal se construye un rectángulo, cuya altura es proporcional a la frecuencia en cada clase. Esto lo hacemos igual que en el caso anterior, pero en vez de situar un punto para cada clase, dibujaremos un rectángulo, con base en el eje de las “x”, y la altura hasta el punto correspondiente a su frecuencia, recordando que cómo los rectángulos son continuos debemos establecer los límites, es decir definir bien la diferencia entre cada rectángulo.

Este gráfico sirve tanto para variables continuas o discretas y su utilidad es análoga al gráfico anterior. Cabe destacar que este permite una mejor visualización de las frecuencias de las variables.

Veamos el Histograma de los niveles de Proteinuria en 91 pacientes de Lupus:

Ejemplo

Niveles de Proteinuria en pacientes con LupusMililitros/decilitros

Fuente: F. Tapanez, M. Vásquez, Cluster Venezolano 2001

En este caso se puede apreciar un comportamiento similar al anterior, pero se puede observar con mayor claridad que la mayoría de las personas se encuentran con niveles menores a los 10 mililitros por

Material Bioestadística Prof. Joana Martín Rojo73

Page 79: Material Bioestadística 2013

decilitro. La recomendación de adjuntar las medidas de tendencia central y dispersión en el análisis aplica también en este caso.

Nota en ocasiones se hacen los dos gráficos en uno, es decir que se hace el histograma y sobre éste se traza el polígono de frecuencias, para suavizar la observación de los datos y hacer un mejor análisis de éstos

Ejemplo

Niveles de Proteinuria en pacientes con Lupus

Mililitros/decilitros

Fuente: F. Tapanez, M. Vásquez, Cluster Venezolano 2001

Ojiva

Es una representación lineal de las frecuencias acumuladas, teniendo como referencia el eje “x” o eje de las abscisas, y las correspondientes frecuencias acumuladas, el eje de las “y” u ordenadas. Esto lo haremos colocando en el eje de las “x” las clases en orden ascendente, de izquierda a derecha del eje, y en el eje de las “y” la escala de medida que contenga las frecuencias correspondientes a cada clase, y colocaremos, para cada una de las clases un punto que quede a la altura de su correspondiente frecuencia acumulada, es decir que el punto

Material Bioestadística Prof. Joana Martín Rojo74

30,0025,0020,0015,0010,005,000,00

Proteinuria

70

60

50

40

30

20

10

0

Fre

qu

enci

a

Page 80: Material Bioestadística 2013

estará ortogonal a la marca de la clase, del eje x, y a su respectiva marca del la frecuencia en el eje y. Una vez dibujados todos los puntos los uniremos con una línea segmentada.

Vamos a encontrar que la Ojiva siempre es una línea creciente, siendo de interés el análisis de cuanto crece en cada clase, y comparar los crecimientos de las clases unos con otros

Ejemplo

Niveles de Creatinina en Pacientes de Lupus

Mililitros/decilitros

Fuente: F. Tapanez, M. Vásquez, Cluster Venezolano 2001

El análisis de las Ojivas depende del crecimiento que se observa entre los puntos, en este caso el mayor crecimiento se observa entre 0,5 y 0,9 mililitros por decilitro, es decir que encontraremos las mayores frecuencias entre estos valores.

Material Bioestadística Prof. Joana Martín Rojo75

6,35,24,84,03,63,42,82,62,41,71,41,31,21,1,9,8,7,6,5,4,3,0

Creatinina

100,0%

80,0%

60,0%

40,0%

20,0%

0,0%

Po

rcen

taje

Ac

um

ula

do

Page 81: Material Bioestadística 2013

PROBABILIDAD

Probabilidad

La probabilidad básicamente es la magnitud que se asigna a la posibilidad que ocurra un evento. La forma en la que se asigna o calcula la magnitud puede variar según la corriente de probabilidad, presentaremos en esta sección las cuatro corrientes básicas de probabilidad.

La probabilidad de un suceso debe cumplir las siguientes propiedades:

i. Sea A un suceso cualquiera,

0≤P(A )≤1

ii. Sea Ai un suceso cualquiera de el conjunto total de sucesos A,

∑ P (A i)=1

Corriente Clásica

La probabilidad de un suceso se define como el cociente entre el número de casos favorables y el total de casos posibles, es decir:

Pr obabilidad (Ocurra el suceso A )= Nº de Sucesos Favorables para que Ocurra ANº de Todos los sucesos posibles

Corriente Frecuentista

La probabilidad de un suceso se cuantifica mediante la abstracción6 de la frecuencia relativa.

Corriente Subjetiva o Bayesiana

Toda proposición tiene una probabilidad, basada en el grado de confianza personal7 que, acerca de ella, tenga el individuo o investigador.

6 Esta abstracción suele ser matemática, por ejemplo en términos de límites7 Esta confianza se basa en el conocimiento teórico del fenómeno, experiencias anteriores, etc., cabe destacar que las magnitudes asignadas siempre siguen algún criterio fijado.

Material Bioestadística Prof. Joana Martín Rojo76

Page 82: Material Bioestadística 2013

Corriente Lógica

Puede decirse que la probabilidad lógica es la intensidad racional de convicción de una cierta proposición, implicada por la información dada

Definiciones Básicas de Probabilidad

Suceso

Es un conjunto de resultados elementales. La probabilidad de que ocurra un suceso es la suma de las probabilidades de los resultados elementales del conjunto.

Experimento Aleatorio

Es la acción de observar o producir resultados de un fenómeno, con el objeto de estudiar la relación que existe entre ellos. Un Experimento Aleatorio debe reunir las siguientes características:

iii. Puede repetirse un número infinito de veces sin cambiar esencialmente sus condiciones

iv. Aunque no es posible predecir un resultado particular del experimento, se puede describir el comportamiento de todos los resultados posibles

v. A medida que el experimento se repite, los resultados individuales ocurren en forma individual, pero en promedio aparece un modelo definido de “regularidad”. Esta regularidad, denominada Regularidad Estadística, hace posible la construcción de un modelo matemático preciso con el cual analizaremos el experimento.

La idea de experimento aleatorio es una abstracción teórica que se hará de las características básicas de los fenómenos reales que debemos estudiar. Denotaremos por al Experimento Aleatorio.

Espacio Muestral y Punto Muestral

Dado un cierto experimento aleatorio , denominamos Espacio Muestral al conjunto no vacío, es decir que contenga al menos un elemento, de todos los resultados posibles, diferentes y razonables, del experimento. A los diferentes elementos del Espacio Muestral los llamaremos Puntos Muestrales.

Un espacio Muestral debe ser tal que:

Material Bioestadística Prof. Joana Martín Rojo77

Page 83: Material Bioestadística 2013

i. Todo elemento del espacio corresponda al menos a un posible resultado.

ii. Todo resultado del experimento corresponde a un y sólo un elemento del espacio. Es decir, cada posible resultado del experimento queda completamente descrito por uno y sólo un Punto Muestral.

Formulación de la Definición Clásica de Probabilidad

Probabilidad de Ocurrencia de un Suceso

P=P (A )=kn= probabilidad de que ocurra A

donde: k= Nº de casos favorables al suceso A

n= Nº de casos posibles en

q=P( A )=(n−k )n

=1−P( A )=1−P= probabilidad de que no ocurra A

y se cumple que: 0≤P≤1 , 0≤q≤1 y p+q=1

Principio de Multiplicación

Si un algo puede ser hecho en a formas, y otro en b maneras, tendremos que las dos cosas puedes ser hechas conjuntamente en a*b formas, y así sucesivamente hasta tener n cosas. Las formas de ser hechas será el producto de cada una de las formas en que puede ser hecho.

Probabilidad Condicional

Se dice que la probabilidad de ocurrencia de un suceso determinado es condicionada, si la misma se afecta por la ocurrencia de otro suceso

presente. Denotaremos esta probabilidad por P(B/A ), que será la probabilidad de que ocurra B dado que ocurrió A previamente, o en otras palabras la probabilidad de B dado A. Esta probabilidad se calcula de la siguiente manera:

P(BA)=P( A∩B)P (A )

Sucesos Independientes y Dependientes

Cuando la ocurrencia de un suceso no afecta la ocurrencia posterior de otro, este se denomina Suceso Independiente. En términos de

Material Bioestadística Prof. Joana Martín Rojo78

Page 84: Material Bioestadística 2013

probabilidad este tipo de sucesos se expresa y comprueba de la siguiente manera:

P( AB)=P(A )

y P(B

A)=P(B )

Cuando la ocurrencia de un suceso si afecta la ocurrencia posterior de otro, diremos que son Sucesos Independientes.

Veamos algunas propiedades de la probabilidad antes de seguir con los siguientes conceptos:

Sucesos Compuestos

Lo vamos a considerar como la ocurrencia de varios sucesos en forma combinada o simultánea, en otras palabras, un suceso compuesto es cuando ocurre un suceso dado “y” otro u otros al mismo tiempo. En términos de probabilidad lo representaremos por la probabilidad producto de un suceso o Probabilidad Producto, que vendrá dada por:

P( A∗B )=P (A )∗P (AB)

donde si los sucesos son independientes tendremos

P( A∗B )=P (A )∗P (B )Si trabajamos con tres o más sucesos, esta será igual a la probabilidad del primero, multiplicada por las probabilidades de ocurrencia de los sucesos posteriores condicionados en cada caso al suceso inmediato anterior, si los sucesos son dependientes, y al producto de las probabilidades de todos los sucesos si éstos son independientes. Respectivamente:

P( A∗B∗C )=P (A )∗P(BA)∗P (C / AB)

si son dependientes

o P( A∗B∗C )=P (A )∗P(B )∗P(C ) si son independientes

Sucesos Mutuamente Excluyentes

Se dice que dos o más sucesos son mutuamente excluyentes si la probabilidad producto de ellos es nula, esto también puede explicarse cómo que la ocurrencia simultánea de ambos sucesos tiene probabilidad nula de ocurris, es decir, no pueden ocurrir los dos al mismo tiempo.

Algunas propiedades de la probabilidad

i. P( A )=1−P ( A )=1−probabilidad de que no ocurra A

Material Bioestadística Prof. Joana Martín Rojo79

Page 85: Material Bioestadística 2013

ii. P( A∪B )=P( A )+P(B)−P (A∩B )

donde: P( A∪B )es la probabilidad de que ocurra A ó ocurra B y P( A∩B )es la probabilidad de que ocurran A y B conjuntamente

iii. P( A∪B )=P( A )+P(B) si A y B son excluyentes

iv. P( A∩B )=P( A )∗P (B ) si A y B son independientes

Variable Aleatoria

Es aquella que lleva asociado un cierto factor de azar en cuanto a su ocurrencia, factor que se mide en términos de probabilidad.

Según Paul G. Hoel una variable aleatoria es “Una variable de valores numéricos definido en un espacio muestral” y según Schaeffer y McClave “Es una función de valor real cuyo dominio es un espacio muestral”.

Tenemos dos tipos de Variables Aleatorias:

Variable Aleatoria Discreta

Es aquella cuyos valores constituyen un número finito o infinito de puntos en el plano o espacio muestral, y estos muestran diferencias finitas entre ellos.

Variable Aleatoria Continua

Son aquellas que pueden presentar un espectro de infinitos resultados dentro del espacio muestral definido y los distintos valores pueden representar entre sí diferencias mínimas, pero que, de hecho, representan valores distintos de la variable.

Material Bioestadística Prof. Joana Martín Rojo80

Page 86: Material Bioestadística 2013

Distribución de Probabilidad

Una distribución de probabilidad se puede concebir como una distribución teórica de frecuencia, es decir, es una distribución que describe como se espera que varíen los resultados. Las distribuciones de Probabilidad se ocupan de las expectativas, por lo que son modelos de gran utilidad para hacer inferencias y tomar decisiones en condiciones de incertidumbre.

Se considera que una distribución de probabilidad es cualquier mecanismo que nos ayuda a obtener las probabilidades de los valores de una variable si es discreta, o las probabilidades de intervalos de la variable si es continua. Si la variable aleatoria es discreta es posible asignar probabilidades a cada uno de los valores puntuales de la variable. En cambio, cuando la variable es continua cada uno de los infinitos valores posibles tendrá probabilidad cero y sólo podremos hablar de probabilidad dentro de intervalos.

Función de Probabilidad

Es en sí la función que describe la probabilidad asociada a cada variable aleatoria en el espacio muestral.

Más formalmente para los diferentes valores de la variable aleatoria se encuentra asociado un valor, correspondiente a su probabilidad de ocurrencia, es decir, si tenemos las variables aleatorias x1, x2, …, xn con

probabilidades asociadas p1, p2, …, pn, donde ∑i=1

n

Pi=1 , la función

P( x ) ó F ( x ) puede tomar los valores de la variable en estudio con sus correspondientes probabilidades.

Dependiendo si la variable aleatoria es discreta o continua la función de probabilidad cambia, siendo para las variables discretas Función de Probabilidad o me Masa y para las continuas Función de Densidad. La función que acumula las probabilidades desde el inicio de la distribución hasta un punto dado se denomina Función de Distribución (y es muy útil a la hora de realizar cálculos de probabilidades. veamos las definiciones formales de cada una de estas funciones, así como de las medidas asociadas.

Función de Probabilidad o Masa

Es aquella función de probabilidad de una Variable Aleatoria Discreta,

denotada por Px( x ), que cumple las siguientes propiedades:

Material Bioestadística Prof. Joana Martín Rojo81

Page 87: Material Bioestadística 2013

i. P(X=x )=Px( x )≥0

ii.∑∀ x

P (X=x )=1

Función de Densidad

Es aquella función de probabilidad de una Variable Aleatoria Continua,

denotada por f x ( x ), que cumple las siguientes propiedades

i. P(X=x )=f x( x )≥0 , ∀ x o para todo x

ii. ∫−∞

∞f x xdx=1

iii.P(a≤x≤b )=∫

a

b

f x xdx

iv. P( x=a )=0

Función de Distribución

La Función de Distribución Fx(x) de una Variable Aleatoria x se define cómo:

Fx (b)=Px ( x≤b ), Si x es discreta

Fx (x≤b )=∫−∞

b

f x xdx , Si x es continua

Además siempre debe cumplirse que 0≤Fx( x )≤1

Esperanza Matemática, Valor Esperado o Valor Medio

Sea una Variable Aleatoria con función de Distribución Fx, definimos Esperanza de la variable x que denotaremos por , x o E[x], al número que se obtiene mediante el cálculo:

∑∀ x

xPx ( x ), si x es discreta

E[x] =

∫−∞

xf x( x )dx, si x es continua

Material Bioestadística Prof. Joana Martín Rojo82

Page 88: Material Bioestadística 2013

Propiedades de la Esperanza

i. E[c] = c, siendo c una constante

ii. E[cx] = c E[x]

iii. E[x- E[x]]=0

iv. E[x*y]= E[x] E[y] si x e y son independientes

Varianza o Variancia

Sea una Variable Aleatoria con función de Distribución Fx, definimos Varianza de la variable x que denotaremos por , x, V(x) o Var(x), al número no negativo, que mide la variación o dispersión de los valores de la variable aleatoria respecto a su valor esperado o esperanza y que se calcula mediante la siguiente expresión

Var(x) = E[(x- E[x])2]

Propiedades de la Varianza

i. Var(c) = 0, siendo c una constante

ii. Var(x) ≥ 0

iii. Var(x+c) = Var(x)

iv. E[(x- E[x])2] ≤ E[(x- c)2]

v. Var(x) = E[(x- E[x])2] = E[x2] - E2[x] con E[x2] =∑∀ x

x2P x ( x ) ó ∫−∞

x2 f x ( x )dx

según la variable aleatoria sea discreta o continua

A continuación conoceremos algunas de las distribuciones conocidas de utilidad para el área médica, empezando con las distribuciones discretas y luego pasando a las distribuciones continuas de probabilidad.

Distribución de Bernoulli

Sea la variable aleatoria X definida como la presencia o ausencia de determinada condición, o el éxito o fracaso de un experimento o fenómeno en un solo intento, decimos que x se distribuye como una Bernoulli de parámetro P, que denotaremos por x~B(P), donde P es la probabilidad de obtener éxito en el experimento.

La función de Masa de x viene dada por:

Material Bioestadística Prof. Joana Martín Rojo83

Page 89: Material Bioestadística 2013

Px( x )=pxq1− x

, con x = 0, 1 , q = 1-p ó análogamente p + q = 1

Propiedades

i. E[x] =p

ii. Var(x) =p*q

Distribución Binomial

Sea X una sucesión de experimentos de Bernoulli, o de otra forma, un experimento aleatorio que consiste en n pruebas o ensayos de Bernoulli independientes entre si y tenemos que p = P(éxito), q = P(fracaso), p + q = 1 , n = Nº de veces que se repite el ensayo, podemos construir la siguiente tabla:

X Suceso Asociado Probabilidad

0 FF . . .Fn veces=(¿ 0

n)FF .. .FFn veces qn=(¿ 0

n ) p0 qn−0

1 EFF . .. Fn−1 veces=(¿ 1

n)EFF . . .FFn−1 veces np1qn−1=(¿1

n) p1qn−1

2 EEFF . . .Fn−2 veces=(¿2

n )EEFF . .. FFn−2 veces n (n−1 )

2p2qn−2=(¿ 2n ) p2qn−2

… … …

n E E .. . E F F .. . Fk veces n−k veces=(¿ kn) E E . .. E F F . .. F

k veces n−k veces n!k !*(n−k )!

pkqn−k=(¿ kn ) pk qn−k

Asumimos F como fracaso y E cómo éxito

Formalizando sea n un número entero positivo, p є (0,1), diremos que la variable aleatoria X sigue un modelo Binomial de parámetros n (Nº de intentos)y p (probabilidad de éxito), que denotaremos por x~B(n,p), si la función de Masa de x viene dada por:

Px( x )=pxqn−x (¿ xn)

, con x = 0, 1, …, n , q = 1-p ó análogamente p + q = 1

x también puede definirse como el k-ésimo éxito en n intentos.

Material Bioestadística Prof. Joana Martín Rojo84

Page 90: Material Bioestadística 2013

Propiedades

i. E[x] =n*p

ii. Var(x) =n*p*q

Nota: Una variable aleatoria X sigue una distribución Binomial si cumple con las siguientes condiciones:

El experimento consiste en un número fijo de n intentos idénticos entre sí.

Cada intento sólo puede tener dos resultados posibles: éxito o fracaso.

Los intentos o experimentos son independientes unos de otros, es decir ningún experimento afecta al resto.

X es definido como el número de éxitos en n experimentos o intentos

Distribución de Poisson

Expresa la probabilidad de un número de eventos ocurriendo en un tiempo fijo, si estos eventos ocurren con una tasa media conocida, y son independientes del tiempo desde la ocurrencia del último evento

Si consideramos como v.a. la ocurrencia de X éxitos, cuando su número promedio de ocurrencia es , decimos que x se distribuye como una Poisson de parámetro , que denotaremos por x~P(), donde es el promedio de ocurrencia del evento en unidades de tiempo, espacio o producto.

La función de Masa de x viene dada por:

p( x , λ )= λx e− λ

x !

con l =tasa de éxitos por unidad de tiempo, área o producto y e = 2.718 (base del logaritmo neperiano)

Propiedades

i. E[x] =

ii. Var(x) =

Material Bioestadística Prof. Joana Martín Rojo85

Page 91: Material Bioestadística 2013

Nota: Una variable aleatoria X sigue una distribución de Poisson si cumple con las siguientes condiciones:

Ocurre una sucesión de eventos aleatorios en un lapso de tiempo definido

X es definido como la cantidad de éxitos ocurridos en un tiempo o espacio dado o cómo el número de resultados que ocurren en un intervalo de tiempo dado.

El número de resultados que ocurren en un intervalo de tiempo o región específicos es independiente de el número que ocurre en cualquier otro intervalo distinto de tiempo o región del espacio.

La probabilidad de que un resultado ocurra en un intervalo de tiempo muy corto o en una región pequeña es proporcional a la longitud del intervalo de tiempo o al tamaño de la región.

La probabilidad de que más de un resultado ocurra en un intervalo de tiempo tan corto o en esa región tan pequeña es despreciable.

Distribución Normal

Una forma de concebir la distribución Normal es como la generalización del histograma de frecuencias relativas de una variable continua. Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Y se justifica por la frecuencia con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución.

Formalizando sea un número positivo, y un número real cualquiera diremos que la variable aleatoria X sigue una distribución Normal de parámetros y 2, que denotaremos por x~N(,2), si la función de densidad de x viene dada por:

f x ( x )=1

√2 π σe−

(x−μ )2

2 σ2

con x∈ (−∞ ,∞ )

Propiedades

i. E[x] =

.ii Var(x) =

Material Bioestadística Prof. Joana Martín Rojo86

Page 92: Material Bioestadística 2013

Nota: Una variable aleatoria X sigue una distribución Normal si cumple con las siguientes condiciones:

La curva es unimodal. Presenta una forma de campana.

La media de una población distribuida normalmente se encuentra en el centro de su curva normal.

A causa de la simetría de la distribución normal de probabilidad, la mediana y la moda de la distribución también se hallan en el centro, por tanto en una curva normal, la media, la mediana y la moda poseen el mismo valor.

Las dos colas (extremos) de una distribución normal de probabilidad se extienden de manera indefinida y nunca tocan el eje horizontal.

Nota: Si x~N(,2) y definimos Z= x−μ

σ , entonces Z~N(0,1) con una

función de densidad igual a

f Z (Z )=1

√2 πe− Z2

2

y Z∈ (−∞ ,∞ ) que es conocida como la Distribución Normal Tipificada.

Distribución 2 o Chi Cuadrado

Esta distribución, propuesta por Pearson, es una de las llamadas “Distribuciones derivadas de la Normal” puesto que su construcción proviene de Variables Aleatorias distribuidas Normalmente de parámetros, Media cero y Varianza 1. Formalmente Si X1, X2, … , Xn son v.a. que siguen una distribución normal estandarizada N(0,1), entonces X= X1

2 + X22 + …+ + Xn

2 sigue una distribución Chi cuadrado con parámetro n grados de Libertad8.

La Función de Densidad de una 2 es como sigue:

8Que puede definirse cómo el número de categorías independientes en un test particular o experimento estadístico, o también el número de parámetros o ecuaciones a estimar. Los grados de Libertad pueden determinarse dependiendo del número de individuos en una muestra, siendo usualmente iguales a la cantidad de individuos en ella, o esa misma cantidad menos un valor constante. Cada vez que se realiza una estimación o una docimacia por test perdemos un grado de libertad para las estimaciones subsiguientes.

Material Bioestadística Prof. Joana Martín Rojo87

Page 93: Material Bioestadística 2013

f n( x )=(1/2)n/2

Γ (n2)Xn

2−1

e−X

2

donde Γ (n2) es una función Gamma9 de n/2

Y su Función de Distribución viene dada por

Fn( x )=γ (n /2, x /2)

Γ (n2)donde γ (n /2 , x /2)es la función gamma incompleta.

Propiedades

iii. E[x] =n

.iv Var(x) =2n

Aplicaciones de la 2:

Participa en la Construcción de las Distribuciones t de Student y F de Snedecor10

Estimación de Varianzas

Es la Distribución de probabilidad de la Distribución Muestral de la Varianza

Contraste de Bondad de Ajuste

Contraste de Homogeneidad

Contraste de Independencia de Variables

Distribución t de Student

La distribución t-Student, ideada por Gosset bajo el pseudónimo “Student”, se construye como un cociente entre una normal estándar y

9 La función Gamma se define cómo: Γ ( p )=∫0

∞ex x p−1 dx

10 Distribuciones que veremos a continuación

Material Bioestadística Prof. Joana Martín Rojo88

Page 94: Material Bioestadística 2013

la raíz de una Chi-Cuadrado dividida entre sus grados de libertad

independientes, es decir si Z~N(0,1) y x~2n, la variable aleatoria T:

T= Z

√ 1nχn

2

~tn

Se distribuye como una t de Student de n grados de libertad

Propiedades

i. E[x] =0, para n > 1

ii. Var(x) =

nn−2 , para n > 2, indefinida para otros valores

Otras Propiedades y Aplicaciones:

La curva es asimétrica hacia la izquierda

Tiene Propiedades parecidas a la Normal estandarizada,

Es algo más dispersa que la normal, es decir gráficamente es más “Plana”, pero la varianza decrece hasta 1 cuando el número de grados de libertad aumenta;

Para un número alto de grados de libertad se puede aproximar la distribución de Student por la normal, es decir,

Distribución F de Snedecor

Esta distribución planteada por Snedecor, se crea a partir de dos variables chi-cuadrado independientes divididas por sus respectivos grados de libertad, así la F tiene dos parámetros que indican sus grados

de libertad, en otras palabras si x~2n e si y~2

m, la variable aleatoria F:

F= x /nyn

~n,m

Se distribuye como una F de Snedecor de n y m grados de libertad

Propiedades y Aplicaciones:

Es una curva asimétrica y siempre positiva

Contraste de diferencias de medias

Utilizado en test de comparación de Varianza

Se utiliza en el contraste de Análisis de la Varianza (ANOVA)

Material Bioestadística Prof. Joana Martín Rojo89

Page 95: Material Bioestadística 2013

Aproximación de la Distribución Binomial a la Distribución Normal

Si x~B(n,p), siendo n grande11, y definimos la transformación Z= x−np

√npq , entonces Z~N(0,1)

Ley de los Grandes Números

Sea X1, X2, …,Xn v.a. de una distribución normalmente distribuida e independientes una de las otras, que denotaremos por x~NID(,2), entonces

x=∑ x in

≈μ

Teorema Central del Límite

Sea X1, X2, …,Xn v.a. tal que Xi~NID(,2), es decir que cada una se distribuye normal independiente, entonces

Z= x−μσ /√n ~N(0,1)

11 En general la literatura establece que para que n sea grande debe superar 50

Material Bioestadística Prof. Joana Martín Rojo90

Page 96: Material Bioestadística 2013

INFERENCIA ESTADÍSTICA

Antes de empezar con los conceptos de Inferencia Estadística y sus técnicas, conviene repasar algunos conceptos básicos relacionados:

Población

Conjunto de elementos agrupados o clasificados, de acuerdo a alguna característica en común. La población es definida según la investigación que se va a realizar.

Para poder entender mejor este concepto veamos unos ejemplos:

Se puede definir como población a: Personas o individuos habitantes de una localidad, ciudad o país; Personas que asisten a un determinado centro de salud; un tipo particular de células humanas; familias con niños en edad escolar; Automóviles en una determinada ciudad de un año particular; pacientes con una enfermedad dada que viven en una localidad particular; etc.

Es importante antes de realizar una investigación definir claramente cual va a ser la Población que deseamos investigar, pues esto nos permite tener claridad en lo que estamos haciendo, en las conclusiones obtenidas, y en el caso de aplicar algún método de muestreo (cuyo concepto veremos un poco más adelante), tener el criterio de cuál de ellos será el mejor a aplicar.

La población se denota usualmente con la letra griega “”, y su tamaño con la letra “N”, siempre en mayúsculas, así mismo cuando se refieren a parámetros poblacionales se suele utiliza el símbolo correspondiente al mismo en letras mayúsculas.

Podemos clasificar la población en tres tipos

i.- Población Finita

Es cuando conocemos a todos los elementos que pertenecen a una población

Ej. Médicos Residentes en un hospital dado, Pacientes de una enfermedad atendidos en un centro de salud en un período de tiempo particular, etc

Material Bioestadística Prof. Joana Martín Rojo91

Page 97: Material Bioestadística 2013

ii.- Población Infinita Numerable

Es cuando las características son numerables pero no conocemos a todos los elementos de la población, en general la numeración de estas poblaciones se hace por aproximación.

Ej. Enfermos de Asma en Venezuela; Cantidad de Linfocitos T en la sangre de un individuo, etc.

iii.- Población Infinita No Numerable

Las características no son contables, no tienen fin.

Ej. Agua en un río.

Muestra

Es un subconjunto o parte de una población, seleccionada para hacer una investigación, análisis, descripción o inferencia sobre dicha población. Si la selección de la muestra se hace con el fin de realizar algún tipo de investigación estadística, diremos que es una Muestra Estadística. Al método utilizado para seleccionar esta parte de la población se le denomina o llama Muestreo.

La notación utilizada para describir características de la muestra suele realizarse en letras minúsculas, así como su tamaño, el cual es denotado por la letra “n”, siempre en minúsculas.

Inferir

Es el proceso que va de lo particular (muestra) a lo general (población).

Deducir

Proceso que va de lo general a lo particular, también es el método por el cual de un gran conjunto de hechos, mediante procedimientos llamado deductivos, se llega a una conclusión.

Inferencia Estadística

Es el proceso mediante el cual a partir de unos datos o resultados provenientes de una muestra se pretende obtener conclusiones acerca

Material Bioestadística Prof. Joana Martín Rojo92

nN

nN

Page 98: Material Bioestadística 2013

de las poblaciones de las que provienen las muestras. O sea que se puede decir que es inferir a través de herramientas y modelos estadísticos.

Estadístico

Es un valor calculado a partir de los elementos de una muestra, puede ser descrito como un indicador o medición de la muestra, es decir, un valor que describe el comportamiento de la muestra. El más común ejemplo es la media muestral.

Parámetro

Es un indicador que describe el comportamiento de una población y es calculado a través de todos los elementos de ésta. Es un resultado numérico, un número, una constante. En este caso sería la media poblacional.

Estimador

Es un indicador relativo a describir el comportamiento de una población partiendo de una muestra. El indicador es la función, la forma de hacer el cálculo y no el resultado. En este caso sería la fórmula con la que calculamos la media, es decir:

X=∑ Xin

Estimación

Es el resultado que arroja el estimador. Por ej. una estimación podría ser el ingreso per cápita de los Venezolanos, que sería expresado en número, el promedio de esperanza de vida de un paciente con cáncer de vejiga luego de su diagnóstico, etc.

Para explicar mejor estos conceptos si queremos saber cual es la cantidad de vehículos que posee cada Venezolano, la población será todos los Venezolanos mayores de edad, puesto que así legalmente pueden poseer un vehículo, la muestra serán los individuos seleccionados para hacerles el cuestionario o la pregunta, el estadístico será el número de automóviles por habitante que encontremos en nuestra muestra, es decir la proporción de vehículos, el parámetro será este valor pero referente a la población, el estimador será la forma de

Material Bioestadística Prof. Joana Martín Rojo93

Page 99: Material Bioestadística 2013

cálculo de la proporción, es decir: p=Nºde Vehículos

Nº de Habitantes , y la estimación será el valor de p que está en la fórmula anterior.

Estimación Puntual y por Intervalos

Antes de adentrarnos en lo que es una estimación, vamos a conocer algunos conceptos que necesitamos para ello.

Estimador Puntual

Un estimador puntual es una regla (usualmente una función matemática) que indica como calcular un número en base a la información proveniente de una muestra. Al número resultante se le llama Estimación Puntual.

Estimador por Intervalo

Un estimador por intervalos es una regla, que indica como calcular un par de números que conforman un intervalo en base a información proveniente de una muestra. Dentro de este intervalo se encontrará contenido el verdadero valor del parámetro con un nivel de confianza dado.

Propiedades de los Estimadores

Insesgamiento

Se dice que un Estimador es Insesgado si la Esperanza del Estimador es igual al Parámetro a Estimar, esto quiere decir que no existen diferencias entre la estimación, ojo no el estimador sino la estimación, y el parámetro que queremos estimar, en fórmulas se expresa cómo:

θ es insesgado para θ si E [ θ ]=θSi existe diferencia entre esta esperanza y el parámetro, lo denominaremos Sesgo.

Si la población se distribuye normalmente, el valor esperado será la media aritmética de la distribución muestral del estadístico.

Material Bioestadística Prof. Joana Martín Rojo94

Page 100: Material Bioestadística 2013

Eficiencia

Si las distribuciones muestrales de dos estadísticos tienen la misma media, el que tenga de ellos la menor varianza será considerado como estimador Eficiente, es decir, el estimador más eficiente será aquel cuya distribución muestral sea más homogénea. En términos de fórmula se puede expresar así:

eff ( θ1 / θ2)=Var ( θ1 )Var ( θ2 )

Si θ1 es más eficiente que θ2 , entonces eff <1

Suficiencia

Un estimador se considera Suficiente si aporta toda la información posible sobre el parámetro considerado, de tal manera que cualquier otro estimador difícilmente aporte información adicional.

Consistencia

Un estimador es Consistente si el Error Cuadrático Medio de todos los estimadores tiende a cero

Mínima Varianza

Se dice que un estimador es de Mínima Varianza si su varianza es menor que la de cualquier otro estimador del parámetro, es decir:

si Var (θ )<Var (ψ ) , siendo ψ cualquier otro estimador de θ

Lo ideal es que los estimadores a utilizar cumplan las cinco propiedades, pero en algunos casos esto no es posible, por lo que entonces se busca que el estimador sea Insesgado y de Mínima Varianza. Incluso hay casos que se pede sacrificar el insesgamiento de un estimador si es de Mínima Varianza y Suficiente, pero también si somos capaces de estimar el sesgo.

La media muestral y la Cuasi-Varianza o Varianza muestral12 son estimadores que cumplen las cinco propiedades citadas.

12 Esta es la que hemos estado trabajando hasta el momento, cuya fórmula es:

S= S=√S2=√ S2=√∑i=1

n

( x i− x )2

n−1

Material Bioestadística Prof. Joana Martín Rojo95

Page 101: Material Bioestadística 2013

Intervalo de Confianza

Cuando se usa un estimador por intervalo para estimar el parámetro de una población, el par de números que se obtiene se define como Estimación por Intervalo o Intervalo de Confianza. El número mayor, que indica el extremo superior del intervalo se denomina Límite Superior de Confianza (LSC). Análogamente el número extremo inferior del intervalo se denomina Límite Inferior de Confianza (LIC).

Coeficiente de confianza

Medida propuesta por Fisher, se traduce como la probabilidad de que intervalo de confianza contenga al parámetro. Usualmente esta probabilidad es fijada por el investigador.

Error de estimación

Es la diferencia que existe entre la estimación y el valor real de un parámetro. Este puede definirse cómo:

Donde: θ denota un parámetro cualquiera y θ su estimador

Lo ideal es que el error de estimación sea lo más pequeño posible

Distribución Muestral

Es la Distribución de probabilidad de un estimador por lo que posee las mismas propiedades de las distribuciones antes mencionadas, es decir, parámetros, esperanzas y varianzas.

Distribución muestral de la media:

Por el Teorema de los Grandes Números tenemos que la media tiene una distribución aproximadamente normal con los siguientes parámetros

E [ x ]=μ

Material Bioestadística Prof. Joana Martín Rojo96

Error de Estimación=ε=θ−θ

Page 102: Material Bioestadística 2013

σ x=σ√n √ N−nN−1 13 ó

σ x=σ

√n en caso de que la muestra sea grande

Donde: N es el tamaño de la población y n el tamaño de la muestra

Si suponemos a y como números finitos, y si n es grande, entonces se distribuye normalmente

13 El coeficiente √ N−nN−1 es también conocido cómo: Factor de

Corrección para Muestras Pequeñas

Material Bioestadística Prof. Joana Martín Rojo97

Page 103: Material Bioestadística 2013

Límites de Confianza para Intervalos de Confianza

Media Muestral

Cuando queremos estimar el promedio de una medición particular utilizaremos la siguiente fórmula:

IC μ (1−α )100%= x±Z α

2

∗ σ

√ndonde:

xes el promedio muestral

= nivel de confianza fijado por el investigador

Z/2 = percentil /2 – ésimo de la Normal Tipificada

σ x=σ

√n es la desviación estándar de la población entre la raíz del tamaño muestral, en el caso de desconocer el parámetro poblacional puede ser sustituido por la desviación muestral

Proporciones

Cuando queremos estimar la proporción de una medición particular utilizaremos la siguiente fórmula:

IC p (1−α )100%= p±Z1−α2

∗√ pqndonde:

pes la proporción muestral

= nivel de confianza fijado por el investigador

Z/2 = percentil /2 – ésimo de la Normal Tipificada

√ pqn es la desviación de la proporción con q = 1- p

Comparación de dos medias

En el caso de querer comparar una medición realizada en dos poblaciones distintas utilizaremos la siguiente fórmula:

Material Bioestadística Prof. Joana Martín Rojo98

Page 104: Material Bioestadística 2013

IC μ1−μ2(1−α )100%

=( x1− x2)±Zα2

∗√ σ 12

n1

+σ 2

2

n2

donde:

( x1− x2) es la diferencia de los promedios muestrales de ambas poblaciones

= nivel de confianza fijado por el investigador

Z/2 = percentil /2 – ésimo de la Normal Tipificada

Spl=√ σ12

n1

+σ2

2

n2 es la desviación estándar combinada (también conocida S pooled) de ambas poblaciones entre la raíz del sus tamaños muestrales, en el caso de desconocer el parámetro poblacional puede ser sustituido por su estimador muestral, es decir 1 y 2 por S1 y S2. Para el caso de proporciones se sustituye 1 por p1q1 y 2 por p2q2

Contraste de Hipótesis

Decisiones Estadísticas

Son todas aquellas decisiones que se toman con respecto a la población en base a la información proporcionada por la muestra.

Hipótesis Estadística

Son las suposiciones o conjeturas, ciertas o no, planteadas en torno a la distribución de probabilidad de la población.

Hipótesis Nula

Denotada por H0, es la hipótesis que se plantea generalmente con la intención de rechazarla, también puede interpretarse como la hipótesis natural de la que suponemos la distribución de la población.

Hipótesis Alterna

Es cualquier hipótesis que se plantee diferente a la Hipótesis nula, generalmente se plantea esta hipótesis como complemento de la nula.

Material Bioestadística Prof. Joana Martín Rojo99

Page 105: Material Bioestadística 2013

Se habla de diferencias significativas si los resultados observados en la muestra difieren marcadamente de lo que suponemos bajo la hipótesis planteada, esto supondrá el rechazo de ésta. El procedimiento mediante el cual se toma la decisión de rechazar o no rechazar una hipótesis se define como Contraste de Hipótesis, Prueba de Significancia, Prueba de Hipótesis o Regla de Decisión.

Tanto la Hipótesis Nula como la Alternativa han de obedecer a los objetivos de la investigación, es decir, por cada objetivo específico que tengamos en la investigación se podrán plantear una o más hipótesis estadísticas a contrastar.

Errores Tipo I y Tipo II

La Probabilidad de cometer el Error Tipo I se conoce como e incluso como nivel de significación. En general se fija esta probabilidad antes de tomar la muestra, pues de esta forma se convierte en la probabilidad máxima de cometer el Error Tipo I

La probabilidad de cometer el Error Tipo II es conocida como . La siguiente tabla muestra un resumen de las decisiones estadísticas que podemos tomar en un contraste y cuando estamos cometiendo un error y cuál es:

Decisión EstadísticaVeracidad de la Hipótesis Nula

Ho Cierta Ho Falsa

No Rechazar HoDecisión Correcta

1-Decisión IncorrectaError Tipo II =

Rechazar HoDecisión Incorrecta

Error Tipo I = Decisión Correcta

1-

El nivel de confianza con el que es realizada la prueba de hipótesis resulta de la expresión (1-)%, que es la probabilidad de no rechazar una hipótesis verdadera, esta probabilidad es fijada por el investigador (usualmente se utilizan tres niveles 90%, 95% y 99%), y la potencia de la prueba cómo (1-)% que es la probabilidad de rechazar una hipótesis falsa, esta última probabilidad es usualmente obviada a la hora de realizar los contrastes por la dificultad de su cálculo, que en algunos casos se realiza a través de nomogramas14.

14 Representación gráfica que permite realizar con rapidez cálculos numéricos.

Material Bioestadística Prof. Joana Martín Rojo100

Page 106: Material Bioestadística 2013

Región de Aceptación y Región de Rechazo

A la zona de rechazo la llamaremos región crítica, y su área es el nivel de significación. La zona de aceptación es donde no se puede rechazar la hipótesis nula.

Gráficamente:

En otras palabras, la región de aceptación es la que tiene una probabilidad de (1-)% de ocurrir, suponiendo la Hipótesis Nula (es decir los parámetros distribucionales propuestos en esta hipótesis). Si el Estadístico de contraste cae fuera de esta región quiere decir que bajo los supuestos distribucionales propuestos en Ho, la ocurrencia de ese valor tiene una probabilidad muy pequeña de ocurrir (%), por lo que se llega a la conclusión que la población no tiene esa distribución, en otras palabras, se rechaza la Hipótesis Nula.

Material Bioestadística Prof. Joana Martín Rojo101

Page 107: Material Bioestadística 2013

Pasos para realizar un Contraste de Hipótesis

Formular las Hipótesis Nula y Alterna

Fijar el nivel de significación a y construir la zona de aceptación y rechazo

Verificar el tamaño de muestra (n grande o pequeño)

Verificar si la varianza es conocida o desconocida

Calcular el estadístico de contraste y verificar en que zona se encuentra

Decidir si se Rechaza o no se rechaza la hipótesis nula

Pruebas de hipótesis para diferentes parámetros y distribuciones

Contraste de la media de una población normal con varianza conocida

Contraste bilateral

Hipótesis Nula:H0 : μ=μ0

Hipótesis Alternativa:

Ha : μ≠μ0

Estadístico de contraste:

z=x−μ0

σ /√n

donde: x=1n∑i=1

n

X i

Región Crítica: c= {z :|z|>zα /2 }

Se acepta Ho si:

|x−μ0|

σ /√n≤zα /2

es decir si el estadístico de contraste cae en la región amarilla del gráfico.

Material Bioestadística Prof. Joana Martín Rojo102

Page 108: Material Bioestadística 2013

Contraste unilateral

Hipótesis Nula:H0 : μ≤μ0 o

Hipótesis Alternativa:

Ha : μ>μ0 o Ha: > 0

Estadístico de contraste:

z=x−μ0

σ /√n

donde: x=1n∑i=1

n

X i

Región Crítica:c= {z : z>zα }

o

Se acepta Ho si:

x−μ0

σ /√n≤zα /2

o si:

es decir si el estadístico de contraste cae en la región amarilla del primer o segundo gráfico respectivamente.

Contraste de la media de una población normal con varianza desconocida

El procedimiento es análogo al anterior donde sustituiremos la Varianza poblacional por la cuasi-varianza15 muestral

OJO: Cuando estemos en el caso de muestras grandes contrastaremos con una Normal, pero en el caso de muestras pequeñas lo haremos con una t de Student

15 Es la varianza muestral que hemos estado trabajando, la cual se calcula mediante la

siguiente fórmula S=S=√S2=√∑i=1

n

( xi− x )2

n−1

Material Bioestadística Prof. Joana Martín Rojo103

00 : H

Page 109: Material Bioestadística 2013

Contraste para la varianza de una población normal

Hipótesis Nula: H0 : σ2≤σ2

0

Hipótesis Alternativa:

Ha : σ2≠σ2

0

Estadístico de contraste:

χ2=(n−1)s2

σ02

Región Crítica:

c= {χ2 : χ 2< χ1−α /2, n−12 ; χ2> χ α /2, n−1

2 }Se acepta Ho si:

(n−1)s2

σ02

∈ [ χ1−α /2, n−12 ; χα /2 ,n−1

2 ]

Contraste para el parámetro p de una distribución binomial

Hipótesis Nula:H0 : p=p0

Hipótesis Alternativa:

Ha : p≠p0

Estadístico de contraste:

z=p−p0

√ p (1− p) /nSe acepta Ho si: |p− p0|

√ p(1− p )n≤zα /2

Contraste para diferencia de Medias

Contraste bilateral

Hipótesis Nula:H0 :

σ1

σ 2

Hipótesis Alternativa:Ha :

σ1

σ2

Estadístico de contraste:

F=

S12

σ 12

S22

σ 22

Si suponemos las varianzas

poblacionales iguales: F :S1

2

S22

Se acepta Ho si: F

1−α2

≤S1

2

S22≤Fα /2

Material Bioestadística Prof. Joana Martín Rojo104

Page 110: Material Bioestadística 2013

RELACIÓN ENTRE VARIABLES.

Tipos de relaciones

Variables independiente y dependiente

Los análisis de regresión y correlación se basan en la relación o asociación existente entre dos (o más) variables. Las variable (o variables) conocida recibe el nombre de variable independiente. La variable que estamos intentando predecir es la variable dependiente.

En la regresión bivariante y en el general de las multivariantes, tenemos solamente una variable dependiente a estimar. No obstante, podemos emplear más de una variable independiente. Cuando trabajamos con una sola Variable Independiente estamos trabajando con Modelos de Regresión Bivariantes, pero cuando trabajamos con Varias Variables dependientes con Modelos de Regresión Múltiple, Multivariantes o Multivariables, éstos últimos pueden tener Variables Dependientes Cuantitativas (Modelos de Regresión Multivariantes16), Cualitativas (Modelos Logit o Probit) o Ambas. En principio en esta sección trabajaremos con la Relación que existe entre dos variables.

Relación directa entre X e Y

La relación directa entre dos variables puede interpretarse como que a medida que aumenta la variable independiente, también lo hace la variable dependiente. Podemos graficar esa relación directa, trazando la variable independiente en el eje X y la variable dependiente en el eje Y. En este caso, la línea tiene una pendiente hacia arriba, a medida que X asume valores cada vez mayores. Se dice que la pendiente de esta línea es positiva porque Y crece a medida que X lo hace.

Relación inversa entre X e Y

Cuando la variable dependiente disminuye al aumentar la variable independiente estamos en una relación Indirecta entre ellas. Esta clase de relación se caracteriza por presentar una pendiente negativa (la variable dependiente Y disminuye conforme crece la variable independiente X).

Relación directa Relación Inversa

16 Haremos mención de estos modelos más adelante en el curso

Material Bioestadística Prof. Joana Martín Rojo105

Page 111: Material Bioestadística 2013

Con frecuencia encontramos una relación causal entre variables; es decir, la variable independiente “hace” que cambie la variable dependiente. Pero en muchos casos, algún otro factor produce el cambio en las variables dependiente e independiente.

Relaciones de asociación, no de causa-efecto

Por esta razón es importante destacar que las relaciones descubiertas por la regresión son de asociación lineal, pero no necesariamente causales. A menos de que se tengan razones concretas para pensar que los valores de la variable dependiente se deben a los valores de la variable independiente, no ha de inferirse la causalidad a partir de las relaciones que se observen mediante la regresión.

Diagramas de dispersión

El primer paso al determinar si existe una relación entre dos variables consiste en examinar gráficamente los valores observados. Estos gráficos reciben el nombre de Diagrama de Dispersión.

El diagrama de dispersión puede brindarnos dos tipos de información. Visualmente, queremos buscar los patrones que indican que las variables están relacionadas. Después, si existe una relación entre ellas, podemos ver qué clase de línea, o ecuación de estimación, describe dicha relación. La relación entre las variables X e Y también puede asumir la forma de una curva. A esta relación los estadísticos la llaman curvilínea. Cuando no se puede establecer ningún patrón en la gráfica decimos que ambas variables no están relacionadas.

Análisis de Correlación

El Análisis de Correlación se ocupa en determinar el Grado de Relación Lineal entre las variables involucradas. En el estudio de correlación la designación de las variables dependiente e independiente es a criterio del investigador.

Material Bioestadística Prof. Joana Martín Rojo106

Pendiente positiva Pendiente

negativa

Page 112: Material Bioestadística 2013

Covarianza

Es un indicador de la dirección de la relación entre dos variables, para poder analizar la magnitud no podemos utilizar esta medida ya que es sensible a la unidad de medida y a la magnitud de las unidades, por lo que su magnitud no refleja la fuerza de la relación, sólo su dirección. La

covarianza, denotada por cov ( x , y ) , Sxy , σ xy , puede calcularse mediante la siguiente expresión:

cov ( x , y )=E [ ( x− x ) ( y− y ) ]=1n∑i=1

n

[ (x i− x) ( y i− y ) ]

Correlación

Es un indicador del sentido (directo o inverso) de la relación lineal entre dos variables, así como de su grado se intensidad, magnitud o fuerza. Los Coeficientes de Correlación oscilan entre los valores -1 y 1, y el análisis del sentido y la fuerza lo vemos en el siguiente diagrama:

Según como sean las variables que queremos relacionar existen múltiples Coeficientes de Correlación, pero el análisis del resultado siempre se mantiene, es decir, dependiendo del valor que tome el resultado del coeficiente podremos afirmar que existe una relación (y dependiendo en que valor se halle, que tan fuerte o débil es) o no (su la correlación es nula, es decir, igual a cero) entre las variables involucradas. Por ejemplo un coeficiente de correlación sin importar el signo, es igual a 0,8 se puede interpretar como que el 80% de la variabilidad de una de las variables se refleja en la variabilidad de la otra, y el comportamiento de una de ellas afecta en esta medida a la otra, ahora el signo proporciona un análisis adicional, indicando si es positivo que existe una relación directa entre ambas variables, en cambio el indicador es negativo, el comportamiento de una de ellas será

Material Bioestadística Prof. Joana Martín Rojo107

Sin Relación Lineal

-1 10-0,5 0,5

-0,75 -0,25 0,25 0,75

Muy I mportante

ModeradoBajoI mportante

Muy I mportante I mportanteBajoModerado

Relación I ndirecta

Relación Directa

Sin Relación Lineal

-1 10-0,5 0,5-1 10-0,5 0,5

-0,75 -0,25 0,25 0,75-0,75 -0,25 0,25 0,75

Muy I mportante

ModeradoBajoI mportante Muy I mportante

ModeradoBajoI mportante ModeradoBajoI mportante

Muy I mportante I mportanteBajoModerado

Muy I mportante I mportanteBajoModerado

Relación I ndirecta

Relación Directa

Page 113: Material Bioestadística 2013

inverso a la otra. Existen diferentes coeficientes de correlación lineal, siempre dependiendo de la naturaleza de las variables.

Coeficiente de Correlación de Pearson

Es el primero de los coeficientes de correlación establecidos, y se utiliza cuando ambas variables son continuas. este Coeficiente, denotado por R , r , ρ , se calcula de la siguiente manera:

R=SxynS xS y

=σ xyσ xσ y

=Cov (x , y )

√Var ( x )√Var ( y )

La propuesta de Pearson con este coeficiente fue de eliminar las unidades de medida de las variables involucradas, obteniendo un único indicador que siempre variase en un intervalo fijo, es decir, eliminar de la covarianza su sensibilidad a la magnitud de las unidades involucradas.

Coeficiente de Correlación por Rangos de Spearman o Rho de Spearman

Se utiliza cuando ambas variables son cuantitativas y están medidas en escala. de intervalo (según la escala de Stevens). Este Coeficiente,

denotado por ρ , r s , se calcula de la siguiente manera:

r s=1−6∑ d2

N (N 2−1 )

Donde d=Rx-Ry: siendo los Rx el número correspondiente a la posición dentro del orden ascendente de las variables x y Ry el correspondiente en las variables y.

Coeficiente de Correlación Tau de Kendall

Coeficiente no paramétrico creado por A. Kendall para determinar la correlación entre variables ordinales.

Tau= P−Q

( n(n−1)2 )

Donde: P: Nº de AciertosQ: Nº de fracasos

Material Bioestadística Prof. Joana Martín Rojo108

Page 114: Material Bioestadística 2013

( n(n−1)2 ): Total de pares de sucesos

Coeficiente de Correlación Phi

En este caso se parte de una tabla de dos variables, donde cada una tiene dos categorías, o variables dicotómicas.

YTota

lX

Y1

Y2

X1 a b n1

X2 c d n2

Totaln3

n4 N

Donde N= n1 + n2 + n3 + n4

φ= ad−cb√(a+b )(c+d )(a+c )( b+d )

Coeficiente de Contingencia

En este caso se parte de una tabla de dos variables categóricas, donde X tendrá m categorías e Y tendrá p categorías. Este coeficiente tiene más alcance que el anterior.

El Coeficiente de Contingencia se calcula mediante la siguiente expresión:

C=√ S−nSDonde:

S=∑(oij )

2

e ij

e ij=ni .n. j

N o la frecuencia esperada de la casilla suponiendo que todas las categorías tienen la misma cantidad de individuos, es decir que todas las categorías de las variables se distribuyen uniformemente.

Material Bioestadística Prof. Joana Martín Rojo109

Page 115: Material Bioestadística 2013

Cada o ij corresponde al valor en la casilla i,j, es decir siendo

N=∑i

ni .=∑j

n. j

ni .=∑ frecuencias fila de la categoría i de X=∑i

oij

n. j=∑ frecuencias columna de la categoría j de Y=∑j

oij

Coeficiente Punto Biserial o Biserial por Puntos

En este caso se trabaja con una variable dicotómica y la otra cuantitativa. el Coeficiente viene dado por la siguiente expresión:

r pbis=Ma−Mn

σ√ pq

donde:σ es la desviación estándar de la variable continua

p es la proporción del atributo en la variable dicotómica y q = 1-p

Ma es la media de los valores que contienen el atributo, que

calcularemos por ∑ XYnº de aciertos

siendo: X el valor de la variable continua

Mn es la media de los valores que no contienen el atributo, que

calcularemos mediante:

(∑ X−∑ XY )nº de fracasos

Regresión Lineal Bivariante

Antes de pasar al Análisis de Regresión como tal revisemos los siguientes conceptos:

Población Bivariante

Es aquella población que contiene dos medidas en cada componente elemental.

Material Bioestadística Prof. Joana Martín Rojo110

y = 0, si posee el atributo

1. si no posee el atributo

Page 116: Material Bioestadística 2013

Datos Multivariantes

Cuando cada uno de los elementos de una población puede dar tres o más medidas, referidas a una característica específica.

Estimación por Asociación

Es la relación media de los datos o manera funcional en forma matemática. La tarea principal en cualquier estudio científico es descubrir las relaciones generales entre las variables observadas, y expresa la naturaleza de estas relaciones de forma matemática, tal que pueda predecir el valor de una variable en base a otra.

Análisis de Regresión

Trata de establecer la “Naturaleza de la Relación” entre las variables, es decir, se estudia la relación funcional entre las variables de modo que podamos predecir el valor de una con base a otra u otras. La o las variables que son base de la predicción se denominan Variables Independientes o Explicativas, y la variable que se va a predecir se denomina Variable Dependiente, a Explicar o Explicada.

Análisis de Asociación Simple

Se refiere a una situación en la que hay sólo una Variable Independiente

Estimación por Asociación

Estudia la Relación entre tres o más variables.

Supuestos de la Regresión Lineal

El modelo de Regresión Lineal Simple depende que se cumplan este conjunto de supuestos:

i. El valor de la Variable Dependiente (Y) depende en cierto grado del valor de la Variable Independiente X (es decir, existe una relación lineal significativa entre ellas)

ii. Se puede describir en forma adecuada la relación media entre X e Y por una ecuación lineal, que en nuestro caso será representada

por: Y 0=α+βX , cuya representación geométrica es una línea recta.

La altura de la línea nos dice el valor medio de Y para un valor fijo de X. Cuando X=0 (intercepto o ordenada en el origen de Y: ). La

Material Bioestadística Prof. Joana Martín Rojo111

Page 117: Material Bioestadística 2013

pendiente de la recta se mide por , que es la relación media de cambio de Y por una unidad de cambio en el valor de X, el signo de este coeficiente nos indica la dirección de la relación entre las variables.

iii. Existe una Subpoblación17 de Y asociada con cada valor de X. Puede suponerse que la distribución de Y es Normal o no especificada (desconocida). La distribución de cada Subpoblación de Y está condicionada al valor de X

iv. La media de cada Subpoblación de Y se llama “Valor Esperado de Y

para un X dado”, que denotaremos E [Y /X ]=μY

X

=α+ βX. Donde

tenemos el supuesto de que todos los valores deberán caer sobre una línea recta. La ecuación anterior es denominada “Ecuación de Regresión Poblacional” y “” y “” se llaman “Coeficientes de Regresión Poblacionales”.

v. Un valor Y dado en cada subpoblación puede expresarse como Y=E [Y /X ]+ε ==α+βX+ε , donde es la desviación del valor particlar de Y con relación a x/y y se llama “Término de Error o Perturbación Estocástica”.

Se supone que los errores son Variables Aleatorias Independientes,

por que las Y también lo son, por lo tanto E [ε ]=0 , además si la variable Y tiene una distribución Normal, se puede suponer que el termino de error se distribuirá de la misma manera.

vi. Suponemos que las varianzas de todas las subpoblaciones llamadas “Varianzas de Regresión” son iguales. Y que la varianza común de regresión es igual a la Varianza del término de error, esto es V (Y )=V (ε )=σ y

x

2

puesto que ε=Y−E [Y /X ]=Y−Y o , a esta varianza también se le denomina “Varianza Residual”

Ecuación de Regresión Lineal

La ecuación de regresión puede expresarse cómo:

Y=α+βX+ε o también cómo Y=β0+βX+ε

17 Subgrupo de una población, cuya característica principal es que todos los elementos que pertenecen a una Subpoblación tienen al menos una característica en común

Material Bioestadística Prof. Joana Martín Rojo112

Page 118: Material Bioestadística 2013

Donde nos vamos a centrar en el análisis de los coeficientes, más que en su cálculo. o 0 indican el comportamiento promedio de la variable dependiente cuando la X es cero, es decir el comportamiento de la variable Y que no es influido por la variable independiete. El coeficiente indica el cambio que es producido en Y por cada cambio unitario en X, es decir es una medida de la influencia de X sobre Y. El coeficiente es el término de error, el que se puede decir que recoge toda la información de Y que no recoge el modelo.

Para la obtención de estos coeficientes podemos aplicar las siguientes fórmulas:

β=S XYSX

2=ρ

SXSY , α=Y− β X , ε=Y−Y=Y− α− β X

Un indicador importante en el modelo es el coeficiente de determinación del modelo o e R2 del modelo, pues indica que parte de la variabilidad de la variable está explicada por el modelo de regresión (en términos de porcentaje), así como es un indicador de lo “bueno” que es el modelo, es decir del nivel de ajuste del modelo. Dependiendo de los fines del modelo nos interesarán determinados niveles del R2, si el fin es descriptivo, no es un indicador sobre el que necesitemos ser exigentes, siempre y cuando supere un 25%, pero si es con fines predictivos lo ideal es que supere el 75%.

Ahora bien, para saber si los coeficientes de regresión son significativos podemos verificar mediante un análisis de la varianza18, donde se contrasta básicamente que la correlación del modelo es nula vs. no lo es mediante el estadístico F.

Luego de estas pruebas es conveniente realizar un Análisis de los Residuos, el cual es simplemente, mediante un gráfico de dispersión entre los residuos y las predicciones, verificar que no existan patrones de comportamiento en los puntos, es decir que los residuos tengan un comportamiento aleatorio, así cómo realizar pruebas de hipótesis sobre éstos para verificar su normalidad. En el caso de que encontremos un patrón en el gráfico de dispersión, podemos intuir que los residuos tienen todavía información que explica el comportamiento de la variable dependiente, en cuyo caso es conveniente cambiar la variable dependiente o realizar un modelo de regresión Multivariante, donde podamos incluir nuevas variables que expliquen el comportamiento de la variable dependiente. Es usual que los modelos multivariantes presenten R2 mayores a los modelos bivariantes, pues dada la

18 Tema que veremos al final del curso

Material Bioestadística Prof. Joana Martín Rojo113

Page 119: Material Bioestadística 2013

complejidad de la realidad, no es usual que un fenómeno pueda ser explicado por una sola variable, sino que se necesite explicar mediante varias de las variables que influyan en él.

Regresión Lineal Multivariante

Cuando se trabaja con varias variables en una investigación, es recomendable trabajar de manera multivariante más que bivariante, pues de esta manera es menor el riesgo que se corre de no tomar en cuenta información del fenómeno explicada por otras variables.

Los modelos multivariantes difieren de los bivariantes en que la metodología es una generalización de los últimos. También se tienen que verificar supuestos, aplicar las fórmulas, seleccionar las variables que participarán en el modelo, analizar los coeficientes, etc.

Usualmente este tipo de modelos se utiliza para predecir el comportamiento de una variable, aunque existe un ajuste para predecir el comportamiento de varias variables, este caso particular no lo revisaremos en este curso. También se especifica que todas las variables a incluir en el modelo han de ser métricas, esto quiere decir cuantitativas o numéricas (bien sean discretas o continuas), así como en el anterior pueden incluirse variables independientes o explicativas cualitativas, lo que requiere un tratamiento particular, que no veremos tampoco en este curso.

En el siguiente diagrama podemos apreciar las diferencias entre la regresión lineal bivariante y multivariante:

Material Bioestadística Prof. Joana Martín Rojo114

Modelos de Regresión Lineal

Una Variable Explicativa Dos o más Variables Explicativas

Simple o Bivariante Múltiple o Multivariante

Page 120: Material Bioestadística 2013

Objetivos de la Regresión Lineal Multivariante

Los objetivos principales, o cuando podemos aplicar este tipo de tratamiento estadístico se centran en los siguientes casos:

Determinar la estructura de una relación entre variables cuantitativas

Determinar la relación existente entre un fenómeno (que medimos mediante una única variable) y un grupo de variables explicativas.

Determinar la fuerza de la relación entre las variables explicativas y la variable a explicar.

El modelo de regresión lineal multivariante presenta una estructura similar al modelo bivariante, siendo la diferencia la presencia de varias variables explicativas en el modelo, sus coeficientes de regresión y los supuestos que se han de cumplir.

Ecuación de la Regresión Lineal Multivariante

La ecuación de regresión la vemos a continuación:

Y=β0+β1X1+β2X 2+. ..+βnX n+ε

Donde:

Y es la variable a explicar

β0 es el término independiente, que puede analizarse como el comportamiento de Y sin la influencia de las variables del modelo.

Material Bioestadística Prof. Joana Martín Rojo115

Page 121: Material Bioestadística 2013

β j es el coeficiente de regresión de la j-ésima variable, que puede interpretarse como la magnitud del cambio que experimenta Y por cada cambio unitario de Xj.

X j es la j-ésima variable del modelo, variable explicativa

ε es el término de error, es decir es aquel que recoge todo el comportamiento de Y que no es explicado por la regresión.

Supuestos de la Regresión Lineal Multivariante

Para poder realizar una regresión lineal multivariante se deben cumplir los siguientes supuestos en las variables:

Homocedasticidad: este supuesto implica que las varianzas de los errores de la regresión son iguales. Este supuesto puede verificarse mediante test de homocedasticidad o análisis de los gráficos de los residuos vs. La variable dependiente (gráfico de dispersión).

Linealidad del fenómeno: Esto quiere decir que las variables explicativas presentan una relación lineal con la variable explicada, lo que puede corroborarse mediante diagramas de dispersión de la variable explicada contra las variables explicativas.

No Multicolinealidad: Tradicionalmente se piensa que para poder aplicar un modelo de regresión lineal múltiple es necesario utilizar un grupo de variables relacionadas entre si, esta creencia es totalmente errónea, pues la relación que debe existir es con la variable a explicar, pero no entre las variables explicativas, pues si en un modelo nos encontramos en este caso, añadiremos ruido al modelo, pues las variables aportan información redundante, redundante por que ya es aportada por als demás variables. Esto es contrastable mediante varias vías, buscando coeficientes de multicolinealidad, correlación bivariante entre las variables explicativas, etc.

Normalidad del término de error: esto supone que los términos de error se distribuyen normalmente, lo que es contrastable mediante contrastes de bondad de ajuste o papeles pobabilísticos.

Material Bioestadística Prof. Joana Martín Rojo116

Page 122: Material Bioestadística 2013

Así mismo, aunque ne

o se define como supuesto es recomendable realizar un tratamiento previo de +89puntos típicos, puesto que esto conlleva a sesgos en las estimaciones, pues así como la media, los modelos de regresión son muy sensibles a la presencia de datos atípicos.

Material Bioestadística Prof. Joana Martín Rojo117

Page 123: Material Bioestadística 2013

Pregunta Diseño Colección Análisis Respuesta

VerificaciónPredicciónHipótesisObservación

DISEÑO DE UNA INVESTIGACIÓN ESTADÍSTICA

Planteamiento de la Investigación

Para abordar este tema veamos cómo conciben algunos estadísticos la Investigación Estadística.

Del artículo de J. Tukey “Necesitamos tanto el análisis de datos confirmatorio como el exploratorio” publicado en The American Statistician, extraemos el “Paradigma Rectilíneo” considerado como funcionamiento de la ciencia:

Siendo este un patrón que utilizamos para confirmar o dar respuesta a situaciones o planteamientos determinados. Pero debemos tener en cuenta que en este proceso debemos de recordar lo siguiente (según el mismo planteamiento de Tukey): Antes de elaborar cualquier pregunta hemos de tener información sobre lo que anteriormente se ha hecho del tema (también conocido como antecedentes de la investigación). también debemos hacer una prueba para verificar los datos recolectados. Y lo más importante es que necesitamos explorar y confirmar todo este proceso, pues ambas cosas resultan indispensables en una investigación.

También podemos observar el siguiente diagrama, para tener así una mejor idea sobre el tema que vamos a abordar. Pero antes recordemos que toda investigación debe regirse por el Método Científico.

El Método puede definirse como un sistema organizado para estudiar una teoría y Método Científico como un sistema organizado de investigación que consiste en la confrontación de suposiciones sobre hechos, con la realidad objetiva que nos rodea, para lograr un cuerpo de conocimientos integrado y sistematizado.

Recordemos entonces las cuatro etapas:

Material Bioestadística Prof. Joana Martín Rojo118

Page 124: Material Bioestadística 2013

La Observación conlleva a la selección y a la descripción, también exige definiciones. Para explicar los hechos observados o a investigar el investigador debe traducir sus ideas en una o varias Hipótesis o Ideas Tentativas, veamos ahora el siguiente diagrama, que describe a la Investigación Científica como un Ciclo constante.

Diagrama de la Investigación Científica

Nota: Cuando se menciona el Conocimiento Empírico estamos hablando de Conocimiento Basado en la Experiencia.

Ahora si pasemos en sí al planteamiento de una Investigación:

El siguiente diagrama recorre los puntos principales a definir antes del Diseño de la Investigación, pues este diseño dependerá de ser capaces de cumplir estos pasos:

Principales pasos a Seguir:

Material Bioestadística Prof. Joana Martín Rojo119

Formación de Conceptos.Formación y

Ordenamientode Proposiciones

Teorías Deducciones lógicas Hipótesis

I nterpretación,I nstrumentación,

Escalaje y Muestreo

Observaciones

Contraste deHipótesis

MediciónResumen de Muestras

Y Estimación de Parámetros

GeneralizacionesEmpíricas

Decisión de Aceptar o Rechazar

Formación de Conceptos.Formación y

Ordenamientode Proposiciones

Teorías Deducciones lógicas Hipótesis

I nterpretación,I nstrumentación,

Escalaje y Muestreo

Observaciones

Contraste deHipótesis

MediciónResumen de Muestras

Y Estimación de Parámetros

GeneralizacionesEmpíricas

Decisión de Aceptar o Rechazar

Teorías Deducciones lógicas Hipótesis

I nterpretación,I nstrumentación,

Escalaje y Muestreo

Observaciones

Contraste deHipótesis

MediciónResumen de Muestras

Y Estimación de Parámetros

GeneralizacionesEmpíricas

Decisión de Aceptar o Rechazar

Problema de I nvestigación

Finalidad de la I nvestigación

Objetivos de la I nvestigación

Definición de las Variables y su Medición

Definición del Tipo de I nvestigación

Diseño de la I nvestigación

Problema de I nvestigación

Finalidad de la I nvestigación

Objetivos de la I nvestigación

Definición de las Variables y su Medición

Definición del Tipo de I nvestigación

Diseño de la I nvestigación

Page 125: Material Bioestadística 2013

Entorno y Antecedentes del Problema

El entorno del problema es una breve descripción del tema que se va a investigar, el cual incluye investigaciones anteriores relacionadas, e incluso repercusiones del problema sobre su ambiente, es decir, que repercusiones tiene el problema particular que estamos investigando sobre el general del tema.

Identificación y Discusión

Lo primero que debemos hacer es la Identificación y Discusión del Problema a Investigar, así como la selección de los temas a abordar. Esto se realiza en base a conocimientos anteriores (antecedentes) y empíricos que se tengan sobre el tema en cuestión, así como conocimientos y definición del entorno de la investigación, pues esto puede afectarla, sobre todo si la investigación se realiza mediante un experimento.

Este es un paso extremadamente importante, pues si no se realiza una identificación correcta del problema de investigación, la investigación puede tomar rumbos que no responderán las preguntas de investigación que nos hemos realizado. La identificación del problema responde la pregunta ¿Qué es?.

Finalidad de la Investigación

La finalidad de una Investigación Describe el uso que se le dará a la información en el caso de alcanzar los objetivos de la investigación, es decir debe responder a la pregunta: ¿Para Qué?

Material Bioestadística Prof. Joana Martín Rojo120

Page 126: Material Bioestadística 2013

Objetivos de la Investigación

Deben responder a la pregunta: ¿Qué se Desea Obtener?. Los Objetivos determinan en alcance de la investigación, y se definen en Objetivos Generales y Objetivos Específicos.

Objetivos Generales

Indican el alcance del estudio, señalan el problema sin definir o seleccionar las variables, que, a juicio del investigador, definen la problemática deseada. Es decir, plantear a “grosso modo” lo que se desea obtener, dejando claro el alcance de lo que se puede lograr.

Objetivos Específicos

A través de estos se definen las variables objeto de estudio, justificando su inclusión en el estudio, incluso se puede trazar levemente la metodología a aplicar, y en que variables o conjuntos de individuos se aplicarán esta.

Parsimonia

La Parsimonia es cuando en la ciencia se logra explicar mucho con poco, en otras palabras cuando se logra alcanzar la mayor cantidad de los objetivos mediante la aplicación de la menor cantidad de técnicas posibles. La parsimonia es una gran cualidad de la ciencia que tiene el poder de explicar una realidad compleja de manera llana y comprensible. Sin embargo, puede llevarnos a soluciones falsas muy simples pero que erróneas. En cualquier Investigación un objetivo clave es lograr soluciones .

Preguntas de la Investigación

Las preguntas de la investigación son simplemente planteamientos del problema de la investigación a través de una o varias interrogantes. Estas preguntas conviene formularlas dentro de cada dimensión del problema planteado, sin ser demasiado generales.

Definición de las Variables

Para que una investigación pueda ser comparable o repetible es necesario proveer la mayor cantidad de especificaciones sobre ésta, en ellas una de las más importantes es la especificación de las variables con las que se van a trabajar, pero esta especificación se ha de realizar conceptualmente, pero también operativamente, puesto que de esta

Material Bioestadística Prof. Joana Martín Rojo121

Page 127: Material Bioestadística 2013

última forma es que se puede definir la medición de ellas, y por lo tanto, en conjunto con los Objetivos, el tipo de Investigación a realizar.

Según Kerlinger (1979)

“…Los científicos deben ir más allá. Deben definir las variables que se usan en sus hipótesis en forma tal que puedan ser comprobadas. Esto es posible usando lo que se conoce cómo definiciones operacionales”.

Podemos definir la Variable cómo una característica que se mide en el estudio y varía de sujeto a sujeto. Siendo rigurosos una variable es la representación de mediciones realizadas en una investigación. Los datos que obtenemos para una investigación son el resultado de haber medido una variable en un conjunto de individuos, objetos, etc.

Es importante conocer las variables que involucradas en la investigación, así como aquellas que puedan tener influencia en el fenómeno, pero no se incluyen directamente la Investigación, pues estas debemos conocer, estimar o aproximar lo más posible, el efecto que estas variables “perturbadoras” tienen sobre el fenómeno, bien sea para diseñar la investigación de manera que podamos controlarlas o por lo menos tener en cuenta sus posibles efectos a fines de considerarlos en los análisis, y no dar entonces, concusiones erradas o sesgadas.

Una variable puede definirse cómo todas las características no determinadas o posibles que van a ser estudiadas en una población o situación. Es decir todas las características varían de un individuo u objeto a otro.

Definición Teórica o Conceptual

La definición conceptual es de índole teórica, explica conceptualmente, dentro del contexto de la investigación, lo que estamos investigando. Por ejemplo si en la investigación está vinculado el nivel de células blancas que hay en la sangre, la definición teórica ha de relatar que son las células blancas, cuantos tipos hay, y sus funciones en la sangre. Sin esta definición no se puede construir la Definición Operativa.

Definición Operativa

Esta nos da las bases de medición y la definición de los indicadores, en el ejemplo anterior, ya que existen distintos tipos de células blancas, se debe especificar cuál de los tipos de va a medir, si se medirá en porcentajes o valores absolutos, incuso se ha de especificar por cuantos mililitros de sangre se realiza la medición.

Material Bioestadística Prof. Joana Martín Rojo122

Page 128: Material Bioestadística 2013

Una vez definidas operativamente, también se ha de explicar el nivel y tipo de medición19, así como el proceso mediante el cual se obtendrá la misma, estos procesos también forman parte de la descripción de la investigación.

Tipos de Investigación

Existen distintos tipos de Diseños Estadísticos de Investigación que se pueden llevar a cabo, pero estos dependen del tipo de Investigación que nos planteemos para resolver el problema, estos tipos siempre dependerán de lo que se quiere conseguir con la investigación que estamos realizando, es decir, el objetivo de la investigación, a saber:

Investigación Exploratoria

Investigación Descriptiva

Investigación Causal

En cualquiera de estos tipos de Investigación el Análisis Exploratorio de los Datos es imprescindible, y dependiendo del objeto, el Confirmatorio20.

Investigación Exploratoria

En este caso la Investigación se centra en explorar un fenómeno particular, su naturaleza, relaciones entre variables, comportamiento de las dimensiones, etc.

La investigación exploratoria se define como la recolección de información de una manera no estructurada e informal. Este tipo de investigación se suele usar para definir el problema ya que influirá significativamente en la definición del problema o incluso en la decisión de si seguir adelante con la investigación o no.

La investigación exploratoria es muy intuitiva y se suele practicar inadvertidamente al analizar constantemente multitud de factores que influyen en un fenómeno. Sin embargo, los investigadores pueden realizar la investigación exploratoria de una manera formal. Es decir, los investigadores pueden utilizar procedimientos que ayudan a definir el problema o hacer los síntomas más nítidos.

19 Los detalles de la Medición y escalas se detallan más adelante.

20 Ambos se explican al final de esta sección

Material Bioestadística Prof. Joana Martín Rojo123

Page 129: Material Bioestadística 2013

Investigación Descriptiva

Básicamente el objetivo principal inherente a una Investigación Descriptiva es Describir un fenómeno particular, y el diseño dependerá de la recolección de la información, las posibles técnicas descriptivas a utilizar, etc. Los estudios descriptivos describen estas variables respondiendo a las preguntas ¿quién?, ¿qué?, ¿por qué? y ¿cómo?.

Ocasionalmente se realizan los estudios de observación, durante los cuales se observa y describe el comportamiento de las variables o individuos para responder al problema de investigación. En una Investigación Descriptiva las conclusiones versan sobre perfiles, caracterizaciones, descripciones pormenorizadas de un fenómeno e hipótesis sobre las causas que lo provocan.

Investigación Causal

Usualmente este tipo de Investigación se realiza mediante experimentos, pues su objetivo es encontrar las causas que determinan un fenómeno, así como describirlas y probar su influencia. Se lleva a cabo controlando varios factores para determinar cuáles de ellos son los causantes del problema. En otras palabras, permite determinar la causalidad, es decir, qué variable hace que cambie otra variable

A través de la investigación causal obtenemos un alto grado de comprensión de algún tipo de fenómeno. Esencialmente, implica experimentos que permiten al investigador medir los cambios en una variables, considerada como dependiente (VD), provocados por un cambio en otra variable u otras variables, considerada como independientes (VI). Aunque proporcionen estas ventajas, suelen realizarse mediante complejos y costosos experimentos, donde. no es fácil controlar, medir, o por lo menos considerar todos los factores que pueden influir en el fenómeno que estamos estudiando.

Diseño de la Investigación

El diseño de la Investigación es el proceso, metodología, pasos a seguir, consideraciones, restricciones y todo lo que debemos tomar en cuenta para ser capaces, mediante las herramientas que poseemos, de responder a las preguntas de la investigación. Es decir, en el diseño de la investigación se debe especificar todo lo anteriormente descrito, así como los procesos que se llevarán a cabo para la obtención de la información, los factores que influyen en ello, las posibles técnicas para el análisis, etc.

Material Bioestadística Prof. Joana Martín Rojo124

Page 130: Material Bioestadística 2013

Es importante destacar que todo diseño de investigación ha de incluir siempre un análisis previo de los datos, al que se considera Análisis Exploratorio de los Datos, aunque más adelante no se confirme todo lo que de este se obtiene, Análisis Confirmatorio de los Datos, como por ejemplo en Investigaciones Exploratorias.

De que se tratan y en que consisten estos dos tipos de análisis se detalla a continuación:

Análisis Exploratorio de Datos

Usualmente al realizar investigaciones el examen previo de los datos es descuidado por los investigadores, siendo un paso necesario, que lleva tiempo y que a veces parece insignificante y sin consecuencias, pero son una parte esencial de cualquier análisis estadístico, pues mediante este análisis se puede comprobar si alguno de los supuestos iniciales de la investigación se cumple, si se pueden aplicar determinadas técnicas estadísticas, plantear nuevas técnicas de análisis de los datos, etc., así como conocer con mayor profundidad el fenómeno que se está estudiando.

La finalidad de éste Análisis es examinar o conocer los datos antes de aplicar cualquier técnica estadística21, mediante la aplicación de técnicas de estadística descriptiva. Este análisis previo de la información nos permite, mediante métodos sencillos, organizar, preparar y corregir las bases de datos, detectar errores en el diseño y recogida de datos, tratamiento y evaluación de datos ausentes o perdidos, identificación de casos atípicos y comprobación de los supuestos de las técnicas multivariantes (cómo por ejemplo: normalidad, linealidad, homocedasticidad22, no multicolinealidad, etc.) que se aplicarán en el estudio.

El Análisis Exploratorio de los Datos también se puede definir como un conjunto de técnicas estadísticas cuya finalidad es conseguir un entendimiento básico de los datos y de las relaciones existentes entre las variables analizadas.

Autores clásicos como John Tukey, Frederick Hartwig y Brian Dearing lo catalogan como un “estado mental” ante el conocimiento.

21 Coloquialmente conocido como embarrarse las manos con los datos.

22 La homocedasticidad es el supuesto de igualdad de varianzas

Material Bioestadística Prof. Joana Martín Rojo125

Page 131: Material Bioestadística 2013

J. Tukey (1980) definió el Análisis Exploratorio de Datos cómo: una actitud, una flexibilidad y “algunas hojas con gráficos23”.

Por su parte, Hartwig y Dearing (1979) explican que el investigador debe aprender todo lo posible acerca de una variable o conjunto de variables antes de utilizar los datos para probar hipótesis o teorías acerca de las relaciones sociales.

Más recientemente, Eugene Horber y Dominique Ladiray (1995) plantean que el “razonamiento” exploratorio es un esquema de análisis que enriquece las posibilidades del investigador para hallar nuevas respuestas a los problemas que se plantee.

La aplicación de este análisis previo se puede resumir en los siguientes pasos

Preparación de las Bases de Datos, comprobando errores en la misma y organizando las variables de manera que puedan ser aplicables las técnicas estadísticas planteadas.

Realizar un análisis descriptivo de la información mediante tablas, cuadros estadísticos, medidas descriptivas y gráficos que ayuden al análisis y a establecer el patrón subyacente en los datos.

Realizar un análisis gráfico y en indicadores de las relaciones existentes entre las distintas variables.

Evaluar los supuestos básicos de las técnicas estadísticas a aplicar, tales como, normalidad, linealidad, homocedasticidad y multicolinealidad.

Identificar los posibles casos atípicos y extremos y evaluar el impacto que pueden ejercer en los análisis estadísticos posteriores.

Identificar los datos ausentes o perdidos24, evaluar su impacto en la aplicación de las técnicas estadísticas a aplicar y realizar la imputación en caso de ser necesario.

Todo lo mencionado anteriormente puede resumirse en el siguiente diagrama:

23 Pensando en esto como un reconocimiento de que el ojo que mira al horizonte es el mejor instrumento que tenemos para observar, de manera completa, lo no anticipado

24 También conocidos como missing values

Material Bioestadística Prof. Joana Martín Rojo126

Page 132: Material Bioestadística 2013

Problema de I nvestigación

Diseño de la I nvestigación

Recolección de Datos

Análisis Exploratorio o Descriptivo

Respuesta:Sistema de Hipótesis

Problema de I nvestigación

Diseño de la I nvestigación

Recolección de Datos

Análisis Exploratorio o Descriptivo

Respuesta:Sistema de Hipótesis

Paradigma Exploratorio

En el análisis Exploratorio de Datos la salida que obtenemos es un sistema de hipótesis, que nace del conocimiento que se tiene de la información, y la adecuación de los resultados descriptivos a la teoría inherente al fenómeno que estamos estudiando, al tener este sistema de hipótesis conviene entonces adecuar los objetivos y las preguntas de la investigación, las nuevas hipótesis para realizar el análisis confirmatorio, o plantear las recomendaciones para una futura investigación.

Análisis Confirmatorio de Hipótesis

Se puede decir que la mayor parte de las técnicas tradicionales de análisis estadístico de los datos tienen un carácter deductivo, por lo que podemos definir grosso modo el Análisis Confirmatorio de Datos cómo todas aquellas técnicas estadísticas inferenciales que se aplican en un estudio para confirmar o descartar las hipótesis planteadas.

Este análisis siempre ha de hacerse luego de realizar un análisis exploratorio de los datos, puesto que en éste último ya habremos preparado los datos para la aplicación de las técnicas, y más importante aún, sabremos si las técnicas a aplicar cumplen los supuestos requeridos, etc.

Material Bioestadística Prof. Joana Martín Rojo127

Page 133: Material Bioestadística 2013

Algunas de las técnicas de este análisis coinciden con el análisis anterior, pero podemos agregar a esta todas las técnicas de docimasia de hipótesis, técnicas multivariantes, de diseño de experimentos, etc.

En el diagrama que se observa a continuación se puede apreciar el Paradigma Confirmatorio, el cual nos indica los pasos a seguir para poder realizar este tipo de análisis.

Paradigma Confirmatorio

Material Bioestadística Prof. Joana Martín Rojo128

Problema de I nvestigación

Diseño de la I nvestigación

Recolección de Datos

Análisis de los resultados

Conclusiones y Recomendaciones

Sis

tem

ade

Hip

ótes

is

Problema de I nvestigación

Diseño de la I nvestigación

Recolección de Datos

Análisis de los resultados

Conclusiones y Recomendaciones

Problema de I nvestigación

Diseño de la I nvestigación

Recolección de Datos

Análisis de los resultados

Conclusiones y Recomendaciones

Sis

tem

ade

Hip

ótes

is

Page 134: Material Bioestadística 2013

Independientemente del tipo de investigación que se va a realizar se puede hacer una distinción en las técnicas estadísticas que se aplicarán, en términos de la naturaleza de las variables, esto es si son Variables Cuantitativas o Cualitativas. Para cada Tipo de Investigación que hemos citado listaremos posibles técnicas estadísticas que se pueden aplicar, sin ahondar mucho en su aplicación, y haremos hincapié en las Técnicas Estadísticas para Datos Cualitativos, también conocido en términos de investigación estadística como Investigación Cualitativa y en Técnicas Estadísticas No Paramétricas.

Investigación Exploratoria

Ya que la Investigación en este caso se centra en explorar un fenómeno podemos citar distintas técnicas estadísticas tales como:

Estadísticas Descriptivas, a saber: Tablas Univariadas o Cruzadas Multivariantes, Cuadros Estadísticos (Tablas de Frecuencia, Diagramas de Tallo y Hoja, etc.)

Medidas Descriptivas (Tendencia Central, Posición, Dispersión)

Medidas de Relación entre variables (Correlación, Asociaión)

Gráficos de comportamiento y de relación entre variables, es decir, gráficos univariantes, bivariantes y multivariantes (Gráficos de Barras, de Tortas, Gráficos de Cajas, Gráficos de Líneas, Gráficos de Dispersión, etc.)

Contrastes para, Normalidad, Linealidad, Homocedasticidad y Multicolinealidad.

Identificar los posibles casos atípicos, extremos y perdidos y establecer su posible imputación.

Técnicas Multivariantes para describir el comportamiento de los datos, tales cómo: Modelos de Regresión Bivariantes o Multivariantes, Análisis de Correspondencias Múltiples, Análisis de Segmentación, Análisis Cluster, etc.

Ya que antes de llegar a este paso se han determinado las variables y su medición, podemos entonces establecer cómo se realizará la investigación, a saber: Observación Directa, Observación Indirecta, Experimento, Encuesta, etc. También hemos determinado previamente si trabajaremos con la población o con una muestra, si vamos a trabajar con una muestra el tipo de muestreo que se va a aplicar, y dependiendo se éste procedemos entonces a diseñar la muestra que se requiere.

Material Bioestadística Prof. Joana Martín Rojo129

Page 135: Material Bioestadística 2013

Diseño de la Muestra

El tamaño de la muestra dependerá del tipo de muestreo a aplicar, pero independientemente se aplique un muestreo probabilístico o no probabilístico se puede diseñar la muestra en base al muestreo probabilístico, pues así tendremos mayor control y podemos recorrer la mayor parte de la población con la muestra. Ya definimos anteriormente los tipos de muestreo que existen, en este apartado nos centraremos en la posible implementación del muestreo y la determinación del tamaño muestral necesario.

Muestreo Aleatorio Simple.

Ya que este es el más simple de los muestreos la selección de las unidades que conformarán la muestra se realiza mediante un mecanismo justo de azar, es decir, una vez tengamos el marco muestral, se etiquetan todos los elementos en forma ascendente hasta cubrir el tamaño de la población N, y a continuación se selecciona, sin reemplazamiento, una cantidad n de números aleatorios que pertenezcan al intervalo (1, N). Esta selección se puede realizar mediante una tabla de números aleatorios o algún software que permita listar una cantidad dada de números, incluso hay software estadísticos que, mediante los parámetros de la muestra que se va a seleccionar, devuelve como salida la muestra en sí.

La determinación de n0 dependerá de conocimientos anteriores que se tengan sobre a investigación, es decir, si en investigaciones anteriores se pudo estimar la variabilidad de la variable y del estimador, o si en caso contrario no tenemos esa información, entonces nos remitimos a la variabilidad máxima que se quiere alcanzar, tanto en el estimador como en la variable. Es importante destacar que si estamos en este último caso se ha de tener un conocimiento teórico profundo sobre el fenómeno para que la fijación de estos valores, que se realizarán en términos de variación relativa (coeficiente de variación) sean coherentes. Cabe destacar que la determinación del tamaño muestral es más efectiva cuando se conocen los valores que cuando se fijan, por lo que es conveniente utilizar la fijación de la variabilidad cómo último recurso, más que por rapidez o comodidad.

En el caso de que más de una variable esté involucrada en la investigación, tomamos los valores correspondientes a la variable de mayor variabilidad, es decir, buscando la información, o fijando la variabilidad, utilizaremos en la fórmula la variación correspondiente al mayor valor obtenido entre todas las variables investigadas.

Material Bioestadística Prof. Joana Martín Rojo130

Page 136: Material Bioestadística 2013

Para cada uno de los casos enumerados el tamaño de muestra inicial se determina según alguna de estas fórmulas:

donde: n0=

S2

V 2

o n0=

C2

CV 2

Siendo S2: la varianza máxima de la variable V (Y )

V2: la Variación Máxima del Estimador V ( Y )

C: el coeficiente de variación máximo que tendremos de la variable CV (Y )

CV: el coeficiente de variación máximo que tendremos del estimador CV ( Y )

En el caso que la relación

n0

Nsea despreciable25, este es nuestro

tamaño de muestran en caso contrario utilizaremos el siguiente ajuste:

n=n0

1+n0

N

Muestreo Estratificado

En este caso la selección se realiza dentro de cada estrato, por lo que se ha de aplicar el mecanismo justo de azar tantas veces como estratos tenga la población. Si se realiza mediante la selección de números aleatorios, el intervalo de variación de estos números deberá ir desde 1 hasta el máximo de cada uno de los tamaños de los estratos, es decir (1,Nh), Nh: tamaño del h-ésimo estrato, para h= 1, 2, …, k, k: número de estratos en los que se dividió la población. En palabras más sencillas,

25 Se puede tomar como referencia básica que el tamaño de muestra en poblaciones pequeñas no supere el 10%, y en poblaciones grandes el 1%

Material Bioestadística Prof. Joana Martín Rojo131

Page 137: Material Bioestadística 2013

sería como aplicar una selección aleatoria simple dentro de cada uno de los estratos.

El tamaño de muestra asociado sigue los principios del anterior, en cuanto a la fijación u obtención de la variabilidad involucrada en el cálculo, por lo que no repetiremos los principios y explicaremos las fórmulas asociadas:

Según la Afijación de la muestra tendremos

Afiación Igual:

En este caso se considera que todos los estratos tendrán el mismo peso en la muestra, calculándose su tamaño mediante la propuesta de Muestreo Aleatorio Simple, los tamaños de los estratos serán: n1=n2=…

=nk, es decir nh=

nk

Afijación Proporcional:

Se calcula el tamaño de la muestra según la fórmula para aleatorio simple, pero se asignarán los tamaños de los estratos con la siguiente proposición:

nk=nN h

N=W hn

siendo Nh el tamaño del h-ésimo estrato a nivel poblacional, nh el

tamaño de la muestra de éste y Wh el peso del estrato, es decir

NhN

Afiación de Neyman:

En esta afijación se satisface la condición que la varianza del estimador es la menor que con cualquier otro estimador. Se calcula el tamaño de muestra inicial según Muestreo Aleatorio Simple y luego se calculan los tamaños de los estratos según:

Material Bioestadística Prof. Joana Martín Rojo132

Page 138: Material Bioestadística 2013

nn=n( Nh Sh

∑h=1

k

N hSh )Donde

Nh es el tamaño del h-ésimo estrato

Sh es la varianza del h-ésimo estrato

nh es el tamaño del h-ésimo estrato

Afiación Óptima:

Este tipo de Afijación se utiliza cuando el tamaño de la muestra depende tanto de la varianza de los estimadores como del costo del estudio.

Si definimos el costo del estudio cómo

C=C0+∑h=1

k

ch n

Con C0: Costo fijo

ch: costo de incluir una unidad adicional en el estrato h, h=1, 2, …, k+

se puede determinar el tamaño del estrato según el siguiente planteamiento:

nh=

n( Nh Sh√ch )∑h=1

k

( Nh Sh√ch )siendo el tamaño de muestra:

n=

(C−Co )∑h=1

k

( Nh Sh√ch )∑h=1

k

(Nh Sh√ch )

Material Bioestadística Prof. Joana Martín Rojo133

Page 139: Material Bioestadística 2013

Donde

Nh es el tamaño del h-ésimo estrato

Sh es la varianza del h-ésimo estrato

nh es el tamaño del h-ésimo estrato

ch: costo de incluir una unidad adicional en el estrato h

Muestreo Sistemático

En el muestreo sistemático es recomendable seguir los siguientes pasos:

i. Ordenamiento del marco muestral: El orden del marco muestral se debe hacer según alguna de las variables en el estudio, o alguna variable altamente relacionada con éstas. Esto es con el objetivo que la selección de la muestra recorra todo el marco recogiendo elementos diferentes en la selección. El orden se recomienda se realice de manera ascendente o descendente. Una vez etiquetados todos los elementos en el marco muestral se procede al siguiente paso.

ii. Selección del Salto aleatorio: el salto aleatorio k=N

n es conveniente que sea un numero entero que provenga de la división exacta del tamaño de la población entre el tamaño de muestra. Si este no es el caso, se puede ampliar la muestra con este objetivo, o aplicar metodologías de selección con saltos no enteros26.

iii. Selección de los elementos en la muestra: Una vez tengamos el Marco ordenado y el salto, procedemos a establecer un arranque aleatorio mediante un mecanismo justo de azar, esto es seleccionar aleatoriamente un número entre 1 y k, este número identifica al primer elemento en la muestra, luego se van realizando los saltos en el ordenamiento seleccionando 1 de cada k elementos, es decir seleccionamos el elemento j (resultante de la selección aleatoria entre 1 y k), luego seleccionaremos el elemento j+k, j+2k, j+3k, y así sucesivamente hasta que se complete el recorrido del marco muestral.

La selección del tamaño de la muestra se realiza mediante la metodología del Muestreo Aleatorio Simple.

26 Estas metodologías no se estudiarán en este curso

Material Bioestadística Prof. Joana Martín Rojo134

Page 140: Material Bioestadística 2013

Muestreo por Conglomerados

Para poder realizar una selección de conglomerados se debe tener en cuenta que éstos deben estar claramente definidos en la población, por lo tanto el tamaño de los conglomerados es conocido. Cabe recordar que la conformación de conglomerados se debe realizar de manera que ellos sean iguales de conglomerado a conglomerado, pero internamente deben ser lo más heterogéneos posible.

Como conocemos el tamaño de cada conglomerado en la población, obtenemos un tamaño de muestra inicial mediante la metodología del Muestreo Aleatorio Simple, luego, este tamaño de muestra se debe seleccionar el conglomerados, esto es, debemos seleccionar una

cantidad m de conglomerados tal que n= m∗∑

h=1

m

Mh

, siendo Mh el tamaño de los conglomerados. Nuestro tamaño de muestra no variará si m es entero, en caso contrario m se llevará al número entero inmediato superior y obtendremos un tamaño de muestra mayor al planteado inicialmente.

Si dependemos de los costos la cantidad de los conglomerados a

seleccionar se puede determinar mediante la proposición m=C

c , siendo C el costo Global del estudio y c el costo de cada conglomerado.

La selección de los conglomerados que participarán en la muestra se debe realizar aleatoriamente, podemos, por ejemplo, listar los conglomerados y seleccionar m de los k conglomerados mediante números aleatorios.

Investigación Descriptiva

En este caso las Técnicas Estadísticas son similares al anterior, tomando como primer paso una exploración de los datos, pero posteriormente aplicando una batería de Técnicas Estadísticas, entre las cuales destacan:

Intervalos de Confianza y Contrastes de Hipótesis Paramétricos (Contrastes de Medias, Proporciones, Varianzas, Diferencias de Medias, ANOVA, etc.)

Contrastes No paramétricos (Test de rachas, Test de D'Agostino, Equidistribución de dos poblaciones, Contraste de Mann—Withney,

Material Bioestadística Prof. Joana Martín Rojo135

Page 141: Material Bioestadística 2013

Contraste de Wilcoxon para muestras apareadas, Contraste de Kruskal-Wallis, etc.)

Contrastes sobre medidas de Correlación y Coeficientes de Modelos de Regresión (bivariantes o multivariantes)

Técnicas Multivariantes tales como: Regresión Múltiple, Análisis de Componentes Principales, Análisis de Correspondencias Múltiples, Análisis de Segmentación, Análisis Cluster, Análisis Discriminante, Análisis Factorial, etc.

Diseño de la Muestra

El Diseño de la Muestra se realizará bajo la misma metodología que para la Investigación Exploratoria.

Investigación Cualitativa (Técnicas de Investigación No Paramétrica)

La Investigación Cualitativa que tomaremos en cuenta en este caso es basada en las Técnicas Estadísticas No Paramétricas y Técnicas Estadísticas para Variables Cualitativas, aunque todas estas técnicas pueden ser aplicadas en variables cuantitativas. Empecemos con técnicas de Contrastes de Hipótesis No Paramétricos.

Pruebas No Paramétricas

Las pruebas No Paramétricas se aplican en los casos en los que se desconoce la distribución probabilística de la población de la cual proviene la muestra que se está estudiando, dependiendo de los objetivos del estudio y lo que se requiere hacer existe una gran batería de pruebas que veremos en esta sección, pero primero veamos las ventajas y desventajas de la aplicación de este tipo de pruebas.

Ventajas:

No requieren suposiciones sobre la distribución de la población

En general son más fáciles de aplicar

En algunos casos no requieren el ordenamiento o clasificación formal

Desventajas:

Ignoran cierta cantidad de información

Material Bioestadística Prof. Joana Martín Rojo136

Page 142: Material Bioestadística 2013

Pueden no ser tan eficientes o potentes como las pruebas paramétricas

Test de Rachas o test de independencia de las observaciones de una muestra

Cuando se realiza un muestreo, la selección puede llegar a influir el orden temporal o espacial en que las muestras han sido elegidas, lo que lleva a que la muestra en realidad no sea aleatoria.

Para comprobar la aleatoriedad de la muestra utilizamos el test de Rachas, quedando como hipótesis de contraste que la muestra es aleatoria vs que no o es.

Una vez obtenida la muestra se dividirá en dos partes aproximadamente iguales, que vienen definidas por encontrarse por debajo (n1 elementos) o por encima de la mediana(n2 elementos). Los individuos que se ubicaron por debajo de la mediana se etiquetarán de una manera y los que están por encima de otra, el uso más común es de utilizar los símbolos + y – o utilizar los números 1 y 2 o 0 y 1. Luego de tener todos

Material Bioestadística Prof. Joana Martín Rojo137

Page 143: Material Bioestadística 2013

los individuos de la muestra etiquetados se ordenan bajo el mismo orden en el que fueron obtenidos y se procede a contar las rachas que se presentan, es decir cuantos símbolos iguales son consecutivos, este conteo se denominará R.

Cuando el tamaño de la muestra es mayor que 30 podemos aproximar la distribución de R a una Normal tipificada de parámetros:

μR=2n1n2

n1+n2

+1 y σ R

2=2n1n2 (2n1n2−nº−n2)(n1+n2)2 (n1+n2−1 )

Por lo que el estadístico de contraste será:

ZR=R−μRσ R

Que se compara con los percentiles de una normal tipificada

Contraste de Bondad de Ajuste

Existen muchos contrastes no paramétricos sobre la bondad del ajuste a una distribución normal. En la mayoría de los casos estos contrastes son válidos para contrastar si una muestra sigue una determinada función de distribución (no solo la normal). Los los más utilizados: contraste chi-cuadrado, contraste de Kolmogorov-Smirnov (Lilliefors), y el contraste de asimetría y curtosis.

Contraste chi-cuadrado de Pearson.

El test chi-cuadrado es un contraste general de bondad de ajuste de una distribución y, en particular, puede utilizarse para contrastar la normalidad de una muestra. El contraste de hipótesis a realizar es:

H0: La distribución de los Datos sigue una Distribución Normal27

VsHa: La distribución de los Datos no sigue una Distribución Normal28

El estadístico de Contratse propuesto por Pearson compara las frecuencias observadas (oi) con las frecuencias esperadas (ei), en base a la distribución de probabilidad especificada.

27 O cualquier distribución correspondiente que se quiera contrastar

28 O la planteada en la Hipótesis Nula

Material Bioestadística Prof. Joana Martín Rojo138

Page 144: Material Bioestadística 2013

Formalmente, para una variable discreta con k modalidades o una variable continua con k intervalos de clase, el contraste es el siguiente:

Q=∑i=1

k (oi−e i )2

e i

Este estadístico se distribuye como una chi-cuadrado con k - 1 grados de libertad (k - 1), por lo que se comparará con el correspondiente percentil para Rechazar o no la Hipótesis Nula.

Nota:

La base de este contraste es la comparación del histograma de frecuencias relativo de la muestra con La distribución de probabilidad teórica. Es válido para distribuciones discretas y continuas.

Si se debes estimar los parámetros de la distribución que qieremos contrastar, esto traerá como consecuencia la reducción de los grados de libertad en el contraste de Bondad de Ajuste, reduciéndose a k – q, siendo q el número de parámetros que se han de estimar antes de la prueba, esto quiere decir que en vez de contrastar con una k - 1 lo haremos con una k – q.

Si la variable en estudio es continua es usual utilizar este contraste haciendo intervalos de clase. Lo que trae como consecuencia la posible subjetividad en la elección de los mismos, así como también que el resultado del test puede variar al variar la amplitud de los intervalos

Contraste de Kolmogoroff-Smirnoff

Este contraste es para distribuciones continuas. como primer paso definimos la función de distribución empírica29 Fnde la muestra x1, x2, …, xn

29 La Función de Distribución Empírica (Fn) es una función escalonada y no decreciente, construida a partir de la muestra, de manera que en cada observación muestral la función da un salto de magnitud igual a la fracción de datos iguales a ese valor (cuando no hay repeticiones se trata de saltos de amplitud 1/n).

Material Bioestadística Prof. Joana Martín Rojo139

Page 145: Material Bioestadística 2013

Para calcular Fn, se ordena la muestra de menor a mayor se define la Función de Distribución Empírica como

0 si x<x(1)

Fn(x) =

card (x j≤ x )n si

x(1)≤x≤x(i+1) i=1 ,. . ., n−1

1 si x(n )≤x

donde card ( x j≤x ) es el número de observaciones muestrales menores o iguales que x.

El test de Kolmogoroff-Smirnoff-Lilliefors para normalidad (contraste KSL)

En la mayoría de los casos al utilizar el estadístico de Kolmogorov-Smirnov es necesario estimar los parámetros desconocidos que caracterizan a la distribución teórica. Si la distribución que se desea ajustar es una normal, hay que estimar la media y la desviación típica. El estadístico Dn representa la máxima discrepancia, en vertical, entre la función de distribución empírica y la función de distribución de la normal ajustada (esto es, de la normal con media y varianza estimadas). La distribución de este estadístico fue tabulada por Lilliefors (contraste K-S-L) y, por tanto, es con respecto a esta tabulación (y no con respecto a la tabla de Kolmogoroff-Smirnoff) como se debe juzgar la significación del valor obtenido para este estadístico.

Prueba U de Mann-Whitney

Esta prueba contrasta si dos muestras provienen de la misma población y es una alternativa para la prueba t para medias con muestras pequeñas. La prueba se usa cuando no se puede verificar la suposición de igualdad de varianza en dos poblaciones cuya distribución es normal.

El procedimiento a utilizar es asignar rangos a los datos como si los valores en ambas muestras pertenecieran todos a un solo grupo. El valor

Material Bioestadística Prof. Joana Martín Rojo140

Page 146: Material Bioestadística 2013

mas pequeño se asigna al rango 1 , el siguiente valor mas pequeño al rango 2, etc30.

Si las medias de las dos poblaciones son iguales, los rangos altos y bajos deben tener una distribución bastante pareja en las dos muestras. Si las medias no son iguales, una muestra tendera a tener rangos mas altos o mas bajos que la otra. El análisis se concentra en la suma de los rangos de una de las muestras y la compara con la suma que se esperaría si las medias de la población fueran iguales.

Para realizar el contraste se utiliza el estadístico U de Mann-Whitney:

U1=R1−n1 (n1+1 )

2 y U2=R2−

n2 (n2+1 )2

o por otra expresión equivalente

U1=n1n2−n1 (n1+1 )

2 y U2=n1 n2−

n2(n2+1 )2

donden1 y n2 son el tamaño respectivo de cada muestra; R1 y R2 es la suma de los rangos en la muestra 1 y 2.

De entre los valores U1 y U2, tomará el valor del estadístico U el mínimo valor de entre ambos.

Para una muestra combinada de 20 o menos, se usan tablas especiales para probar la hipótesis nula de los dos grupos; estas tablas se encuentran en libros especializados en métodos no parametricos. Si la muestra combinada es mayor que 20, se ha demostrado que la curva normal es una buena aproximación de la distribución muestral..

La aproximación a la normal, z, cuando tenemos muestras lo suficientemente grandes viene dada por la expresión:

Z=U−μUσU

Donde:

μU=n1n2

2

30 Esto se realiza sin importar a que muestra pertenece el elemento

Material Bioestadística Prof. Joana Martín Rojo141

Page 147: Material Bioestadística 2013

σU=√ n1 n2 (n1+n2+1 )12

Los cálculos tienen que tener en cuenta la presencia de observaciones idénticas a la hora de ordenarlas. No obstante, si su número es pequeño, se puede ignorar esa circunstancia.

Prueba de Homogeneidad

Es una prueba aplicada para contrastar si dos muestras provienen de poblaciones con la misma distribución

Partiendo de la siguiente tabla:

Evento A1 A2 … An

Frecuencia Observada

X1 X2 … Xn

Frecuencia Esperada

np1 np2 … npn

Donde la Frecuencia Esperada es igual al número total de observaciones ponderado por la probabilidad de ocurrencia del evento en la distribución.

El Estadístico de Contraste Viene dado por:

Y la regla de decisión es igual que en el caso de las pruebas paramétricas

Medidas de Asociación o Efecto

Las Medidas de Asociación o Efecto son aquellas que se usan para evaluar la asociación entre un evento y un factor en estudio, éstas comparan medidas de frecuencia del evento entre dos o más grupos, grupos formados por las categorías del factor.

Material Bioestadística Prof. Joana Martín Rojo142

χ2=∑j

(x j−np j )2

np j

Page 148: Material Bioestadística 2013

Riesgo Relativo (ODD)

El Riesgo Relativo es la probabilidad de ocurrencia de un evento, más específicamente en el área de epidemiología se define el riesgo como la probabilidad de que un individuo, libre de enfermedad y susceptible de ella, la desarrolle en un periodo determinado, condicionada a que el individuo no muera a causa de otra enfermedad durante el periodo.

En la siguiente tabla se presenta la base para el cálculos de Riesgos Relativos o RR, partiendo de las filas donde recuentan las personas enfermas y sanas, o enfermas y no enfermas, o pertenecientes al grupo de riesgo y fuera de este, y en columnas se presenta la existencia o no de un factor, el cual puede ser un estímulo, condición natural de la persona, etc.

F F Total

E X11 X12 X1.

E X21 X22 X2.

Total X.1 X.2 X..

Donde:

E simboliza a los Enfermos y Ea los no enfermos o sanos

F simboliza la presencia del factor o estímulo y F la ausencia de este

Xij simboliza el total de individuos que presentan la categoría i de enfermedad y j del factor

X.j representa el total de individuos en la categoría j del factor, Xi.el total de individuos en la categoría i de la enfermedad y X.. es el total de individuos

A partir de la tabla se puede construir el indicador de Riesgo Relativo RR

R R=R1

R0

=

X12

X .2X11

X .1

Propiedades

no tiene dimensiones.

Material Bioestadística Prof. Joana Martín Rojo143

Page 149: Material Bioestadística 2013

RR > 0 pero no tiene cota superior, es decir no tiene un número máximo

RR=1 si no hay asociación entre la presencia del factor y el evento.

RR >1 si la asociación es positiva, es decir si la presencia del factor se asocia a mayor ocurrencia del evento y RR < 1 si la asociación es negativa.

ODDS RATIO o OR - Razón de desventajas, Razón de Odds o Razón de Productos cruzados

Otra manera de representar la probabilidad de ocurrencia de un evento es mediante el cociente de dos ODDS, es decir el cociente entre el ODDS en el grupo con el factor y el ODDS en el grupo sin el factor.

A partir de la misma tabla anterior vemos el planteamiento matemático para el cálculo del OR

O R=ODDSFODSS F

=

R1

1−R1

R0

1−Ro

=

X12

X .2X 22

X .2X11

X .1X 21

X .1

=X 12∗X21

X11∗X22

Propiedades

no tiene dimensiones.

RR > 0 pero no tiene cota superior, es deir no tiene un número máximo

RR=1 si no hay asociación entre la presencia del factor y el evento.

Material Bioestadística Prof. Joana Martín Rojo144

Page 150: Material Bioestadística 2013

RR >1 si la asociación es positiva, es decir si la presencia del factor se asocia a mayor ocurrencia del evento y RR < 1 si la asociación es negativa.

Relaciones entre el OR y el RR

OR se puede estimar siempre y de la misma forma; el RR no se puede en los diseños con casos control.

Cuando el riesgo es bajo, son muy parecidos, pero el RR siempre es de menor magnitud que el OR

Intervalos de Confianza Para Riesgo Relativo y ODDS Ratio

Intervalo de Confianza para el Riesgo Relativo

IC(1−α )% RR=R R∗e ±Zα √1−R1

X12

+1−R0

X 11 ¿ ¿

Intervalo de Confianza para el ODDS Ratio

IC(1−α )%OR=O R∗e±Zα √ 1

X11

+ 1X 12

+ 1X21

+ 1X22

En ambos casos e es la base del logaritmo neperiano y es igual a la constante e = 2,718281828459

Investigación Causal

Las investigaciones causales buscan explicar una variable en términos de otra, en estadística este problema se resuelve mediante una técnica estadística denominada Diseño de Experimentos, lo que puede definirse como el proceso de Diseñar y Analizar experimentos de manera de, toando en cuenta factores que influyan en el fenómeno, que los factores sean inherentes o no al experimento. Es decir, buscar un diseño que haga que determinados factores no influencien y que el investigador sea capaz de establecer los otros que influyen y de que manera lo hacen.

Material Bioestadística Prof. Joana Martín Rojo145

Page 151: Material Bioestadística 2013

La metodología del Diseño de Experimentos estudia las variaciones en las condiciones habituales de realización de un proceso empírico, para estudiar y detectar los cambios significativos en la respuesta. El objetivo de esta metodología en determinar si los factores, y cuales de ellos, influyen en la variable de interés.

Antes de explicar distintos tipos de diseños básicos veamos las definiciones básicas que hemos de manejar en el área de Diseño de Experimentos Comparativos.

Definiciones Básicas de Diseño Estadístico de Experimentos (DE)

Unidad Experimental

Es la parte más pequeña del material experimental para la que se cumple que dos unidades experimentales distintas pueden recibir dos tratamientos diferentes. Es decir las unidades a las que se les aplican los tratamientos.

Variables que Participan en el DE31

Variables Respuesta o Explicativas

Se refiere a aquellas variables que expresarán los objetivos del diseño, o también al criterio según el cual se comparan los tratamientos

Variables Controladas

Son aquellas variables extrañas que pueden afectar el fenómeno bajo estudio y que están efectivamente controladas en la planificación de diseño o en el análisis experimental.

Variables Controladas

Son las variables extrañas que pueden afectar el fenómeno bajo estudio, e incluso confundirse con la variable respuesta y que el experimentador no logra controlar antes de iniciar el experimento.

31 Tomado del “Diseño Estadístico para la Investigación” Leslie Kish, Centro de Investigaciones Sociológicas, Madrid 1995

Material Bioestadística Prof. Joana Martín Rojo146

Page 152: Material Bioestadística 2013

Variables Controladas

Son aquellas Variables extrañas que pueden afectar el fenómeno bajo estudio y que están efectivamente controladas en la planificación del diseño o en el análisis de los datos

Variables Perturbadoras

Son las variables extrañas que pueden afectar al fenómeno bajo estudio, en incluso confundirse con la variable respuesta y que el experimentador no logra controlar antes de iniciar el experimento.

Variables Aleatorizadas

Son variables extrañas no controladas por el experimentador que se tratan como errores aleatorios.

Nota:

En un experimento Ideal sólo participan las variables Explicativas, Controladas y Aleatorizadas.

Error Experimental

El error experimental es la variación incontrolable presente en el experimento, manifestado en la incapacidad de las unidades experimentales de producir los mismos resultados bajo condiciones idénticas e independientes (este error es irreductible, pero uno de los objetivos básicos del DE es estimarlo y minimizarlo)

Principales Fuentes del Error Experimental

Error de Medición

Error de Tratamiento

Error de la Unidad Experimental

Error de Muestreo

Material Bioestadística Prof. Joana Martín Rojo147

Page 153: Material Bioestadística 2013

Factor

Son las variables independientes que pueden influir en la variable respuesta de interés.

Factor de Tratamiento

Es un factor del que interesa conocer su influencia en la respuesta

Factor de Bloque

Es u factor en el que no se está interesado en conocer su influencia en la respuesta, pero se supone que ésta existe y se requiere controlar para disminuir la variabilidad residual

Niveles

Cada uno de los resultados de un factor. Según sean elegidos por el experimentador o elegidos al azar de una amplia población se denominan factores de “Factores de Efectos Fijos” o “Factores de Efectos Aleatorios”.

Tratamientos

Son procedimientos que se aplican a las unidades experimentales con el fin de establecer si son equivalentes en términos estadísticos. También pueden definirse como una combinación específica de los niveles de los factores en estudio, Son por tanto, las condiciones experimentales que se desean comparar en el experimento. En un diseño con un único factor son los distintos niveles del factor y en un diseño con varios factores son las distintas combinaciones de niveles de los factores

Observación Experimental

Es cada medición de la Variable Respuesta

Tamaño del Experimento

Es el número total de observaciones recogidas en el diseño.

Principios Básicos del DE

Material Bioestadística Prof. Joana Martín Rojo148

Replicación

AleatorizaciónBloqueo

Reducción delError Experimental

Estimación Válida delError Experimental

Replicación

AleatorizaciónBloqueo

Reducción delError Experimental

Estimación Válida delError Experimental

Page 154: Material Bioestadística 2013

Replicación

Trata de Repetir o Replicar el experimento que se está realizando, un número dado de veces, y procurando, en las mismas condiciones.

Aleatorización

Se hacen las corridas aleatoriamente, de manera de asegurar que los resultados del experimento se deben a los factores que nos interesan como influenciantes y no a fallas o a cualquier factor externo.

La aleatorización se aplica para garantizar que el proceso no influencia, debido a factores extraños, el resultado del experimento

Bloqueo

Garantiza que ciertos factores extraños (previamente identificados) no tengan influencia en el proceso. El bloqueo es de alguna manera agrupar o crear agrupaciones o bloques según algún factor que se cree que tiene injerencia en el proceso.

Nota:

En todo diseño de experimentos deben estar al menos dos de los tres principios.

Etapas de Planificación de un DE

Definir los Objetivos del Experimento

Material Bioestadística Prof. Joana Martín Rojo149

Page 155: Material Bioestadística 2013

Identificar todas las posibles fuentes de variación

Factores de Tratamientos y sus Niveles

Unidades Experimentales

Factores “nuisance ” (molestos): Factores Bloque, Factores ruido y covariables

Elegir una regla de asignación de las unidades experimentales a las condiciones de estudio (tratamientos).

Especificar la unidad de medida y tipo de medición a aplicar a la variable respuesta, el procedimiento experimental y anticiparse a las posibles dificultades.

Realizar un experimento Piloto.

Especificar el Modelo.

Esquematizar los pasos del Análisis.

Determinar el Tamaño Muestral.

Tipos de Diseño de Experimentos

Diseño Completamente Aleatorizado (DCA)

Este diseño consiste en aplicar los t tratamientos en las N unidades experimentales, aplicando el principio de aleatorización. El DCA presenta las siguientes características:

Diseño para experimentos comparativos de un solo factor

No se conocen factores perturbadores

t niveles de factores y por lo tanto t tratamientos

r replicaciones para cada tratamiento

Asignación aleatoria de tratamientos a unidades experimentales sin restricciones.

Diseño en Bloques (DBCA)

Análogo al diseño anterior, pero en este caso las unidades experimentales se dividen en Bloques, formados según alguna variable

Material Bioestadística Prof. Joana Martín Rojo150

Page 156: Material Bioestadística 2013

perturbadora, y los tratamientos se aplican en cada bloque. En este caso la variable perturbadora es única, si se tiene más de una se utiliza otro diseño.

Diseño en Cuadrados Latinos (DCL)

Se trata de controlar fuentes de perturbación de manera ortogonal. Uno de los factores se controla por filas y el otro por columnas

Diseño en Cuadrados Greco-Latinos (DCGL)

En lugar de controlas dos variables perturbadoras se controlas tres variables perturbadoras

Diseño Factoriales (DFCA)

En este caso se desean comparar varios conjuntos de tratamientos, es decir la investigación de varios factores explicativos sobre variables respuesta. Los niveles de los factores puede ser cualitativos, cuantitativos o ambos.

Material Bioestadística Prof. Joana Martín Rojo151

Page 157: Material Bioestadística 2013

Material Bioestadística Prof. Joana Martín Rojo152