Bioestadística - Universidad Abierta y a Distancia de México

of 39/39
0 Bioestadística Unidad 2 Herramientas bioestadísticas para la toma de decisiones Programa desarrollado Sexto Semestre 31153636
  • date post

    10-Nov-2021
  • Category

    Documents

  • view

    1
  • download

    0

Embed Size (px)

Transcript of Bioestadística - Universidad Abierta y a Distancia de México

Programa desarrollado
Sexto Semestre
1
Programa desarrollado
Herramientas bioestadísticas
Universidad Abierta y a Distancia de México | DCSBA
2
Contenido
2.1.1 Características de un buen Estimador ............................................................ 4
2.1.2. ¿Qué es un intervalo de confianza y cuál es su utilidad? ............................... 5
2.1.3. Intervalo de confianza para la media de una población ................................. 5
2.1.4. La distribución de T de Student ..................................................................... 7
2.1.5. Intervalo de confianza para la diferencia entre dos medias poblacionales ... 10
2.1.6. Intervalo de confianza para la proporción de una población ........................ 10
2.1.7. Intervalo de confianza para la diferencia entre las proporciones de dos
poblaciones ........................................................................................................... 10
2.2.1. Introducción y conceptos básicos ................................................................ 17
2.4 Correlación y regresión .............................................................................................. 19
2.4.1. Relación entre correlación y regresión lineal ................................................ 19
2.4.2. Correlación .................................................................................................. 20
2.4.3. Regresión .................................................................................................... 28
Fuentes de consulta ........................................................................................................ 33
Apéndice de valores críticos de la distribución normal ..................................................... 37
Apéndice de valores críticos de la distribución t ............................................................... 38
Universidad Abierta y a Distancia de México | DCSBA
3
2.1 Estimación
La “Estadística se ocupa de la recolección, agrupación, presentación, análisis e
interpretación de datos. Es un método científico que pretende sacar conclusiones a partir
de observaciones hechas. La Estadística actúa como puente entre los modelos
matemáticos y los fenómenos reales; y proporciona una metodología para evaluar y
juzgar estas discrepancias entre la realidad y la teoría” (Grané, s.f.).
La estadística como herramienta analiza o procesa conjuntos de datos numéricos, estudia
las funciones decisorias estadísticas, fenómenos conjuntos para revelar los fundamentos
de su desarrollo y para tal estudio se sirve de índices generalizadores (valores, medios,
relaciones, porcentajes, etcétera.). Además, auxilia a:
La colecta y compilación de datos.
El diseño de experimentos.
La medición de la valoración, tanto de datos experimentales como de reconocimientos y
detección de causas.
El control de la calidad de la producción.
La determinación de parámetros de población y suministro de varias medidas de la
exactitud y precisión de esas estimaciones.
La estimación de cualidades humanas.
La investigación de mercados, incluyendo escrutinios de opiniones emitidas.
El ensayo de hipótesis respecto a poblaciones.
El estudio de la relación entre dos o más variables” (Badii, Castillo, Landeros y Cortez,
2007).
No existe investigación formal y sólida, sin que la estadística no intervenga; “La
estadística no puede ser ignorada por ningún investigador, aun cuando no tenga ocasión
de emplear la estadística aplicada en todos sus detalles y ramificaciones” (Badii y col.,
2007). De este modo, el papel de la estadística en la investigación es fundamental para el
análisis de datos, con ellos se llega a conclusiones verificables y de las cuales depende la
toma de decisiones.
4
2.1.1 Características de un buen Estimador
El objetivo de la estadística es obtener inferencias con respecto a la población, esto se
puede realizar utilizándose información obtenida en una muestra de tal población.
Recordemos que las poblaciones se describen mediante medidas numéricas
denominadas parámetros, que ayudan a deducir una inferencia con respecto a uno o más
parámetros de la población.
La inferencia estadística se sustenta a través de la probabilidad, por ejemplo, la media
muestral permite hacer inferencias sobre la media de la población. A ciencia cierta, la
diferencia entre ambas medias (media muestral y media poblacional) es desconocida, ya
que la media poblacional es desconocida en su mayoría.
Las investigaciones que emplean la inferencia estadística pueden ser de dos tipos: los de
estimación y de prueba de hipótesis. Como al estimar un parámetro poblacional
desconocido se suele hacer una afirmación o juicio, este último ofrece solamente una
estimación. Es un valor particular obtenido de observaciones de la muestra, es importante
no confundir este concepto con el de estimador, que se refiere al método de estimar un
parámetro poblacional (Berlanga, s.f.).
Un estimador es un estadístico, es decir una función de la muestra, que es utilizado para
estimar un parámetro desconocido de la población; el estimador debe cumplir con algunos
requisitos, y su valor calculado proporciona una estimación puntual del valor del
parámetro en estudio. De acuerdo con Course Hero (s.f.). Dentro de las características
deseables de un estimador se encuentran:
Debe ser insesgado, esto significa que en promedio tiende a tomar valores que están
por encima de parámetro de la población con la misma frecuencia y la misma extensión
con la que tiende a asumir valores por debajo del parámetro de población que se está
estimando. Es decir, si su sesgo es igual a cero: [] =
Debe ser eficiente, de varios estimadores insesgados, el más eficiente es el que tiene el
error estándar más pequeño.
Debe ser consistente: significa que a medida que aumenta el tamaño de la muestra, la
estimación se aproxima al valor del parámetro, de ahí la importancia de tener un tamaño
de muestra suficientemente grande para que el valor del estadístico sea lo más cercano a
la realidad y valor del parámetro de la población.
Debe ser suficiente: significa que ningún otro estimador puede suministrar más
información sobre el parámetro
Al cumplirse estas características se dan argumentos de robustez del estimador
estadístico que se está calculando.
Universidad Abierta y a Distancia de México | DCSBA
5
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Es importante señalar que para el cálculo de los estimadores se considera que la
precisión de éste incrementa conforme se tienen muestras más grandes, sin embargo, no
hay razón para esperar que la estimación puntual de una muestra dada deba ser
exactamente igual al parámetro poblacional que se supone estima. Por eso, hay
situaciones en las cuales es preferible determinar un intervalo dentro del cual se esperaría
encontrar el valor del parámetro, a esto se le conoce como estimación por intervalos y el
intervalo se denomina Intervalo de Confianza, tema que revisarás a continuación.
2.1.2. ¿Qué es un intervalo de confianza y cuál es su utilidad?
Los Intervalos del Confianza son intervalos aleatorios obtenidos a partir de los datos y en
los cuales hay un grado de confianza prefijado (medido en %) de que dicho intervalo
contenga al verdadero valor del parámetro que se quiere estimar.
El grado de confianza se denomina nivel de confianza y se lo denota como 100(1-α)%,
donde α se considera a menudo como la probabilidad de cometer un error, ya que indica
la proporción de veces en que uno se equivoca o comete un error al suponer que el
intervalo contiene al parámetro poblacional. Usualmente el valor de α es 5; y se fija en el
95%, lo que llevaría a establecer que en promedio sólo en el 5% de los casos se
cometería error al suponer que el intervalo contiene al verdadero valor del parámetro.
2.1.3. Intervalo de confianza para la media de una población
El intervalo de confianza, para la media poblacional, cuando se usa a la media aritmética
como estimador, es la siguiente:
Intervalo de confianza (IC) ±

Para comprender mejor, veamos el siguiente ejemplo:
Se tienen el indicador de viviendas sin drenaje a nivel estatal en el año 1990 y 2010, se
quiere saber si los estados están dentro de la media nacional o al menos dentro del
intervalo de confianza en cada año, para ello se tienen los siguientes datos (tabla 1):
Universidad Abierta y a Distancia de México | DCSBA
6
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Tabla 1. . Porcentaje de viviendas con drenaje en las 32 entidades federativas de México en 1990
y 2010.
Aguascalientes 14 2.2 Guerrero 63.3 28 Quintana Roo 41 5.9
Baja California 32.5 6.2 Hidalgo 57.6 16.5 San Luis Potosí 50.7 19.4
Baja California Sur 33.9 5.8 Jalisco 19.9 3.1 Sinaloa 45.3 9
Campeche 52.1 14.3 México 27.4 8 Sonora 34.3 9.9
Coahuila 31.2 4.4 Michoacán 45.5 14.5 Tabasco 38.3 8.2
Colima 18.7 1.3 Morelos 35.9 7.6 Tamaulipas 40.3 11.7
Chiapas 59.5 19.5 Nayarit 42.3 6.5 Tlaxcala 44.3 7.2
Chihuahua 33.2 6.7 Nuevo León 18.9 2.7 Veracruz 51.2 19.7
Ciudad de México 6.6 0.8 Oaxaca 70.1 30.2 Yucatán 52.4 19.7
Durango 45.7 11.6 Puebla 53.3 15 Zacatecas 52.4 10.9
Guanajuato 41.1 10.6 Querétaro 42 8.9
Media 40.47 10.81
n 32 32
Sd 14.64 7.27
IC ± 5.07 ± 2.52
*Los valores para la media, desviación estándar, tamaño de muestra y el intervalo de confianza
estimados con base en la fórmula ±
√ . (INEGI, Servicios y bienes en las viviendas, 2011).
Al graficar estos datos (figura 1), se puede observar que los estados que están en una
situación desfavorable con respecto al número de viviendas sin drenaje, por encima de la
media nacional son: en 1990, Campeche, Chiapas, Guerrero, Hidalgo, Oaxaca, Puebla,
San Luis potosí, Veracruz, Yucatán y Zacatecas. Mientras que, para 2010, los estados
que se encuentran fuera de los intervalos de confianza y por arriba con respecto a la
media nacional son: Campeche, Chiapas, Guerrero, Hidalgo, Michoacán, Oaxaca, Puebla,
San Luis Potosí; Veracruz y Yucatán.
En la figura 1 se puede observar el porcentaje de viviendas sin drenaje en las 32
entidades federativas de México, en 1990 (cuadro negro) con la media nacional (40.47)
línea continua azul, e intervalos de confianza al 95% línea punteada, y en 2010 (circulo)
con la media nacional (10.81) en línea continua azul, e intervalos de confianza al 95%
línea punteada azul.
7
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Figura 1. Porcentaje de viviendas sin drenaje en las 32 entidades federativas de México
De esta forma, la estimación de los intervalos de confianza son una poderosa herramienta
estadística que nos permite observar si los datos se encuentran o no dentro de la media
estimada con sus intervalos de confianza al 95%, si están por fuera de estos intervalos,
entonces se debe revisar qué está ocurriendo para que los datos no tengan un
comportamiento dentro de la tendencia general del grupo de datos.
2.1.4. La distribución de T de Student
La distribución t de Student se utiliza para pequeñas muestras, también es utilizada para
variables cualitativas, una de las condiciones que deben tener las muestras para ser
tratadas mediante esta distribución, es ser independientes, en la prueba “t” se comparan
las medias y las desviaciones estándar para determinar si las diferencias son
Po rc
en ta
je d
e vi
vi en
d as
s in
n te
s B
a ja
C o a h u ila
d e Z
D is
a to
e O
e ó n
P u e b la
Q u e ré
T a m
a u lip
la v e
n Z
8
de ambas muestras (Walpole, 2007).
Esta distribución nos permite calcular probabilidades de muestras pequeñas cuando no es
conocida la varianza, la fórmula a utilizar es la siguiente:
= −
/√
En donde:
= media muestral
Las propiedades de la distribución t son:
1. Cada curva t tienen forma de campana con centro en 0.
2. Cada curva t, está más dispersa que la curva normal estándar.
3. A medida que k aumenta, la dispersión de la curva t correspondiente disminuye.
4. A medida que k→ ∞, la secuencia de curvas t se aproxima a la curva normal estándar
Universidad Abierta y a Distancia de México | DCSBA
9
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Como ya mencionamos la prueba de T de Student se aplica cuando la población
estudiada sigue una distribución normal pero el tamaño muestral es demasiado pequeño
como para que el estadístico en el que está basada la inferencia esté normalmente
distribuido, utilizándose una estimación de la desviación típica en lugar del valor real. De
este modo, la prueba t-Student se fundamenta en dos premisas:
En la distribución de normalidad,
Las muestras sean independientes.
Esta prueba permite comparar muestras, N ≤ 30 y/o establece la diferencia entre las
medias de las muestras. El análisis matemático y estadístico de la prueba con frecuencia
se minimiza para N > 30.
Encuentre k tal que P(k < t < -1.761) = 0.045, para una muestra
aleatoria de tamaño 25 que se selecciona de una distribución normal.
Si se busca en la tabla el valor de t =1.761 con 24 (tamaño de la
muestra menos 1) grados de libertad, este valor le corresponde un
área de 0.05 a la izquierda, por ser negativo el valor. Entonces si se
resta 0.05 y 0.045 se tiene un valor de 0.005, que equivale a
α Luego se busca el valor de 0.005 en el primer renglón con 14
grados de libertad y se obtiene un valor de t = 2.977, pero como el
valor de α está en el extremo izquierdo de la curva entonces la
respuesta es t = -2.977 por lo tanto:
P(-2.977 < t < -1.761) = 0.045
De la Torre, 2003.
10
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Como se vio y utilizó en la prueba anterior, se utilizan datos de tablas para determinar si
hay o diferencias entre los comportamientos de dos fenómenos comparados; estas tablas
frecuentemente indican la probabilidad de que el resultado de nuestra prueba se
encuentre dentro de los valores reales de la población. Con respecto a la probabilidad es
importante conocer los tipos de distribuciones que esta presentan y que a continuación de
abordan en este documento.
2.1.5. Intervalo de confianza para la diferencia entre dos medias poblacionales
Frecuentemente se presentan situaciones donde se quiere conocer si el valor de la media
(promedio de las mediciones de dos fenómenos) son iguales, sobre todo cuando ambos
valores son muy cercanos, para esto es necesario demostrarlo con pruebas estadísticas
que den la certeza de las posibles diferencias significativas entre ambos valores.
2.1.6. Intervalo de confianza para la proporción de una población
2.1.7. Intervalo de confianza para la diferencia entre las proporciones de dos poblaciones
2.1.8. Tamaño de muestra
Se debe estimar el tamaño de muestra para poder calcular los estimadores de los
parámetros, en este sentido se han propuestos algunos modelos para ello.
En general se seleccionan a los sujetos siguiendo determinados criterios procurando que
la muestra sea representativa (Cuesta y Herrero, 2007). (tabla 2).
Universidad Abierta y a Distancia de México | DCSBA
11
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Tabla 2. Tipos de muestreo no probabilístico, sus ventajas y desventajas (Cuesta y Herrero, s.f.).
Aguilar Barojas (2005), indica una serie de modelos para estimar el tamaño de muestra en
investigaciones en salud, considerando que el nivel de confianza tiende a ser del 99, 95 y
90 %, lo que significa que Z en valores estimados en tablas es de 2.58, 1.96 y 1.65,
respectivamente.
Para calcular el tamaño de muestra es necesario considerar si el tamaño de la población
es desconocida o infinita 10, 000 elementos del universo; o si es finita, es decir que se
conoce el tamaño de la población, por ejemplo el tamaño de pacientes hospitalizados en
un piso de un hospital, es una población finita y se sabe cuántos pacientes hay en cada
momento; el ejemplo del tamaño de una población desconocido es el tamaño de
individuos infectados por virus de VIH, se tienen aproximaciones, pero debido a que no
todos han sido diagnosticados y en el país somos casi 124 millones de personas.
De este modo tenemos los siguientes modelos de estimación para el tamaño de muestra
para datos cuantitativos:
Modelo de la estimación del tamaño de la muestra para la población infinita o
desconocida:
2
Modelo de la estimación del tamaño de la muestra para la población finita y conocida:
Subtipo Características
Opinático o intencional
Se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos; por ejemplo son frecuentes en sondeos preelectorales de zonas que en votaciones anteriores han marcado tendencias de voto.
Causal o incidental
Es un proceso en el que el investigador selecciona directa o intencionadamente a los individuos de la población. El caso más frecuente de este procedimiento es utilizar como muestra individuos a los que se tienen fácil acceso. Por ejemplo, ver la frecuencia de pie diabético en pacientes de la consulta de Endocrinología de un hospital de tercer nivel.
Bola de nieve
En este muestreo se localiza a algunos individuos, los cuales conducen a otros, y estos a otros; y así hasta conseguir una muestra suficiente. Este tipo de muestreo se emplea frecuentemente cuando por ejemplo se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermedades, por ejemplo mal de Chagas (transmitida por mordedura de chiche parasitada con Trypanosoma cruzi), tuberculosis, VIH/SIDA.
Universidad Abierta y a Distancia de México | DCSBA
12
=
Donde:
n: tamaño de la muestra.
N: tamaño de la población
Z: valor correspondiente a la distribución de gauss, zα= 0.05 = 1.96 y Zα= 0.01 = 2.58
p: prevalencia esperada del parámetro a evaluar, en caso de desconocerse (p =0.5), que
hace mayor el tamaño de la muestra.
q: 1 – p (si p = 70 %, q = 30 %).
i: error que se prevé cometer si es del 10 %, i = 0.1
(Murray y Larry, 2005).
Para su mejor comprensión se ejemplifica cada caso:
Para población infinita, es decir que desconoce el tamaño de la población. Se necesita
estimar el tamaño de muestra de adultos mayores en una colonia popular de la Cd. de
México, de este modo se tiene:
=
Sustituyendo el modelo con datos, donde:
Z2α=1.96, es decir para tener el 95% de nivel de confianza
p: prevalencia esperada del parámetro a evaluar, en caso de desconocerse (p =0.5), que
hace mayor el tamaño de la muestra.
q: 1 – p (si p = 0.5, q = 0.5).
i2=0.12
n= 96.04
Como no existen 96.04 personas se redondea y serían 96 personas
Para población finita, es decir conocido el tamaño de la población, se presenta este
ejemplo: Se desea estimar la prevalencia de apnea del sueño en la población femenina de
la consulta de neumología de un hospital de segundo nivel, el tamaño de la población es
de 249 personas.
13
Entonces se tiene:
Z2 α=1.962
N=249
p: prevalencia esperada del parámetro a evaluar, en caso de desconocerse (p =0.5), que
hace mayor el tamaño de la muestra.
q: 1 – p (si p = 0.5, q = 0.5).
i2=0.12
= 1.962 249 0.5 0.5
0.12(249 − 1) + 1.962 0.5 0.5
n= 80.52, es decir 81 personas.
Con respecto al muestreo para datos cualitativo, para estimar el tamaño de muestra para
población finita (cuando se emplean escalas nominales, como por ejemplo, ausencia o
presencia del fenómeno a investigar, se utiliza el modelo:
= ´
1 + ´
Donde:
s2= varianza muestral
σ2= varianza poblacional
se= error estándar
14
p= porcentaje de confianza
(Murray y Larry, 2005).
Para comprender esta modelo, se ejemplifica con un estudio sobre el conocimiento que se
tiene en la población del 3er grado de 5 escuelas secundarias de la delegación Gustavo
A. Madero en la Cd. De México sobre las formas de transmisión de VIH/SIDA.
La población está formada por 1098 estudiantes, los datos con los que se cuentan es un
error estándar de 1.2% y confianza del 95%.
n=1098
El muestreo es fundamental para conocer determinadas características frecuentes dentro
de una población, estas características se denominan parámetros poblacionales. Como
ejemplos de parámetros poblacionales se tiene a la media y la proporción, y que se
denotan con μ y π, respectivamente.
Para determinar los parámetros poblacionales se requiere conocer los valores de la
variable para todos los individuos de la población, por ejemplo, para determinar el
porcentaje de mujeres en edad fértil de México, se tendría que conocer la edad de todas
ellas. Sin embargo, no siempre es posible obtener la información de todos los individuos
que componen la población por razones de costo en tiempo y dinero, y cuando eso ocurre
se hace necesario recurrir a una muestra de la población, o utilizar los datos del
porcentaje de mujeres fértiles de cada estado y después hacer los cálculos con base a los
datos de las 32 entidades federativas, tal y como se muestra en los ejemplos de la tabla 3.
Universidad Abierta y a Distancia de México | DCSBA
15
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Tabla 3. Edad en años de una muestra de los empleados de un hospital, n=60
Edad (años)
Edad (años)
Edad (años)
Edad (años)
Edad (años)
Edad (años)
Edad (años)
Edad (años)
26 35 44 55
n El tamaño de la muestra es 60, es decir el número de datos con los que se cuenta
Mediana: 53
Media aritmética para datos simples: suma de todos los datos y divididos entre el número de datos=40.43
Moda: es decir, el dato que más se repite, en este ejemplo es 26
A partir de los datos de la muestra se encontraron valores numéricos calculados con base
a los datos de la variable en una población (estadístico), es decir fue calculado con base a
los datos de la variable de la muestra y da información cercana a la realidad del
parámetro (tabla 4).
De este modo, en la investigación si se está interesado en conocer algún parámetro de
una población de interés (media, proporción, coeficiente de correlación, etc.), en nuestro
ejemplo, la edad promedio d los trabajadores de un hospital, una posibilidad es obtener
una muestra de tamaño n (en este caso 60 trabajadores) y conseguir una estimación de
parámetro usando un estimador, aquí fue una edad promedio (media) de 40.43 años.
Universidad Abierta y a Distancia de México | DCSBA
16
Tabla 4. Simbología de parámetros y estadísticos más frecuentemente utilizados (INEGI, s.f.)
Parámetro Símbolo del parámetro Símbolo del estadístico
Media Μ
estándar Σ S
Varianza σ2 s2
Correlación ρ R
Proporción π P
En la práctica lo que se calcula es el estadístico (que representa a cada uno de los
parámetros) donde se obtienen un conjunto de valores que reflejarían el valor cercano a la
realidad del parámetro, para esto es fundamental estimar el tamaño de la muestra y en
consecuencia tomar los datos de las variables del fenómeno que se desea investigar y
sobre los cuales se pueden basar las conclusiones, predicciones y la probabilidad.
2.2 Prueba de hipótesis
Los tomadores de decisiones requieren información para aceptar o rechazar una
proposición sobre algún parámetro, a esta proposición es la que suele llamarse hipótesis.
(Tecnológico Nacional de México, 2016). Según Daniel (2005) una hipótesis es una
conjetura o suposición que motiva a la investigación, ahora bien, la hipótesis estadística
se debe establecer pensando en utilizar técnicas estadísticas adecuadas, que permitan la
comprobación o no de la hipótesis; para nuestra asignatura, será necesario aprender a
formular y comprobar hipótesis con base a una muestra de datos para poder saber si la
población puede o no ser representada mediante la muestra.
Junto con los intervalos de confianza los contrastes (o prueba) de hipótesis son la
herramienta más importante de la inferencia estadística, es decir, una de las técnicas más
importantes para extraer información a partir de los datos (Botella-Rocamora, Alacreu-
García y Martínez-Beneito, s.f.).
En cualquier contraste de hipótesis se tienen dos opciones, valores específicos para un
parámetro poblacional, y se deberá de optar por una de ellas como revisarás a
continuación.
17
2.2.1. Introducción y conceptos básicos
Como ya se mencionó una hipótesis es una suposición basada en datos estadísticos que
nos permita realizar un análisis para brindar información para la toma de decisiones.
Básicamente utilizamos una prueba de hipótesis para determinar si podemos inferir el
comportamiento de una población, considerando una muestra de ella. Con base al
comportamiento estadístico podemos tener dos tipos de hipótesis:
• Hipótesis nula
• Hipótesis alternativa
En un estudio, tratamos de rechazar la hipótesis nula, es decir, esta hipótesis podría
constituir la opinión a simple vista de las cosas, mientras que la hipótesis alternativa es la
creencia con bases estadísticas que se tiene de algún suceso.
Por ejemplo, si deseamos conocer si el valor de un parámetro μ puede ser igual a 25 o
por el contrario será diferente de 25, de este modo las hipótesis son:
μ = 25 y μ ≠ 25
Cada una de estas hipótesis recibe un nombre:
• Hipótesis nula, a la que habitualmente nos referimos como H0.
• Hipótesis alternativa, a la que habitualmente nos referimos como HA o H1.
A la hipótesis nula siempre se le concederá el beneficio de la duda e intentaremos
encontrar en nuestra muestra evidencias en contra de ella. Así al terminar el contraste
habremos de optar por aceptar H0 (si no tenemos evidencia suficiente en su contra) o
rechazarla (si los datos hacen que la descartemos) datos (Botella-Rocamora, Alacreu-
García y Martínez-Beneito, s.f.).
Como se puede apreciar en la tabla 5, el rechazar H0 puede conducir a conclusiones
mucho más valiosas que el aceptarla. Cuando aceptamos H0 seguimos sin saber cuál de
las dos opciones, la hipótesis nula o la alternativa, admitimos como cierta; por el contrario,
cuando rechazamos H0 estamos admitiendo implícitamente como cierta H1 o HA, de esta
forma nos inclinamos por una de las dos hipótesis. Por este motivo suele ser bastante
más valorado un resultado en el que se rechaza la hipótesis nula que aquel en el que se
acepta. Es decir, el objetivo habitual que se perseguirá a la hora de hacer cualquier
contraste de hipótesis sería el intentar descartar la hipótesis nula que nos planteemos.
Universidad Abierta y a Distancia de México | DCSBA
18
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Tabla 5. Conclusiones a las que conduce cada posible resultado de un contraste de hipótesis
(Botella-Rocamora , Alacreu-García, y Martínez-Beneito, s.f).
Resultado del contraste Conclusión
Aceptar H0 Aceptamos la posibilidad de H0
En este planteamiento de prueba de hipótesis estadística se puede decir que es un
procedimiento para tomar una decisión, bajo la incertidumbre sobre la validez de la
hipótesis nula usando la evidencia de los datos. Puesto que trabajamos bajo
incertidumbre, es claro que cualquiera sea la decisión que tomemos siempre existe una
probabilidad de cometer error. A fin de clarificar esto podemos presentar la información de
la tabla X.
Tabla 6. Criterio de selección de hipótesis nula (INEGI, Estadística inferencial, s.f.)
Decisión Realidad sobre H0
No rechazar la H0 Decisión correcta Error tipo II
Puesto que, el interés generalmente es “rechazar Ho” la probabilidad de error que se
controla durante este procedimiento, es justamente el error asociado a esta decisión
(Probabilidad del Error Tipo I), es decir, la probabilidad de rechazar Ho cuando es cierta.
La máxima probabilidad de error tipo I se denota con α y recibe el nombre de nivel de
significación del test y él debe ser prefijado de antemano. La probabilidad de Error Tipo II
se denota con β y es útil para encontrar la bondad del test que se mide en términos de la
cantidad 1-β denominada Poder del Test (INEGI, s.f.).
Para comprender mejor las pruebas de hipótesis se puede revisar los ejemplos para
probar la posible diferencia entre los coeficientes de la regresión lineal, así como la
comparación entre medias.
Para saber más sobre la prueba de hipótesis, consulta el siguiente material
Universidad Abierta y a Distancia de México | DCSBA
19
2.4 Correlación y regresión
Cuando tenemos dos variables, y debemos cerciorarnos si existe una relación entre estas,
como por ejemplo peso y talla, es decir si hay una correspondencia o correlación
proporcional entre el crecimiento de una variable con respecto a la otra, utilizamos el
coeficiente de correlación lineal, este se conoce como “r” e indica la correspondencia
entre variables.
Ahora bien, cuando hemos considerado que dos variables pueden tener una relación
proporcional de crecimiento y hemos calculado el valor de “r” para asegurarnos de ello,
ahora podemos realizar un análisis de regresión, el cual consiste en construir un modelo
matemático lineal para representar el fenómeno estudiado; revisaremos a detalle esto en
los siguientes subtemas.
2.4.1. Relación entre correlación y regresión lineal
Como revisamos la correlación y regresión están relacionadas, por un lado, la finalidad de
la correlación es examinar la dirección y la fuerza de la asociación entre dos variables
cuantitativas. Así conoceremos la intensidad de la relación entre ellas y si, al aumentar el
valor de una variable, aumenta o disminuye el valor de la otra variable; Mientras que la la
regresión está dirigida a describir como es la relación entre dos variables X e Y, de tal
manera que incluso se pueden hacer predicciones sobre los valores de la variable Y, a
partir de los de X. Cuando la asociación entre ambas variables es fuerte (Laguna, 2014).
En los siguientes subtemas revisarás a correlación y la regresión lineal.
Silva, M. A. (2011). Pruebas de hipótesis para dos muestras
grandes. [Archivo de video]. Disponible en:
https://www.youtube.com/watch?v=aPaZU5IZ0Go
20
2.4.2. Correlación
Para valorar la asociación entre dos variables y se tiene un conjunto de datos, el primer
paso es determinar si hay una relación entre ambos conjuntos de datos (variable
independiente y variable dependiente), para que quede claro pongamos un ejemplo (tabla
7). Se quiere saber si existe una relación entre el pulso de los pacientes que
cotidianamente hacen ejercicio con respecto al tiempo que dura su actividad física, para
ello se sortean a los pacientes y se eligen a 15, se hace que corran durante 1.5 km a los
pacientes y se registra el tiempo en que recorren el 1.5 km.
Tabla 7. Datos del pulso de 15 pacientes y el tiempo de actividad física
Paciente Pulso
1 54 292
2 64 424
3 52 325
4 56 356
5 80 465
6 57 377
7 58 364
8 70 430
9 59 369
10 66 396
11 65 399
12 71 469
13 66 398
14 77 487
15 67 481
Cuando se tienen datos de la relación de dos variables, lo primero es graficarlos para
corroborar de forma visual si se aprecia una relación entre los datos, en muchos casos
esta relación describe una recta, si es el caso lo que procede es calcular la ecuación de la
recta por mínimos cuadrados, que es un proceso largo utilizando los datos de las
variables que son denominadas como X y Y, X, es la variable independiente y que va en
el eje horizontal; mientras que la variable dependiente va en el eje Y, es decir el eje
vertical. Para obtener la ecuación de la recta se utiliza el método de mínimos cuadrados
que requiere de múltiples operaciones matemáticas, afortunadamente, en la actualidad
Universidad Abierta y a Distancia de México | DCSBA
21
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
esto resulta relativamente fácil de llevar a cabo utilizando programas de computadora
como Excel; si se utiliza este programa al graficar los datos se obtiene la figura 2.
Figura 2. Datos de pulso y tiempo de actividad física de 15 pacientes.
Como se puede observar, cuando se tienen relación se puede ver en forma de una recta,
en donde aumenta el tiempo de ejercicio conforme aumenta el pulso; después de esto si
se trabaja en Excel, se posiciona uno sobre los puntos y con se oprime el botón derecho,
aparece la opción agregar línea de tendencia; ahí se da click, y se selecciona agregar
línea de tendencia lineal, así como Presentar ecuación del gráfico y el valor R cuadrado
del gráfico; ver figura 3.
Universidad Abierta y a Distancia de México | DCSBA
22
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Figura 3. Línea de tendencia, ecuación de ella (recta), y coeficiente de correlación lineal de los
datos de la tabla 7.
Sin embargo, la relación entre variables dependiente e independiente puede o no guardar
una relación (figura 7, A, B, C, D), la relación más simple es la que acabamos de ver y
que tiene forma de línea recta, y que puede ser descrita matemáticamente por la
ecuación:
Y es el valor de la variable dependiente
m es el valor de la pendiente, es decir la inclinación de la recta (constante)
X es el valor que toma la variable independiente
b es el valor de la ordenada al origen (constante)
Estimar el valor de las constantes en la ecuación de la recta permite calcular los posibles
valores que se encuentran fuera del intervalo de los datos que se posean. La forma para
estimar la pendiente y el valor donde la recta corta en el eje x, es el método de mínimos
cuadrados, en este método se estiman los valores contantes de la recta de la siguiente
forma:
Universidad Abierta y a Distancia de México | DCSBA
23
n es el número de datos
Xi es el valor de cada dato de la variable independiente
Yi es el valor de cada dato de la variable dependiente
= (∑ ) − (∑ )
n es el número de datos
m es el valor de la pendiente
Xi es el valor de cada dato de la variable independiente
Yi es el valor de cada dato de la variable dependiente
(Ortiz y Díaz, 2014).
Figura 4. Diferentes tipos de relación entre variables; A, sin relación; B, relación no lineal; C,
relación lineal positiva; D, relación lineal negativa.
Universidad Abierta y a Distancia de México | DCSBA
24
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Para que pueda comprenderse mejor, pongamos un ejemplo: se quiere estimar cual será
la tasa de crecimiento para el año 2025, para ello tenemos datos de crecimiento de 1990
al 2014 (tabla 8).
Tabla 8. Tasa de crecimiento total en México de 1990 a 2014 (Secretaría de Salud, 2016).
Número de dato
Y
1 1990 1.72 14 2003 1.21
2 1991 1.69 15 2004 1.17
3 1992 1.64 16 2005 1.18
4 1993 1.59 17 2006 1.23
5 1994 1.55 18 2007 1.29
6 1995 1.48 19 2008 1.33
7 1996 1.41 20 2009 1.29
8 1997 1.35 21 2010 1.25
9 1998 1.29 22 2011 1.2
10 1999 1.23 23 2012 1.16
11 2000 1.22 24 2013 1.13
12 2001 1.23 25 2014 1.09
Al graficar estos datos, la relación entre la variable independiente tiempo (año), y la
variable dependiente (tasa de crecimiento) resulta lo que se aprecia en la figura 8.
Universidad Abierta y a Distancia de México | DCSBA
25
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Figura 8. Tasa de natalidad Nacional durante el periodo 1990 a 2015
Como se puede ver en la figura anterior, si se quiere estimar aproximadamente la
natalidad en el año 2025 (Número de dato 36), se puede determinar trazando una línea en
el 36 hasta llegar la recta y de ahí trasladar hasta el eje de tasa de natalidad, que es
aproximadamente 13.3, pero esto es un método empírico, para hacerlo de manera formal
se utiliza la ecuación de la recta para extrapolar, es decir calcular datos más allá del
máximo valor que tenemos numéricamente, o interpolar, es decir, con un valor menor al
dato inferior que se tienen.
Con la ecuación podemos estimar el valor de la tasa de crecimiento total para el año 2025
(36, es decir extrapolar); o estimar cual era el valor del crecimiento total en el año
1985(dato -4):
y= 0.8492 de tasa de crecimiento total en año 2025.
Mientras que si queremos estimar cual era el crecimiento total en el año 1985, esto
significaría retroceder 5 años, es decir:
y= -0.0208(x)+1.597
x= dato número -4
y= -0.0208 (-4 )+1.597
y= 1.6802 de tasa de crecimiento total en el año 1985.
y = -0.0208x + 1.597 R² = 0.7353
0
0.4
0.8
1.2
1.6
2
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
T a s a d
e c
26
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Cuando la correlación entre la variable dependiente e independiente es descrita con una
recta, ésta puede tener pendiente (inclinación) positiva o negativa, como se aprecia en la
figura 4-C y D, respectivamente. El grado en que puede saberse el grado de relación
entere variables puede ser cuantificado con ayuda del coeficiente de lineal de Pearson r
(figura 5), cuyo valor oscila entre –1 y +1, de tal modo que:
Si r = −1 ⇒ relación lineal negativa perfecta entre x e y
Si r = 1 ⇒ asociación lineal positiva perfecta entre x e y
Si r = 0 ⇒ no existe ninguna relación lineal entre x e y
Esto puede verse de forma gráfica en la figura 5, a la izquierda una correlación negativa
cuando los valores de r son cercanos a -1, en el medio con valores cercanos a cero, no
hay relación o correlación entre las variables, o cuando existe una correlación positiva, en
la gráfica cargado a la derecha y con valores para r cercanos a 1.
Figura 5. Grado de correlación con base al coeficiente lineal de Pearson.
El coeficiente de correlación lineal puede ser estimado con base al siguiente modelo:
=
Pongamos un ejemplo con los datos de tabla 9.
Tabla 9. Grupos de datos que describen una relación lineal, con valores para X2, Y2 y el producto
de X•Y
1 103 2 10609 4 206
2 105 4 11025 16 420
3 105 6 11025 36 630
4 112 3 12544 9 336
5 116 8 13456 64 928
6 118 7 13924 49 826
Universidad Abierta y a Distancia de México | DCSBA
27
7 124 7 15376 49 868
8 126 9 15876 81 1134
9 129 10 16641 100 1290
10 137 9 18769 81 1233
Sumatoria 1175 65 139245 489 7871
Media 117.5 6.5 13924.5 48.9 787.1
Potencia 13806.25 42.25
Con los datos de esta tabla se grafican los datos de “x” y “y”, y se obtienen la figura 6.
Figura 6. Datos graficados de la tabla 9,
Con los datos y la ecuación de correlación lineal tenemos estimamos podemos determinar
el coeficiente de correlación lineal, e, para saber que tanto estas variables están
correlacionadas:
= 619526.41
680908.05 = 0.9098533 ∴ la relación entre estas variables es una fuerte correlación
positiva, como se muestra en la figura 6.
Universidad Abierta y a Distancia de México | DCSBA
28
2.4.3. Regresión
Ahora bien, no todas las relaciones entre variables tienen un comportamiento de tipo
lineal, hay relaciones de tipo potencial y exponencial. Veamos ejemplos de estas
relaciones.
Se ha registrado el incremento del peso de un bebé prematuro durante 26 meses,
obteniéndose los datos de la tabla 10.
Tabla 10. Datos de peso de bebé prematuro durante sus primeros 26 meses de vida.
Edad meses
Peso (kg)
Edad meses
6 5.5 13 8.2 20 9.6 n…
7 6 14 8.5 21 9.7 36
Al graficar estos datos se observa que la relación entre las variables no describe un
comportamiento lineal (figura 7).
Figura 7. Incremento en peso (kg) de un bebé prematuro durante sus primeros 26 meses de vida
Universidad Abierta y a Distancia de México | DCSBA
29
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Al no tener un comportamiento de tipo lineal se procede a transformar los datos, en este
caso, la variable independiente (edad en meses), se transformarán en logaritmo natural,
recordemos que el logaritmo es el exponente o potencia al que hay que elevar un número
que se denomina base, para obtener otro número determinado, un ejemplo es logaritmo
en base 10 de 100 es 2. Para transformar un número a logaritmo natural, o logaritmo a
una determinada base, puede hacerse con una calculadora o en Excel, se va a la opción
autosuma, de ahí se va a más funciones, después a categoría: matemáticas y
trigonometría, y seleccionar el tipo o base de logaritmo que se desee estimar.
Tabla 11. . Datos de la tabla 8 transformada la variable X en logaritmo natural (ln).
ln Edad meses
1.79 5.5 2.56 8.2 3.00 9.6 n…
1.95 6 2.64 8.5 3.04 9.7 3.6
Al graficar los datos transformados (tabla 11), observamos ahora un comportamiento de
una línea recta (figura 8).
Universidad Abierta y a Distancia de México | DCSBA
30
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Figura 8. Incremento en peso (kg) de un bebé prematuro durante sus primeros 26 meses de vida
con la transformación de los datos de la variable X (independiente) en logaritmo natural.
Esta gráfica tiene ya un comportamiento al de una recta, de este modo, si queremos
estimar cual va a ser el peso del niño a los 36 meses, lo que se debe hacer es estimar el
valor de Y con el valor de X = ln 36 = 3.583518938
= 3.1281() + 0.1668
Y=11.43 kg.
Si bien la regresión lineal nos da información de la relación entre variables, también nos
permite hacer comparaciones entre rectas de una o de más poblaciones; en este sentido
se puede comparar dos coeficientes de regresión lineal.
Por ejemplo, se desea saber si los programas de control de natalidad en el estado de
Chiapas han tenido efecto en dos periodos de tiempo diferentes, para lo cual se tienen
datos de la tasa de natalidad del estado de 1990 a 2015, y se quiere saber si la tasa de
natalidad ha disminuido de igual forma durante el periodo de 1990 a 2001, con respecto al
periodo de 2003 a 2014 (tabla 12).
Tabla 12. Tasa de natalidad del estado de Chihuahua durante el periodo de 1990 a 2004
(Secretaría de salud, 2016).
31
Número de dato
Año X Serie
1 1990 25.36 13 2003 21.62
2 1991 25.03 14 2004 21.48
3 1992 24.67 15 2005 21.33
4 1993 24.38 16 2006 21.12
5 1994 24.04 17 2007 20.81
6 1995 23.63 18 2008 20.46
7 1996 23.23 19 2009 20.08
8 1997 22.86 20 2010 19.41
9 1998 22.57 21 2011 19.26
10 1999 22.38 22 2012 19.09
11 2000 22.21 23 2013 18.94
12 2001 21.98 24 2014 18.79
Al graficar los datos se aprecia que ambas pendientes tienen una inclinación similar
(figura 9).
Figura 9. Tasa de natalidad del estado de Chiapas para el periodo de 1990 a 2002, y para el
peridodo 2003 a 2015.
32
Escuela Politécnica de Ingeniería de Minas y energía. Ajuste por
mínimos cuadrados. Disponible en:
http://www.uv.es/zuniga/08_Ajuste_de_una_recta_por_minimos_c
uadrados.pdf
http://www.uv.es/zuniga/08_Ajuste_de_una_recta_por_minimos_c
uadrados.pdf
Para saber más sobre la ecuación de la recta y cómo puedes utilizar Excel para este fin,
consulta el siguiente material:
33
Cierre de la unidad
En esta unidad se han revisado las pruebas estadísticas más frecuentemente utilizadas,
algunas de ellas se retomaron de cursos anteriores (estadística básica); de estas
herramientas o pruebas estadísticas se espera que sean de ayuda para el análisis de
datos, en especial de los indicadores que están disponibles de ser consultados en bases
de datos federales, y que son información valiosa para estimar tendencias y corroborar en
que aspectos es necesario reevaluar las estrategias que se están siguiendo para el
cumplimiento de las metas y objetivos propuestos en los planes de desarrollo, así como
en los sectoriales, en especial en aquellos del sector salud. La toma de decisiones con
base a análisis de pruebas estadísticas fortalece y valida estas, ya que está basado en
datos y análisis sólidos incluyendo argumentos de probabilidad y de certidumbre.
Fuentes de consulta
Aguilar Barojas, S. (2005). Fórmulas para el cálculo de la muestra en investigaciones de
salud. Salud en Tabasco, 11(1-2), 333-338. Obtenido de
http://www.redalyc.org/pdf/487/48711206.pdf
Asurza O., H. (mayo de 2006). Glosario básico de términos estadísticos. Obtenido de
Instituto Nacional de estadística e Informática:
https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib0900/Libro.p
df
Badii, M., Castillo, J., Landeros, J. y Cortez, K. (2007). Papel de la estadística en la
Investigación científica. Innovaciones de negocios, 4(1), 107-145. Obtenido de
https://www.researchgate.net/publication/315812689_Papel_de_la_estadistica_en_la_inve
stigacion_cientifica_Role_of_statistics_in_scientific_research
De la Torre, L. (2003). Estadística. Instituto Tecnológico de Chihuahua. Obtenido de
http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/
Cuesta, M. y Herrero, F. (s.f.). Universidad de Oviedo. Introducción al muestreo. Obtenido
de http://mey.cl/apuntes/muestrasunab.pdf
34
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Fernández, P., y Pértega Díaz, S. (6 de marzo de 2001). Estadística descriptiva de los
datos. Obtenido de
https://www.uv.es/~friasnav/BreveExplicacionConceptos.pdf
Grané Chávez, A. (s.f.). Departamento de estadística. Introducción. Obtenido de
Universidad Carlos III de Madrid:
http://www.est.uc3m.es/agrane/ficheros_docencia/EDAD/introduccion_tema1_reducido.pd
f
Instituto Nacional de Estadística e Informática. (mayo de 2006). Glosario básico de
términos estadísticos. Obtenido de
https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib0900/Libro.p
df
Instituto Nacional de Estadística y geografía. (3 de marzo de 2011). Servicios y bienes en
las viviendas. Obtenido de
http://www.inegi.org.mx/inegi/spc/doc/INTERNET/19-
%20Curso%20estad%C3%ADstica%20Inferencial.pdf
Laguna, C. (2014). Correlación y Regresión Lineal. España: Instituto Aragonés de ciencias
de la salud.
Lipschutz S. y Lipson, M. (2001). Probabilidad. México, Mc Graw Hill.
Luceño A., González F. J. (2004). Curso de Estadística de ITOP. Santander, Servicio de
Publicaciones de la Universidad de Cantabria. Obtenido de
http://personales.unican.es/gonzaleof/Itop/teoria/Teoria_distribuciones.pdf
Murray, R. S. y Stephens, L. J. (2009). Estadística. 4ta edición. México. Mc Graw-Hill.
Oda, N. B. (2005). Introducción al análisis gráfico de datos experimentales. México.
Facultad de Ciencias, UNAM.
Ortiz, M. M. D. y Díaz B. J. L. (2014). Prácticas de física, Universidad de Cantabria.
Obtenido de http://ocw.unican.es/ensenanzas-tecnicas/fisica-i/practicas-
1/Ajuste%20por%20minimos%20cuadrados.pdf
Secretaría de Salud. (20 de julio de 2016). Indicadores Generales. Obtenido de
http://www.dgis.salud.gob.mx/contenidos/sinais/indica_gral_gobmx.html
Soto, M. C. (s.f). Estadística y tecnología de la información y comunicación en cuidados.
Obtenido de https://cristina92sm.wordpress.com/2011/05/15/ejercicio-del-seminario-
35
Bioestadística Herramientas bioestadísticas para la toma de decisiones U2
Universidad Abierta y a Distancia de México. (2016). Distribuciones de datos en salud.
México: UNAD.
Universidad de Sonora, Dep. de matemáticas. (2016). Muestreo. Obtenido de
http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf
Walpole, R. (2007). Probabilidad y Estadística para Ingeniería y Ciencias. México:
Pearson Educación.
Wayne, W. (1988). Estadística con aplicaciones a las ciencias sociales y a la educación.
México: McGraw-Hill.
Bibliografía complementaria
Álvarez, C. R. (2007). Estadística aplicada a las ciencias de la salud. España, Ediciones
Díaz de Santos.
Canabos, C. G. (1988). Probabilidad y estadística: Aplicaciones y Métodos, México, Mac
Graw Hill.
Milton, S. J. (2007). Estadística para Biología y Ciencias de la Salud. España, McGraw Hill
Ruiz, M. D. (s.f.). Manual de estadística. Recuperado de
https://www.eumed.net/cursecon/libreria/drm/24.pdf
organización de Estados Americanos.
Apéndice de símbolos matemáticos
36
H0= Hipótesis nula
≠=
e= 2.7182…
∀=

Universidad Abierta y a Distancia de México | DCSBA
37
Apéndice de valores críticos de la distribución normal
Universidad Abierta y a Distancia de México | DCSBA
38
Apéndice de valores críticos de la distribución t