Download - Bioestadística - Universidad Abierta y a Distancia de México

Transcript
Page 1: Bioestadística - Universidad Abierta y a Distancia de México

0

Bioestadística

Unidad 2

Herramientas bioestadísticas para la toma de decisiones

Programa desarrollado

Sexto Semestre

31153636

Page 2: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

1

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Programa desarrollado

Herramientas bioestadísticas

para la toma de decisiones

Page 3: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

2

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Contenido

2.1 Estimación ................................................................................................................... 3

2.1.1 Características de un buen Estimador ............................................................ 4

2.1.2. ¿Qué es un intervalo de confianza y cuál es su utilidad? ............................... 5

2.1.3. Intervalo de confianza para la media de una población ................................. 5

2.1.4. La distribución de T de Student ..................................................................... 7

2.1.5. Intervalo de confianza para la diferencia entre dos medias poblacionales ... 10

2.1.6. Intervalo de confianza para la proporción de una población ........................ 10

2.1.7. Intervalo de confianza para la diferencia entre las proporciones de dos

poblaciones ........................................................................................................... 10

2.1.8. Tamaño de muestra ..................................................................................... 10

2.2 Prueba de hipótesis ................................................................................................... 16

2.2.1. Introducción y conceptos básicos ................................................................ 17

2.4 Correlación y regresión .............................................................................................. 19

2.4.1. Relación entre correlación y regresión lineal ................................................ 19

2.4.2. Correlación .................................................................................................. 20

2.4.3. Regresión .................................................................................................... 28

Cierre de la unidad .......................................................................................................... 33

Fuentes de consulta ........................................................................................................ 33

Bibliografía complementaria ............................................................................................. 35

Apéndice de símbolos matemáticos ................................................................................. 35

Apéndice de valores críticos de la distribución normal ..................................................... 37

Apéndice de valores críticos de la distribución t ............................................................... 38

Page 4: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

3

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

2.1 Estimación

La “Estadística se ocupa de la recolección, agrupación, presentación, análisis e

interpretación de datos. Es un método científico que pretende sacar conclusiones a partir

de observaciones hechas. La Estadística actúa como puente entre los modelos

matemáticos y los fenómenos reales; y proporciona una metodología para evaluar y

juzgar estas discrepancias entre la realidad y la teoría” (Grané, s.f.).

La estadística como herramienta analiza o procesa conjuntos de datos numéricos, estudia

las funciones decisorias estadísticas, fenómenos conjuntos para revelar los fundamentos

de su desarrollo y para tal estudio se sirve de índices generalizadores (valores, medios,

relaciones, porcentajes, etcétera.). Además, auxilia a:

● La colecta y compilación de datos.

● El diseño de experimentos.

● La medición de la valoración, tanto de datos experimentales como de reconocimientos y

detección de causas.

● El control de la calidad de la producción.

● La determinación de parámetros de población y suministro de varias medidas de la

exactitud y precisión de esas estimaciones.

● La estimación de cualidades humanas.

● La investigación de mercados, incluyendo escrutinios de opiniones emitidas.

● El ensayo de hipótesis respecto a poblaciones.

● El estudio de la relación entre dos o más variables” (Badii, Castillo, Landeros y Cortez,

2007).

No existe investigación formal y sólida, sin que la estadística no intervenga; “La

estadística no puede ser ignorada por ningún investigador, aun cuando no tenga ocasión

de emplear la estadística aplicada en todos sus detalles y ramificaciones” (Badii y col.,

2007). De este modo, el papel de la estadística en la investigación es fundamental para el

análisis de datos, con ellos se llega a conclusiones verificables y de las cuales depende la

toma de decisiones.

Page 5: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

4

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

2.1.1 Características de un buen Estimador

El objetivo de la estadística es obtener inferencias con respecto a la población, esto se

puede realizar utilizándose información obtenida en una muestra de tal población.

Recordemos que las poblaciones se describen mediante medidas numéricas

denominadas parámetros, que ayudan a deducir una inferencia con respecto a uno o más

parámetros de la población.

La inferencia estadística se sustenta a través de la probabilidad, por ejemplo, la media

muestral permite hacer inferencias sobre la media de la población. A ciencia cierta, la

diferencia entre ambas medias (media muestral y media poblacional) es desconocida, ya

que la media poblacional es desconocida en su mayoría.

Las investigaciones que emplean la inferencia estadística pueden ser de dos tipos: los de

estimación y de prueba de hipótesis. Como al estimar un parámetro poblacional

desconocido se suele hacer una afirmación o juicio, este último ofrece solamente una

estimación. Es un valor particular obtenido de observaciones de la muestra, es importante

no confundir este concepto con el de estimador, que se refiere al método de estimar un

parámetro poblacional (Berlanga, s.f.).

Un estimador es un estadístico, es decir una función de la muestra, que es utilizado para

estimar un parámetro desconocido de la población; el estimador debe cumplir con algunos

requisitos, y su valor calculado proporciona una estimación puntual del valor del

parámetro en estudio. De acuerdo con Course Hero (s.f.). Dentro de las características

deseables de un estimador se encuentran:

● Debe ser insesgado, esto significa que en promedio tiende a tomar valores que están

por encima de parámetro de la población con la misma frecuencia y la misma extensión

con la que tiende a asumir valores por debajo del parámetro de población que se está

estimando. Es decir, si su sesgo es igual a cero: 𝐸[𝜃] = 𝜃

● Debe ser eficiente, de varios estimadores insesgados, el más eficiente es el que tiene el

error estándar más pequeño.

● Debe ser consistente: significa que a medida que aumenta el tamaño de la muestra, la

estimación se aproxima al valor del parámetro, de ahí la importancia de tener un tamaño

de muestra suficientemente grande para que el valor del estadístico sea lo más cercano a

la realidad y valor del parámetro de la población.

● Debe ser suficiente: significa que ningún otro estimador puede suministrar más

información sobre el parámetro

Al cumplirse estas características se dan argumentos de robustez del estimador

estadístico que se está calculando.

Page 6: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

5

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Es importante señalar que para el cálculo de los estimadores se considera que la

precisión de éste incrementa conforme se tienen muestras más grandes, sin embargo, no

hay razón para esperar que la estimación puntual de una muestra dada deba ser

exactamente igual al parámetro poblacional que se supone estima. Por eso, hay

situaciones en las cuales es preferible determinar un intervalo dentro del cual se esperaría

encontrar el valor del parámetro, a esto se le conoce como estimación por intervalos y el

intervalo se denomina Intervalo de Confianza, tema que revisarás a continuación.

2.1.2. ¿Qué es un intervalo de confianza y cuál es su utilidad?

Los Intervalos del Confianza son intervalos aleatorios obtenidos a partir de los datos y en

los cuales hay un grado de confianza prefijado (medido en %) de que dicho intervalo

contenga al verdadero valor del parámetro que se quiere estimar.

El grado de confianza se denomina nivel de confianza y se lo denota como 100(1-α)%,

donde α se considera a menudo como la probabilidad de cometer un error, ya que indica

la proporción de veces en que uno se equivoca o comete un error al suponer que el

intervalo contiene al parámetro poblacional. Usualmente el valor de α es 5; y se fija en el

95%, lo que llevaría a establecer que en promedio sólo en el 5% de los casos se

cometería error al suponer que el intervalo contiene al verdadero valor del parámetro.

2.1.3. Intervalo de confianza para la media de una población

El intervalo de confianza, para la media poblacional, cuando se usa a la media aritmética

como estimador, es la siguiente:

Intervalo de confianza (IC) �̅� ± 𝑧𝛼𝜎

√𝑛

Donde Zα= 1.96

n= tamaño de muestra

Para comprender mejor, veamos el siguiente ejemplo:

Se tienen el indicador de viviendas sin drenaje a nivel estatal en el año 1990 y 2010, se

quiere saber si los estados están dentro de la media nacional o al menos dentro del

intervalo de confianza en cada año, para ello se tienen los siguientes datos (tabla 1):

Page 7: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

6

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Tabla 1. . Porcentaje de viviendas con drenaje en las 32 entidades federativas de México en 1990

y 2010.

Entidad 1990 2010 Entidad 1990 2010 Entidad 1990 2010

Aguascalientes 14 2.2 Guerrero 63.3 28 Quintana Roo 41 5.9

Baja California 32.5 6.2 Hidalgo 57.6 16.5 San Luis Potosí 50.7 19.4

Baja California Sur 33.9 5.8 Jalisco 19.9 3.1 Sinaloa 45.3 9

Campeche 52.1 14.3 México 27.4 8 Sonora 34.3 9.9

Coahuila 31.2 4.4 Michoacán 45.5 14.5 Tabasco 38.3 8.2

Colima 18.7 1.3 Morelos 35.9 7.6 Tamaulipas 40.3 11.7

Chiapas 59.5 19.5 Nayarit 42.3 6.5 Tlaxcala 44.3 7.2

Chihuahua 33.2 6.7 Nuevo León 18.9 2.7 Veracruz 51.2 19.7

Ciudad de México 6.6 0.8 Oaxaca 70.1 30.2 Yucatán 52.4 19.7

Durango 45.7 11.6 Puebla 53.3 15 Zacatecas 52.4 10.9

Guanajuato 41.1 10.6 Querétaro 42 8.9

Media 40.47 10.81

n 32 32

Sd 14.64 7.27

IC ± 5.07 ± 2.52

*Los valores para la media, desviación estándar, tamaño de muestra y el intervalo de confianza

estimados con base en la fórmula �̅� ± 𝑧𝛼𝜎

√𝑛. (INEGI, Servicios y bienes en las viviendas, 2011).

Al graficar estos datos (figura 1), se puede observar que los estados que están en una

situación desfavorable con respecto al número de viviendas sin drenaje, por encima de la

media nacional son: en 1990, Campeche, Chiapas, Guerrero, Hidalgo, Oaxaca, Puebla,

San Luis potosí, Veracruz, Yucatán y Zacatecas. Mientras que, para 2010, los estados

que se encuentran fuera de los intervalos de confianza y por arriba con respecto a la

media nacional son: Campeche, Chiapas, Guerrero, Hidalgo, Michoacán, Oaxaca, Puebla,

San Luis Potosí; Veracruz y Yucatán.

En la figura 1 se puede observar el porcentaje de viviendas sin drenaje en las 32

entidades federativas de México, en 1990 (cuadro negro) con la media nacional (40.47)

línea continua azul, e intervalos de confianza al 95% línea punteada, y en 2010 (circulo)

con la media nacional (10.81) en línea continua azul, e intervalos de confianza al 95%

línea punteada azul.

Page 8: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

7

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Figura 1. Porcentaje de viviendas sin drenaje en las 32 entidades federativas de México

De esta forma, la estimación de los intervalos de confianza son una poderosa herramienta

estadística que nos permite observar si los datos se encuentran o no dentro de la media

estimada con sus intervalos de confianza al 95%, si están por fuera de estos intervalos,

entonces se debe revisar qué está ocurriendo para que los datos no tengan un

comportamiento dentro de la tendencia general del grupo de datos.

2.1.4. La distribución de T de Student

La distribución t de Student se utiliza para pequeñas muestras, también es utilizada para

variables cualitativas, una de las condiciones que deben tener las muestras para ser

tratadas mediante esta distribución, es ser independientes, en la prueba “t” se comparan

las medias y las desviaciones estándar para determinar si las diferencias son

Porc

enta

je d

e vi

vien

das

sin

d

ren

aje

Aguascalie

nte

sB

aja

Calif

orn

iaB

aja

Calif

orn

ia S

ur

Cam

peche

Coahuila

de Z

ara

goza

Colim

aC

hia

pas

Chih

uahua

Dis

trito F

edera

lD

ura

ngo

Guanaju

ato

Guerr

ero

Hid

alg

oJalis

co

Méxic

oM

ichoacán d

e O

cam

po

More

los

Nayarit

Nuevo L

eón

Oaxaca

Puebla

Queré

taro

Quin

tana R

oo

San L

uis

Poto

Sin

alo

aS

onora

Tabasco

Tam

aulip

as

Tla

xcala

Vera

cru

z d

e I

gnacio

de la L

lave

Yucatá

nZ

acate

cas

0

10

20

30

40

50

60

70

80 1990

2010

40.47

10.81

Page 9: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

8

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

estadísticamente significativas o si las diferencias demuestran la aleatoriedad de los datos

de ambas muestras (Walpole, 2007).

Esta distribución nos permite calcular probabilidades de muestras pequeñas cuando no es

conocida la varianza, la fórmula a utilizar es la siguiente:

𝑡 =�̅� − 𝜇

𝑠/√𝑛

En donde:

�̅� = media muestral

𝝁 = media poblacional

s = desviación muestral

n = muestra evaluada

Las propiedades de la distribución t son:

1. Cada curva t tienen forma de campana con centro en 0.

2. Cada curva t, está más dispersa que la curva normal estándar.

3. A medida que k aumenta, la dispersión de la curva t correspondiente disminuye.

4. A medida que k→ ∞, la secuencia de curvas t se aproxima a la curva normal estándar

Page 10: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

9

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Como ya mencionamos la prueba de T de Student se aplica cuando la población

estudiada sigue una distribución normal pero el tamaño muestral es demasiado pequeño

como para que el estadístico en el que está basada la inferencia esté normalmente

distribuido, utilizándose una estimación de la desviación típica en lugar del valor real. De

este modo, la prueba t-Student se fundamenta en dos premisas:

● En la distribución de normalidad,

● Las muestras sean independientes.

Esta prueba permite comparar muestras, N ≤ 30 y/o establece la diferencia entre las

medias de las muestras. El análisis matemático y estadístico de la prueba con frecuencia

se minimiza para N > 30.

Encuentre k tal que P(k < t < -1.761) = 0.045, para una muestra

aleatoria de tamaño 25 que se selecciona de una distribución normal.

Si se busca en la tabla el valor de t =1.761 con 24 (tamaño de la

muestra menos 1) grados de libertad, este valor le corresponde un

área de 0.05 a la izquierda, por ser negativo el valor. Entonces si se

resta 0.05 y 0.045 se tiene un valor de 0.005, que equivale a

α Luego se busca el valor de 0.005 en el primer renglón con 14

grados de libertad y se obtiene un valor de t = 2.977, pero como el

valor de α está en el extremo izquierdo de la curva entonces la

respuesta es t = -2.977 por lo tanto:

P(-2.977 < t < -1.761) = 0.045

Ejemplo de distribución T Student

De la Torre, 2003.

Page 11: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

10

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Como se vio y utilizó en la prueba anterior, se utilizan datos de tablas para determinar si

hay o diferencias entre los comportamientos de dos fenómenos comparados; estas tablas

frecuentemente indican la probabilidad de que el resultado de nuestra prueba se

encuentre dentro de los valores reales de la población. Con respecto a la probabilidad es

importante conocer los tipos de distribuciones que esta presentan y que a continuación de

abordan en este documento.

2.1.5. Intervalo de confianza para la diferencia entre dos medias poblacionales

Frecuentemente se presentan situaciones donde se quiere conocer si el valor de la media

(promedio de las mediciones de dos fenómenos) son iguales, sobre todo cuando ambos

valores son muy cercanos, para esto es necesario demostrarlo con pruebas estadísticas

que den la certeza de las posibles diferencias significativas entre ambos valores.

2.1.6. Intervalo de confianza para la proporción de una población

2.1.7. Intervalo de confianza para la diferencia entre las proporciones de dos poblaciones

2.1.8. Tamaño de muestra

Se debe estimar el tamaño de muestra para poder calcular los estimadores de los

parámetros, en este sentido se han propuestos algunos modelos para ello.

En general se seleccionan a los sujetos siguiendo determinados criterios procurando que

la muestra sea representativa (Cuesta y Herrero, 2007). (tabla 2).

Page 12: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

11

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Tabla 2. Tipos de muestreo no probabilístico, sus ventajas y desventajas (Cuesta y Herrero, s.f.).

Aguilar Barojas (2005), indica una serie de modelos para estimar el tamaño de muestra en

investigaciones en salud, considerando que el nivel de confianza tiende a ser del 99, 95 y

90 %, lo que significa que Z en valores estimados en tablas es de 2.58, 1.96 y 1.65,

respectivamente.

Para calcular el tamaño de muestra es necesario considerar si el tamaño de la población

es desconocida o infinita ˃10, 000 elementos del universo; o si es finita, es decir que se

conoce el tamaño de la población, por ejemplo el tamaño de pacientes hospitalizados en

un piso de un hospital, es una población finita y se sabe cuántos pacientes hay en cada

momento; el ejemplo del tamaño de una población desconocido es el tamaño de

individuos infectados por virus de VIH, se tienen aproximaciones, pero debido a que no

todos han sido diagnosticados y en el país somos casi 124 millones de personas.

De este modo tenemos los siguientes modelos de estimación para el tamaño de muestra

para datos cuantitativos:

Modelo de la estimación del tamaño de la muestra para la población infinita o

desconocida:

𝑛 =𝑍𝛼

2 ∙ 𝑝 ∙ 𝑞

𝑖2

Modelo de la estimación del tamaño de la muestra para la población finita y conocida:

Subtipo Características

Opinático o intencional

Se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos; por ejemplo son frecuentes en sondeos preelectorales de zonas que en votaciones anteriores han marcado tendencias de voto.

Causal o incidental

Es un proceso en el que el investigador selecciona directa o intencionadamente a los individuos de la población. El caso más frecuente de este procedimiento es utilizar como muestra individuos a los que se tienen fácil acceso. Por ejemplo, ver la frecuencia de pie diabético en pacientes de la consulta de Endocrinología de un hospital de tercer nivel.

Bola de nieve

En este muestreo se localiza a algunos individuos, los cuales conducen a otros, y estos a otros; y así hasta conseguir una muestra suficiente. Este tipo de muestreo se emplea frecuentemente cuando por ejemplo se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermedades, por ejemplo mal de Chagas (transmitida por mordedura de chiche parasitada con Trypanosoma cruzi), tuberculosis, VIH/SIDA.

Page 13: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

12

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

𝑛 =𝑍𝛼

2 ∙ 𝑁 ∙ 𝑝 ∙ 𝑞

𝑖2(𝑁 − 1) + 𝑍𝛼2 ∙ 𝑝 ∙ 𝑞

Donde:

n: tamaño de la muestra.

N: tamaño de la población

Z: valor correspondiente a la distribución de gauss, zα= 0.05 = 1.96 y Zα= 0.01 = 2.58

p: prevalencia esperada del parámetro a evaluar, en caso de desconocerse (p =0.5), que

hace mayor el tamaño de la muestra.

q: 1 – p (si p = 70 %, q = 30 %).

i: error que se prevé cometer si es del 10 %, i = 0.1

(Murray y Larry, 2005).

Para su mejor comprensión se ejemplifica cada caso:

Para población infinita, es decir que desconoce el tamaño de la población. Se necesita

estimar el tamaño de muestra de adultos mayores en una colonia popular de la Cd. de

México, de este modo se tiene:

𝑛 =𝑍𝛼

2 ∙ 𝑝 ∙ 𝑞

𝑖2

Sustituyendo el modelo con datos, donde:

Z2α=1.96, es decir para tener el 95% de nivel de confianza

p: prevalencia esperada del parámetro a evaluar, en caso de desconocerse (p =0.5), que

hace mayor el tamaño de la muestra.

q: 1 – p (si p = 0.5, q = 0.5).

i2=0.12

Entonces:

𝑛 =1.962 ∙ 0.5 ∙ 0.5

0.12

n= 96.04

Como no existen 96.04 personas se redondea y serían 96 personas

Para población finita, es decir conocido el tamaño de la población, se presenta este

ejemplo: Se desea estimar la prevalencia de apnea del sueño en la población femenina de

la consulta de neumología de un hospital de segundo nivel, el tamaño de la población es

de 249 personas.

Page 14: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

13

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Entonces se tiene:

𝑛 =𝑍𝛼

2 ∙ 𝑁 ∙ 𝑝 ∙ 𝑞

𝑖2(𝑣 − 1) + 𝑍𝛼2 ∙ 𝑝 ∙ 𝑞

Z2α=1.962

N=249

p: prevalencia esperada del parámetro a evaluar, en caso de desconocerse (p =0.5), que

hace mayor el tamaño de la muestra.

q: 1 – p (si p = 0.5, q = 0.5).

i2=0.12

(Murray y Larry, 2005).

Substituyendo los datos en el modelo:

𝑛 =1.962 ∙ 249 ∙ 0.5 ∙ 0.5

0.12(249 − 1) + 1.962 ∙ 0.5 ∙ 0.5

n= 80.52, es decir 81 personas.

Con respecto al muestreo para datos cualitativo, para estimar el tamaño de muestra para

población finita (cuando se emplean escalas nominales, como por ejemplo, ausencia o

presencia del fenómeno a investigar, se utiliza el modelo:

𝑛 =𝑛´

1 + 𝑛´

𝑁⁄

Donde

𝑛´ =𝑠2

𝜎2

𝑠2 = 𝑝(1 − 𝑝) y 𝜎2 = (𝑠𝑒)2

Donde:

n= tamaño muestral

N= tamaño de la población

s2= varianza muestral

σ2= varianza poblacional

se= error estándar

Page 15: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

14

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

p= porcentaje de confianza

(Murray y Larry, 2005).

Para comprender esta modelo, se ejemplifica con un estudio sobre el conocimiento que se

tiene en la población del 3er grado de 5 escuelas secundarias de la delegación Gustavo

A. Madero en la Cd. De México sobre las formas de transmisión de VIH/SIDA.

La población está formada por 1098 estudiantes, los datos con los que se cuentan es un

error estándar de 1.2% y confianza del 95%.

n=1098

se=1.2% =0.012

s2= p(1-p) = 0.95(1-0.95) = 0.0475

σ2= (se)2= (0.012)2= 0.000144

𝑛´ =0.0475

0.000144

n´=329.86

𝑛 =329.86

1 + 329.861098⁄

𝑛 =329.86

1 + (329.861098⁄ )

n= 253.65, es decir, 254 estudiantes

El muestreo es fundamental para conocer determinadas características frecuentes dentro

de una población, estas características se denominan parámetros poblacionales. Como

ejemplos de parámetros poblacionales se tiene a la media y la proporción, y que se

denotan con μ y π, respectivamente.

Para determinar los parámetros poblacionales se requiere conocer los valores de la

variable para todos los individuos de la población, por ejemplo, para determinar el

porcentaje de mujeres en edad fértil de México, se tendría que conocer la edad de todas

ellas. Sin embargo, no siempre es posible obtener la información de todos los individuos

que componen la población por razones de costo en tiempo y dinero, y cuando eso ocurre

se hace necesario recurrir a una muestra de la población, o utilizar los datos del

porcentaje de mujeres fértiles de cada estado y después hacer los cálculos con base a los

datos de las 32 entidades federativas, tal y como se muestra en los ejemplos de la tabla 3.

Page 16: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

15

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Tabla 3. Edad en años de una muestra de los empleados de un hospital, n=60

Edad (años)

Edad (años)

Edad (años)

Edad (años)

Edad (años)

Edad (años)

Edad (años)

Edad (años)

22 31 40 50 26 35 45 60

23 33 40 50 26 35 46 60

23 33 41 51 26 36 47 63

24 33 41 51 27 36 47 63

24 33 42 52 28 38 48 63

24 34 42 53 29 38 49 64

25 35 44 55 30 38 49 65

26 35 44 55

n El tamaño de la muestra es 60, es decir el número de datos con los que se cuenta

Mediana: 53

Media aritmética para datos simples: suma de todos los datos y divididos entre el número de datos=40.43

Moda: es decir, el dato que más se repite, en este ejemplo es 26

A partir de los datos de la muestra se encontraron valores numéricos calculados con base

a los datos de la variable en una población (estadístico), es decir fue calculado con base a

los datos de la variable de la muestra y da información cercana a la realidad del

parámetro (tabla 4).

De este modo, en la investigación si se está interesado en conocer algún parámetro de

una población de interés (media, proporción, coeficiente de correlación, etc.), en nuestro

ejemplo, la edad promedio d los trabajadores de un hospital, una posibilidad es obtener

una muestra de tamaño n (en este caso 60 trabajadores) y conseguir una estimación de

parámetro usando un estimador, aquí fue una edad promedio (media) de 40.43 años.

Page 17: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

16

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Tabla 4. Simbología de parámetros y estadísticos más frecuentemente utilizados (INEGI, s.f.)

Parámetro Símbolo del parámetro Símbolo del estadístico

Media Μ �̅�

estándar Σ S

Varianza σ2 s2

Correlación ρ R

Proporción π P

En la práctica lo que se calcula es el estadístico (que representa a cada uno de los

parámetros) donde se obtienen un conjunto de valores que reflejarían el valor cercano a la

realidad del parámetro, para esto es fundamental estimar el tamaño de la muestra y en

consecuencia tomar los datos de las variables del fenómeno que se desea investigar y

sobre los cuales se pueden basar las conclusiones, predicciones y la probabilidad.

2.2 Prueba de hipótesis

Los tomadores de decisiones requieren información para aceptar o rechazar una

proposición sobre algún parámetro, a esta proposición es la que suele llamarse hipótesis.

(Tecnológico Nacional de México, 2016). Según Daniel (2005) una hipótesis es una

conjetura o suposición que motiva a la investigación, ahora bien, la hipótesis estadística

se debe establecer pensando en utilizar técnicas estadísticas adecuadas, que permitan la

comprobación o no de la hipótesis; para nuestra asignatura, será necesario aprender a

formular y comprobar hipótesis con base a una muestra de datos para poder saber si la

población puede o no ser representada mediante la muestra.

Junto con los intervalos de confianza los contrastes (o prueba) de hipótesis son la

herramienta más importante de la inferencia estadística, es decir, una de las técnicas más

importantes para extraer información a partir de los datos (Botella-Rocamora, Alacreu-

García y Martínez-Beneito, s.f.).

En cualquier contraste de hipótesis se tienen dos opciones, valores específicos para un

parámetro poblacional, y se deberá de optar por una de ellas como revisarás a

continuación.

Page 18: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

17

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

2.2.1. Introducción y conceptos básicos

Como ya se mencionó una hipótesis es una suposición basada en datos estadísticos que

nos permita realizar un análisis para brindar información para la toma de decisiones.

Básicamente utilizamos una prueba de hipótesis para determinar si podemos inferir el

comportamiento de una población, considerando una muestra de ella. Con base al

comportamiento estadístico podemos tener dos tipos de hipótesis:

• Hipótesis nula

• Hipótesis alternativa

En un estudio, tratamos de rechazar la hipótesis nula, es decir, esta hipótesis podría

constituir la opinión a simple vista de las cosas, mientras que la hipótesis alternativa es la

creencia con bases estadísticas que se tiene de algún suceso.

Por ejemplo, si deseamos conocer si el valor de un parámetro μ puede ser igual a 25 o

por el contrario será diferente de 25, de este modo las hipótesis son:

μ = 25 y μ ≠ 25

Cada una de estas hipótesis recibe un nombre:

• Hipótesis nula, a la que habitualmente nos referimos como H0.

• Hipótesis alternativa, a la que habitualmente nos referimos como HA o H1.

A la hipótesis nula siempre se le concederá el beneficio de la duda e intentaremos

encontrar en nuestra muestra evidencias en contra de ella. Así al terminar el contraste

habremos de optar por aceptar H0 (si no tenemos evidencia suficiente en su contra) o

rechazarla (si los datos hacen que la descartemos) datos (Botella-Rocamora, Alacreu-

García y Martínez-Beneito, s.f.).

Como se puede apreciar en la tabla 5, el rechazar H0 puede conducir a conclusiones

mucho más valiosas que el aceptarla. Cuando aceptamos H0 seguimos sin saber cuál de

las dos opciones, la hipótesis nula o la alternativa, admitimos como cierta; por el contrario,

cuando rechazamos H0 estamos admitiendo implícitamente como cierta H1 o HA, de esta

forma nos inclinamos por una de las dos hipótesis. Por este motivo suele ser bastante

más valorado un resultado en el que se rechaza la hipótesis nula que aquel en el que se

acepta. Es decir, el objetivo habitual que se perseguirá a la hora de hacer cualquier

contraste de hipótesis sería el intentar descartar la hipótesis nula que nos planteemos.

Page 19: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

18

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Tabla 5. Conclusiones a las que conduce cada posible resultado de un contraste de hipótesis

(Botella-Rocamora , Alacreu-García, y Martínez-Beneito, s.f).

Resultado del contraste Conclusión

Rechazar H0 Podemos descartar H0

Aceptar H0 Aceptamos la posibilidad de H0

En este planteamiento de prueba de hipótesis estadística se puede decir que es un

procedimiento para tomar una decisión, bajo la incertidumbre sobre la validez de la

hipótesis nula usando la evidencia de los datos. Puesto que trabajamos bajo

incertidumbre, es claro que cualquiera sea la decisión que tomemos siempre existe una

probabilidad de cometer error. A fin de clarificar esto podemos presentar la información de

la tabla X.

Tabla 6. Criterio de selección de hipótesis nula (INEGI, Estadística inferencial, s.f.)

Decisión Realidad sobre H0

Cierta Falsa

Rechazar H0 Error tipo I Decisión correcta

No rechazar la H0 Decisión correcta Error tipo II

Puesto que, el interés generalmente es “rechazar Ho” la probabilidad de error que se

controla durante este procedimiento, es justamente el error asociado a esta decisión

(Probabilidad del Error Tipo I), es decir, la probabilidad de rechazar Ho cuando es cierta.

La máxima probabilidad de error tipo I se denota con α y recibe el nombre de nivel de

significación del test y él debe ser prefijado de antemano. La probabilidad de Error Tipo II

se denota con β y es útil para encontrar la bondad del test que se mide en términos de la

cantidad 1-β denominada Poder del Test (INEGI, s.f.).

Para comprender mejor las pruebas de hipótesis se puede revisar los ejemplos para

probar la posible diferencia entre los coeficientes de la regresión lineal, así como la

comparación entre medias.

Para saber más sobre la prueba de hipótesis, consulta el siguiente material

Page 20: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

19

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

2.4 Correlación y regresión

Cuando tenemos dos variables, y debemos cerciorarnos si existe una relación entre estas,

como por ejemplo peso y talla, es decir si hay una correspondencia o correlación

proporcional entre el crecimiento de una variable con respecto a la otra, utilizamos el

coeficiente de correlación lineal, este se conoce como “r” e indica la correspondencia

entre variables.

Ahora bien, cuando hemos considerado que dos variables pueden tener una relación

proporcional de crecimiento y hemos calculado el valor de “r” para asegurarnos de ello,

ahora podemos realizar un análisis de regresión, el cual consiste en construir un modelo

matemático lineal para representar el fenómeno estudiado; revisaremos a detalle esto en

los siguientes subtemas.

2.4.1. Relación entre correlación y regresión lineal

Como revisamos la correlación y regresión están relacionadas, por un lado, la finalidad de

la correlación es examinar la dirección y la fuerza de la asociación entre dos variables

cuantitativas. Así conoceremos la intensidad de la relación entre ellas y si, al aumentar el

valor de una variable, aumenta o disminuye el valor de la otra variable; Mientras que la la

regresión está dirigida a describir como es la relación entre dos variables X e Y, de tal

manera que incluso se pueden hacer predicciones sobre los valores de la variable Y, a

partir de los de X. Cuando la asociación entre ambas variables es fuerte (Laguna, 2014).

En los siguientes subtemas revisarás a correlación y la regresión lineal.

Silva, M. A. (2011). Pruebas de hipótesis para dos muestras

grandes. [Archivo de video]. Disponible en:

https://www.youtube.com/watch?v=aPaZU5IZ0Go

Page 21: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

20

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

2.4.2. Correlación

Para valorar la asociación entre dos variables y se tiene un conjunto de datos, el primer

paso es determinar si hay una relación entre ambos conjuntos de datos (variable

independiente y variable dependiente), para que quede claro pongamos un ejemplo (tabla

7). Se quiere saber si existe una relación entre el pulso de los pacientes que

cotidianamente hacen ejercicio con respecto al tiempo que dura su actividad física, para

ello se sortean a los pacientes y se eligen a 15, se hace que corran durante 1.5 km a los

pacientes y se registra el tiempo en que recorren el 1.5 km.

Tabla 7. Datos del pulso de 15 pacientes y el tiempo de actividad física

Paciente Pulso

X variable independiente

Tiempo Y variable dependiente

1 54 292

2 64 424

3 52 325

4 56 356

5 80 465

6 57 377

7 58 364

8 70 430

9 59 369

10 66 396

11 65 399

12 71 469

13 66 398

14 77 487

15 67 481

Cuando se tienen datos de la relación de dos variables, lo primero es graficarlos para

corroborar de forma visual si se aprecia una relación entre los datos, en muchos casos

esta relación describe una recta, si es el caso lo que procede es calcular la ecuación de la

recta por mínimos cuadrados, que es un proceso largo utilizando los datos de las

variables que son denominadas como X y Y, X, es la variable independiente y que va en

el eje horizontal; mientras que la variable dependiente va en el eje Y, es decir el eje

vertical. Para obtener la ecuación de la recta se utiliza el método de mínimos cuadrados

que requiere de múltiples operaciones matemáticas, afortunadamente, en la actualidad

Page 22: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

21

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

esto resulta relativamente fácil de llevar a cabo utilizando programas de computadora

como Excel; si se utiliza este programa al graficar los datos se obtiene la figura 2.

Figura 2. Datos de pulso y tiempo de actividad física de 15 pacientes.

Como se puede observar, cuando se tienen relación se puede ver en forma de una recta,

en donde aumenta el tiempo de ejercicio conforme aumenta el pulso; después de esto si

se trabaja en Excel, se posiciona uno sobre los puntos y con se oprime el botón derecho,

aparece la opción agregar línea de tendencia; ahí se da click, y se selecciona agregar

línea de tendencia lineal, así como Presentar ecuación del gráfico y el valor R cuadrado

del gráfico; ver figura 3.

Page 23: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

22

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Figura 3. Línea de tendencia, ecuación de ella (recta), y coeficiente de correlación lineal de los

datos de la tabla 7.

Sin embargo, la relación entre variables dependiente e independiente puede o no guardar

una relación (figura 7, A, B, C, D), la relación más simple es la que acabamos de ver y

que tiene forma de línea recta, y que puede ser descrita matemáticamente por la

ecuación:

𝑌 = 𝑚𝑋 + 𝑏

Donde:

Y es el valor de la variable dependiente

m es el valor de la pendiente, es decir la inclinación de la recta (constante)

X es el valor que toma la variable independiente

b es el valor de la ordenada al origen (constante)

Estimar el valor de las constantes en la ecuación de la recta permite calcular los posibles

valores que se encuentran fuera del intervalo de los datos que se posean. La forma para

estimar la pendiente y el valor donde la recta corta en el eje x, es el método de mínimos

cuadrados, en este método se estiman los valores contantes de la recta de la siguiente

forma:

𝑚 =𝑛(∑ 𝑋𝑖𝑌𝑖) − (∑ 𝑋𝐼)(𝑌𝐼)

𝑛(∑ 𝑋𝐼2) − (∑ 𝑋𝐼)2

Donde

m es el valor de la pendiente

Page 24: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

23

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

n es el número de datos

Xi es el valor de cada dato de la variable independiente

Yi es el valor de cada dato de la variable dependiente

𝑏 =(∑ 𝑌𝑖) − 𝑚(∑ 𝑋𝐼)

𝑛

Donde

B es el valor de la ordenada al origen

n es el número de datos

m es el valor de la pendiente

Xi es el valor de cada dato de la variable independiente

Yi es el valor de cada dato de la variable dependiente

(Ortiz y Díaz, 2014).

Figura 4. Diferentes tipos de relación entre variables; A, sin relación; B, relación no lineal; C,

relación lineal positiva; D, relación lineal negativa.

Page 25: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

24

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Para que pueda comprenderse mejor, pongamos un ejemplo: se quiere estimar cual será

la tasa de crecimiento para el año 2025, para ello tenemos datos de crecimiento de 1990

al 2014 (tabla 8).

Tabla 8. Tasa de crecimiento total en México de 1990 a 2014 (Secretaría de Salud, 2016).

Número de dato

X

Año Tasa de crecimiento

total Y

Número de dato

X

Año Tasa de crecimiento total

Y

1 1990 1.72 14 2003 1.21

2 1991 1.69 15 2004 1.17

3 1992 1.64 16 2005 1.18

4 1993 1.59 17 2006 1.23

5 1994 1.55 18 2007 1.29

6 1995 1.48 19 2008 1.33

7 1996 1.41 20 2009 1.29

8 1997 1.35 21 2010 1.25

9 1998 1.29 22 2011 1.2

10 1999 1.23 23 2012 1.16

11 2000 1.22 24 2013 1.13

12 2001 1.23 25 2014 1.09

Al graficar estos datos, la relación entre la variable independiente tiempo (año), y la

variable dependiente (tasa de crecimiento) resulta lo que se aprecia en la figura 8.

Page 26: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

25

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Figura 8. Tasa de natalidad Nacional durante el periodo 1990 a 2015

Como se puede ver en la figura anterior, si se quiere estimar aproximadamente la

natalidad en el año 2025 (Número de dato 36), se puede determinar trazando una línea en

el 36 hasta llegar la recta y de ahí trasladar hasta el eje de tasa de natalidad, que es

aproximadamente 13.3, pero esto es un método empírico, para hacerlo de manera formal

se utiliza la ecuación de la recta para extrapolar, es decir calcular datos más allá del

máximo valor que tenemos numéricamente, o interpolar, es decir, con un valor menor al

dato inferior que se tienen.

Con la ecuación podemos estimar el valor de la tasa de crecimiento total para el año 2025

(36, es decir extrapolar); o estimar cual era el valor del crecimiento total en el año

1985(dato -4):

y= -0.0208(x)+1.597

x=dato número 36

y= -0.0.0208 (36) +1.597

y= 0.8492 de tasa de crecimiento total en año 2025.

Mientras que si queremos estimar cual era el crecimiento total en el año 1985, esto

significaría retroceder 5 años, es decir:

y= -0.0208(x)+1.597

x= dato número -4

y= -0.0208 (-4 )+1.597

y= 1.6802 de tasa de crecimiento total en el año 1985.

y = -0.0208x + 1.597R² = 0.7353

0

0.4

0.8

1.2

1.6

2

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

Tasa d

e c

recim

iento

Número de dato (año)

Page 27: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

26

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Cuando la correlación entre la variable dependiente e independiente es descrita con una

recta, ésta puede tener pendiente (inclinación) positiva o negativa, como se aprecia en la

figura 4-C y D, respectivamente. El grado en que puede saberse el grado de relación

entere variables puede ser cuantificado con ayuda del coeficiente de lineal de Pearson r

(figura 5), cuyo valor oscila entre –1 y +1, de tal modo que:

Si r = −1 ⇒ relación lineal negativa perfecta entre x e y

Si r = 1 ⇒ asociación lineal positiva perfecta entre x e y

Si r = 0 ⇒ no existe ninguna relación lineal entre x e y

Esto puede verse de forma gráfica en la figura 5, a la izquierda una correlación negativa

cuando los valores de r son cercanos a -1, en el medio con valores cercanos a cero, no

hay relación o correlación entre las variables, o cuando existe una correlación positiva, en

la gráfica cargado a la derecha y con valores para r cercanos a 1.

Figura 5. Grado de correlación con base al coeficiente lineal de Pearson.

El coeficiente de correlación lineal puede ser estimado con base al siguiente modelo:

𝑟𝑥𝑦 =

∑ 𝑋𝑌𝑁

∗ XY̅̅̅̅

𝑆𝑥𝑆𝑦

Pongamos un ejemplo con los datos de tabla 9.

Tabla 9. Grupos de datos que describen una relación lineal, con valores para X2, Y2 y el producto

de X•Y

Número de dato X Y X2 Y2 XY

1 103 2 10609 4 206

2 105 4 11025 16 420

3 105 6 11025 36 630

4 112 3 12544 9 336

5 116 8 13456 64 928

6 118 7 13924 49 826

Page 28: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

27

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

7 124 7 15376 49 868

8 126 9 15876 81 1134

9 129 10 16641 100 1290

10 137 9 18769 81 1233

Sumatoria 1175 65 139245 489 7871

Media 117.5 6.5 13924.5 48.9 787.1

Potencia 13806.25 42.25

Con los datos de esta tabla se grafican los datos de “x” y “y”, y se obtienen la figura 6.

Figura 6. Datos graficados de la tabla 9,

Con los datos y la ecuación de correlación lineal tenemos estimamos podemos determinar

el coeficiente de correlación lineal, e, para saber que tanto estas variables están

correlacionadas:

𝑟𝑥𝑦 =∑ 7871

10∗787.1

∑𝑥2

𝑁∙∑

𝑦2

𝑁

= √139245

10− 117.52 = 10.874

𝑟𝑥𝑦 =619526.41

680908.05= 0.9098533 ∴ la relación entre estas variables es una fuerte correlación

positiva, como se muestra en la figura 6.

Page 29: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

28

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

2.4.3. Regresión

Ahora bien, no todas las relaciones entre variables tienen un comportamiento de tipo

lineal, hay relaciones de tipo potencial y exponencial. Veamos ejemplos de estas

relaciones.

Se ha registrado el incremento del peso de un bebé prematuro durante 26 meses,

obteniéndose los datos de la tabla 10.

Tabla 10. Datos de peso de bebé prematuro durante sus primeros 26 meses de vida.

Edad meses

Peso (kg)

Edad meses

Peso (kg) Edad

meses Peso (kg)

Edad meses

Peso (kg)

1 0.9 8 6.5 15 8.7 22 9.9

2 2.27 9 7 16 8.9 23 10

3 3.4 10 7.2 17 9.1 24 10.2

4 4.3 11 7.7 18 9.3 25 10.4

5 4.9 12 7.9 19 9.4 26 10.5

6 5.5 13 8.2 20 9.6 n…

7 6 14 8.5 21 9.7 36

Al graficar estos datos se observa que la relación entre las variables no describe un

comportamiento lineal (figura 7).

Figura 7. Incremento en peso (kg) de un bebé prematuro durante sus primeros 26 meses de vida

Page 30: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

29

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Al no tener un comportamiento de tipo lineal se procede a transformar los datos, en este

caso, la variable independiente (edad en meses), se transformarán en logaritmo natural,

recordemos que el logaritmo es el exponente o potencia al que hay que elevar un número

que se denomina base, para obtener otro número determinado, un ejemplo es logaritmo

en base 10 de 100 es 2. Para transformar un número a logaritmo natural, o logaritmo a

una determinada base, puede hacerse con una calculadora o en Excel, se va a la opción

autosuma, de ahí se va a más funciones, después a categoría: matemáticas y

trigonometría, y seleccionar el tipo o base de logaritmo que se desee estimar.

Tabla 11. . Datos de la tabla 8 transformada la variable X en logaritmo natural (ln).

ln Edad meses

Peso (kg)

ln Edad meses

Peso (kg)

ln Edad

meses

Peso (kg)

ln Edad meses

Peso (kg)

0.00 0.9 2.08 6.5 2.71 8.7 3.09 9.9

0.69 2.27 2.20 7 2.77 8.9 3.14 10

1.10 3.4 2.30 7.2 2.83 9.1 3.18 10.2

1.39 4.3 2.40 7.7 2.89 9.3 3.22 10.4

1.61 4.9 2.48 7.9 2.94 9.4 3.26 10.5

1.79 5.5 2.56 8.2 3.00 9.6 n…

1.95 6 2.64 8.5 3.04 9.7 3.6

Al graficar los datos transformados (tabla 11), observamos ahora un comportamiento de

una línea recta (figura 8).

Page 31: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

30

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Figura 8. Incremento en peso (kg) de un bebé prematuro durante sus primeros 26 meses de vida

con la transformación de los datos de la variable X (independiente) en logaritmo natural.

Esta gráfica tiene ya un comportamiento al de una recta, de este modo, si queremos

estimar cual va a ser el peso del niño a los 36 meses, lo que se debe hacer es estimar el

valor de Y con el valor de X = ln 36 = 3.583518938

𝑌 = 3.1281(𝑋) + 0.1668

Y=11.43 kg.

Si bien la regresión lineal nos da información de la relación entre variables, también nos

permite hacer comparaciones entre rectas de una o de más poblaciones; en este sentido

se puede comparar dos coeficientes de regresión lineal.

Por ejemplo, se desea saber si los programas de control de natalidad en el estado de

Chiapas han tenido efecto en dos periodos de tiempo diferentes, para lo cual se tienen

datos de la tasa de natalidad del estado de 1990 a 2015, y se quiere saber si la tasa de

natalidad ha disminuido de igual forma durante el periodo de 1990 a 2001, con respecto al

periodo de 2003 a 2014 (tabla 12).

Tabla 12. Tasa de natalidad del estado de Chihuahua durante el periodo de 1990 a 2004

(Secretaría de salud, 2016).

Page 32: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

31

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Número de dato

Año X Serie

1999-2002

Tasa de natalidad Y

Número de dato

Año X Serie

1999-2002

Tasa de natalidad Y

1 1990 25.36 13 2003 21.62

2 1991 25.03 14 2004 21.48

3 1992 24.67 15 2005 21.33

4 1993 24.38 16 2006 21.12

5 1994 24.04 17 2007 20.81

6 1995 23.63 18 2008 20.46

7 1996 23.23 19 2009 20.08

8 1997 22.86 20 2010 19.41

9 1998 22.57 21 2011 19.26

10 1999 22.38 22 2012 19.09

11 2000 22.21 23 2013 18.94

12 2001 21.98 24 2014 18.79

Al graficar los datos se aprecia que ambas pendientes tienen una inclinación similar

(figura 9).

Figura 9. Tasa de natalidad del estado de Chiapas para el periodo de 1990 a 2002, y para el

peridodo 2003 a 2015.

Page 33: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

32

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Escuela Politécnica de Ingeniería de Minas y energía. Ajuste por

mínimos cuadrados. Disponible en:

https://ocw.unican.es/pluginfile.php/1593/course/section/2045/Aju

ste%20por%20minimos%20cuadrados.pdf

Y

Ajuste de recta por mínimos cuadrados. Disponible en:

http://www.uv.es/zuniga/08_Ajuste_de_una_recta_por_minimos_c

uadrados.pdf

http://www.uv.es/zuniga/08_Ajuste_de_una_recta_por_minimos_c

uadrados.pdf

Para saber más sobre la ecuación de la recta y cómo puedes utilizar Excel para este fin,

consulta el siguiente material:

Page 34: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

33

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Cierre de la unidad

En esta unidad se han revisado las pruebas estadísticas más frecuentemente utilizadas,

algunas de ellas se retomaron de cursos anteriores (estadística básica); de estas

herramientas o pruebas estadísticas se espera que sean de ayuda para el análisis de

datos, en especial de los indicadores que están disponibles de ser consultados en bases

de datos federales, y que son información valiosa para estimar tendencias y corroborar en

que aspectos es necesario reevaluar las estrategias que se están siguiendo para el

cumplimiento de las metas y objetivos propuestos en los planes de desarrollo, así como

en los sectoriales, en especial en aquellos del sector salud. La toma de decisiones con

base a análisis de pruebas estadísticas fortalece y valida estas, ya que está basado en

datos y análisis sólidos incluyendo argumentos de probabilidad y de certidumbre.

Fuentes de consulta

Aguilar Barojas, S. (2005). Fórmulas para el cálculo de la muestra en investigaciones de

salud. Salud en Tabasco, 11(1-2), 333-338. Obtenido de

http://www.redalyc.org/pdf/487/48711206.pdf

Asurza O., H. (mayo de 2006). Glosario básico de términos estadísticos. Obtenido de

Instituto Nacional de estadística e Informática:

https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib0900/Libro.p

df

Badii, M., Castillo, J., Landeros, J. y Cortez, K. (2007). Papel de la estadística en la

Investigación científica. Innovaciones de negocios, 4(1), 107-145. Obtenido de

https://www.researchgate.net/publication/315812689_Papel_de_la_estadistica_en_la_inve

stigacion_cientifica_Role_of_statistics_in_scientific_research

Botella-Rocamora, P., Alacreu-García, M., y Martínez-Beneito, M. (s.f). Apuntes de

Estadística en Ciencias de la Salud. Obtenido de https://www.uv.es/~mamtnez/AECS.pdf

De la Torre, L. (2003). Estadística. Instituto Tecnológico de Chihuahua. Obtenido de

http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/

Cuesta, M. y Herrero, F. (s.f.). Universidad de Oviedo. Introducción al muestreo. Obtenido

de http://mey.cl/apuntes/muestrasunab.pdf

Page 35: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

34

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Fernández, P., y Pértega Díaz, S. (6 de marzo de 2001). Estadística descriptiva de los

datos. Obtenido de

https://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva2.pdf

Frías Navarro, D. (2019, diciembre). Breve explicación de conceptos fundamentales de

diseño de investigación. Universidad de Valencia. España. Obtenido de

https://www.uv.es/~friasnav/BreveExplicacionConceptos.pdf

Grané Chávez, A. (s.f.). Departamento de estadística. Introducción. Obtenido de

Universidad Carlos III de Madrid:

http://www.est.uc3m.es/agrane/ficheros_docencia/EDAD/introduccion_tema1_reducido.pd

f

Instituto Nacional de Estadística e Informática. (mayo de 2006). Glosario básico de

términos estadísticos. Obtenido de

https://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib0900/Libro.p

df

Instituto Nacional de Estadística y geografía. (3 de marzo de 2011). Servicios y bienes en

las viviendas. Obtenido de

https://www.inegi.org.mx/app/tabulados/default.html?nc=mviv09

Instituto Nacional de Estadística y Geografía. (s.f.). Estadística inferencial. Obtenido de

http://www.inegi.org.mx/inegi/spc/doc/INTERNET/19-

%20Curso%20estad%C3%ADstica%20Inferencial.pdf

Laguna, C. (2014). Correlación y Regresión Lineal. España: Instituto Aragonés de ciencias

de la salud.

Lipschutz S. y Lipson, M. (2001). Probabilidad. México, Mc Graw Hill.

Luceño A., González F. J. (2004). Curso de Estadística de ITOP. Santander, Servicio de

Publicaciones de la Universidad de Cantabria. Obtenido de

http://personales.unican.es/gonzaleof/Itop/teoria/Teoria_distribuciones.pdf

Murray, R. S. y Stephens, L. J. (2009). Estadística. 4ta edición. México. Mc Graw-Hill.

Oda, N. B. (2005). Introducción al análisis gráfico de datos experimentales. México.

Facultad de Ciencias, UNAM.

Ortiz, M. M. D. y Díaz B. J. L. (2014). Prácticas de física, Universidad de Cantabria.

Obtenido de http://ocw.unican.es/ensenanzas-tecnicas/fisica-i/practicas-

1/Ajuste%20por%20minimos%20cuadrados.pdf

Secretaría de Salud. (20 de julio de 2016). Indicadores Generales. Obtenido de

http://www.dgis.salud.gob.mx/contenidos/sinais/indica_gral_gobmx.html

Soto, M. C. (s.f). Estadística y tecnología de la información y comunicación en cuidados.

Obtenido de https://cristina92sm.wordpress.com/2011/05/15/ejercicio-del-seminario-

nueve-chi-cuadrado/

Page 36: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

35

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Universidad Abierta y a Distancia de México. (2016). Distribuciones de datos en salud.

México: UNAD.

Universidad de Sonora, Dep. de matemáticas. (2016). Muestreo. Obtenido de

http://www.estadistica.mat.uson.mx/Material/elmuestreo.pdf

Walpole, R. (2007). Probabilidad y Estadística para Ingeniería y Ciencias. México:

Pearson Educación.

Wayne, W. (1988). Estadística con aplicaciones a las ciencias sociales y a la educación.

México: McGraw-Hill.

Zar, J. (1984). Biostatistical analysis. New Jersey: Prentice Hall.

Bibliografía complementaria

Álvarez, C. R. (2007). Estadística aplicada a las ciencias de la salud. España, Ediciones

Díaz de Santos.

Canabos, C. G. (1988). Probabilidad y estadística: Aplicaciones y Métodos, México, Mac

Graw Hill.

Milton, S. J. (2007). Estadística para Biología y Ciencias de la Salud. España, McGraw Hill

Ruiz, M. D. (s.f.). Manual de estadística. Recuperado de

https://www.eumed.net/cursecon/libreria/drm/24.pdf

Santaló, L.A. (1975). Probabilidad y estadística. Argentina, Secretaría General de la

organización de Estados Americanos.

Apéndice de símbolos matemáticos

∴= 𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜

<= 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒

>= 𝑚𝑎𝑦𝑜𝑟 𝑞𝑢𝑒

≤= 𝑚𝑒𝑛𝑜𝑟 𝑜 𝑖𝑔𝑢𝑎𝑙 𝑞𝑢𝑒

≥= 𝑚𝑎𝑦𝑜𝑟 𝑜 𝑖𝑔𝑢𝑎𝑙 𝑞𝑢𝑒

∑= sumatoria

│= valor absoluto

√ = 𝑟𝑎í𝑧 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑎

Page 37: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

36

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

H0= Hipótesis nula

H1 o HA= Hipótesis alterna

≠= 𝐷𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑑𝑒

e= 2.7182…

∀= 𝑃𝑎𝑟𝑎 𝑡𝑜𝑑𝑎

∈ 𝑃𝑒𝑟𝑡𝑒𝑛𝑒𝑐𝑒 𝑎

𝑅 = 𝑃𝑒𝑟𝑡𝑒𝑛𝑒𝑐𝑒 𝑎 𝑙𝑜𝑠 𝑛ú𝑚𝑒𝑟𝑜 𝑟𝑒𝑎𝑙𝑒𝑠

Page 38: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

37

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Apéndice de valores críticos de la distribución normal

Page 39: Bioestadística - Universidad Abierta y a Distancia de México

Universidad Abierta y a Distancia de México | DCSBA

38

Bioestadística Herramientas bioestadísticas para la toma de decisiones U2

Apéndice de valores críticos de la distribución t