Cap2

9

Click here to load reader

Transcript of Cap2

Page 1: Cap2

Guía de Bioestadística Dr. Julio Idrovo

2. INTRODUCCIÓN A LA TEORÍA DE PROBABILIDADES

2.1 Teoría de Conjuntos Para poder entender los conceptos básicos del modelo probabilístico, es necesario tener algunas ideas de

la teoría matemática de conjuntos.

Por conjunto se entiende una colección de objetos, individuos, etc. Existen dos conjuntos que son

particularmente interesantes: el conjunto de todos los objetos, conocido como conjunto universo y

representado por U; y el conjunto que no contiene elementos o conjunto vacío, representado por .

A los conjuntos generalmente se los simboliza con letras mayúsculas y se los puede describir de tres

maneras:

1) A través de palabras.

2) Enumerando sus elementos.

3) A través de sus propiedades.

Ejemplo: Si D es el conjunto de los dígitos:

A={dígitos menores que 6}

A={0,1,2,3,4,5}

A={x | xD; x<6}

Con los conjuntos se pueden realizar las siguientes operaciones:

(a) Unión A B = {x|xA o xB}

(b) Intersección A B = {x|xA y xB}

(c) Diferencia A B = {x|xA y xB'}

Los gráficos siguientes muestran los diagramas de Venn para cada una de las operaciones entre conjuntos.

Para los conjuntos A, B y C se cumplen las siguientes igualdades:

A B = BA A B = B A

A(BC) = (AB)C A(BC) = (AB)C

A(BC) = (AB) (AC) A(BC) = (AB)(AC)

A U = U AU = A

A = A A =

A A'= U A A'=

(A B)' = A' B' (A B)' = A' B'

(A')' = A A - B = A - (AB) = A B'

El símbolo A' significa el complemento de A.

Bioesta

dístic

a

Page 2: Cap2

Guía de Bioestadística Dr. Julio Idrovo

Las notaciones conjuntistas tienen su correspondiente significado.

1

3

)

)

2)

4)

A B A B

A - B A B

1) Unión: Ocurre A o B o ambos.

2) Intersección: Ocurren A y B simultáneamente.

3) Diferencia: Ocurre A pero no ocurre B.

4) Subconjunto: Si ocurre A necesariamente ocurre B.

2.2 Espacios muestrales y eventos El espacio muestral se define como el conjunto de todos los resultados posibles de un experimento. Se lo

simboliza con la letra S. Es el equivalente del conjunto universo U indicado anteriormente.

Por ejemplo, si el experimento consistió en lanzar un dado normal y anotar su resultado, el espacio

muestral será S = {1,2,3,4,5,6}

Un evento o suceso es un resultado posible del experimento, por lo tanto es un subconjunto del espacio

muestral. En el ejemplo anterior se puede definir el suceso A como la ocurrencia de un número par A =

{2,4,6}

Dos sucesos son mutuamente excluyentes cuando no pueden ocurrir juntos, es decir su intersección será

el conjunto vacío .

2.3 Métodos de enumeración No siempre es fácil contar el número de elementos que se encuentran en un conjunto. Por ejemplo,

determinar cuantas parejas diferentes se pueden formar con un grupo de 100 personas implicaría una gran

inversión de tiempo si se contaría una por una. Con la finalidad de abreviar los cálculos, existen algunos

métodos de enumeración.

2.3.1 Principio de multiplicación

Cuando un procedimiento I puede

realizarse de n1 maneras y un

procedimiento II puede realizarse de

n2 maneras, y además cada una de las

maneras de efectuar I puede ser

seguida por cualquiera de las maneras

de efectuar II; entonces el

experimento que consiste en realizar I

seguido por II se puede hacer de n1*n2

maneras. Este es el denominado

principio de multiplicación

representado esquemáticamente en la

figura. Si se generaliza para k procedimientos, el número total de maneras nT es: n nT ii

k

1

Cuando los experimentos son complejos, es útil tener un método sistemático para obtener todos los

resultados posibles. Un método para hacerlo es el diagrama de árbol, que resulta útil cuando el

experimento puede visualizarse como si se produjera en unos pocos pasos o etapas diferentes. Cada paso

del experimento se representa como una ramificación del árbol El árbol se forma determinando primero

cuántas etapas están implicadas. En cada etapa las ramas del árbol representan las posibilidades en ese

momento determinado. Una vez completado el árbol, pueden leerse las secuencias de sucesos siguiendo

lo que se denominan “trayectorias” a lo largo del árbol.

Aplicaciones interesantes de los diagramas de árbol se realizan en genética elemental. Los rasgos

hereditarios de un organismo vienen determinados por unidades denominadas genes. Los genes están

conformados por dos alelos que se pueden contrastar. Por ejemplo, consideremos el gen que determina el

color de los ojos; este gen tiene dos alelos, B para castaños y b para azules. Entonces hay tres posibles

composiciones genéticas o genotipos para el color de los ojos. Estos son, BB, Bb y bb. Cuando dos

genes son de la misma forma, se dice que el organismo es homocigótico para esa característica; de lo

P

I II

n1

n2

n2

n2

n2

Bioesta

dístic

a

Page 3: Cap2

Guía de Bioestadística Dr. Julio Idrovo

contrario es heterocigótico. Una característica que se manifieste cuando está presente el alelo que la

controla, se denomina característica dominante y el alelo es un alelo dominante. Los alelos dominantes se

representan con letras mayúsculas y los recesivos con letras minúsculas. Para cada característica, la

descendencia hereda un gen aleatorio de cada uno de sus progenitores.

Ejemplo 1:

Cada uno de los miembros de una pareja tiene alelos tanto para ojos castaños como azules. Al momento

de la concepción, cada progenitor contribuye con un alelo para el color de los ojos. Por lo tanto, podemos

considerar el experimento de la determinación de color de los ojos del niño como un proceso en dos

etapas. La etapa 1 representa la herencia de un alelo de la madre; la etapa 2 representa la herencia de un

alelo del padre.

Madre Padre Trayectoria

B BB = castaños

b Bb = castaños

B bB = castaños

b bb = azules

2.3.2 Principio de adición

Cuando un procedimiento I puede realizarse de

n1 maneras y un procedimiento II puede

realizarse de n2 maneras, y además no es

posible que los dos procedimientos se realicen

juntos; entonces el experimento que consiste en

realizar I o II se puede hacer de n1+ n2

maneras. Este es el denominado principio de

adición representado esquemáticamente en la

figura. Si se generaliza para k procedimientos,

el número total de maneras nT es:

2.3.3 Permutaciones

Supongamos que tenemos n objetos diferentes. De cuántas maneras se pueden agrupar (permutar)

estos objetos?. Agrupar los n objetos es equivalente a ponerlos en una caja con n compartimientos, en

algún orden específico. Así el primer objeto tiene n casilleros disponibles, el segundo n-1, el tercero n-2,

y así sucesivamente. Aplicando el principio de multiplicación se obtiene

Este número, tan común en matemáticas, se denomina n-factorial y se lo representa n!. Por definición

0!=1.

Cuando no se quieren tomar todos los objetos sino rn, se encuentra la siguiente expresión:

2.3.4 Permutaciones con no todos los objetos diferentes

Supongamos que tenemos n objetos tales que hay n1 de la clase 1, n2 de la clase 2, ..., nk de la clase k, en

donde n1+ n2.+..+nk = n. Entonces el número de permutaciones de esos objetos está dado por

2.3.5 Combinaciones

Consideramos nuevamente n objetos diferentes. Deseamos escoger r de esos objetos sin considerar el

orden. El número de maneras en que podemos hacerlo es el que es igual a

I II

B

b

Bioesta

dístic

a

Page 4: Cap2

Guía de Bioestadística Dr. Julio Idrovo

2.4 Probabilidad Sea S un espacio muestral asociado con un experimento. Con cada suceso A asociamos un número real

P(A) llamado la probabilidad de que A satisfaga las siguientes condiciones:

1) 0 P(A) 1

2) P(S) =1

3) P(AUB) = P(A) + P(B) (A y B mutuamente excluyentes)

Esta última condición puede generalizarse considerando An={sucesión disjunta de eventos}, entonces

De las propiedades anteriores se puede demostrar que:

La probabilidad de ocurrencia de un evento se define como la razón entre el número de maneras en que se

verifica el evento y el número de resultados posibles del experimento.

2.5 Probabilidad condicional Sean A y B dos eventos asociados con un experimento. Se indica con P(B|A) la probabilidad condicional

del evento B dado que se ha verificado A.

Cada vez que se calcula P(B|A), realmente se está calculando P(B) con respecto al espacio muestral

reducido de A en lugar del espacio muestral S. La probabilidad condicional se calcula mediante las

siguientes ecuaciones:

Dos sucesos A y B se consideran independientes si

Los eventos B1, B2, ..., Bk representan una partición del espacio muestral S si:

Esto significa que cuando se efectúa el experimento, ocurre uno y solo uno de los eventos Bi.

Un evento A con respecto a S y considerando una partición del espacio muestral puede escribirse como

por lo tanto

Considerando la probabilidad condicional se puede obtener el teorema de la probabilidad total.

2.6 Teorema de Bayes Sea B1, B2, ..., Bk una partición de eventos del espacio muestral S y A cualquier evento con P(A)>0.

Entonces para cualquier i=1,2,..., k se tiene

Bioesta

dístic

a

Page 5: Cap2

Guía de Bioestadística Dr. Julio Idrovo

Este es el teorema de Bayes, conocido también como la fórmula para la probabilidad de las "causas".

2.7 Distribuciones de variables aleatorias Sea X una variable aleatoria. Si el número de valores posibles de X es finito o infinito numerable, se dice

que X es una variable aleatoria discreta.

La función de probabilidad de X (discreta) satisface las propiedades:

Sea X una variable aleatoria. Se dice que X es una variable aleatoria continua si existe una función de

densidad de probabilidad (fdp) f(x) que satisface las siguientes condiciones:

2.7.1 Distribución binomial

Una variable aleatoria que sigue la distribución , donde , se

dice que tiene una distribución binomial. La probabilidad de éxito en un intento se denomina p.

Hay cuatro características esenciales que tiene la distribución binomial:

En cada experimento se realizan n pruebas idénticas

El resultado de cada prueba puede clasificarse como “éxito” o “fracaso”.

Las pruebas son independientes, es decir el resultado de una prueba no influye sobre el resultado

de cualquier otra prueba y la probabilidad de éxito se mantiene constante.

La variable de interés es el número de éxitos en n pruebas.

Ejemplo 2:

Diez individuos, cada uno de ellos propenso a la tuberculosis, entran en contacto con un portador de la

enfermedad. La probabilidad de que la enfermedad se contagie del portador a un sujeto cualquiera es de

0.10. ¿Cuántos se espera que contraigan la enfermedad? ¿Cuál es la probabilidad de que exactamente 3 se

contagien? ¿Cuál es la probabilidad de que al menos 2 se contagien?

Datos:

n=10

p=0.10

El valor esperado, E(X), para una distribución binomial está dado por np.

La probabilidad de que exactamente se contagien tres individuos está dada por:

La probabilidad de que al menos se contagien dos individuos está dada por:

Bioesta

dístic

a

Page 6: Cap2

Guía de Bioestadística Dr. Julio Idrovo

2.7.2 Distribución de Poisson

Las variables aleatorias de Poisson surgen en conexión con los denominados procesos de Poisson, los

cuales implican la observación de un conjunto discreto de sucesos en un intervalo continuo de tiempo,

longitud o espacio. Por ejemplo, podemos observar el número de glóbulos blancos en una gota de sangre.

El suceso de interés es la observación de un glóbulo blanco, mientras que el intervalo continuo implicado

es la gota de sangre.

La variable aleatoria de interés en un proceso de Poisson es X, el número de sucesos es un intervalo d

tamaño s. Consideremos las siguientes cuestiones:

¿Cuál es la unidad de medida básica en el problema?

¿Cuál es la media del número de ocurrencias del suceso por unidad? representa este valor.

¿Cuál es el tamaño del intervalo de observación? Este valor está representado por s.

Se utiliza cuando la probabilidad de éxito en un intento (p) es muy pequeña y el número de intentos (n) es

alto.

Ejemplo 3:

El recuento de glóbulos blancos de un individuo sano puede presentar en promedio un valor mínimo de

6000 por milímetro cúbico de sangre. Para detectar una deficiencia de glóbulos blancos, se toma una gota

de sangre de 0.001 mm3 y se halla el número X de glóbulos blancos. ¿Cuántos glóbulos blancos cabe

esperar en un individuo sano? ¿Cuál es la probabilidad de encontrar a lo más dos?

Datos:

Sea el milímetro cúbico la unidad de medida, entonces s=0.001 y , la media de veces que tendremos un

suceso por cada unidad, es 6000.

La probabilidad de encontrar a lo más dos glóbulos blancos está dada por:

2.7.3 Distribución normal

Si la fdp para una variable aleatoria continua X está dada por , donde

, se dice que X está normalmente distribuida con media y desviación estándar (también llamada

desviación típica) , lo cual se representa a través de .

Esta distribución tiene las siguientes características:

La curva tiene forma de campana y es simétrica alrededor de la media.

Los puntos de inflexión se encuentran a una desviación típica a cada lado de la media. Cuanto

más grande es , más lejos caen los puntos de inflexión y la curva es m

Puesto que esta función no se puede integrar analíticamente, se encuentran los valores tabulados para la

distribución normal estándar . Entonces es necesario convertir la variable aleatoria X en la

variable reducida Z; esto se logra mediante la transformación

Ejemplo 4:

Sea X la cantidad de radiación que puede ser absorbida por un individuo antes de que le sobrevenga la

muerte. Admitamos que X es normal, con una media de 500 roentgen y una desviación típica de 150

roentgen. ¿Cuál es la probabilidad de que la cantidad absorbida sea menor que 200 roentgen? ¿Por encima

de qué nivel de dosificación sobreviviría solamente el 5% de los expuestos?

Bioesta

dístic

a

Page 7: Cap2

Guía de Bioestadística Dr. Julio Idrovo

La variable es La probabilidad de que

la cantidad absorbida sea menor que 200 roentgen es

. Debemos convertir a la variable Z para

poder buscar la probabilidad en la tabla. La tabla da el

área (probabilidad) a la izquierda del punto z. Cuando

el área buscada está a la derecha, se realiza el cálculo

usando el complemento.

Para resolver la segunda parte, buscamos el valor z al

que corresponde el área dada. En este caso se da el área

de 5% a la derecha lo que equivale a 95% a la izquierda.

Entonces tenemos y buscando en la

tabla se encuentra z=1.65. Ahora despejamos el valor de

.

2.8 Ejercicios 1. Un tetrapéptido bioactivo (un compuesto formado por cuatro aminoácidos ligados en cadena) tiene

la siguiente dotación de aminoácidos: alanina (A), ácido glutámico (G), lisina (L) e histidina (H)

Por ejemplo ALGH y LGHA son cadenas típicas de cuatro ácidos.

a) Diseñar un diagrama en árbol para representar las formas posibles en las que estos cuatro

aminoácidos pueden ligarse para formar una cadena de cuatro ácidos.

b) Si cada cadena es equiprobable, determinar la probabilidad del suceso A: se encuentra ácido

glutámico en uno u otro extremo de la cadena.

c) Determinar la probabilidad del suceso B: no se encuentra lisina en ningún extremo de la cadena.

2. Se planifica un experimento para estudiar el efecto de tres tipos de fertilizantes en el crecimiento

del trigo: Se prepara una parcela de tierra y se divide en tres franjas de igual tamaño. Se aplica un

fertilizante en cada una de las franjas. Denominamos a los fertilizantes A, B y C:

a) Diseñar un diagrama de árbol para representar las seis formas las que pueden asignarse los

fertilizantes a las franjas.

b) Si la asignación se ha realizado aleatoriamente de manera que cada trayectoria del diagrama de

árbol es equiprobable, ¿cuál es la probabilidad de que la primera franja reciba el fertilizante A?

3. El gato montés que vive en tierras de pastoreo públicas puede ser una amenaza para el ganado

vacuno y para las ovejas. Es interesante estimar el número de estos gatos monteses que viven en

una zona concreta. Diez son capturados, marcados y liberados. Más tarde, se capturan cuatro gatos

monteses y se clasifica a cada uno de ellos, según haya sido marcado (t) o no haya sido marcado

(u). Así, un resultado típico del experimento es tuut en el cual el primero y el último animal están

marcados mientras que el segundo y el tercero no.

a) Diseñar un diagrama en árbol para representar los 16 resultados posibles de este experimento.

b) Decir las trayectorias que correspondan al acontecimiento del suceso A: el primer y el último

Bioesta

dístic

a

Page 8: Cap2

Guía de Bioestadística Dr. Julio Idrovo

animal capturados están marcados.

c) Dar las trayectorias que correspondan al suceso B : están marcados exactamente tres animales.

d) Decir las trayectorias que correspondan al acontecimiento simultáneo de los sucesos A y B.

e) Si, de hecho, hay 100 gatos monteses viviendo en la región, ¿son equiprobables las 16

trayectorias a lo largo del árbol? De lo contrario, ¿qué trayectoria es más probable que se

produzca? ¿Cuál es la menos probable que se produzca?

4. Los melocotoneros dan frutos con pelusa y las nectarinas los dan suaves. El alelo para la pelusa es

dominante. Cada tipo de fruto puede ser amarillo o blanco siendo dominante el amarillo. Se cruza

un melocotonero blanco con una nectarina amarilla.

a) ¿Cuáles son los genotipos posibles para el melocotonero?

b) ¿Cuáles son los genotipos posibles para la nectarina?

c) Hay cuatro formas posibles de emparejar los genotipos de ambos árboles. Dibujar diagramas

en árbol para cada uno de ellos.

d) Utilizar los árboles de la parte c para hallar la probabilidad de obtener un melocotonero blanco

en cada caso.

5. a) ¿Cuántas palabras de RNA que comiencen con U (uracilo) y terminen con A (adenina) o G

(guanina) pueden formarse? (Recuérdese que pueden utilizarse los cuatro riibonucleótidos —A, U,

G y C— y que una palabra está constituida por tres de ellos, no necesariamente diferentes.

b) ¿Cuántas de las palabras del apartado a no contienen ninguna repetición?

c) ¿Cuál es la probabilidad de que una palabra formada aleatoriamente empiece con U, termine

con A o con G y contenga alguna repetición?

d) Comprobar las soluciones construyendo el diagrama en árbol correspondiente a a y b.

6. Se está elaborando un estudio para investigar el efecto del tipo de polímero, la temperatura, la

dosis de radiación, la tasa de la dosis de radiación, y el pH en la capacidad para extraer los

vestigios de benceno del agua. Existen dos tipos de polímeros (Ay B), tres temperaturas (alta,

media, baja), tres dosis de radiación, tres tasas de las dosis de radiación y tres niveles de pH

(ácido, básico, neutro).

a) ¿Cuántas condiciones experimentales deberán estudiarse?

b) Si cada condición experimental debe replicarse (repetirse) cinco veces, ¿cuántos ensayos

experimentales deberán realizarse?

c) ¿Cuántos ensayos se han de realizar con el polímero A a baja temperatura?

d) ¿Cuántos ensayos se han de realizar con el polímero B a alta o media temperatura y bajo pH?

7. Un investigador tiene ocho plantas para experimentar con ellas. Se están investigando dos

regímenes de riego diferentes. Estos son agua corriente (T) y agua ligeramente ácida (A) para

simular la lluvia ácida. Cuatro plantas reciben agua corriente y el resto la solución ácida. Una

asignación típica de los tratamientos a las plantas es ATTTAATA ¿Cuán asignaciones posibles

hay?

8. Un químico tiene 10 muestras de agua tomadas de las aguas residuales de una fábrica de papel. Sin

saberlo el químico, cuatro de las muestras son excesivamente ácidas. En una selección aleatoria de

tres muestras, ¿cuál es la probabilidad de que exacta dos sean en exceso ácidas?

9. En la selva se han capturado, marcado y liberado diez osos. Más tarde, se captura una muestra de

ocho osos y se cuenta cuántos están marcados. Se supone que no es más probable que se capture

un oso que otro, por lo que cualquier conjunto de tamaño 8 tiene igual probabilidad. Supongamos

que la población de osos en la región asciende a 100.

a) ¿Cuántos subconjuntos de ocho pueden seleccionarse?

b) ¿Se sorprendería si no se hubiera capturado ningún oso marcado? Argumentarlo basándose en la

probabilidad de que ello ocurra.

c) ¿Cuál es la probabilidad de que los ocho osos estén marcados?

10. Un determinado análisis químico tiene un alcance más bien limitado. Generalmente, el 15% de las

muestras están demasiado concentradas para que puedan contrastarse sin llevar a cabo una dilución

previa, el 20% están contaminadas con algún material obstaculizante que deberá ser eliminado

antes de llevar a cabo el análisis. El resto puede ser analizado sin pretratamiento. Supongamos que

las muestras no están en ningún caso concentradas y contaminadas a la vez. ¿Cuál es la

probabilidad de que una muestra seleccionada aleatoriamente pueda ser contrastada sin

pretratamiento?

Bioesta

dístic

a

Page 9: Cap2

Guía de Bioestadística Dr. Julio Idrovo

11. El índice de contaminación atmosférica elaborado por una central meteorológica clasifica los días

como: extremadamente buenos, buenos, tolerables, malos o extremadamente malos. La

experiencia anterior indica que el 15% de los días se clasifican como extremadamente buenos, el

22% como buenos, el 18% como tolerables, el 8% como malos y el 2% como extremadamente

malos. Se emite un pronóstico de los días clasificados como malos o extremadamente malos.

¿Cuál es la probabilidad de que un determinado día elegido aleatoriamente esté incluido en ese

pronóstico?

12. Los árboles de Mount Mitchell y otras zonas del sur de los Apalaches se han visto afectados por la

polución. Supongamos que en una zona concreta el 40% de los árboles de hoja perenne presentan

enfermedades leves, el 15% enfermedades moderadas, el 10% están muy afectados, el 8% están

muertos y el resto no están afectados. Si se selecciona aleatoriamente un árbol para un estudio,

¿cuál es la probabilidad de que...

a) No esté afectado?

b) Como muy poco afectado?

c) Gravemente afectado o muerto?

d) Ni gravemente afectado ni muerto?

13. Las aguas más comúnmente contaminadas son orgánicas. Puesto que la mayor parte de los

materiales orgánicos se descomponen por acción por acción de bacterias que requieren oxígeno, un

exceso de materia orgánica puede significar una disminución en la cantidad de oxígeno disponible.

Ello afecta eventualmente a otros organismos presentes en el agua. La demanda de oxígeno por

parte de una bacteria se llama demanda biológica de oxígeno (BOD).

14. Un estudio de las corrientes acuáticas que circulan en las proximidades de un complejo industrial

revela que el 35% tiene una alta BOD, el 10% muestra una acidez elevada y un 4% presenta ambas

características. ¿Son independientes los sucesos “la corriente tiene una alta BOD” y “la corriente

posee una acidez elevada”? Calcular la probabilidad de que la corriente tenga una acidez elevada,

dado que presenta una alta BOD.

15. Supongamos que una plaga afecta al 50% de todos los cornejos de un área dada. Se toma una

muestra de tres árboles y cada uno se clasifica como afectado por la plaga (s) o no afectado (n).

Dado que P(afectado) = P(no afectado), cada uno de los ocho resultados posibles tiene la misma

probabilidad.

Dibujar un árbol para representar los ocho elementos muestrales.

Hallar P(al menos dos están afectados).

Hallar P(al menos dos están afectados | el primero está afectado)

Hallar P(exactamente dos están afectados | el primero está afectado)

16. En un estudio de aguas localizadas en las proximidades de centrales eléctricas y de otras plantas

industriales que vierten sus desagües en el hidrosistema, se ha llegado a la conclusión de que el 5%

muestra signos de contaminación química y térmica, el 40% de contaminación química y el 35%

de contaminación térmica. Suponiendo que los resultados del estudio reflejen correctamente la

situación general, ¿cuál es la probabilidad de que un arroyo que muestra cierta contaminación

térmica presente también signos de contaminación química? ¿Cuál es la probabilidad de que un

arroyo que muestra cierta contaminación química no presente signos de contaminación térmica?

Bioesta

dístic

a