NC Bioestadística 2015Sept2

download NC Bioestadística 2015Sept2

of 87

description

notas de bioestadisticas

Transcript of NC Bioestadística 2015Sept2

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    1

    Pgina 1

    1.1 La estadstica

    La Estadstica es una herramienta que tiene como fundamento el recolectar, organizar, describir e inferir informacin para aportar al desarrollo de las dems ciencias.

    La estadstica descriptiva es aquella cuyo principal objetivo es dar un relato del conjunto de datos organizados, sin necesidad de realizar inferencias.

    Se limita a describir los datos que se analizan, sin hacer inferencias en cuanto a los no incluidos en la muestra .

    Por el contrario la estadstica inferencial tiene como finalidad obtener conclusiones de una poblacin basndose en datos muestrales, por lo tanto realiza estimaciones y pruebas de hiptesis.

    1.2 Bioestadstica

    El mtodo estadstico consiste en una secuencia de procedimientos para el manejo de los datos

    en una investigacin, dicho manejo tiene entre otros, el propsito de buscar tcnicas

    apropiadas que permitan mostrar la validez de una o ms hiptesis de investigacin.

    Es vlido comentar que en la literatura se pueden encontrar distintos nombres a los procesos

    del mtodo estadstico, lo importante es establecer una adecuada jerarquizacin para cada uno

    de ellos y llevarlos a cabo de la mejor manera; para el apoyo de los procesos de investigacin.

    Estos elementos juegan un papel fundamental en los procesos investigativos llevados en las

    ciencias de la salud, ya que robustecen los resultados que se obtienen, brindando universalidad

    y confianza a la comunidad cientfica.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    2

    Pgina 2

    Etapa Administrativa

    Recursos econmicos

    Recursos humanos

    Recursos tecnolgicos

    Etapa terica

    Antecentes y planteamiento

    del problema.

    Hiptesis

    Objetivos

    Justificacin

    Marco referencial

    Etapa MetodolgicaDiseo metodolgico

    Tipo de Investigacin

    Poblacin

    Definicin de variables

    Aspectos ticos

    Tcnicas e instrumentos

    Anlisis de resultados

    Aspectos administrativos

    Entre las etapas de los procesos de investigacin se encuentran:

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    3

    Pgina 3

    1.3 Hiptesis

    Definicin 1.1.1 Una hiptesis estadstica es una afirmacin o conjetura acerca de una o ms

    poblaciones o, lo que es ms frecuente, un conjunto de afirmaciones sobre uno o ms

    parmetros de una o ms poblaciones.

    ser

    No estadsticas

    Las hiptesis pueden

    Estadsticas

    Es importante tener en cuenta que las hiptesis deben plantearse en trminos de los

    parmetros, que son las caractersticas medibles de la poblacin y que generalmente no las

    conocemos, a menos que se realicen estudios de cobertura completo, por ejemplo el censo.

    1.3.1 Las hiptesis nula y del investigador

    : oH hiptesis nula , bsicamente es negar toda diferencia entre:

    a. Dos poblaciones

    b. Entre dos parmetros poblacionales

    c. Entre el valor verdadero de algn parmetro y su valor hipottico

    1 : H hiptesis del investigador , es usualmente el complemento de la hiptesis nula y

    representa la conclusin cuando oH se rechaza y es bsicamente la pregunta a responder.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    4

    Pgina 4

    Ejemplo 1.1.2 Analizar las siguientes hiptesis:

    . : Los trabajadores de las empresas que cuentan con programas de recreacin familiar presentan menor o

    igual productividad respecto a los trabajadores de las empresas que no cuentan con dich

    oa H

    1

    os programas.

    : Los trabajadores de las empresas que cuentan con programas de recreacin familiar presentan mayor

    productividad respecto a los trabajadores de las empresas que no cuentan c

    H

    on dichos programas.

    . : Los trabajadores de las empresas que cuentan con programas de recreacin familiar no presentan diferencia respecto

    a su productividad cuando se les compara con los trabajadores de las emp

    ob H

    1

    resas que no cuentan con dichos programas.

    : Los trabajadores de las empresas que cuentan con programas de recreacin familiar presentan diferencia respecto

    a su productividad cuando se les

    H

    compara con los trabajadores de las empresas que no cuentan con dichos programas.

    . : Los trabajadores de las empresas que cuentan con programas de recreacin familiar presentan mayor o igual reporte de

    situaciones de conflicto respecto a los trabajadores de las empresas

    oc H

    1

    que no cuentan con dichos programas.

    : Los trabajadores de las empresas que cuentan con programas de recreacin familiar presentan menores reportes de

    situaciones de conflicto respecto a

    H

    los trabajadores de las empresas que no cuentan con dichos programas.

    Ejemplo 1.1.3 De acuerdo a las siguientes situaciones, derive las hiptesis nula y del

    investigador.

    El jefe de personal de una empresa se pregunta si el peso medio de sus trabajadores es

    mayor de 98,5 kilos de peso.

    Un siclogo piensa que al impartir charlas motivacionales a la fuerza de venta de una

    empresa genera diferencia positiva en su rendimiento laboral.

    Un investigador interesado en el impacto sonoro al que estn expuesto los trabajadores,

    considera que hay diferencias por tipo de ruido y problemas auditivos (ruido continuo,

    intermitente y de impacto)

    Un ingeniero Industrial encargado del rea de bienestar en una empresa le interesa

    saber si el tipo de contratacin que se realiza a los nuevos trabajadores influye en su

    rendimiento laboral

    Un Mdico deportlogo considera que las personas que realizan ejercicio semanalmente

    poseen mejor rendimiento y disposicin en sus actividades laborales en comparacin

    con aquellos que no practican ejercicio semanalmente.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    5

    Pgina 5

    Adems, es importante tener en cuenta que si k y es un parmetro poblacional,

    entonces:

    a. 1 :H k , se denomina alternativa bilateral

    b. 1 1: y :H k H k , se denominan alternativas unilaterales.

    Ahora bien, al establecer las hiptesis estadsticas se debe tener presente que:

    a. La hiptesis nula siempre se refiere a un valor especfico del parmetro de la poblacin, no al estadstico.

    b. La expresin de la hiptesis nula siempre contiene un signo igual respecto al valor especfico del parmetro de la poblacin.

    c. La expresin de la hiptesis alternativa nunca contiene un signo igual respecto al valor especfico del parmetro de la poblacin.

    En la medida que se vaya tomando prctica en la formulacin de las hiptesis lograr

    identificar que las conclusiones se realizarn teniendo en cuenta que:

    Rechace oH , a favor de 1H al existir suficiente evidencia en la informacin muestral.

    No rechace oH , al no existir suficiente evidencia en la informacin muestral.

    Acepta o No rechazar la Hiptesis Nula?

    Las aplicaciones de las pruebas de hiptesis son bastante amplias, pero se tomar un el ejemplo

    del veredicto de un jurado para sacar algunas conclusiones respecto a las hiptesis nula y

    alternativa.

    Por ejemplo, sean:

    0 : H el acusado es inocente

    1 : H el acusado es culpable

    Es importante comprender que el rechazo de una hiptesis simplemente implica que la

    evidencia de la muestra la refuta

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    6

    Pgina 6

    Ejemplo 1.1.4 Se quiere analizar el impacto de la aplicacin de un programa para prevenir

    desrdenes con movimientos repetitivos de msculos superiores (sndrome de tnel carpiano,

    epicondilitis y enfermedad de De Quervain) en una empresa de la ciudad. Para tal motivo se

    toman dos grupos, uno al que se le aplic el programa Msculo Esqueltico y al otro no, para

    lo cual el equipo investigador se plantea las hiptesis:

    1

    2

    Sea : proporcin de trabajadores a los que se les aplica el programa M.E.

    : proporcin de trabajadores a los que no se aplica el programa M.E.

    p

    p

    0 1 2: tienen mayor o igual dificultades con movimientos repetitivos quea la H p p

    1 1 2: tienen menos dificultades con movimientos repetitivos que H p p

    Errores tipo I y tipo II

    Las decisiones que se discuten, sobre la hiptesis nula, as:

    No rechazar la hiptesis nula (o rechazar la alternativa)

    Rechazar la hiptesis nula (o aceptar la alternativa)

    Aceptar Decisin correcta Decisin incorrecta

    Rechazar Decisin incorrecta Decisin correcta

    Decisin sobre es verdadera es falsaoH oH oH

    oH

    oH

    De acuerdo a la tabla anterior, se generan dos tipos de errores y por tanto es de inters saber la

    probabilidad de cometer esos errores, de esta manera se tiene que:

    0 0 / P error tipo I P rechazar H H verdadera

    0 0 / P error tipo II P aceptar H H es falsa

    Donde se llama nivel de significancia, siendo 1 el llamado GRADO DE CONFIANZA y la

    probabilidad 1 se llama potencia de la prueba.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    7

    Pgina 7

    1.4 Medicin

    Esta parte del proceso del mtodo estadstico exige un manejo claro del investigador acerca del

    trabajo como tal; ya que implica tomar mediciones de acuerdo a qu se va a medir, definir

    operacionalmente las variables, construccin y aplicacin del instrumento para luego realizar

    la aplicacin y recoleccin de datos previa prueba piloto.

    Pero qu es medir?

    Es el proceso mediante el cual se compara una unidad patrn seleccionada con el objeto o

    fenmeno que se desea medir

    el proceso de vincular conceptos abstractos con indicadores empricos proceso que se realiza mediante un plan explcito y organizado para clasificar (y frecuentemente cuantificar) los datos disponibles los indicadores en trminos del concepto que el investigador tiene en mente (Carmines y Zeller, 1979, p. 10)

    Un instrumento de medicin adecuado es aquel que registra datos observables que representan verdaderamente a los conceptos o variables que el investigador tiene en mente (Sampieri, 1997)

    Objeto

    Medicin

    Valor verdadero

    Error de medida

    Parte Sistemtica E.A.M.

    Parte Aleatoria E. M

    Medicin

    Precisin, la cual evidencia la proximidad entre varias

    medidas obtenidas de igual manera.

    Exactitud, indica la proximidad de una medida a

    su valor verdadero.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    8

    Pgina 8

    Se ha definido que una escala es un continuo de valores ordenados correlativamente que tengan un punto inicial y otro final asignado por los investigadores. Por ejemplo, si se evala el rendimiento de los trabajadores en cuando a un proceso productivo se puede asignar el valor 0 al mnimo rendimiento esperado bajas ciertas condiciones y preparacin del trabajador y al mayor rendimiento 100; teniendo en cuenta que se pueden determinar valores intermedios.

    Algunas generalidades para los instrumentos:

    a. Seleccin del mejor instrumento

    b. Traduccin al espaol y traduccin en sentido inverso

    c. Prueba piloto (en relacin a la evaluacin, a la utilidad de la escala y al formato utilizado)

    Es importante al momento de la realizacin de un estudio tener claridad sobre la poblacin que

    se va a trabajar y si se va a realizar un muestreo o no. Adems, identificar plenamente en la

    pregunta problema cul es la unidad de anlisis y la unidad de observacin.

    Requisitos de un instrumento de medicin

    Confiabilidad, la cual hace referencia a obtener los mismo

    resultados en aplicaciones reiteradas del instrumento

    (Consistencia Interna)

    Validez, la cual hace referencia al grado con que el

    instrumento mide lo que la variable realmente quiere

    medir

    De Contenido, asociado al "manejo" puntual del

    contenido que se pretende medir. (Dominio de Inters -

    Especificidad terica)

    De Criterio, se establece al comparar el instrumento con

    otro que mida la misma variable

    De Constructo, da cuenta de la evidencia emprica de la

    medicin de las variables con otras mediciones de conceptos

    relacionados.

    De expertos, es el grado en que un instrumento mide la

    variable de inters a juicio de un grupo de expertos en el

    tema.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    9

    Pgina 9

    Ejemplo 1.1.5

    a. Identificar en cada una de las siguientes situaciones el tipo de error:

    Se realizan las mediciones, con una balanza no calibrada, del peso de 25 trabajadores en

    una empresa de la ciudad.

    Se aplica un cuestionario a los trabajadores, en donde deben escribir el nombre, en el

    cual se indague sobre la satisfaccin del clima laboral.

    Se realiz una inadecuada interpretacin de los resultados obtenidos en unas pruebas de

    un grupo de trabajadores en una empresa de la ciudad.

    Se realiz un estudio sobre mobbing laboral en el cual no se dise un marco

    muestral.

    Se realiza una medicin sobre fatiga de trabajadores utilizndose un instrumento

    internacional y no se realiza validacin cultural.

    b. Analizar la siguiente escala Likert

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    10

    Pgina 10

    d. Escala dicotmica

    Por favor, lea cuidadosamente estas instrucciones antes de empezar. Luego marque todas sus

    contestaciones en la Hoja de respuestas. Este cuestionario contiene una lista de frases. Lea cada frase

    con atencin y piense si lo que dice describe o no su forma de ser. Si usted est de acuerdo con ella,

    marque Su respuesta en V (verdadero). Si usted est en desacuerdo, piensa que no describe su forma de

    ser, marque F (falso) en la Hoja de respuestas.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    11

    Pgina 11

    e. Versin Colombiana de un test Espaol Tipo escala Likert

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    12

    Pgina 12

    Definicin 1.1.6 La unidad de anlisis es aquella entidad representativa que va a ser objeto de

    estudio. Algunos ejemplos de unidades de anlisis son:

    Calidad de vida

    Engagement ,enamoramiento hacia el trabajo

    Burnout ,sndrome del quemado

    Niveles de exposicin a una sustancia txica

    Percepcin en riesgo

    Definicin 1.1.7 La unidad de observacin corresponde a la entidad que suministra la

    informacin respecto a las unidades de anlisis

    Si la unidad de anlisis es el Engagement las unidades de observacin es el trabajador, en el cual

    se podran analizar:

    El nmero de tareas realizadas, no asignadas, relevantes para la empresa en el ltimo

    mes.

    El nmero de aportes para conseguir mejoras en la empresa.

    Nmero de horas adicionales dedicadas a proyectos de la empresa, sin recibir

    bonificacin econmica.

    Percepcin de los compaeros respecto al grado de compromiso que tiene un

    funcionario especfico.

    Ejemplo 1.1.8 Supngase que se quiere realizar un estudio descriptivo que busca construir una

    lnea base sobre las condiciones de salud y bienestar de los trabajadores que ingresan a la

    empresa OMEGAXX. En relacin a esto se realiza la siguiente pregunta problema:

    Cules son las condiciones de salud y bienestar de los trabajadores que ingresan a la empresa

    OMEGAXX en el ao 2012

    Cul es la unidad de anlisis y cul es la unidad de observacin?

    Respecto a la unidad de observacin, qu variables se podran identificar?

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    13

    Pgina 13

    1.4.1 Variables Estadsticas

    Definicin 1.1.9 Una variable estadstica es una funcin que asigna valores a las caractersticas de la poblacin analizada.

    NATURALEZA ESCALA DE MEDICIN TIPO

    Razn Intervalo Ordinal Nominal Discreta Continua

    CUALITATIVA

    CUANTITATIVA

    De acuerdo a su naturaleza las variables se clasifican en:

    a. Cualitativas: las variables cualitativas son aquellas que resultan de registrar la presencia

    de un atributo.

    b. Cuantitativas: las variables cuantitativas son aquellas que resultan al registrar un

    nmero.

    De acuerdo a su escala de medicin:

    a. Nominal: es aquella donde las categoras en relacin a la variable no presentan

    jerarquas.

    b. Ordinal: es aquella en la que se establece una relacin de orden entre sus categoras.

    c. Intervalo: es aquella en la cual el punto cero, si existe; es arbitrario. Adems las

    categoras tienen un orden especfico y las distancias o intervalos entre stas son iguales.

    d. Razn: es aquella donde se identifica un punto cero, que significa ausencia de la

    caracterstica.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    14

    Pgina 14

    Las variables deben cumplir un par de condiciones importantes para el buen desarrollo de los

    proyectos, las cuales son:

    a. Exhaustividad: sta condicin busca que al clasificar la variable se contemplen todas las

    posibilidades que de ella se pueda medir.

    b. Mutua exclusin: busca que una unidad de anlisis o persona slo pueda ser asignada o

    clasificada en un solo valor de la variable.

    Indique la escala de medicin para cada una de las siguientes variables

    Variable Escala de medicin

    Nominal Ordinal Intervalo Razn

    Nivel de escolaridad

    Carreras ofrecidas por la Universidad X

    Peso de los 20 primeros pacientes atendidos en la clnica Y

    Puntuaciones de un test de lectura rpida

    Estrato en el que viven los estudiantes de la Universidad X

    Nmero de accidentes de trnsito en Diciembre en la ciudad Z

    Temperatura medida, en grados centgrados, los primeros 6 meses del ao

    Sexo de los estudiantes de la Universidad X

    Salarios de los trabajadores de la empresa A

    Estatura de los integrantes de un equipo de baloncesto

    Nmero de accidentes semestrales de los trabajadores de la empresa A

    Nmero de bacilos inoculados de Shigella en un grupo poblacional expuesto a factores contaminantes

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    15

    Pgina 15

    1.4.2 Operacionalizacin de variables estadsticas

    Definicin 1.1.9 La Operacionalizacin de las variables son los consensos que muestra cmo se

    va a medir la variable, pasando de un nivel abstracto a un nivel concreto a efectos de poder

    observarla y medirla de manera confiable, con el propsito de contrastar hiptesis.

    Macro variable VariablesDefinicin

    OperacionalNaturaleza

    Nivel de

    medicin

    Criterio de

    clasificacin

    20, 21,

    22,23,24

    Masculino

    Femenino

    Soltero

    casado

    viudo

    unin libre

    Razn

    Nominal

    Nominal

    Caractersticas

    demogrficas

    #aos cumplidos por el

    entrevistado a la fecha

    de realizacin de la

    encuesta e informados

    por el mismo

    Caracterstica

    fenotpica que diferencia

    al hombre de la mujer

    Es la respuesta que de el

    entrevista si

    actualmente est

    conviviendo con una

    pareja

    Cuantitativa -

    Continua

    Cualitativa

    Cualitativa

    Edad

    Sexo

    Convivencia

    con pareja

    Es importante tener en cuenta que existen mtodos cuantitativos y cualitativos y cada uno de

    ellos tiene sus respectivas tcnicas de recoleccin de informacin

    Hipertensin arterial,

    dislipidemias, cardiopatia

    isqumica, poli neuropata

    perifrica , otros.

    Fumar, Ingestin de bebidas

    alcohlicas, otros

    Siempre, algunas veces y

    nunca.

    Nominal

    Nominal

    Ordinal

    Caractersticas

    relacionadas con

    patologas y

    estilos de vida

    Patologas diagosticadas por

    profesionales de la salud al sujeto

    de estudio

    Hbitos nocivos seleccionadas por

    los sujetos , de un l i s tado

    suminis trados por los

    investigadores .

    Nivel de prctica de ejercicios

    referidos por los sujetos de estudio.

    Cualitativa

    Cualitativa

    Cualitativa

    Enfermedades

    Hbitos txicos

    Ejercicio fsico

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    16

    Pgina 16

    2.1 lgebra de conjuntos

    2.1.1 Operaciones entre eventos

    Al ser los eventos un conjunto, entonces se puede aplicar operaciones entre stos tales

    definindose as: la unin, diferencia, interseccin, complemento entre eventos. Tambin se

    puede identificar aquellos eventos que se denominan excluyentes.

    Definicin 2.1.1 Si A y B son dos eventos de un espacio muestral , entonces la interseccin

    entre stos eventos simbolizada A B , es el conjunto de todos los resultados posibles que

    pertenezcan a A y B .

    Definicin 2.1.2 Dos eventos de un espacio muestral se denominan mutuamente

    excluyentes si su interseccin es vaca, es decir, A B

    Definicin 2.1.3 Si A y B son dos eventos de un espacio muestral , entonces la unin entre

    stos eventos, notada A B , es el conjunto de resultados posibles de A o B o ambos.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    17

    Pgina 17

    Definicin 2.1.4 Si A y B son dos eventos de un espacio muestral , entonces la diferencia

    entre stos eventos, notada A B es el conjunto de todos los elementos que estn en A y no

    en B .

    Definicin 2.1.5 Si A es un evento del espacio muestral , entonces, el complemento de A ,

    notado 'A , es el conjunto de todos los elementos que no estn pero que se encuentran en .

    Ejemplo 2.1.6 Se conoce que el nmero de estudiantes que aprobaron un test de conocimiento

    sobre riesgo ergonmico fue de 20 , los que aprobaron otro sobre riesgo cardiovascular de 23y

    los que aprobaron ambos de 9 . S 50 estudiantes presentaron stas pruebas: Completa cada

    uno de los sectores y responde:

    a. Cuntos estudiantes no aprobaron las pruebas mencionadas?

    b. Cuntos estudiantes aprobaron slo el test sobre riesgo cardiovascular?

    c. Cuntos estudiantes al menos uno de los test?

    d. Cuntos estudiantes aprobaron slo un test?

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    18

    Pgina 18

    Ejemplo 2.1.7 Para cada uno de los siguientes problemas, realiza el diagrama de Venn e

    identifica los valores correspondientes de cada sector para responder resolver la pregunta

    propuesta.

    a. Se eligieron al azar 30 trabajadores de la empresa OMEGA XX para realizarle mediciones

    antropomtricas y otras medidas necesarias con el fin de tomar acciones preventivas para

    disear un programa y evitar enfermedades cardiovasculares. Dentro de los resultados se

    encontr por ejemplo que 4 trabajadores tienen altos niveles de colesterol y sobre peso, si

    hay 12 trabajadores que slo tienen sobre peso y 6 que no tienen las caractersticas

    mencionadas; cuntos trabajadores tienen los niveles de colesterol alto?

    b. En un estudio realizado en el 2014 en una sede de una empresa productora de tornillos, se identificaron 130 accidentes laborales, de los cuales 68 ocurrieron en el rea de produccin; adems, 47 del total de los accidentes ocurrieron en la jornada nocturna. Si 21 de los accidentados pertenecen al rea de produccin de la jornada nocturna, cuntos empleados tuvieron un accidente laboral que no pertenecen al rea de produccin que no sean de la jornada nocturna?

    c. De 60 personas que pertenecen al rea de recursos humanos de una Universidad de Barranquilla, se encontr, que 19 de stas realizan pausas activas durante su jornada laboral, 10 realizan pausas activas y mantienen buena postura ergonmica al realizar sus labores, y 15 no mantienen una buena postura ergonmica y no realizan pausas activas en la jornada laboral. Cuntas personas realizan pausas activas o mantienen buena postura ergonmica en su jornada laboral?

    d. En un gimnasio se realizaron entrevistas a 520 personas durante una semana y se encontr que el 69% de los encuestados realizaba su entrenamiento bajo una rutina de TRX o de MMF, adems se identific que el 47% realiza entrenamiento de MMF. Si un 32% realizan las dos rutinas de entrenamiento. Aproximadamente cuntas personas entrenan TRX?

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    19

    Pgina 19

    2.1.2 Poblacin

    Definicin 2.1.8 Poblacin diana o blanco es aquella que viene delimitada por ciertas

    caractersticas, tales como: demogrficas, geogrficas, climatolgicas, biolgicas, ecolgicas,

    sociales, proceso salud-enfermedad, condiciones de vida, modos de vida y estilos de vida. En

    trminos de salud ocupacional las poblaciones blanco estaran dadas entre otras por tipo de

    estructuras organizacionales, tipologas de composicin, y tipologas de organizaciones segn

    riesgo.

    Ejemplo 2.1.9 Los siguientes son ejemplos de poblacin diana:

    Trabajadores en riesgo de sndrome metablico en el departamento del Atlntico.

    Trabajadores en riesgo de enfermedades respiratorias ocupacionales en las minas de

    carbn.

    Definicin 2.1.10 La poblacin accesible es aquella que consta del conjunto de casos que

    satisfacen criterios predeterminados pero que a la vez sean prcticos y accesibles para el

    investigador.

    Es importante para destacar en la poblacin accesible que se tenga existencia de registros, acuerdo de colaboracin, zonas de poco riesgo para la salud y vida

    De acuerdo a lo anterior es importante tener de referencia la siguiente caracterizacin:

    Poblacin diana

    Pregunta deinvestigacin -Unidad de anlisis yunidad deobservacin

    Poblacin accesible

    Viabilidad y accesibilidad

    Poblacin elegible

    Criterios deinclusin yexclusin

    Muestra

    Calculo del tamaode muestra y tipode muestreo

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    20

    Pgina 20

    Definicin 2.1.11 La poblacin elegible es aquella que cumple los criterios de inclusin y exclusin.

    Definicin 2.1.12 La muestra es un subconjunto de la poblacin elegible.

    Ejemplo 2.1.13 Suponga que se va a realizar un programa para mejorar la salud fsica de los

    trabajadores con apoyo de la secretara de salud en las empresa productoras de baldosas del

    departamento del Atlntico. Para esto se requiere seleccionar un equipo de trabajadores que

    lideren actividades de ejercicio fsico que tiene el programa; para lo cual se genera el siguiente

    marco muestral:

    Poblacin diana: todos los trabajadores de las empresas de la lnea de baldosas en el

    departamento del Atlntico.

    Poblacin accesible: todos los trabajadores de las empresas consultadas que respondieron que

    queran participar en el programa.

    Poblacin elegible: los trabajadores de las empresas que cumplan siguientes criterios definidos

    por el equipo de investigacin:

    Criterios de inclusin:

    Trabajadores con contrato fijo

    Que tengan ms de un ao de trabajo

    Con experiencia como capacitadores en esta rea

    Criterios de exclusin:

    Trabajadores en proceso de recuperacin luego de un accidente

    Trabajadores con alguna discapacidad en las extremidades

    Luego de estos pasos se realiza el clculo de tamao de muestra utilizando como referencia la

    poblacin elegible.

    Ejemplo 2.1.14 Determinar la ocurrencia de accidentes de trabajo en obreros del sector

    construccin con turnos mayores a 8 horas/da del Centro Norte Histrico de la ciudad de

    Barranquilla en el ao 2013.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    21

    Pgina 21

    Poblacin diana: todos los obreros que laboran en el sector construccin del Centro Norte

    Histrico de la ciudad de Barranquilla construccin con turnos mayores a 8 horas/da.

    Poblacin accesible: todos los trabajadores del sector construccin con turnos mayores a 8

    horas/da de las empresas consultadas del Centro Norte Histrico de la ciudad de Barranquilla

    respondieron que queran participar en el estudio.

    Poblacin elegible: los trabajadores de las empresas que cumplan siguientes criterios definidos

    por el equipo de investigacin:

    Criterios de inclusin:

    Trabajadores con contrato fijo

    Criterios de exclusin:

    Trabajadores que tuvieron 4 o menos turnos en el semestres de estudio.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    22

    Pgina 22

    2.1.3 Muestreo

    Cuando se va a realizar un estudio o investigacin es importante tener en cuenta, entre otras

    cosas, el nmero de individuos o elementos que garanticen la validez de los resultados, para tal

    fin se hace necesario realizar un adecuado clculo del tamao de la muestra ya que sta ofrece

    una serie de ventajas entre las que se encuentran:

    Permite la realizacin del estudio porque de lo contrario fuese casi que imposible

    llevarlo a cabo.

    Permite la realizacin en un menor tiempo del estudio.

    La inversin econmica es menor.

    Posibilita profundizar en el anlisis de las variables.

    Pueden seleccionarse de tal manera que se pueda reducir la heterogeneidad en la

    poblacin.

    Tipo de muestreo

    Probabilstico

    Aleatorio simple

    Sistemtico

    Estratificado Conglomerado

    No probabilstico

    Conveniencia Juicio

    Cuotas Bola de nieve

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    23

    Pgina 23

    2

    :

    : 1,96

    : Pr

    : Pr

    :

    :

    n Tamao de muestra

    Z Nivel de confianza

    p obalidad de ocurrencia

    q obabilidad de fracaso

    N Tamao de la poblacin

    e Error de muestreo

    2

    2

    22

    2

    1

    Z pqN

    n

    N e Z pq

    :Donde

    22

    2

    22 2

    2

    1

    Z S N

    n

    N e Z S

    2

    2

    :

    : 1,96

    : var

    :

    :

    n Tamao de muestra

    Z Nivel de confianza

    S Estimacin de la ianza poblacional

    N Tamao de la poblacin

    e Error de muestreo

    :Donde

    Se analizar la frmula para el clculo de muestra cuando la variable de inters sea una

    proporcin con poblacin finita, para esto se tiene que:

    Ejemplo 2.2.15 Una empresa se encuentra interesada en conocer la proporcin de trabajadores

    que pueden estar a riesgos relacionados con sustancias txicas en contra de la salud de su piel,

    para lo cual se desea estimar el tamao de la muestra necesario para llevar a cabo este estudio.

    Se calcula el tamao de muestra teniendo en cuenta que la poblacin elegible son 284

    trabajadores y se desconoce informacin a nivel local en relacin a la prevalencia de productos

    txicos que hacen dao a la piel.

    Se analizar la frmula para el clculo de muestra cuando la variable de inters sea la

    media con poblacin finita, para esto se tiene que:

    Ejemplo 2.2.16 Se desea realizar un estudio sobre sndrome metablico en los trabajadores de

    una empresa; en una primera etapa, se desea analizar los niveles de colesterol de aquellos

    trabajadores entre los 20 y 30 aos, para lo cual se requiere calcular el tamao de la muestra. Se

    conoce que la desviacin estndar es de 2,3 mg/ml, un tamao de poblacin de 3250

    trabajadores y un error del 5%.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    24

    Pgina 24

    Edad (aos) % %

    19,5 - 24,5 180

    24,5 - 29,5 370

    29,5 - 34,5 600

    34,5 - 39,5 250

    39,5 - 44,5 110

    Total 1510 306

    Universo Muestra

    inN

    Ejemplo 2.2.17 Supngase que se quiere realizar un estudio sobre la conformidad laboral en la

    empresa OMEGAXX y se quiere controlar los resultados diseando estratas de acuerdo a la edad

    de los trabajadores. A continuacin se presenta la tabla de edad de trabajadores. Asuma que

    usted ya realiz el clculo del tamao muestral utilizando la frmula para variables cualitativas

    cuyo resultado fue de 306 trabajadores. Complete la siguiente tabla:

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    25

    Pgina 25

    Nivel de

    riesgofrecuencia %

    Mnimo 3 14,29

    Bajo 5 23,81

    Medio 8 38,10

    Alto 3 14,29

    Mximo 2 9,52

    Total 21 100

    3.1 Presentacin de la informacin

    La informacin recolectada luego que se puede presentar con tablas y grficos

    Tablas univariada y su grfica

    Ejemplo 3.1.1 Se realiz un estudio descriptivo en 48 empresas escogidas al azar para

    clasificarla por tipo de riesgos. A continuacin se presenta un diagrama de barra simple.

    :X Nivel de riesgo de 21 empresas escogidas al azar de la ciudad de barranquilla.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    26

    Pgina 26

    Tabla bivariada y su grfica

    Ejemplo 3.1.2 Retomando el ejemplo anterior, pero ahora se clasificarn por rea urbana o

    rural.

    Diagrama de dispersin

    Ejemplo 3.1.3 Se pide establecer una grfica que muestre la correlacin entre el peso y la

    talla de 10 trabajadores escogidos al azar de la empresa OMEGA XX.

    talla(cm) peso(kg)

    178 79

    160 65

    139 45

    173 72

    190 89

    165 75

    192 93

    170 65

    172 70

    200 96

    Urbana Rural

    Mnimo 3 2

    Bajo 5 3

    Medio 8 8

    Alto 3 10

    Mximo 2 11

    Total 21 34

    rea Nivel de

    riesgo

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    27

    Pgina 27

    Histogramas

    Ejemplo 3.1.4 Consideremos que se seleccion una muestra de 20 trabajadores de la empresa

    OMEGAXX con el objetivo de conocer cmo se comporta la variable peso (Kg). Para tal fin se

    construye un histograma de frecuencias absolutas.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    28

    Pgina 28

    Errores Preanalticos acumulado

    Coagulada 344 42 42

    Hemolizada 206 25 67

    Volumen inadecuado 189 23 90

    Mal marcada 30 4 94

    Sin marcar 26 3 97

    Recipiente inadecuado 16 2 99

    Otros 7 1 100

    Total 818 100

    if iF % %

    Diagrama de Pareto Pocos vitales, de los muchos triviales

    Ejemplo 3.1.5 A continuacin se presenta la tabla de frecuencia de errores pre-analticos

    encontrados en un hospital de tercer nivel.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    29

    Pgina 29

    4.1 Medidas de frecuencia

    Definicin 4.1.1 Una medida de frecuencia es la relacin que se establece entre variables

    cuantitativas o cualitativas que permiten identificar la situacin o la tendencia de cambio

    generada en el objeto o fenmeno observado, en relacin con los objetivos diseados.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    30

    Pgina 30

    Respecto a los indicadores

    Para analizar los:

    a. Se entiende como indicador, aquella medida estadstica asociada a una situacin especfica,

    de la cual se hace necesario conocer su realidad. De esta manera el indicador, es un

    elemento empleado para medir, teniendo en cuenta que este, se genera al establecer una

    relacin entre datos que permitan identificar acciones de acuerdo a lo resultados

    encontrados.

    b. Segn la organizacin Internacional del trabajo, los indicadores de seguridad y salud en el

    trabajo constituyen el marco para evaluar hasta qu punto se protege a los trabajadores de

    los peligros y riesgos relacionados con el trabajo.

    c. Es imprescindible, ante todo, poder contar con un programa de vigilancia epidemiolgica

    ambiental que contemple un sistema coherente y eficaz de indicadores de salud ambiental,

    entendidos stos, de manera general, como aquellos capaces de resumir y expresar

    adecuadamente nexos existentes entre datos ambientales y de salud y presentarse de forma

    que se facilite la interpretacin para una toma de decisiones eficiente. (Ibarra, Gonzlez y

    Linares, 2001, p. 53)

    ObjetivosDefinicin de Indicadores necesarios

    Tipos de Indicadores

    Obtencin de la informacin

    Fuente de la informacin

    Datos necesarios

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    31

    Pgina 31

    Cules son las ventajas de los indicadores?

    Los indicadores permiten tomar decisiones y de esta manera realizar ajustes.

    Sirven para mirar tendencias.

    Los indicadores sirven para retroalimentar procesos, monitorear avances o ejecucin de

    proyectos estratgicos relacionados con distintas reas entre otras la salud ocupacional.

    Sirven para medir a la empresa entre otras a las organizaciones de salud en diferentes

    dimensiones.

    Para la construccin de un buen indicador es importante tener en cuenta que ste de cumplir

    los siguientes requisitos y caractersticas:

    Simplicidad: describe en forma completa el fenmeno o efecto, refleja la magnitud del mismo y posibilidad de mostrar desviaciones.

    Factibilidad: deben ser indicadores de fcil construccin que se tenga insumos para construirlos.

    Validez en el tiempo: se refiere a la necesidad de la continuidad de los indicadores, as tendrn que ser reproducibles a travs de tiempo y en iguales condiciones.

    Confiabilidad: las fuentes de donde se extraen deben ser confiables, por ejemplo, el rea de salud ocupacional de una empresa tiene informacin integral de los trabajadores.

    Auditabilidad: debe verificar que los indicadores sean correctos y no sesgados.

    Conocimiento de los indicadores por parte de los trabajadores y usuarios en general: plantea la importancia de la interaccin entre los usuarios y lo individuos en lo cual el personal debe estar involucrado.

    Ejemplo 4.1.2 Identifique las caractersticas de los siguientes indicadores:

    Razn de mujeres trabajadoras versus hombres trabajadores.

    Razn trabajadores LGBTI vs Unidades de atencin en Salud Ocupacional a dicha

    poblacin.

    Proporcin de mujeres embarazadas menores de 20 aos de estrato 3 en barranquilla.

    Porcentaje de mujeres embarazadas menores de 20 aos de estrato 3 en barranquilla.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    32

    Pgina 32

    Indicadores de

    Resultado o Impacto

    De frecuencia

    # accidentes ocurridos en el perodo

    #HHT en el mismo periodoATIF K

    240000

    100 trabajadores, 48h/s, 50 s/ao

    K

    Si hay 7 accidentes laborales en 350 trabajadores en un perodo de 6 meses, entonces:

    7 7240000 = 240000 4,16

    (350)(24)(6)(8) 403200AT ATIF IF

    Por cada 100 trabajadores programados de tiempo completo en el perodo de 6 meses, hay 4,16 accidentes laborales

    De severidad

    # dias perdidos o cargados por accidentes en el perodo

    #HHT en el mismo periodoIS K

    240000

    100 trabajadores, 48h/s, 50 s/ao

    Das cargados: % de prdida capacidad

    laboral - Norma ANSI

    K

    Si hay 12 das cargados, debido a 7 accidentes laborales, en 350 trabajadores en un perodo de 6 meses, entonces:

    12240000 7,14

    403200ATIS IF

    Por cada 100 trabajadores programados de tiempo completo en el perodo de 6 meses, hay 7,14 das perdidos

    De lesiones incapacitantes

    #ndice de frecuencia ndice de severidad

    1000ILI

    Se interpreta como medida global: 1

    No tiene unidades

    Se comparan entre mismos sectores

    4,16 7,140,029

    1000ILI

    Tasa de ausentismo

    por enfermedad

    general

    #Das perdidos por EG 81000

    #HHT

    . :

    EGTA

    EG enfermedad general

    Si hay 27 das perdidos por enfermedad general, en una empresa de 250 trabajadores en un perodo de 6 meses, entonces:

    27 8 27 81000 1000 0,00075

    (250)(24)(6)(8) 288000EG EGTA TA

    Por cada 1000 horas de trabajo se perdi menos de una en el periodo estudiado

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    33

    Pgina 33

    # de total de casos existentes en el momento

    Total de la poblacin estudiada en el momento

    tp k

    t

    # de casos nuevos .

    suma de todos los periodos en riesgo

    durante el periodo definido en el estudio

    tasa de densidad de incidencia K

    tiempo persona

    Ejemplo 4.1.3 Se realiz el registro de los trabajadores de una empresa de acuerdo a su edad, a continuacin se presenta la tabla

    F M

    21,5 - 26,5 10 30 40

    26,5 - 31,5 20 41 61

    31,5 - 36,5 45 28 73

    36,5 - 41,5 25 35 60

    41,5 - 46,5 32 32 64

    Total 132 166 298

    SEXOEdad Total

    Es importante tener claro que:

    # de casos nuevos de enfermedad

    durante un periodo de tiempo

    total de la poblacin en riesgo al inicio del periodo de estudiotasa de incidencia acumulada

    Ejemplo 4.1.4 Se representan 13 sujetos en observacin, durante cinco aos. Al inicio del estudio todos

    los sujetos se encuentran sanos y todos ellos tienen el riesgo (son susceptibles) de contraer la

    enfermedad. Se debe convenir que en la figura la X representa el inicio de la enfermedad o evento,

    que la lnea gruesa representa el tiempo durante el cual el sujeto est enfermo, o estado y el cuadro

    representa el momento que el sujeto sale del estudio porque muere. Haga un corte al final del primer

    ao y halle:

    a. La prevalencia al final del primer ao.

    b. Incidencia acumulada al final del primer ao.

    c. La prevalencia al final del cuarto ao.

    d. La incidencia acumulada al final del cuarto ao.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    34

    Pgina 34

    Ejemplo 4.1.5 En un estudio de enfermedades de la piel en personas con exposicin al cemento iniciado

    en enero de 2011 en Cali con 1.000 hombres de 55 a 64 aos de edad y sin ninguna evidencia de

    problemas de piel, los cuales fueron seguidos por 4 aos (hasta final de 2014). Al final de cada ao del

    seguimiento cada participante fue examinado y testificado para piel con inicio de cambios tisulares.

    El resultado del examen anual fue el siguiente:

    Al final del primer ao fueron confirmados 10 casos de personas con inicios de cambios tisulares

    en piel. Cuntos aos personas riesgos aportaron estas personas?

    Al final del segundo ao se confirmaron 15 casos de personas con inicios de cambios tisulares en

    piel. Cuntos aos han pasado antes de presentar el problema en la piel? Cuntos aos

    personas riesgos aportaron estas personas?

    Al final del tercer ao se confirmaron 20 casos de personas con inicios de cambios tisulares en

    piel. Cuntos aos personas riesgos aportaron estas personas?

    Al finalizar el cuarto ao se confirmaron 25 casos de personas con inicios de cambios tisulares en

    piel. Cuntos aos personas riesgos aportaron estas personas?

    Calcular la tasa de densidad de incidencia.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    35

    Pgina 35

    Algunos ejemplos adicionales de indicadores:

    Tasa de mortalidad anual:

    # de total de muertes durante un ao de enero 1 al 31 de diciembrePoblacin total en julio 1

    k

    Porcentaje:

    # de programas de Salud Ocupacional ejecutados en una empresa100%

    Total de programas de Salud Ocupacional en la empresa

    Tasa de prevalencia de sordera profesional:

    # de casos de sordera profesional calificados por la ARP durante un periodo

    # total de trabajadores expuestos a niveles de ruido por encima de los permitidos en ese peridok

    Tasa de incidencia acumulada de sordera profesional:

    # de casos nuevos de sordera profesional calificados por la ARP durante un periodo

    # total de trabajadores expuestos a niveles de ruido por encima de niveles permitidos en ese peridok

    Tasa de densidad de incidencia de sordera profesional:

    # de casos de sordera profesional calificados por la ARP durante un periodo

    Aos persona riesgok

    Tasa de letalidad:# de total de muertes por una enfermedad

    Poblacin afectada por la enfermedad en un periodo determinado k

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    36

    Pgina 36

    5.1 Medidas de tendencia central y variabilidad

    5.1.1 Medidas de tendencia central

    Hasta el momento se ha estudiado la organizacin de datos y su representacin por medio de algunos tipos de grficos, pero es importante analizar de manera alternativa el comportamiento de stos de acuerdo a determinadas tendencias que se puedan calcular para luego realizar su respectivo anlisis; por sta razn se encuentran en estadstica las medidas de tendencia central, las cuales nos ayudan al estudio un poco ms profundo de un conjunto de datos para as tener elementos de juicio al momento de concluir y posteriormente poder tomar decisiones o ayudar a tomarlas de acuerdo al caso que sea.

    Definicin 5.1.1 Dados un conjunto de datos 1 2, ,..., nx x x se tiene que el valor de la media es:

    1

    n

    i

    i

    x

    n

    Para especificar a la media poblacional se utilizar (parmetro) y para la media muestral x

    (estadstico)

    Definicin 5.1.2 Para un conjunto de datos que estn medidos en al menos una escala de intervalo, la MEDIANA es el puntaje medio ordenado.

    Definicin 5.1.3 LA MODA, cuando existe, es el dato con mayor frecuencia. Es importante tener en cuenta que un conjunto de datos puede ser: unimodal, bimodal y multimodal.

    Definicin 5.1.4 El RANGO MEDIO de un conjunto de datos es el promedio de las medidas mayor y menor.

    Definicin 5.1.5 LA MEDIA GEOMTRICA de un conjunto de datos 1 2, ,..., nx x x , todos positivos,

    es: 1

    1 2( , ,..., )n

    nMG x x x

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    37

    Pgina 37

    Ejemplo 5.1.6 Se reportan el nmero de accidentes laborales en la empresa OMEGA XX de los ltimos cinco aos, al gerente le interesa, para efectos en los procesos de calidad saber si durante estos aos han tenido, en promedio, accidentes superiores al 10% para evaluar as sus estrategias de prevencin y seguridad.

    Ao ndeaccidentes %decrecimiento

    2010 50

    2011 55

    2012 66

    2013 60

    2014 78

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    38

    Pgina 38

    5.1.2 Medidas de variabilidad

    La variabilidad es un concepto cotidiano, fcil de manejar, se encuentra fcilmente su aplicacin en distintas actividades del quehacer diario, por ejemplo: la variabilidad de la temperatura, el tiempo en que nos demoramos en hacer una compra en el supermercado, lo fro de una bebida, el tiempo de duracin de una persona en un cajero de banco, pagando una compran; en fin, estos son algunos de las situaciones que se pueden encontrar para ejemplificar este concepto.

    Los datos que se representan en la tabla muestran el promedio de accidentes laborales en siete

    reas diferentes de dos empresas carboneras en el ltimo semestre.

    Al realizar un pequeo grfico de dispersin se puede notar que la distribucin de datos del

    segundo conjunto est ms dispersa que la distribucin de datos del primer conjunto. Es as

    como se puede decir, que una medida de centralizacin en la mayora de veces no es suficiente

    para analizar las caractersticas de un conjunto de datos, por tal motivo se hacen necesarias las

    medidas de dispersin o variacin de los datos para completar el anlisis de la distribucin de

    datos.

    Definicin 5.1.7 Se define El RANGO de un conjunto de datos numricos, como la diferencia

    entre el dato ms alto y el dato ms bajo.

    Definicin 5.1.8 Se define El RANGO INTERCUANTIL, como la diferencia entre el tercer cuartil y

    primer cuartil simbolizado por R.I, es decir: 3 1.R I Q Q

    Definicin 5.1.9 Se define LA DESVIACIN de un dato se define como la diferencia entre el dato

    y la media del conjunto de datos. Es decir: i ila desviacin del dato x x x

    Empresa A 3,45 3,11 3,25 3,6 3,41 3,38 3,25

    Empresa B 3,4 2,75 3,19 3,97 3,59 3,38 3,17

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    39

    Pgina 39

    Teorema 5.1.10 La suma de las desviaciones de los valores para cualquier conjunto de nmeros

    1,..., nx x es igual a cero.

    Definicin 5.1.11 LA VARIANZA DE UNA POBLACIN de valores 1,..., nx x , se define como el

    promedio de los cuadrados de las desviaciones de los valores, y se denota 2 , la cual est dada

    por:

    2 2 2

    1 22... nx x x

    n

    La DESVIACIN ESTNDAR POBLACIONAL de un conjunto de datos, denotada por , se define

    como la raz cuadrada de la varianza poblacional de datos.

    Definicin 5.1.12 La VARIANZA DE UNA MUESTRA con valores 1,..., nx x se denota por 2s y se

    define por:

    2 2 2

    1 22...

    1

    nx x x x x xs

    n

    La DESVIACIN ESTNDAR MUESTRAL de un conjunto de datos, denotada por s , se define

    como la raz cuadrada de la varianza muestral de datos.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    40

    Pgina 40

    5.2 Medidas de posicin relativa

    Definicin 5.2.1 UNA MEDIDA DE POSICIN RELATIVA en una distribucin de frecuencias es el valor para el cual una parte de la distribucin queda en o debajo de este.

    Entre estas medidas se encuentran los percentiles, deciles, cuartiles y quintiles.

    Definicin 5.2.2 EL P-SIMO PERCENTIL, es un valor para el cual p% de los datos tiene mximo dicho valor.

    Pasos que se deben tener presente para calcular el p-simo percentil:

    a. Ordenar los datos de manera ascendente

    b. Se calcula el ndice 100

    npi siendo p el percentil de inters y n la cantidad de datos

    c. Se dice que:

    Si el ndice es no es entero se redondea al siguiente entero.

    Si el ndice es entero se promedian los valores de las posiciones , 1i i

    Definicin 5.2.3 LOS DECILES son una medida de posicin relativa que corresponde a un conjunto de datos ordenados, ascendentemente, divididos en diez partes iguales.

    Definicin 5.2.4 LOS CUARTILES son una medida de posicin relativa que corresponde a un conjunto de datos ordenados, ascendentemente, divididos en cuatro partes iguales.

    Ejemplo 5.2.5 Para el siguiente conjunto de datos:

    2,45 2,25 2,36 2,56 2,48 2,67 2,54 2,78 2,98 2,72 2,32 2,78

    Calcular e interpretar:

    a. Percentil 25. b. Segundo cuartil, que equivale al percentil 50. c. Tercer cuartil, que corresponde al percentil 75.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    41

    Pgina 41

    Teorema 5.2.6 Para las poblaciones que tengan forma acampanada:

    a. Aproximadamente el 68% de los valores de la poblacin se encuentran a una distancia

    de la media menor a una desviacin estndar

    b. Un poco ms del 95% de los valores de la poblacin estn a una distancia de la media

    menor que dos veces la desviacin tpica.

    Media,Desv. Est.

    0,1

    Normal

    Probabilidad = 0,682691

    -5 -3 -1 1 3 5

    x

    0

    0,1

    0,2

    0,3

    0,4

    dens

    idad

    Media,Desv. Est.

    0,1

    Normal

    Probabilidad = 0,9545

    -5 -3 -1 1 3 5

    x

    0

    0,1

    0,2

    0,3

    0,4

    dens

    idad

    68% de

    Los datos

    1

    1

    2

    95% de

    Los datos

    2

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    42

    Pgina 42

    Definicin 5.2.7 El coeficiente de variacin de Pearson de un conjunto de datos se define como:

    .100%

    desviacin estndar de los datosCV

    media aritmtica de los datos

    Ejemplo 5.2.8 A continuacin se presentan los datos de los pesos y estaturas de los primeros 10

    nios registrados por el mdico de un colegio de la ciudad luego de realizado el examen de

    ingreso a la institucin educativa. Cul de estos dos conjuntos de datos presenta mayor

    variabilidad?

    Estatura (cm) 160 159 172 160 175 170 178 160 162 171

    Peso (Kg) 55 62 70 58 73 70 75 59 60 70

    Definicin 5.2.9 Se define EL COEFICIENTE DE ASIMETRA DE PEARSON, para un conjunto de

    datos 1 2, ,..., nx x x como:

    Es importante tener presente que el coeficiente de asimetra de Pearson tan slo es aplicable

    en las distribuciones acampanadas y unimodales, en distribuciones de otro tipo otros se utiliza

    el coeficiente de asimetra de fisher y de fisher estandarizado .

    p

    Media aritmtica ModaA

    Desviacin estndar

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    43

    Pgina 43

    De acuerdo al signo del coeficiente se concluye que, s:

    0pA , se dice que la distribucin es simtrica

    0pA se dice que la distribucin es sesgada positivamente o a la derecha.

    0pA se dice que la distribucin es sesgada negativamente o a la izquierda

    G. L.

    10

    Chi-Cuadrada

    0 10 20 30 40

    x

    0

    0,02

    0,04

    0,06

    0,08

    0,1

    dens

    idad

    Moda,Escala

    10,5

    Valor Extremo Ms Chico

    -15 -5 5 15 25

    x

    0

    0,02

    0,04

    0,06

    0,08

    dens

    idad

    Media,Desv . Est.

    0,1

    Normal

    -5 -3 -1 1 3 5

    x

    0

    0,1

    0,2

    0,3

    0,4

    dens

    idad

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    44

    Pgina 44

    5.3 Anlisis para datos agrupados

    5.3.1 Para datos agrupados

    Elaboracin de tablas de frecuencias agrupadas para datos continuos. Para este caso se ampliar el cuadro de simbologas as:

    if frecuencia absoluta

    iF frecuencia absoluta acumulada

    ih frecuencia relativa

    iH frecuencia relativa acumulada

    1i iY Y Valores que toma la variable continua en el intervalo

    N nmero total de datos

    m nmero de intervalos en la variable continua

    c amplitud del intervalo

    iY Marca de clase

    Ejemplo 5.3.1 Consideremos que se seleccion una muestra de 20 trabajadores de una empresa fin de conocer su peso en kilos.

    74 67 94 70 69 61 71 79 47 85

    82 55 65 88 52 58 76 57 72 66

    (Ejemplo Tomado del libro Estadstica Descriptiva de Humberto LLins).Para realizar la tabla de frecuencias para datos continuos es importante tener presente los siguientes 4 pasos:

    1. Recorrido o rango. mx mnx x , es decir, 94 47 47

    2. El valor 1 3,3log 20 5,29 6m , tendremos entonces 6 intervalos para esta

    distribucin.

    3. Rango

    Cm

    , al reemplazar los respectivos valores se tiene que 47

    7,836

    C . Esta

    cantidad siempre se aproxima por exceso; es decir 8C .

    4. Como la unidad de medida es 1, entonces, se toma en punto medio de la unidad de medida para generar la primera frontera de clase y a partir de ah se suma el rango.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    45

    Pgina 45

    La tabla de frecuencias agrupada es:

    Al tener un conjunto de datos agrupados se tiene que la media y varianza muestral para dichos

    valores estn determinado por:

    i i

    a

    f Yx

    n

    2

    1

    i a i

    a

    Y x fs

    n

    Ejemplo 5.3.2 Tomando los datos del ejemplo 5.1.6, se tiene que:

    2 2 50,5 101 737,3

    4 6 58,5 234 501,8

    5 11 66,5 333 51,2

    4 15 74,5 298 92,2

    3 18 82,5 248 491,5

    2 20 90,5 181 865,3

    20 1394 2739,20

    Intervalos

    Total

    46,5 - 54,5

    54,5 - 62,5

    62,5 - 70,5

    70,5 - 78,5

    78,5 - 86,5

    86,5 - 94,5

    if iY i if Y 2

    i iY x f iF

    Por tanto se tiene que: 1394

    69,720

    a

    kgx kg ,

    22 2739,2 11,70

    20

    kgs kg

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    46

    Pgina 46

    Para el clculo de los cuartiles en datos agrupados, se tiene que:

    1. Se ubica la clase o intervalo donde se encuentre el cuartil solicitado

    2. Para realizar la ubicacin se procede as:

    a. Primer cuartil: 4

    n

    b. Segundo cuartil o mediana: 2

    n

    c. Tercer cuartil: 3

    4

    n

    El resultado de dicha operacin se ubica en la tabla de frecuencias acumuladas y se identifica el intervalo de inters.

    3. Se aplica las frmulas.

    a.

    '

    1'

    1 1 '

    1

    ( ) anterior donde est 4lim Inf clase donde est *Amplitud

    donde est

    i

    nbuscar en F F Q

    Q Qf Q

    b.

    '

    2'

    2 2 '

    2

    ( ) anterior donde est 2lim Inf clase donde est *Amplitud

    donde est

    i

    nbuscar en F F Q

    Q Qf Q

    c. '

    3'

    3 3 '

    3

    3( ) anterior donde est

    4lim Inf clase donde est *Amplitud donde est

    i

    nbuscar en F F Q

    Q Qf Q

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    47

    Pgina 47

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    48

    Pgina 48

    6.1 Correlacin lineal

    Al momento de realizar anlisis de dos variables cuantitativas continuas, es posible que se

    sospeche de una relacin lineal entre estas. Por ejemplo:

    Edad y presin sangunea

    Estatura y peso

    El nivel de consumo de azcar y el aumento de peso

    Pero qu tan relacionadas linealmente estn dichas variables? y qu tipo de la relacin lineal

    es? Son un par de preguntas que nos ayuda a responder el coeficiente de correlacin de

    Pearson.

    Definicin 6.1.1 El coeficiente de correlacin de Pearson entre las variables aleatorias continuas

    e X Y se define como: 2 2

    xyr

    x y

    Donde x X X

    y Y Y

    El coeficiente de correlacin de Pearson describe la fuerza de la relacin lineal entre dos

    variables en al menos escala de intervalo y adems es:

    Adimensional

    Toma valores en el intervalo 1,1

    La correlacin es perfecta para 1r

    Ejemplo 6.1.2 A continuacin se muestran los datos del peso (kg) y estatura (cm) de 8

    trabajadores de una empresa de la ciudad.

    (kg) 90 85 75 60 68 60 86 61 74 58 74 70

    (cm) 185 190 172 165 170 164 183 163 177 160 171 165X

    Y

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    49

    Pgina 49

    Teniendo en cuenta que 2 2

    xyr

    x y

    , con

    ix x X y iy y Y

    Estatuta Peso

    Estatuta 1

    Peso 0,93868107 1

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    50

    Pgina 50

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    51

    Pgina 51

    6.2 Regresin lineal Simple

    El anlisis de regresin lineal es una tcnica que se utiliza para expresar la relacin lineal entre

    dos variables, una dependiente y otra independiente por medio de una lnea recta.

    El modelo que se utilizar para establecer la asociacin lineal entre dichas variables es:

    0 1Y X

    0

    1

    : variable independiente

    : ordena en el origen

    : pendiente

    : error aleatorio

    con

    Donde X

    Y Y

    De manera ideal se espera que el error aleatorio se cero, por tanto se tomar para nuestros clculo el

    modelo 0 1Y X

    Con

    2

    0 22

    Y X X XY

    N X X

    1 22

    N XY X Y

    N X X

    En general el problema de regresin lineal simple se enfoca en estimar la mejor a una muestra

    aleatoria de n pares de datos 1 1 2 2 3 3, , , , , ,..., ,n nx y x y x y x y , teniendo en cuenta que dichos

    valores sean obtenidos de la medicin de dos variables a un mismo sujeto. Ahora bien, para

    realizar este proceso es indispensable que se tenga un supuesto de relacin lineal entre las

    variables en cuestin, por tanto, sea hace importante realizar un grfico de dispersin y verificar

    el comportamiento de los datos.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    52

    Pgina 52

    Ejemplo 6.2.1 Teniendo en cuenta la situacin planteada en el ejercicio 6.1.2, se genera el

    siguiente diagrama de dispersin:

    Luego de haber realizado el diagrama de dispersin, se evidencia que existe una tendencia lineal en los

    puntos, lo cual nos indica que es posible establecer una ecuacin predictora para la variable

    independiente, por tanto se procede a calcular los dos coeficientes, dando como resultado:

    0 1111,73 y 1,066 , con lo que el modelo quedara 111,73 1,066Y X

    Definicin 6.2.2 El coeficiente de determinacin se define como el cuadrado del coeficiente de

    correlacin de Pearson, es decir: 2

    dr r

    El coeficiente de determinacin quiere decir la proporcin de variacin de la respuesta Y que

    est explicada por la regresin, es decir, por la variable dependiente.

    De acuerdo al ejemplo anterior se tiene que 0,9386r , por tanto 22 0,9387r , por tanto el

    modelo que se gener explica el 88,11% de la variacin en la variable dependiente Y a partir

    de la variable independiente X y el 11,89% restante es explicado por otro tipo de factores.

    y = 1,0663x - 111,74R = 0,8811

    0

    20

    40

    60

    80

    100

    155 160 165 170 175 180 185 190 195

    Pes

    o(K

    g)

    Altura(cm)

    Diagrama de dispersin

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    53

    Pgina 53

    Ejemplo 6.2.4 A continuacin se presenta el diagrama de dispersin de los datos de 12 personas

    que realizaron un salto horizontal, el cual fue medido en centmetros.

    Qu se puede concluir?

    Definicin 6.2.3 A continuacin se presenta los datos de un grupo de trabajadores escogidos al

    azar en la empresa OMEGA XX, con el objetivo de indagar sobre la posible relacin que hay

    entre la edad y la presin sistlica, en adultos que aparentan encontrarse en buenas

    condiciones de salud.

    Edad 20 43 63 26 53 31 58 46 58 70 46 53 70Presin

    s istl ica120 128 141 126 134 128 136 132 140 144 128 136 146

    1. Cul es el coeficiente de correlacin de Pearson?

    2. Cul es la ecuacin de regresin?

    3. Qu porcentaje de la variabilidad de Y explica dicha ecuacin?

    4. Qu conclusin se puede dar al respecto de lo encontrado?

    y = -0,366x + 219,36R = 0,9423

    140

    150

    160

    170

    180

    190

    200

    210

    40 60 80 100 120 140 160 180 200

    Lon

    gitu

    d (

    cm)

    Peso (Kg)

    Diagrama de dispersinPeso Longitud

    70 200

    80 195

    88 185

    105 177

    110 175

    120 174

    130 170

    145 163

    160 160

    180 158

    170 155

    200 150

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    54

    Pgina 54

    7.1 Probabilidad

    7.1.1 Conceptos bsicos de probabilidad

    Definicin 7.1.1 Un experimento es un proceso que genera observaciones.

    Definicin 7.1.2 Un experimento se denomina determinstico cuando al realizarse bajo las

    mismas condiciones genera los mismos resultados.

    Definicin 7.1.3 Un experimento se denomina aleatorio cuando realizado bajo las mismas

    condiciones genera resultados diferentes.

    Definicin 7.1.4 El conjunto de todos los resultados posibles de un experimento aleatorio se

    denomina ESPACIO MUESTRAL. Adems cualquier subconjunto de un espacio muestral se llama

    evento.

    Ejemplo 7.1.5 Determine el espacio muestral del experimento aleatorio del lanzamiento de un

    dado.

    Definicin 7.1.6 Si A es un evento que pueden ocurrir de h maneras diferentes, todas

    igualmente factibles, de un total de N , entonces la probabilidad de que ocurra el evento es:

    h

    P AN

    Teorema 7.1.7 Para eventos , ,A B C de un espacio muestral se tiene que:

    a. 0P

    b. Si los eventos , ,A B C son mutuamente excluyentes, entonces

    P A B C P A P B P C

    c. ' 1P A P A

    d. 0 1P A

    e. P A B P A P B P A B

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    55

    Pgina 55

    Ejemplo 7.1.8 De un grupo de 50 estudiantes que finaliz a un proceso de capacitacin, se

    conoce que el nmero de aquellos que aprobaron el test de conocimiento sobre riesgo

    ergonmico es de 20 , los que aprobaron otro sobre riesgo cardiovascular de 23y los que

    aprobaron ambos de 9 . Cul es la probabilidad de que un estudiante escogido al azar:

    a. No haya aprobado el test sobre riesgo ergonmico.

    b. Haya aprobado al menos uno de stos test.

    Ejemplo 7.1.9 A continuacin se muestra la frecuencia de accidentes laborales de una empresa

    escogida al azar de una de las ciudades de la costa norte de Colombia durante ao 2014.

    Frecuencia masculino (M) femenino(F) Total

    1 - 5 veces 12 11 23

    6 - 10 veces 7 6 13

    11 + veces 5 3 8

    Total 24 20 44

    Cul es la probabilidad de que al escoger un trabajador de sta empresa:

    a. Sea Hombre

    b. Haya tenido entre 6 y 10 accidentes

    c. Haya tenido 11 o ms accidentes.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    56

    Pgina 56

    7.1.2 Probabilidades condicionales

    Definicin 7.1.10 Sean A y B dos eventos de un espacio muestral . La probabilidad

    condicional del evento A dado el evento B, simbolizada por /P A B , se define como:

    / , 0P A B

    P A B si P BP B

    Ejemplo 7.1.11

    Supngase que se tiene los datos de los empleados de una empresa, as:

    Casado Soltero

    Hombre 34 45 79

    Mujer 56 46 102

    90 91 181

    Si un individuo se escoge al azar, cul es la probabilidad de que:

    a. Si se escogi del grupo de mujeres, sea casada

    b. Si se escogi del grupo de hombres sea soltero

    Ejemplo 7.1.12 Retomando la informacin de la tabla del ejemplo 7.1.9, responda:

    a. Cul es la probabilidad de escoger un hombre sabiendo que ha tenido entre 1 y 5

    accidentes laborales?

    b. Si se escoge un individuo al azar y se conoce que es mujer, cul es la probabilidad de que

    haya tenido 11 o ms accidentes laborales?

    Ejemplo 7.1.13 Resolver:

    1. En una construccin la probabilidad de que una persona, que al menos tenga 25 aos y

    utilice protectores nasales de 0,6; que sea menor de 25 aos y no utilice protectores nasales

    es de 0,12; y la probabilidad de que un trabajador tenga al menos 25 aos es de 0,7.

    Encuentre la probabilidad de que al escoger un trabajador al azar:

    a. Utilice los protectores nasales dado que es mayor o igual de 25 aos.

    b. Que se menor a 25 aos, sabiendo que no usa protectores nasales.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    57

    Pgina 57

    2. En una empresa realiz una encuesta a 2500 personas de diferentes empresas de la ciudad,

    para saber la audiencia que haba tenido un programa de formacin en seguridad industrial

    trasmitido y otro de ejercicios para mejorar las pausas activas durante la jornada laboral, los

    cuales se trasmitieron en horarios diferentes. 2 100 vieron el programa de formacin en

    seguridad industrial, 1 500 vieron el de ejercicios para mejorar las pausas activas y 350 no

    vieron ninguno de los dos programas. Si elegimos al azar a uno de los encuestados:

    a. Cul es la probabilidad de que vieran los dos programas?

    b. Cul es la probabilidad de que viera el de S.I., sabiendo que no vio de P.A.?

    c. Sabiendo que vio S.I., cul es la probabilidad de que viera el P.A.?

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    58

    Pgina 58

    7.1.3 Teorema de la Probabilidad total

    Teorema de la probabilidad total 7.1.14 Si los eventos 1 2,...,A A forman parte de un espacio

    muestral y si 0iP A para todo 1,...,i n entonces para cada evento B de se tiene

    que:

    1 1 2 2/ / ... / n nP B P B A P A P B A P A P B A P A , es decir

    1 2 3 ... nP B P A B P A B P A B P A B

    Ejemplo 7.1.15 Retomando la tabla de datos del ejemplo 6.1.8, calcule:

    a. La probabilidad de escoger un hombre.

    b. La probabilidad de escoger una mujer. Ejemplo 7.1.16 Resolver:

    a. La probabilidad de que un empleado de una empresa de la costa norte Colombiana escogida

    al azar no aplique las medidas de prevencin de accidentes laborales es del 10%. El 95% de

    los que aplicaron medidas preventivas no se accidentaron. De hecho, 60% de los que no

    aplicaron las normas no se accidentaron. Cul es la probabilidad de que un trabajador

    escogido al azar de sta empresa se accidente.

    b. Se conoce que en una empresa de diseo grfico los creativos consumen dos tipos de

    bebidas energizantes, A y B, para mejorar su rendimiento laboral. El 68% de los creativos

    consume la bebida A; adems, se conoce que el 75% de las que toman dicha bebida tienen

    un mejor rendimiento. El 18% de los que consumen la bebida B mejora su rendimiento.

    Cul es la probabilidad que el rendimiento laboral de los creativos de esta empresa mejore

    gracias a este tipo de bebida?

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    59

    Pgina 59

    7.1.4 Teorema de Bayes

    En el campo de las ciencias de la salud la aplicacin de la probabilidad es relevante en distintos

    mbitos del ejercicio cotidiano, entre los cuales se puede encontrar, el inters de un mdico en

    predecir la presencia o ausencia de una determinada enfermedad a partir de los resultados que

    pueda tener de una prueba, se sta positiva o negativa; tambin, de acuerdo a si tiene o no los

    sntomas de una enfermedad. Es vlido tener en cuenta que en las pruebas que se realizan no

    siempre se tiene resultados de confiar, por lo tanto se pueden presentar: falso negativo o falso

    positivo

    Para realizar las estimaciones que se analizarn a continuacin es necesario tener presente la

    siguiente tabla:

    Resultado de

    la pruebaEnfermo (E) No enfermo (E) Total

    Positivo (P) a b a+b

    Negativo(P) c d c+d

    Total a+c b+d n

    Emfermedad

    Definicin 7.1.17 La sensibilidad de una prueba es la probabilidad de un resultado positivo de la

    prueba dada la presencia de la enfermedad. (Verdaderos enfermos)

    Para estimar el valor de la sensibilidad, se aplica:

    /P P E

    P P EP E

    Definicin 7.1.18 La especificidad de una prueba es la probabilidad de un resultado negativo de

    la prueba dada la ausencia de la enfermedad. (Verdaderos sanos)

    Para estimar el valor de la especificidad, se aplica:

    /

    P P EP P E

    P E

    Luego de identificar stas probabilidades condicionales, se muestra la aplicacin del teorema

    de Bayes en las ciencias de la salud, establecindose una relacin entre ciertas probabilidades

    condicionales establecidas en una tabla 2 x 2.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    60

    Pgina 60

    Ejemplo 7.1.19 Resolver:

    a. Se realiz una biopsia a 1100 hombres quienes evidenciaban sintomatologa asociada al

    cncer de prstata, de estos, 890 dieron positivo en dicho examen y 210 dieron negativo,

    finalizado el proceso se confirm que realmente 640 hombres tenan cncer de prstata y la

    prueba tuvo 40 resultados falsos negativos. Calcular la sensibilidad y la especificidad de la

    prueba.

    b. A continuacin se obtiene los resultados de aplicar una prueba diagnstica para el cncer de

    cuello uterino en mujeres mayores de 30 aos. Calcular la sensibilidad y la especificidad de

    la prueba.

    Definicin 7.1.20 El valor que predice la positividad de una prueba de deteccin, es la

    probabilidad de que un individuo tenga la enfermedad, dado que el individuo presente un

    resultado positivo en la prueba de deteccin.

    Para estimar el valor de la positividad, se aplica el teorema de Bayes as:

    //

    / /

    P P E P EP E P

    P P E P E P P E P E

    Resultado

    de la

    prueba

    S (E) No (E) Total

    Positivo (P) 450 60 510

    Negativo(P) 150 1100 1250

    Total 600 1160 1760

    Diagnstico de cncer

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    61

    Pgina 61

    Definicin 7.1.21 El valor que predice la negatividad de una prueba de deteccin, es la

    probabilidad de que un individuo no tenga la enfermedad, dado que el individuo presente un

    resultado negativo en la prueba de deteccin.

    Para estimar el valor de la negatividad, se aplica el teorema de Bayes as:

    / /

    / /

    P P E P EP E P

    P P E P E P P E P E

    Ejemplo 7.1.22 Uno de los objetivos de un grupo de investigacin es evaluar la prueba de

    deteccin propuesta para un posible cncer de cuello uterino, dicha prueba se basa en una

    muestra aleatoria de 350 enfermas y en otra muestra independiente de 400 pacientes que no

    presentan sntomas de la enfermedad. Las dos muestras se obtuvieron de una poblacin de

    mujeres entre 35 y 50 aos. Los resultados son:

    Resultado

    de la

    prueba

    S (E) No (E) Total

    Positivo (P) 326 15 341

    Negativo(P) 24 485 509

    Total 350 500 850

    Diagnstico de cncer

    De acuerdo a stos resultados, estime:

    a. Sensibilidad y especificidad de la prueba.

    Si la prevalencia de la enfermedad es 0,15P E , calcular:

    c. La positividad y negatividad de la prueba.

    Teniendo en cuenta la siguiente tabla, se definen otros conceptos que apoyan el anlisis de una prueba tamiz

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    62

    Pgina 62

    Para tener en cuenta:

    Resultado de

    la pruebaEnfermo (E) No enfermo (E) Total

    Positivo (P) a b a+b

    Negativo(P) c d c+d

    Total a+c b+d n

    Emfermedad

    : ; :

    : ; :

    a verdadero positivo b falso positivo

    c falso negativo d verdadero negativo

    :

    :

    :

    :

    aSensibilidad de la prueba

    a c

    dEspecificidad de la prueba

    b d

    aValor predictivo positivo de la prueba

    a b

    dValor predictivo negativo de la prueba

    c d

    Del ejemplo 7.1.22 Calcular las medidas anteriores.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    63

    Pgina 63

    Media,Desv . Est.

    25,2,5

    Normal

    12 17 22 27 32 37 42

    x

    0

    0,2

    0,4

    0,6

    0,8

    1

    pro

    babilidad a

    cum

    ula

    da

    8.1 Distribucin normal

    8.1.1 La distribucin normal

    Definicin 8.1.1 Una variable aleatoria tiene una distribucin normal con parmetros 2 0y si y slo si su densidad de probabilidad est dada por:

    2

    22

    2

    1; , ,

    2

    x

    x f x e para x

    Y la funcin de distribucin acumulada es: ; , ; ,t

    t F t P X t x dx

    Algunos comportamientos de acuerdo a los valores de los parmetros:

    Media,Desv. Est.

    25,2,5

    Normal

    12 17 22 27 32 37 42

    x

    0

    0,04

    0,08

    0,12

    0,16

    densid

    ad

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    64

    Pgina 64

    Media,Desv. Est.

    88,5,7,3

    50,5,7,3

    Normal

    0 30 60 90 120 150

    x

    0

    0,01

    0,02

    0,03

    0,04

    0,05

    0,06

    densid

    ad

    Media,Desv. Est.

    88,5,7,3

    88,5,17,3

    Normal

    0 30 60 90 120 150 180

    x

    0

    0,01

    0,02

    0,03

    0,04

    0,05

    0,06

    densid

    ad

    a. 1 2 1 2 ;

    1 2 1 2 ;

    1 2 1 2 ;

    Media,Desv. Est.

    88,5,17,3

    68,5,7,3

    Normal

    0 30 60 90 120 150 180

    x

    0

    0,01

    0,02

    0,03

    0,04

    0,05

    0,06

    densid

    ad

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    65

    Pgina 65

    Media,Desv. Est.

    0,1

    Normal

    -5 -3 -1 1 3 5

    x

    0

    0,1

    0,2

    0,3

    0,4

    densid

    ad

    Media,Desv . Est.

    0,1

    Normal

    -5 -3 -1 1 3 5

    x

    0

    0,2

    0,4

    0,6

    0,8

    1

    pro

    babilidad a

    cum

    ula

    da

    La distribucin normal estndar Esta nueva distribucin se obtiene luego de realizar un proceso llamado estandarizacin a una

    variable aleatoria X con 2 y de donde se obtiene una variable Z , la cual tiene unos

    valores especficos para la media y la varianza, los cuales son 0 y 1 respectivamente. Es as,

    como:

    X

    Z

    , de donde se tiene que 0 1E Z y V Z

    Definicin 8.1.2 Una variable aleatoria tiene una distribucin normal estndar si y slo si tiene

    una distribucin normal con esperanza 0 y varianza 1.

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    66

    Pgina 66

    Las notaciones para la distribucin normal estndar que se utilizarn sern:

    a. ;0,1z z

    b. ;0,1t t

    Adems es importante que se tenga en cuenta que:

    a. z z , es decir, existe una simetra respecto a cero

    b. 1t t

    c. Para todo ,a b real se tiene que:

    a a

    P X a P Z

    1 1a

    P X a P X a

    a b b a

    P X a P Z

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    67

    Pgina 67

    Obsrvese las caractersticas de las siguientes Distribuciones normales

    Ejemplo 8.1.3 Si X es una variable normal con media 70 y desviacin estndar 15, calcule las siguientes probabilidades:

    a. 90P X

    b. 80P X

    c. 55 95P X

    Ejemplo 8.1.4 La estatura de una poblacin 572 de personas sigue una distribucin aproximadamente normal con media 70 pulgadas y una desviacin estndar de 3 pulgadas. Cul es la probabilidad de que una persona seleccionada al azar de ste grupo:

    a. Tenga una estatura entre 65 y 74 pulgadas.

    b. Mayor que 70 pulgadas. Ejemplo 8.1.5 De acuerdo al ejemplo anterior, cuntas personas aproximadamente tendrn una estatura de al menos 73 pulgadas?

    Media,Desv. Est.

    -25,0,2,5

    0,1

    25,2,5

    Normal

    -38 -18 2 22 42

    x

    0

    0,1

    0,2

    0,3

    0,4

    densid

    ad

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    68

    Pgina 68

    Ejemplo 8.1.6 La medida del peso de 500 estudiantes en una universidad es de 151 libras y la desviacin tpica de 15 libras. Suponiendo que los pesos se distribuyen normalmente, hallar cuntos estudiantes pesan:

    a. Entre 120 y 155 libras.

    b. Ms de 165 libras.

    Ejemplo 8.1.7 En una distribucin normal que tiene una desviacin estndar de 2, la

    probabilidad de que el valor de la variable, elegida al azar, sea menor que 28, es 0,03. Cul es

    el valor de la media?

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    69

    Pgina 69

    9.1 Medidas de efecto

    Definicin 9.1.1 El estudio por observacin es una investigacin cientfica en la que no es

    posible manipular de ninguna forma individuos o variables.

    Definicin 9.1.2 El trmino factor de riesgo se utiliza para designar a la variable que se

    considera est relacionada con alguna variable resultado.

    estudios prospectivo RR

    Tipos de estudios por observacin

    estudio retrospectivo OR

    Definicin 9.1.3 El estudio prospectivo es un estudio donde se seleccionan dos muestras

    aleatorias de individuos, una de las cuales tiene el factor de riesgo y la otra no posee el factor de

    riesgo, las cuales se estudian a travs de un tiempo para observar la presencia del evento de

    inters planteado por el investigador.

    Para realizar la clasificacin de la muestra obtenida, se tiene en cuenta que la variable

    dependiente y el factor de riesgo estn definidos en dos niveles, para establecerse as en una

    tabla de contingencia 2x2, de la siguiente manera:

    Estudios de cohorte

    Factor de riesgo Presente Ausente Total en riesgo

    Presente a b a+b

    Ausente c d c+d

    Total a+c b+d n

    Estado de la enfermedad

  • M.Sc. Carlos Alejandro Carreo Colina PhD Luz Marina Alonso

    Notas de clase Informtica y Bioestadstica Universidad del Norte

    70

    Pgina 70

    Definicin 9.1.4 El riesgo relativo es la relacin del riesgo de desarrollar la enfermedad entre los

    individuos con el factor de riesgo respecto al riesgo de desarrollar la enfermedad entre los

    individuos sin el factor de riesgo.

    Es vlido resaltar que para establecer sta medida se debe tener en cuenta:

    Dos muestras de individuos libres de la enfermedad, una de las cuales posee el factor

    de riesgo.

    Son