Anlisis estadstico bsico: t-test, anova, pruebas no paramtricas, regresin... Jos Ros
IUSC - 2009
Jos Ros IUSC - 2009 *Es cierto el bostezo inducido?
IUSC - 2009
Jos Ros IUSC - 2009 *
IUSC - 2009
Jos Ros IUSC - 2009 *Por que claro conociendo toda la informacin somos capaces de saber como se llega a los resultados
IUSC - 2009
Jos Ros IUSC - 2009 *Pero antes hablemos de variables
PresenciaOcurrenciaTiempoNo lo consideranObligan a determinarlo EnfermedadPrevalencia Exposicin
-Estado opinin Encuestas
No interesa la evolucin temporal Incidencia Densidad de (poblacin) incidencia
Recurrencia (individuo)Estudiotransversallongitudinal
IUSC - 2009
Jos Ros IUSC - 2009 * y de la importancia metodolgica del tamao de la muestra
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosTres tipos bsicosPosicin: tambin llamadas medidas de tendencia central.
Dispersin: conocidas tambin como medidas de escala
Forma: sirven para el estudio de la asimetra y apuntamiento comparado con la curva gaussiana
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas de PosicinMedia aritmtica
En el caso de datos agrupados en intervalos, la media se calcular con el valor medio de intervalo
nicamente tiene sentido para variables cuantitativas
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas de PosicinMediana
Deja a ambos lados la misma poblacin.El valor de la mediana no tiene por que existir en la muestraPara su clculo slo se requiere que las clases sean ordenables, podemos, por tanto, calcularla tanto para variables cuantitativas como cualitativas ordinales
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas de PosicinModa Es el valor ms frecuente en nuestros datosEn el caso de variables que tomen muchos valores, el clculo de la moda es preferible con los datos agrupados, obtendremos el intervalo modalSu clculo tiene sentido para cualquier tipo de variable. Slo usa el valor de las frecuencias
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas de PosicinCuantiles.Son de orden (a). Dejan el a 100% de la poblacin por debajo.Los percentiles dividen la poblacin en porcentajes, los terciles, cuartiles y quintiles fracciones.
El segundo cuartil coincide con la Mediana
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas de PosicinPropiedades.La Media es sensible a los valores extremos, la Mediana no lo es.
Especial atencin en estudios de anlisis de supervivencia
Media 1Mediana 1Nuevo valor en la muestra
IUSC - 2009
Jos Ros IUSC - 2009 *Pero entonces?
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas de PosicinAtencin, siempre es mejor visualizar los datos antes de trabajar con ellos.
Es posible que ni la Media ni la Mediana representen bien el comportamiento central de la variable
En este caso, Media y Mediana tienen el mismo valor, algn comentario?
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)
Dos Grandes Familias
Recorridos
Varianzas
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)Rangos y amplitudes: valores pequeos en recorridos o rangos dan idea de poco dispersin, valores grandes indican mucha dispersin o presencia de valores extremos.El Rango (Mn Mx) se ve extremadamente afectado por valores extremos, no es, por tanto, una buena medida.El recorrido intercualtlico (1er Cuartil 3er Cuartil) tambin indica dispersin. Ambos valores combinados pueden dar buena idea de cmo son los datos
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)Veamos un ejemplo de clculo
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)Qu ocurre si sumamos todas las distancias?
Las distancias negativas son compensadas con las positivas. La suma es siempre cero
Def.: la media es el centro de gravedad de la distribucin muestral
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)La varianza es la media de la suma de las desviaciones respecto a la media elevadas al cuadrado.
La Desviacin estandar es la raz del anterior
El Coeficiente de variacin usa las medidas de posicin y escala
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)Pregunta: Por qu si tenemos la varianza acabamos utilizando la DE? Complicamos los estadsticos intilmente los clculos?
El problema de la varianza es que no se mide en las mismas unidades que los datos de la muestra, es por eso que se define la DE
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)Bien.... Pero qu medida es la buena?
Por si sola ninguna. Siempre es preferible ver todas ellas, visualizar los datos siempre ayuda mucho a detectar posibles problemas en los datos
Nos podemos ayudar de Histogramas y Diagramas de cajas (Box-Plot)
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)El diagrama de caja (Box-Plot), interpretacin:Nos presenta el Rango y el recorrido intercuartlico (ojo con el programa utilizado)Valores fuera de lmites son representados con crculos se consideran normales Valores presentados como astersticos se podran estudiar como atpicosOJO CON DESCARTAR ALEGREMENTE VALORES ATPICOS
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas Escala (dispersin)El diagrama de caja (Box-Plot)
MximoMnimoMediana50% de la muestraAqu se espera encontrar la mayora de la muestra
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas de formaMedida de asimetra
Medida de apuntamiento o kurtosis
IUSC - 2009
Jos Ros IUSC - 2009 *Resumen de datosMedidas de formaMedida de asimetraSimtricaCoef.=0Asimtrica positivaCoef. > 0Asimtrica negativaCoef. < 0
IUSC - 2009
Jos Ros IUSC - 2009 *Descripcin grfica
Se comparan el largo del sepalo de tres variedades de lirios: setosa, versicola y virginica
IUSC - 2009
Jos Ros IUSC - 2009 *Descripcin grficaGrfico de dispersin (Scatter Plot)
IUSC - 2009
Jos Ros IUSC - 2009 *Pudiendo resultar tilsetosaversicolorvirginica
IUSC - 2009
Jos Ros IUSC - 2009 *Descripcin grficaUna posible evaluacin grfica de los Odds Ratio (OR)
EventoBMINoSOddsOR=30970.781.37
IUSC - 2009
Estadsitica inferencialP-valorIntervalo de confianzaParamtricas vs. No paramtricas
IUSC - 2009
Jos Ros IUSC - 2009 *Gnesis de las ideasKarl Raimund Popper (1902-1994)1934: La lgica de la investigacin cientfica. Cmo fundamentar el conocimiento cientfico, por definicin universal y necesario, en la experiencia emprica, por definicin particular? Hasta entonces Descartes confa en las leyes eternas de la raznHume en las leyes que se extraen de la experienciaEn contra del positivismo: Cmo realizar una ley universal a partir de un nmero particular de experimentos?A favor del falibilismo (o falsacin): el conocimiento cientfico no puede avanzar confirmando nuevas leyes, sino descartando leyes que contradicen la experiencia. POR TANTO: La labor del cientfico consiste en criticar leyes para ir reduciendo el nmero de teoras compatibles con observaciones experimentales.CONSECUENCIA:Una proposicin cientfica lo ser si es posible crear un experimento que la pudiese contradecir.
IUSC - 2009
Jos Ros IUSC - 2009 *Pruebas de hiptesisUnilateral (una cola)
Ho: E - C 0H1: E - C > 0
Bilateral (dos colas)
Ho: E - C = 0H1: E - C > 0 E - C < 0
IUSC - 2009
Jos Ros IUSC - 2009 *p?Probabilidad de observar, por azar, una diferencia como la de la muestra o mayor, cuando H0 es cierta
Es una medida de la evidencia en contra de la H0Es el azar una explicacin posible de las diferencias observadas?Supongamos que as es (H0).Con qu probabilidad observaramos unas diferencias de esa magnitud, o incluso mayor? P-valorSi P-valor pequeo, rechazamos H0.
Difcil?... No, es como un juicio!
IUSC - 2009
Jos Ros IUSC - 2009 *p?
Se acepta un valor mximo de 5% (0,05).Si p0,05 diferencias estadsticamente significativas.
Si p>0,05 diferencias estadsticamente NO significativas.
NO implica importancia clnica.
NO implica magnitud de efecto!!Influenciada por el tamao de la muestra. Si n p
IUSC - 2009
Jos Ros IUSC - 2009 *Pero el mo es mejor.Para un mismo resultado cuantitativo el investigador avispado puede hacer SU interpretacin cualitativa simplemente inundando el artculo de valores de pMayor tamao de muestraMenor valor de p (habitualmente)Mayor relevancia clnicaMenor valor de p (habitualmente)Mayor relevancia clnica?Mayor relevancia clnica?
IUSC - 2009
Jos Ros IUSC - 2009 *Y Arguiano nos dice:
IUSC - 2009
Jos Ros IUSC - 2009 *Y Arguiano nos dice:
IUSC - 2009
Jos Ros IUSC - 2009 *Y Arguiano nos dice:
IUSC - 2009
Jos Ros IUSC - 2009 *Intervalos de confianzaSi repetimos el intervalo de confianza a lo largo del tiempo sobre la misma poblacin, los intervalos de confianza al 95% calculados para cada muestra deberan incluir el verdadero valor de la poblacin en el 95% de las veces.
Una persona normal es aquella que no ha sido lo suficientemente investigada.
IUSC - 2009
Jos Ros IUSC - 2009 *Amplitud del ICTambin depende de la informacin que la muestra proporciona sobre el verdadero valor poblacional
Mayor tamao de muestra -> mayor precisin -> IC ms estrecho
Mayor dispersin de la medida ->IC ms amplio
IUSC - 2009
Jos Ros IUSC - 2009 *Por ejemploFuente: Vies, R. Larumbe, M.T. Artzcoz, I. Gaminde, D. Guerrero, J.V. Ferrer Estudio epidemiolgico de la enfermedad de Parkinson en Navarra. Revista ANALES del Sistema Sanitario de Navarra, Vol. 22, Suplemento 3, 1999OR entre casos y controles de consumo de tabaco y EP. Intervalos de confianza del 90%.
IUSC - 2009
Jos Ros IUSC - 2009 *EstimacinPero hemos de tener en cuenta que todo intervalo de confianza conlleva dos noticias, la buena y la malaLa buena: hemos usado una tcnica que en % alto de casos acierta.La mala: no sabemos si ha acertado en nuestro caso.
IUSC - 2009
Jos Ros IUSC - 2009 *Pruebas paramtricas y no-paramtricasUna prueba paramtrica requiere la estimacin de uno o ms parmetros (estadsticos) de la poblacinEj.: Una estimacin de la diferencia entre la media antes y despus de una intervencinLas pruebas no-paramtricas no involucran ningn tipo de estimacin de parmetrosEj.: Facilitarnos la una estimacin de la P[X>Y], probabilidad de que, selecionando un paciente despus del tratamiento, su valor sea mayor que antes del tratamiento
IUSC - 2009
Jos Ros IUSC - 2009 *Ventajas de las pruebas no-paramtricasNo se asume nada sobre la distribucin de nuestros datos.Se pueden usar en multitud de tipos de variablesInconvenientesLas pruebas no-paramtricas acostumbran a tener un poder estadstico menor que su equivalente paramtrico. A propsito de los datosUtiliza rangos (ordenaciones), no da resultados en las unidades de las variables originales. El efecto de los valores extremos se diluye (buena noticia o mala)Se deberan utilizar cuando los requerimientos para las pruebas paramtricas no se cumplan.Pruebas paramtricas y no-paramtricas
IUSC - 2009
Estadsitica inferencialRegresin y Supervivencia
IUSC - 2009
Jos Ros IUSC - 2009 *Regresin linealDescribe como un variable respuesta y cambia en funcin de otra (tpicamente diseada) factor x de forma estrictamente lineal
Formalmente se asume que: X no es una variable aleatoria (no tiene por qu cumplirse siempre)Para cada valor xi de X existe una v.a. Y|xi cuya media me predice el modelo linealTodas las variables Y|xi son Normales, independientes y de igual varianza
IUSC - 2009
Jos Ros IUSC - 2009 *Ejemplos macabrosLos llamar macabros ya que son ilustrativos de que el abuso debido a su simplicidad de ejecucin e interpretacin puede tener resultados nefastos
IUSC - 2009
Jos Ros IUSC - 2009 *Ejemplos macabros
IUSC - 2009
Jos Ros IUSC - 2009 *Ejemplos macabrosY mucho cuidado con la correlacinLa proporcin de variabilidad explicada por la regresin es el r2 * 100
IUSC - 2009
Jos Ros IUSC - 2009 *Ejemplos macabrosPor que los abusos no son nada buenos
IUSC - 2009
Jos Ros IUSC - 2009 *J Allergy Clin Immunol 2006;117:989-94.)
IUSC - 2009
Jos Ros IUSC - 2009 *Ejemplo sencilloEl hbito tabquico es un buen predictor lineal para los niveles de tiocianato?
IUSC - 2009
Jos Ros IUSC - 2009 *
IUSC - 2009
Jos Ros IUSC - 2009 *Por tanto, la funcin que me indicara la prediccin lineal sera: Y = 202.84 70.46*X
IUSC - 2009
Jos Ros IUSC - 2009 *A que pareca una buena opcin?
IUSC - 2009
Jos Ros IUSC - 2009 *Otro ms para acabarLa TAS es un buen predictor lineal para la TAD?
IUSC - 2009
Jos Ros IUSC - 2009 *Otro ejemploPor cada mmHg que aumenta la PAS, la PAD experimenta un aumento, en promedio, de 0.347 mmHg
IUSC - 2009
Jos Ros IUSC - 2009 *Qu conclusin real se puede obtener?
IUSC - 2009
Jos Ros IUSC - 2009 *Anlisis de la supervivencia:Motivos para su usoEn ocasiones importa tanto el tiempo hasta que se produce el evento que su consecucin.Por ejemplo (por no ser ms morboso): Evaluar el tiempo que se tarda en la mejora o curacinEstudiar n individuosTi ser el tiempo que tarda el i-simo paciente en curarseEl problema viene cuando no se conoce Ti censuraPor tanto pueden existir variables que explican este tiempo.Muy til cuando el seguimiento es incompleto o muy variable
IUSC - 2009
Jos Ros IUSC - 2009 *Cuando usar estas tcnicasDeseamos un modelo para explicar tiempo hasta un eventoEvento es dicotmico (regresin lineal no sirve)Nos interesa el tiempo hasta evento (regresin logstica no sirve)Deseamos comparar supervivencia entre gruposPodremos evaluar la relacin entre covariables y el tiempo de supervivencia
IUSC - 2009
Jos Ros IUSC - 2009 *No es efectivo ni tico esperar a que se presenten todos los eventos para finalizar el estudio.
Los individuos entran en el estudio a tiempos diferentes.Cuando usar estas tcnicas (II)
IUSC - 2009
Jos Ros IUSC - 2009 *Por qu no otras?
IUSC - 2009
Tcnica
Variables
predictoras
Variable
respuesta
Existen censuras?
Regresin linear
Categricas o continuas
Normalmente distribuidas
No
Regresin Logstica
Categricas o continuas
Binaria (menos en regresin logstica politommica)
No
Anlisis de supervivencia
Tiempo y categricas o continuas
Binaria
S
Jos Ros IUSC - 2009 *Qu estimamos?
IUSC - 2009
Tcnica
Modelo Matemtico
Evaluamos
Regresin linear
Y=B1X + Bo
(linear)
Evaluacin de pendiente (cambio lineal)
Regresin Logstica
Ln(P/1-P)=B1X+Bo
(sigmoidal prob.)
Odds ratios
Anlisis de supervivencia
h(t) = ho(t)exp(B1X+Bo)
Hazard rates
Jos Ros IUSC - 2009 *Posibles ejemplos de diseo (o no)Evaluar la mortalidad en el post-operatorioReclutamos durante 5 aos a 350 pacientes y los seguimos durante un tiempo de seis mesesSe seleccionan a 100 pacientes y se aleatorizan a dos brazos de tratamiento. La aparicin del evento se evala en consecutivas visitas programadas durante tres aosMiramos la aparicin espontnea de un evento en el trascurso de un estudio de cohortes
IUSC - 2009
Jos Ros IUSC - 2009 *Yo os doy una de las solucionesMortalidad postoperatoriaAl no haber un seguimiento prolongado no tiene sentido hablar de censuras y se dispone de toda la informacin de los sujetos.Chi-Square = 0.04Degrees of Freedom = (2-1)(2-1) = 1p = 0.084
IUSC - 2009
Jos Ros IUSC - 2009 *Y las censuras?Existen de varios tipos, pero aqu hablaremos slo de las que se producen de forma aleatoria por la derechahttp://www.ms.uky.edu/~mai/java/stat/KapMei.html
IUSC - 2009
Jos Ros IUSC - 2009 *Por qu censuras?Se produce por la imposibilidad prctica de tener informacin precisa del momento del evento en la totalidad de los sujetos.El da de cierre no se ha presentado el eventoHemos perdido el seguimiento del sujetoMotivosAcontecimiento adversoCierre del estudio/seguimientoPrdida de seguimientoEvento por causa diferentes a la del estudio
IUSC - 2009
Jos Ros IUSC - 2009 *Pero existe una clasificacinTipo I.Todos los individuos se siguen hasta una fecha fin de estudioPor la derecha:Pacientes vivos al finalizar el estudioPacientes perdidos o abandonosEn intervalo:Las visitas de control son espaciadasPor la izquierda:Se desconoce la fecha de inicio
Tipo II.Los individuos se siguen hasta que han ocurrido r eventos
IUSC - 2009
Jos Ros IUSC - 2009 *Falta de seguimiento?
IUSC - 2009
Jos Ros IUSC - 2009 *Qu pas con el ltimo paciente?
IUSC - 2009
Jos Ros IUSC - 2009 *Por ejemplo
IUSC - 2009
Jos Ros IUSC - 2009 *Y si el evento es repetido?Los modelos generales de Cox se realizan contra un evento nicoEl seguimiento del paciente se trunca en el primer eventoEs suficiente para evaluar eventos no repetibles como la mortalidadEs este tipo de anlisis suficiente en todos los casos?
IUSC - 2009
Jos Ros IUSC - 2009 *En EC quizs no muchoEl modelo general de Cox lo que pretende es ver como una caracterstica inicial modifica la presencia de un eventoEn EC, el tratamiento aleatorizado.Hay variables que se modifican a lo largo del seguimiento que pueden propiciar el evento Cox con covariables tiempo-dependiente
IUSC - 2009
Jos Ros IUSC - 2009 *EsquemticamenteModelo AG
Modelo PWP
O mezclasEventoEventoEventoEventoNota: El grosor de la flecha indica el riesgo potencial de presentar el evento EventoEventoEventoEvento
IUSC - 2009
Jos Ros IUSC - 2009 *Pero hay muchos mtodos para analizar este tipo de datos
IUSC - 2009
Jos Ros IUSC - 2009 *
IUSC - 2009
Jos Ros IUSC - 2009 *Los mtodos estadsticos no son un sustituto del sentido comn y la objetividad. Nunca deberan estar dirigidos a confundir al lector, sino que deben ser una contribucin importante a la claridad de los argumentos cientficos
SJ Pocock. Br J Psychiat 1980; 137:188-190
IUSC - 2009
Jos Ros IUSC - 2009 *
IUSC - 2009
********Si ambos son grandes podemos asegurar dispersin. Si Rango grande e intercualtlico pequeo, outliers
*Dibujar ejemplos en pizarra de distribuciones sesgadas poco dispersas y muy dispersas*Dibujar ejemplos en pizarra de distribuciones sesgadas poco dispersas y muy dispersas*Dibujar ejemplos en pizarra de distribuciones sesgadas poco dispersas y muy dispersas*Dibujar ejemplos en pizarra de distribuciones sesgadas poco dispersas y muy dispersas
Top Related