Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por...

50
D esarrollo iseño (creación?) e implementación (¿) de un m M ódulo bioinformátic o para el análisis estadístico de asociación genotipo – fenotipo para estudios de asociación aplicados al cáncer cervical

Transcript of Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por...

Page 1: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

Desarrolloiseño (creación?) e implementación(¿) de un mMódulo bioinformático para el análisis estadístico de

asociación genotipo – fenotipo para estudios de asociación aplicados al cáncer cervical

Emilio Centeno OrtizSeptiembre 2008

Page 2: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

Módulo estadístico para estudios de asociación aplicados al cáncer cervical

Memoria del trabajo de investigación correspondiente al Máster en Genética presentada por Emilio Centeno Ortiz

El presente trabajo ha sido realizado en el Grupo de Genética, Bioinformática y Evolución del Departamento de Genética y Microbiología de la Universidad Autónoma de Barcelona, bajo la dirección del profesor Antonio Barbadilla Prados

Vº BºEl director del trabajo

Antonio Barbadilla PradosProfesor Titular de Genética

UAB

Page 3: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

Agradecimientos

A mi familia por el apoyo incondicional que recibo en todo lo que hago. En especial, a mi madre por haber luchado por traerme hasta aquí y darme una buena educación, y a mi hermano Antonio por estar siempre a mi lado y ser una luz que siempre me muestra buenos caminos. También quiero dar las gracias a Antonio Barbadilla por todo su apoyo y por abrirme las puertas de la bioinformática. Y, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo y ayuda.

Page 4: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

1 INTRODUCCIÓN..................................................................................................................................................................5

1.1 EL PROYECTO ASSIST......................................................................................................................................................51.2 ORGANIZACIÓN DEL SISTEMA ASSIST.............................................................................................................................7

2 OBJETIVOS...........................................................................................................................................................................9

3 MATERIALES Y MÉTODOS..............................................................................................................................................9

3.1 FACTORES DE ESTUDIO.....................................................................................................................................................93.2 ESTADÍSTICAS.................................................................................................................................................................10

3.2.1 Asociación de variables cualitativas......................................................................................................................103.2.2. Riesgo relativo y odds ratio...................................................................................................................................113.2.3 Tamaño del efecto...................................................................................................................................................123.2.4 Potencia estadística................................................................................................................................................13

3.3 TECNOLOGÍAS DE LA INFORMACIÓN...............................................................................................................................14

4 RESULTADOS.....................................................................................................................................................................14

4.1 RECOMENDACIÓN DEL TAMAÑO DE LA MUESTRA...........................................................................................................164.2 DESCRIPCIÓN ESTADÍSTICA DE LA MUESTRA..................................................................................................................16

4.2.1 Descripción de datos fenotípicos............................................................................................................................174.2.2 Descripción de datos genéticos..............................................................................................................................174.2.3 Representación gráfica de cantidades y frecuencias..............................................................................................19

4.3 TESTS DE ASOCIACIÓN CASO-CONTROL..........................................................................................................................204.3.1 Estudios de asociación para datos fenotípicos......................................................................................................214.3.2 Estudios de asociación para datos genéticos.........................................................................................................21

4.4 TESTS DE HIPÓTESIS MULTIVARIABLE.............................................................................................................................234.5 ONTOLOGÍA ESTADÍSTICA...............................................................................................................................................24

5. DISCUSIÓN.........................................................................................................................................................................35

5.1 ARCHIVOS MÉDICOS........................................................................................................................................................355.2 GENÉTICA, ESTADÍSTICA Y SISTEMAS DE INFORMACIÓN................................................................................................36

6 CONCLUSIONES................................................................................................................................................................37

BIBLIOGRAFÍA.....................................................................................................................................................................38

Documentos de ASSIST...................................................................................................................................................38

APÉNDICE A: DELIVERABLE 6.3.....................................................................................................................................39

APÉNDICE B: R IN ASSIST...................................................................................................................................................40

Page 5: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

1 INTRODUCCIÓN

En esta memoria se l presente trabajo pretende explicar la solución adoptada en para realizar estudios de asociación dentro del proyecto ASSIST , un proyecto de ámbito europeodel VI programa marco de la Comunidad Europea para llevar a cabo estudios de asociación entre características individuales, tanto genéticas como fenotípicas, y una enfermedad, en este caso el cáncer cervical. Los datos para efectuar los análisis se han recogido destinado a recoger datos de distintos hospitales y realizar estudios de asociación para encontrar vínculos entre características individuales, tanto genéticas como fenotípicas, con una enfermedad. En este caso, el cáncer cervical.

Adicionalmente se adjuntan dos documentos que he redactado personalmente escritos por mí para el proyecto ASSIST. El primero de ellos es un entregable dirigido al comité de seguimiento del proyecto. El segundo es un pequeño documento de carácter técnico dirigido al grupo encargado de realizar la integración e instalación del sistema.

1.1 El proyecto ASSIST

El cáncer cervical es el segundo tipo de cáncer más común en todo el mundo. Sólo en Europa, se registran 60000 nuevos casos y 30000 muertes cada año. Las últimas tendencias en investigación médica combinan datos genéticos y clínicos con el objetivo de identificar nuevos marcadores de riesgo, mejorar los diagnósticos y los pronósticos acerca de la enfermedad.

Pese a que el número de estudios que intentan establecer asociaciones fenotipo-

Page 6: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

genotipo no para de aumentar, estos estudios se ven a menudo frenados por la segmentación de los estudios y los datos. El principal objetivo de ASSIST es el desarrollo de nuevas tecnologías de integración de información clínica para facilitar la investigación del cáncer cervical a través de un sistema que virtualmente unifica múltiples repositorios de datos, físicamente ubicados en diferentes hospitales. Para ello, ASSIST traduce los conceptos médicos en valores entendibles para los sistemas que lo integran mediante unas reglas de inferencia semántica las cuales vienen definidas por una ontología núcleo, y de esta manera se permite la utilización homogénea de los datos, permitiendo la evaluación de hipótesis médicas y realizando estudios de asociación.

La unificación de las fuentes de datos participantes, las cuales contienen tanto datos clínicos como datos genéticos, en una sola fuente de conocimiento médico permite una mayor flexibilidad al permitir la formación de grupos de estudio "bajo demanda" y la reutilización de registros de pacientes en nuevos estudios.

Los investigadores de las clínicas ginecológicas en estos hospitales, ya poseyendo una cantidad de datos clínicos y genéticos cuantificable, intentarán desvelar tapar relaciones entre HPV, hábitos de pacientes y genotipos.

El proyecto ASSIST (ASsociation Studies assisted by Inference and Semantic Technologies) se trata de un proyecto europeo perteneciente al sexto programa marco.

Sixth Framework Programme - Priority 2.4.11 Integrated biomedical information for better health IST-4 027510

Prueba del interés que suscitan los estudios de asociación a gran escala, o GWAS (Genome-wide Association Studies), y la unificación de grandes bases de datos genéticas es que la Comisión Europea está promocionando la coordinación de programas que incluyan GWAS e integración de datos a gran escala relativos a salud humana y enfermedades. En el séptimo programa marco, la Comisión Europea ha incrementado su presupuesto significativamente, pasando de los 2255 millones de euros del sexto programa marco (2002-2006) a los 6000 €.

Este proyecto comprende 4 socios provenientes de la investigación en tecnologías de la información (IT), 4 desarrolladores de software y 3 hospitales de investigación. El proyecto se inició en enero de 2006 y está previsto finalizar en enero de 2009.

La investigación sobre la base genética de las enfermedades es uno de los temas más punteros de la biomedicina, y las publicaciones acerca de asociaciones entre genotipos y fenotipos se están acumulando aceleradamente en la literatura. Los estudios de asociación GWAS (Genome-wide Association Studies) constituyen un método potente para identificar susceptibilidad genética a una enfermedad.Normalmente realizar un GWAS requiere recoger datos genéticos de centenares o

Page 7: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

miles de sujetos utilizando cientos de miles de SNPs localizados a lo largo del genoma humano. En ASSIST, como se verá, el número de marcadores genéticos es inicialmente modesto, pero el objetivo final es que pueda generalizarse a muchos marcadores. Los algoritmos utilizados comparan las frecuencias tanto alélicas como genotípicas de los SNPs, buscando regiones con diferencias estadísticamente significativas entre casos y controles. Para realizar este tipo de estudios se necesitan:

1. Bases de datos que contengan datos genéticos, fenotípicos y, en caso de estar disponible, asociaciones entre estos (los archivos médicos en ASSIST).

2. Herramientas bioinformáticas para analizar los datos (el módulo estadístico en ASSIST)

3. Vocabularios que describan la información de una manera estándard para así poder interactuar con otras herramientas (la ontología núcleo y la ontología estadística en ASSIST).

Actualmente se avanza en todos estos frente simultáneamente, y existen proyectos que intentan cubrir estas necesidades, desde bases de datos genotipo-fenotipo como dbGAP (http://www.ncbi.nlm.nih.gov/sites/entrez?Db=gap) a vocabularios estándar (ontologías) como PML (http://www.openpml.org)

1.2 Organización del sistema ASSIST

Como en la mayor parte de grandes proyectos en los que participan varios socios, se ha divido el proyecto en 3 grandes piezas (subsistemas), y éstos a su vez en módulos. Entendemos por subsistema un sistema autónomo que, eventualmente, puede formar parte de un sistema mayor, pero no contiene a ningún otro subsistema, sinoó que puede contener módulos. Se entiende por módulo un conjunto de funciones agrupadas por un concepto. Es un paquete de funcionalidades que responden a una misma temática, una herramienta que puede ser usada por un sistema o subsistema. Por ejemplo, se podría tener un módulo llamado Mates que contuviera todas las funciones matemáticas que se necesitarán en un sistema que lo contiene.

Las ventajas de organizar un proyecto de este tipo en una estructura modular en vez de una secuencial son muchas, pero entre ellas se podrían destacar:

- Facilita el análisis, diseño y desarrollo del proyecto. Actualmente no se concibe iniciar un proyecto sin un análisis modular del sistema.

Page 8: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

- La organización en módulos permite dividir el proyecto en problemas independientes (o con pocas dependencias) que pueden ser abordados simultáneamente por equipos distintos.

- Un proyecto grande especificado como un gran bloque resulta complicado de entender a cualquier persona externa al proyecto. Estructurar un proyecto grande en bloques conceptuales facilita la descripción del problema.

- La incorporación de nuevas personas al proyecto requiere mucho menos tiempo de aprendizaje, pues la nueva incorporación sólo debe adentrarse en el módulo que le ocupa, a la vez que tiene una visión global del sistema.

En ASSIST hay 3 grandes subsistemas:

Poner pie de figura, p.e. Figura 1. Tres sSubsistemas principales de sistema informacional ASSIST: a) Los archivos médicos. b) El núcleo …. Y . Cc) La interfaz de usuario.

Los archivos médicos o base de datos local.

Los archivos médicos que están disponibles para ASSIST constituyen los repositorios de datos orientados a la investigación relacionados con el cáncer cervical al que ASSIST se le ha sido permitido pleno acceso completo. Para cada hospital, los datos disponibles son extraídos, anonimizados y guardados en una base datos local.

El núcleo

Page 9: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

Constituye el punto medio entre la interfaz del usuario y el sistema. A partir Desde De de la información suministrada proveida por los archivos médicos, el núcleo infiere el conocimiento sobre los pacientes y ofrece servicios de recuperación y análisis de datos, así como la posibilidad de definir, ejecutar y gestionar estudios de asociación. Es en el núcleo pues donde debe aparecer el módulo estadístico, cubriendo toda la funcionalidad requerida en el análisis estadístico de los datos y la definición, ejecución y gestión de estudios de asociación.

La interfaz de usuario

Este subsistema habilita la formulación de preguntas al sistema y la visualización de las repuestas de un modo humaánamente entendilble.

2 OBJETIVOS

Dentro del objetivo principal de desarrollar e implementar un módulo de análisis de asociación dentro del sistema ASSIST, Eel presente trabajo tiene los siguientes objetivos específicos:

1. . Creación de una ontología estadística para resolver la comunicación entre el módulo estadístico y el resto del sistema.

2. I mplementar un módulo estadístico que permita realizar:a) Una estimación del tamaño necesario de la muestra para obtener una

potencia estadística deseada.b) Una descripción estadística de los datos, tanto genéticos como

fenotípicos, incluidos en un estudio de asociación.c) EstudiosTest de asociación paraentre variables tanto genéticas comoy

fenotípicas.d) Validación de hipótesis.

3. Crear pruebas unitarias para cada una de las funcionalidades.

4. Participar en el proceso de prueba test e integración del módulo estadístico en el sistema ASSIST.

pretende explicar la solución adoptada para realizar estudios de asociación dentro del proyecto ASSIST, un proyecto de ámbito europeo destinado a recoger datos de distintos hospitales y realizar estudios de asociación para encontrar vínculos entre

Usuari UAB, 07/09/08,
La introducción me parece breve. Debería explicarse brevemente las ventajas de dividir un problemas de este tipo en una estructura modelar en vez de una secuencial. Aunque para ti sea una obviedad, el tribunal no sabe nada de ello. Segundo, podrías hacer una breve introducción sobre la importancia actual de los estudios de asociación, las bases de datos de SNPs y como la detección estadística de los efectos de las variantes genética sobre el fenotipo es un aspecto crítico. (el problema de la potencia, múltiples tests, efectos alélicas o genotípicos u otro modelo de efectos….)
Usuari UAB, 07/09/08,
Debes listar la serie de objetivos conseguidos en el trabajo. Creación ontología, implementación de componentes del C, integrar el módulo en el sistema, probarlo,… Objetivo principal: Integración de Tecnologías de la información con fuentes de datos y cálculos estadísticos para efectuar análisis de asociación
Page 10: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

características individuales, tanto genéticas como fenotípicas, con una enfermedad. En este caso, el cáncer cervical.

Adicionalmente se adjuntan dos documentos escritos por mí en el proyecto ASSIST. El primero de ellos es un entregable dirigido al comité de seguimiento del proyecto. El segundo es un pequeño documento de carácter técnico dirigido al grupo encargado de realizar la integración e instalación del sistema.

3 MATERIALES Y MÉTODOS

3.1 Factores de estudio

Se entiende por factor de estudio a cualquiera de las variables que pueden participar en un estudio de asociación. En ASSIST todos los factores de estudio son genéticos o fenotípicos. En este caso, por fenotípico se incluye todo lo no genético, es decir, variables realmente fenotípicas así como información sobre hábitos y también de estilo de vida y variables ambientales. Los datos genéticos con los que se cuenta son los genotipos de cada individuo para los loci estudiados. y nada más, es decir, niNo se dispone de la genealogía, ni de filogenia, la fase haplotípica. o cualquier otra característica utilizable para analizar los datos.

Los factores de estudio genéticos disponibles son:- SNP (Single Nucleotide Polymorphism): Todos los polimorfismos estudiados

en ASSIST son no-sinónimos. De hecho, cada dato almacenado en los archivos médicos acerca de un SNP se corresponde al aminoácido correspondiente al cambio nucleotídico. Buscando en la literatura se han encontrado las referencias en la base de datos dbSNP (NCBI), de manera que se puedan comparar los datos provenientes de los archivos médicos con lunos datos de referencia.

p53 codon72: Dentro del gen p53, la sustitución en el codón 72 de una C por una G lleva a una sustitución de prolina por argininia.

MTHFR 677C->T La sustitución de una C por una T en el codón 222 lleva a la sustitución de Valina por Alanina en el codón 222.

CYP1A1/MspI: Una sustitución de una T por una C en la base 6235 del flanco 3' del gen CYP1A1 crea un sitio de reconocimiento MspI.

CYP2E1/PstI: Un SNP G/C que altera un locus PstI situado en la región 5', a 1.3 kb hacia arriba del codón de inicio del gen CYP2E.

- Indel Variantes electroforética nulas(Insertion/Deletion): En estos casos la presencia o ausencia de un gen producto proteico constituye el

Page 11: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

polimorfismo. Genes GSTM1 y GSTT1. El nombre elegido para nombrar al polimorfismo es el nombre del gen que provoca el polimorfismo.

- GSTM1 GSTT1

- Además de los datos genéticos, los diferentes hospitales cuentan con otros datos no genéticos a los cuales se les ha puesto la etiqueta de fenotípicos.

Para los estudios de asociación todas las variables fenotípicas se consideran de son de tipo cualitativo, inclusive las cuantitativas, los valores de las cuales son traducidos a categorías definidas por el usuario. Estas categorías, como se verá más adelante, incluyen un nombre y un rango de valores entre los cuales se debe encontrar todo valor asignado a dicha categoría. Las categorías deben ser mutuamente excluyentes y, en su conjunto, abarcar todos los valores que puede tomar la variable.

3.2 Estadísticas

3.2.1 Asociación de variables cualitativas

Los tests utilizados son el chi-cuadrado y el G, también llamado loglinear. La diferencia entre ambos se encuentra en el modo de estimar llegar al el estadístico de la prueba.

En el test chi-cuadrado es:

En el test G:

El mecanismo criterio de decisión consiste en ver que si la probabilidad de las observaciones que la hipótesis nula (los valores no están relacionados) se cumpla es muy pequeña según la hipótesis nula (normalmente menor deldel 5%). Para ello hay que calcular el estadístico y los grados de libertad, y después utilizar estos datos para buscar el valor P en una distribución chi-cuadrado.

Usuari UAB, 07/09/08,
Esto no está bien explicado. Se nombra el gen, pero también debe nombrarse el alelo o variante concreta.
Page 12: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

3.2.2. Riesgo relativo y odds ratio

Para expresar cuantificar el efecto que la exposición a un factor de estudio tiene sobre la enfermedad se utilizan los índices el riesgo relativo y el odds ratio. Para calcularlos se parte de una tabla de contingencia como éesta:

  Casos Controles TotalExpuestos a b a+bNo expuestos c d c+dTotal a+c B+d N

El odds ratio (OR) es una forma de expresar la proporción de veces que un suceso ocurra frente a que no ocurra. Por tanto, un OR de 3 significa que la probabilidad de que un efecto aparezca exposición si el individuo está expuesto a (o presenta) a un factor de riesgo es de 3 veces superior a la probabilidad de que se de el efecto cuando no se está expuesto a dicho factor de riesgo.

Por tanto, el OR es una probabilidad relativa a otra. escrita de un modo diferente. Si se prefiere utilizar el lenguaje de probabilidades clásico para decir que “la probabilidad de que aparezca la enfermedad en exposición a un factor de riesgo es del 70%” basta con hacer una sencilla transformación:

Para el OR se calcula su intervalo de confianza dado un nivel de confianza predeterminado. En ASSIST se está utilizando de manera fija el 95%:

El riesgo relativo (RR) mide la fuerza de la asociación entre la exposición y la enfermedad. Indica la probabilidad de que se desarrolle la enfermedad en los expuestos a un factor de riesgo en relación al grupo de los no expuestos. Su cálculo se estima dividiendo la incidencia de la enfermedad en los expuestos entre la incidencia de la enfermedad en los no expuestos.

Leyendo las definiciones puede parecer que OR y RR están se tiene la sensación de estar midiendo lo mismo de distinta forma. De hecho cuando la probabilidad

Page 13: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

del suceso es baja (< 20 %) el valor del OR y el RR es muy parecido, pero no es así cuando el suceso es bastante común.

Una propiedad interesante del OR es que no varía aunque se cambie el orden de las categorías en cualquiera de las variables, pero sí que varía lo que no ocurre con el riesgo relativo.

3.2.3 Tamaño del efecto

El tamaño del efecto es una medida de la fuerza de la relación entre 2 variables. En experimentos científicos es en ocasiones no sólo es útil conocer no sólo si el experimento tiene estadísticamente un efecto significativo, sino también el tamaño de cualquiera de los efectos observados.

Aunque el OR expresa un tamaño del efecto, está en una escala diferente a la d de Cohen, y por tanto no se utiliza en los análisis de la potencia.

Tanto el OR como el RR expresan un tamaño del efecto, sin embargo ninguno de ellos es apropiado para realizar análisis de potencia estadística de un test chi-cuadrado. El cálculo del tamaño del efecto es llevado a cabo por el servidor estadístico R-server a partir de la tabla de contingencia.

3.2.4 Potencia estadística

La potencia estadística de un test es 1 menos la probabilidad de que el test rechace una hipótesis nula que es cierta (β, el falsamente, es decir, es la probabilidad de no cometer un error de Tipo II (beta). Por tanto, cuanto mayor sea la potencia, menor es la probabilidad de las posibilidades de que suceda un error de Tipo II disminuyen. La probabilidad de un error Tipo II es referida como la probabilidad de obtener un falso negativo, o, simplemente beta. Se suele expresar la potencia estadística como: potencia = 1- β.beta

El análisis de la potencia de un test estadística estadístico puede hacerse antes o después de que los datos sean recolectados y recibirá el nombre de a-priori o a-posteriori respectivamente. En el caso de la recomendación del tamaño de la muestra claramente se trata de un análisis a-priori de la potencia estadística, ya que este análisis se realiza antes de llevar a cabo el estudio de asociación y su objetivo es el de determinar un tamaño apropiado de la muestra que permita obtener una determinada potencia estadística.

En un análisis de la potencia a-priori se tiene:

Usuari UAB, 07/09/08,
Que quieres decir con esto. Estas frases deberían explicarse mejor.. Explicar que es la d de Cohen y su uso en el análisis de potencia.
Page 14: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

Como entrada:- El nivel de significación (αalfa)- La potencia deseada (1- βbeta)- El tamaño del efecto que se quiere detectar.

Como salida:- El tamaño total de la muestra (N).

En un análisis de la potencia a-posteriori se tiene:

Como entrada:- El tamaño total de la muestra (N).- El nivel de significación (αalfa)- La tabla de contingencia.

Como salida:- El tamaño del efecto- La potencia del test (1-βbeta)

3.3 Tecnologías de la información

El lenguaje de programación con el que se ha implementado el módulo es Java, y esto se debe en gran medida a la facilidad de conjugar Java con otras tecnologías, Entre estas otras tecnologías se pueden destacar XML, XSD, JAXB y R (Rserve y Rclient).

En un principio se utilizó aba RDF, pero la complejidad que generaba en el código era enorme y el beneficio nulo, de manera que se sustituyó por XML para transmitir la información en el formato definido por la ontología estadística (XSD). Esta información contenida en un documento XML se transforma de manera automática, mediante JAXB, en objetos Java para así poder trabajar con ellos de una manera rápida, limpia e intuitiva.R es un lenguaje y entorno de código abierto para el cálculo estadístico y generación de gráficos. Ofrece una amplia variedad de cálculos estadísticos y técnicas gráficas. Una utilidad importante es Rserve. Rserve es un servidor TCP/IP que permite a otros programas usar la potencia de R sin la necesidad de inicializar el entorno R o enlazar una librería de R. Para que los programas puedan comunicarse con Rserve utilizan una librería (Rclient) que contiene las funciones necesarias ejecutar código R desde otros programas. Esta librería cliente se

Usuari UAB, 07/09/08,
Toda esta parte es chino para el tribunal, deberías haber dicho algo breve en la introducción
Usuari UAB, 08/09/08,
Deberías explicar brevemente para que sirve RdF, XML, …
Page 15: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

encuentra disponible para varios lenguajes de programación, entre ellos Java.

4 RESULTADOS

Así como una gran parte del proyecto ASSIST tiene que ver con la unificación de conceptos y recuperación de datos, el módulo estadístico provee al sistema con las funciones necesarias para analizar esos datos recuperados, realizar estudios de asociación y validar hipótesis de asociación (esta última función está en construcción).

La comunicación con el resto del sistema se realiza a través de XML, y consiste en todos los casos en la recepción de una petición y el envío de una respuesta. Las preguntas y respuestas posibles, así como sus correspondientes formatos, vienen definidos por una ontología estadística orientada que regula la comunicación del módulo estadístico con el exterior, sea el exterior como sea..

La mayor parte de cálculos estadísticos se obtienen mediante peticiones a R-server, una aplicación servidor del entorno estadístico R que es capaz de comunicarse mediante TCP/IP con un programa Java a través de una librería cliente.

Usuari UAB, 07/09/08,
Se debería explicar en la introducción que es una ontología y para que se usan
Page 16: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

Figura 2. Diseño funcional del módulo estadístico. Se observan los paquetes que conforman el módulo estadístico, así como los elementos externos con los que interactúan.

El uso del módulo estadístico durante una sesión de ASSIST podría seguir estos pasos:

1. Recomendación del tamaño de la muestra en base a la potencia estadística deseada para una variable.

2. Descripción de la muestra para cada una de sus variables genéticas y/o fenotípicas (cantidad y frecuencia), así como sus respectivas gráficas. También se describe las variables genéticas en función de todos los posibles valores de todas las variables fenotípicas seleccionadas para el estudio.

3. En el caso de las variables de tipo SNP comprobar que la distribución de los valores de la muestra cumplen el equilibrio de Hardy-Weinberg.

4. Realizar estudios de asociación caso-control tanto para las variables genéticas como para las fenotípicas. De nuevo, se realizan los estudios de asociación para las variables genéticas en función de todos los posibles valores de todas las variables fenotípicas seleccionadas para el estudio.

5. Realizar validación de hipótesis que hablen del grado de relación entre la

Usuari UAB, 07/09/08,
Poner también pie de figura con la numeración y texto correspondiente. Esta sería la Figura 2.
Page 17: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

variable dependiente y una o varias variables, las cuales pueden ser tanto genéticas como fenotípicas. Esto último no está implementado todavía.

4.1 Recomendación del tamaño de la muestra

Antes de realizar un estudio de asociación hay que recuperar los datos de los archivos médicos. Sin embargo, puede ser interesante recibir una recomendación del número de registros a recuperar teniendo en cuenta que el usuario desea que sus estudios de asociación gocen de una potencia estadística mínima.

En ASSIST el cálculo de la potencia se realiza utilizando el servidor estadístico R-server. En concreto, se utiliza la librería pwr, la cual que es gratis libre y puede ser descargada desde el mismo intérprete de R.La función ejecutada en R es:

pwr.chisq.test (w, N, df, sig.level, power)

Donde:w es el tamaño del efectoN es el número total de observacionesdf indica los grados de libertad sig.level es el nivel de significación power es la potencia del test

Esta función acepta 5 parámetros diferentes, pero siempre uno de ellos debe omitirse, indicándose así cual es la incógnita a calcular.

4.2 Descripción estadística de la muestra

Una vez recogidos los datos, se quiere realizar una descripción estadística de éstos, y para ello se realizan una serie de operaciones con el objetivo de obtener las cantidades y frecuencias de cada una de las categorías de cada variable, generar algunas gráficas y validar los datos referentes a SNPs.

También se quiere tener, en el caso de haber polimorfismos y fenotipos entre los factores de estudio, todas las muestras resultantes de filtrar por cada una de las categorías y, si se trata de más de un fenotipo, todas las posibles combinaciones de sus categorías. Como la cantidad de información que se puede generar en caso de seleccionar varios fenotipos junto con algún polimorfismo es enorme, la interfaz de usuario deberá resolver cómo dejar elegir al usuario cuales son las muestras quieren tenerse en cuenta y cuales no.

Page 18: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

4.2.1 Descripción de datos fenotípicos

Los valores fenotípicos pueden ser de tipo cuantitativo o cualitativo, sin embargo en los estudios de asociación que se realizan en ASSIST se requieren datos cualitativos, es decir, categorías. La elección de estas categorías puede ser crítica para realizar un buen estudio de asociación. El investigador debe jugar con los rangos de valores y muchas veces buscar un compromiso entre el número de categorías, el significado que se tiene en mente para cada categoría y los datos de los que se dispone. Por ejemplo, en un factor de estudio como cigarrillos por día podría tener sentido para un médico definir 2 categorías: fumador y no-fumador, mientras que posiblemente para otro médico tenga sentido definir 3 o más categorías: no-fumador, ocasional, poco, mucho,… Una vez definidas las categorías hay que definir los rangos para cada una de ellas: no-fumador: 0, ocasional: 1-5, poco: 6-15, mucho: 16-infinito. También hay que inspeccionar echar un vistazo a los datos, ya que es posible que en los datos disponibles hayan categorías con 0 elementos, y que por tanto puedan estropear el estudio de asociación. En ese caso, tal vez habría que plantearse si las categorías pueden ajustarse o si las categorías son correctas pero los datos son malos.

Debido a que los criterios de cada médico o investigador pueden ser diferentes, en ASSIST es el propio usuario quien decide las categorías que quiere crear.

Tanto para las variables cuantitativas como cualitativas, el módulo estadístico genera las cantidades y frecuencias para las categorías de dicha variable. En el caso de las cuantitativas el módulo estadístico debe clasificar previamente los valores en las categorías correspondientes y, tras obtener las cantidades y frecuencias de cada categoría, calcula la media aritmética y la desviación típica.

4.2.2 Descripción de datos genéticos

Tal y como se comentó en el apartado referente a los factores de estudio utilizados en ASSIST, se tienen 2 tipos de polimorfismos: Indel y SNP.

En el caso de los polimorfismos de tipo Indel el módulo estadístico tan sólo genera las cantidades y frecuencias para los 2 posibles valores (Wt,null).

Page 19: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

En el caso de los polimorfismos de tipo SNP se hacen bastantes más cosas. Como se ha comentado antes, el dato que se recibe es traducido a un genotipo. Por otro lado, se dispone del identificador del SNP en dbSNP (rsId). Con estos 2 elementos, se realiza la siguiente descripción de la muestra para cada SNP:

Se calculan las cantidades y las frecuencias para de los genotipos. Se calculan las cantidades y las frecuencias para de los alelos Se comparan los alelos y genotipos observados con los de dbSNP. Se comparan las frecuencias genotípicas y alélicas observadas con

las de dbSNP Se obtienen algunos datos más acerca del SNP de dbSNP Se comprueba si la muestra se ajusta está enal equilibrio de Hardy-

Weinberg

Figura 3. Especificación de la interfaz de usuario relativa a la descripción de datos genéticos

Para obtener los datos de dbSNP se guardan en disco los documentos XML obtenidos de dbSNP utilizando la opción FREQXML. Esta opción devuelve, entre muchos otros datos, las frecuencias genotípicas y alélicas para dicho SNP en varias poblaciones, así como las frecuencias medias ponderadas de todas las poblaciones incluidas en el documento. De este documento también se extraen algunos datos descriptivos del SNP:

- Alelos observados- Cromosoma

Usuari UAB, 07/09/08,
Poner pie de Figura
Page 20: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

- Posición- Gen en el que se encuentra (identificador y símbolo)

Los datos de cromosoma, posición y gen dependen del ensamblaje que se utilice. En ASSIST se usan los datos del ensamblaje de referencia y se descartan los datos de otros ensamblajes (Celera, HuRef, etc.). Los distintos ensamblajes normalmente coinciden en el cromosoma y el gen, pero difieren en la posición dentro del cromosoma.

Para cada muestra y cada SNP se realiza un test de Chi-cuadrado y un test G entre las frecuencias genotípicas observadas y las esperadas según la Ley del equilibrio de Hardy-Weinberg. Como en todo test de Chi-cuadrado, también se calcula la potencia estadística asociada a dicho test.

4.2.3 Representación gráfica de cantidades y frecuencias

Una vez el módulo estadístico recibe los datos, éste genera un conjunto de gráficas que pretenden mejorar la legibilidad y hacer más agradable la interfaz de usuario. En concreto, se genera un histograma para las cantidades que registran las categorías de una variable en una muestra y una gráfica de tipo tarta (piechart) para las frecuencias de una variable en una muestra.

Page 21: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

Figura 4. Representación gráfica de una variable en una muestra. a) Representación de las frecuencias mediante un piechart., b) Representación de las cantidadesfrecuencias mediante un histograma.

También se genera un histograma en el que aparecen las cantidades de cada categoría de una variable para todas las muestras, permitiendo de esta manera comparar visualmente las diferencias entre varias muestras, como por ejemplo entre casos y controles.

Figura 5. Representación gráfica de una variable en varias dos muestras (casos y controles)

4.3 Tests de asociación caso-control

En ASSIST el diseño de los estudios de asociación para una variable es de tipo caso-control. Este tipo de estudios son idénticos a los usados en epidemiología clínica y consisten en determinar la frecuencia de una variante de DNA en individuos afectados por una enfermedad (casos) y aquellos no afectados (controles). En estos estudios es necesario conocer algo de la enfermedad de tal manera que pueda utilizarse en las hipótesis como factor de riesgo una posible

Usuari UAB, 07/09/08,
Pie de figura con apartado a) la piechart y el b)
Page 22: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

variación en uno o más genes. En el caso de ASSIST, los polimorfismos mencionados anteriormente han sido seleccionados por expertos en cáncer cervical.

Este tipo de estudio es económica y estadísticamente eficiente pero potencialmente susceptible de sesgo si los casos y los controles en realidad no son comparables. También es importante usar cuidadosamente muestras extraídas de una población homogénea y disponer de bastantes casos y controles. Para saber si se dispone de bastantes sujetos se puede hacer un análisis de la potencia estadística.

En estos test de asociación para una sola variable se quiere determinar si la frecuencia observada de un fenómeno es significativamente igual a la frecuencia teórica prevista, o sí, por el contrario, estas dos frecuencias acusan una diferencia significativa para, por ejemplo, un nivel de significación del 5%. Los tests estadísticos utilizados son el test chi cuadrado de Pearson y el test G. En ambos tests el resultado es un valor P calculado a partir del respectivo estadístico y los grados de libertad del test. Este valor es la probabilidad de que la hipótesis nula sea correcta. Por tanto, si se tiene un valor P muy pequeño, típicamente inferior a 0.05 (α), la hipótesis nula es rechazada, lo cual indica una posible asociación.

4.3.1 Estudios de asociación para datos fenotípicos

Para cada factor de estudio no genético se realiza un test chi-cuadrado y un test G. Los grados de libertad dependerán del número de categorías que tenga el factor de estudio para el cual se quiere encontrar una asociación. La hipótesis nula es que las frecuencias de los casos sones similares a las de los controles. Por defecto, se usa como αalfa 0.05. También se calcula el RR y el OR. La potencia estadística a posteriori es calculada para el test de chi-cuadrado.

4.3.2 Estudios de asociación para datos genéticos

Además de realizar un estudio de asociación para el conjunto del los datos genéticos, se pueden realizarn todos los estudios de asociación posibles filtrando por todas las categorías de todos los fenotipos escogidos para el estudio de asociación.

Dependiendo del tipo de factor de estudio genético los tests realizados variarán ya que en el caso de los SNPs se tiene el genotipo y para los Indel se tiene si el gen está presente o no.

Usuari UAB, 07/09/08,
Con estos de los índeles creo que tienes una confusión que deberíamos aclarar. Los índeles no sueles ser del gen si no de uno o pocos nucleotidos. Para los indels se podría hacer el mismo análisis que para SNPs, pues también suelen haber alelos y genotipos. Ya lo comentamos mañana.
Page 23: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

Tanto los SNPs, En el caso de un el polimorfismo electroforético, de tipo Indel se analizan del mismo modo, hace exactamente lo mismo que para los datos no genéticos, es decires decir, se efectúa , un test chi-cuadrado, un test G, el cálculo de la potencia estadística del test chi-cuadrado, el cálculo del OR con su intervalo de confianza y el RR.

En los SNPs hayHay 2 informaciones genéticas distintas que deben ser analizadas: alelos y genotipos. Para los alelos, al igual que para los datos no genéticos, se realiza un test chi-cuadrado, un test G, se calcula el RR y el OR. Para los genotipos, se contemplan 3 modelos de acción génicaescenarios, basados en una relación específica entre los efectos y los diferentes alelos de un polimorfismo. Si las 2 copias no son idénticas (heterocigotoalelo distinto), su efecto combinado podría ser diferente al efecto de tener 2 copias idénticas de uno de los alelos. Si el efecto combinado es el mismo que el efecto de tener 2 copias de uno de los alelos, entonces se dice que el efecto del alelo es dominante sobre el otro.

Figura 6. Especificación de la interfaz de usuario relativa a un estudio de asociación entre un factor de estudio genético (polimorfismo MTHFR C677T) y lacáncer cervical enfermedad. Los individuos seleccionados para el estudio son solo aquellos tales que el factor de estudio Smoking Status sea positivo.

. Codominancia: En codominancia ningún fenotipo es dominante sobre el

otro. Sin embargo, los individuos heterocigotos expresan ambos fenotipos.

Dominancia: Un alelo dominante que siempre que está presente se expresa totalmente, independientemente de que el otro alelo pueda ser diferente.

Usuari UAB, 07/09/08,
Pie de figura. Número y texto
Page 24: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

Recesividad: Se da cuando un alelo sólo se expresa cuando ambos alelos son el mismo.

Las tablas anteriores han sido extraídas del documento de especificación de la interfaz de usuario, sin embargo hay algunas incorrecciones y omisiones. Las tablas contendrían estos datos:

  AllelesControl Sub-jects

Case sub-jects

Odds Ratio (95% CI) Risk Ratio X^2 P-value Power Log Linear P-value

  C 48 (41.7%) 53 (44.1%) 1.00 XX.XX          

  T 53 (46.1%) 54 (45.0%) 0.88 (0.21-3.75) XX.XX 1.75 0.70 56% 1.72 0.72

Model GenotypesControl Subjects

Case subjec-ts

Odds Ratio (95% CI) Risk Ratio X^2 P-value Power Log Linear P-value

  C/C 48 (41.7%) 53 (44.1%) 1.00 XX.XX          

Codominant C/T 53 (46.1%) 54 (45.0%) 0.88 (0.21-3.75) XX.XX 1.75 0.70 56% 1.72 0.72  T/T 14 (12.2%) 13 (10.8%) 0.88 (0.09-8.23) XX.XX          Dominant C/C 48 (41.7%) 53 (41.7%) 1.00 XX.XX 1.50 0.80 61% 1.45 0.85  C/T-T/T 67 (58.3%) 67 (55.8%) 0.87 (0.22-3.45) XX.XX          Recessive C/C-C/T 101 (87.8%) 107 (89.1%) 1.00 XX.XX 2.2 0.45 61% 2.1 0.47

  T/T 14 (12.2%) 13 (10.8%) 0.90 (0.11-7.80) XX.XX          

Figura 7. Corrección de las tablas incluidas en la figura 6. Las siguientes tablas incluyen la potencia estadística para cada tabla de asociación, a la vez que añaden un p-value para cada estadístico (chi-cuadrado y G)

4.4 Tests de hipótesis multivariable

Para probar una hipótesis sobre la enfermedad en la que interviene más de un factor de estudio se utiliza la regresión logística. La regresión logística es una útil manera de describir la relación entre uno o más factores de estudio con una enfermedad, la cual toma 2 posibles valores, enfermo o sano (caso o control).La fórmula general es:

, donde:

- Y es la variable dependiente binaria (caso=1 o ó control=0)- xi son los factores de estudio (también binarios, valen 1 o ó 0)- βBetai son los coeficientes que significan como de importante el factor de estudio es en la aparición de la enfermedad.- El logit es el logaritmo del odds para p, por tanto

log(OR) = logit(p) – logit(q) , y el OR puede ser calculado

Usuari UAB, 08/09/08,
No me queda clara que es esto de la corrección.
Usuari UAB, 07/09/08,
Pie de figura
Usuari UAB, 08/09/08,
Por qué está vacío la risk ration?
Usuari UAB, 08/09/08,
Que son las correciones y omisiones. Si no las dices no digas nada.
Page 25: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

Una vez el modelo ha sido construido (la hipótesis definida), se puede probar con nuevos conjuntos de datos para evaluar la hipótesisEn caso de que los factores de estudio tengan más de 2 categorías habrá que redefinir el concepto, creando tantos nuevos factores de estudio como categorías tenía antes. Estos nuevos factores de estudio serán binarios.

4.5 Ontología estadística

La ontología estadística define los conceptos a través de los cuales se realizan las peticiones al módulo estadístico. Se le llama ontología estadística porque es utilizada en las interacciones con el módulo estadístico pero no porque sólo contenga conceptos estadísticos, ya que contiene conceptos de genética y alguna otra definición destinada a facilitar la representación gráfica de la información.

TIPOS Los tipos definen el significado de los conceptos que se utilizan durante la comunicación con el módulo estadístico. A continuación se presentan en secciones para facilitar situar el concepto en un contexto e intentar hacer más fácil su comprensión.

DESCRIPCIÓN

El tipo range_type define una categoría. El nombre de la categoría viene dado por study_factor_value y, en caso de ser una categoría perteneciente a una variable cuantitativa, el rango de valores que clasifica.

Page 26: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

El polymorphism_type contiene, además del identificador en ASSIST, el tipo de polimorfismo del que se trata y los datos obtenidos de dbSNP

El phenotype_type define un fenotipo. Por fenotipo se clasifica en este caso toda variable no genética. Se almacena el identificador en ASSIST, el tipo de fenotipo (cuantitativo o cualitativo) y una descripción.

Page 27: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

En power_analysis_type aparecen todos los datos que intervienen en un análisis de la potencia estadística: alpha (grado de significación), df (grados de libertad), effect_size (tamaño del efecto), power (potencia estadística), total_size (tamaño de la muestra).

El tipo hw_test_type contiene las frecuencias genotípicas observadas y esperadas, y los tests chi-cuadrado y G (loglinear).

En study_factor_stats_type se almacenan la cantidad y la frecuencia para una categoría de un factor de estudio.

Page 28: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

El tipo domain_filter_type contiene la categoría de un fenotipo utilizada para filtrar una muestra.

El tipo polymorrphism_stats_by_sample contiene la descripción de un polimorfismo para una muestra.

Page 29: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

El tipo phenotype_stats_by_sample_type contiene la descripción de una variable no genética para una muestra

En el tipo sample_type contiene, además del identificador y el tamaño, las descripciones de un conjunto de variables para una muestra.

ASOCIACIÓN

En test de asociación se incluyen los parámetros de entrada (grados de libertad y el estadístico) y la probabilidad. También puede haber un análisis de la potencia estadística si el test de asociación utiliza el estadístico chi-cuadrado.

Page 30: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

El tipo simple_association_table_row_type ha sido diseñado exclusivamente para ser fácilmente representado desde una interfaz de usuario, pero no tiene un significado completo autoexplicativo. Este tipo contiene todos los datos correspondientes a una fila de una tabla que represente los resultados de un estudio de asociación.

Al igual que simple_association_table_row_type, el tipo simple_association_table_type ha sido diseñado exclusivamente para ser fácilmente representado desde una interfaz de usuario. Este tipo contiene todos los datos correspondientes a una tabla que represente los resultados de un estudio de asociación

Page 31: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

GRÁFICOS

El tipo graphic_value_type es utlizado para las representaciones gráficas, y contiene el valor real (xy_value) para una categoría (x) que podría estar siendo representada para varias muestras (y).

En piechart_type se almacenan los datos que describen un gráfico de tipo tarta (piechart)

Histogram_type contiene los datos utilizados para caracterizar un histograma, así como una referencia al gráfico generado (url).

Page 32: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

SERVICIOS Los servicios definen las preguntas que el módulo estadístico sabe responder y cómo va a ser la respuesta.

Recomendación del tamaño de la muestra:

Petición

Se espera el identificador del factor de estudio, el número de categorías de dicho factor de estudio (para calcular los grados de libertad), el efecto deseado y la potencia estadística mínima a la que se quiere llegar

Respuesta

La respuesta consiste en un análisis de la potencia estadística

Page 33: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

Descripción de los datos:

Petición

Se espera un número indeterminado de polimorfismos y/o fenotipos. El parámetro session_path se ha incluido durante la integración del módulo dentro del sistema. Posiblemente desaparezca en un futuro.

Respuesta

La respuesta consiste en 2 muestras, casos y controles, y cada una de ellas contiene para cada factor de estudio su descripción en esa muestra. Si hay algún SNP como factor de estudio puede haber otra muestra llamada NCBI, la cual contendrá sólo la descripción de los factores de estudio de tipo SNP obtenida de dbSNP.

También se devuelven los factores de estudio de entrada, algunos de ellos con información complementaria. En el caso de los SNPs se incluyen algunos datos extraídos de dbSNP (cromosoma, posición, ensamblaje, alelos observados, etc.). En el caso de los fenotipos cuantitativos se añaden la media aritmética y la desviación estándar.

Por último se incluye un histograma para cada factor de estudio, el cual muestra información relativa a todas las muestras incluidas.

Page 34: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

Estudio de asociación:

Petición

Se espera la respuesta dada anteriormente en la descripción de datos, excepto los histogramas y la información del NCBI.

Respuesta

La respuesta consiste en un conjunto de tablas de asociación, tanto para fenotipos como para polimorfismos.

Page 35: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo
Page 36: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

5. Discusión

5.1 Archivos médicos

En la actualidad los esfuerzos para llevar acabo estudios de asociación obliga a organizar los datos de una manera uniforme y siguiendo un vocabulario estándar. En ASSIST se ha conseguido mediante la implementación de una ontología núcleo (core ontology), mediante la cual se expresan los datos provenientes de varios hospitales. La transformación de los datos brutos provenientes de los hospitales en datos entendibles por el sistema tiene un coste y, según el tipo de estudios que se quieran llevar a cabo, la estimación de ese coste resulta imprescindible para el éxito o fracaso del sistema.

En ASSIST se ha optadooptó inicialmente por utilizar técnicas de inferencia semántica para traducir los datos brutos a datos expresados en términos de la ontología núcleo.

Esta solución está demostrando ser ineficiente para recuperar grandes volúmenes de datos. Actualmente el sistema de recuperación de datos puede tardar horas en recuperar los datos de unos cuantos cientos de pacientes para los cuales se quieran realizar estudios de asociación utilizando 6 factores de estudio genéticos. Sin realizar un modelo de la complejidad es difícil expresar como crece el tiempo de búsqueda de los datos en función del volumen de datos deseados y el número de factores de estudio, sin embargo, es fácil notar empíricamente que el crecimiento no es de orden lineal, sino mucho mayor, lo cual invalida en gran medida la aproximación adoptada. Tal vez sea por una desacertada implementación de las reglas semánticas de inferencia o, como es muy posible, la estimación de la complejidad y coste de esta solución ha sido incorrecta, y por tanto la solución inviable.

A favor de la utilización de reglas de inferencia semánticas hay que decir que:

1. Permite recuperar en todo momento los datos disponibles para hacer un estudio de asociación, porque no se realiza una traducción masiva cada cierto tiempo, sino que se traducen bajo demanda todos aquellos datos almacenados en las bases de datos de los hospitales.

2. Tecnológicamente innovadora, pues son pioneros en la utilización de estas técnicas aplicadas a las ciencias de la vida.

Otro punto interesante es el intercambio de información con otros orígenes de datos, como podrían ser hospitales u otros proyectos similares. ASSIST actualmente no contempla intercambiar datos y, teniendo en cuenta el gran crecimiento que experimentan tanto las bases de datos públicas de polimorfismos como los proyectos de asociación a gran escala, de esta manera se limita en gran medida la capacidad de realizar estudios de asociación con suficiente potencia

Page 37: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

estadística para ser interesantes. Este problema queda reforzado por el hecho de disponer de pocos datos genéticos relativos al cáncer ceérvical en los hospitales. Esto en gran parte es debido a

Esta incomunicación podría resolverse utilizando realizando una traducción a un formato estándar, como podría ser PML (Polymorphism Markup Language). Esta traducción no debería ser excesivamente complicada, pues es un estándar creado por un comité de expertos y los datos que se manejan son del mismo tipo. S, sin embargo este planteamiento solo hubiera sido válido al inicio del proyecto, cuando se ha de realizar la planificación de tareas.

5.2 Genética, estadística y sistemas de información

El creciente interés por los estudios de asociación a gran escala hace que disciplinas totalmente alejadas, como la genética, la estadística y la informática tengan que utilizarse conjuntamente. En el momento en que no se presta suficiente atención a una de ellas la probabilidad de fracaso del proyecto se crece significativamente.

El papel de la genética es crucial, pues la información que se maneja, así como las conclusiones a las que se llega están en su dominio. Los genetistas son quienes, por ejemplo, pueden identificar qué datos hay que analizar y están mejor preparados para interpretar los resultados en términos genéticos. Sin embargo, a la hora de realizar estudios de asociación un genetista necesita realizar tests estadísticos, y es aquí donde el perfil del estadístico entra, al saber cómo diseñar un estudio de asociación entre variables cualitativas, refinar los análisis o proponer nuevas técnicas. Y finalmente ni los estadísticos ni los genetistas podrían abordar ningún estudio de asociación sin un sistema de información que lo respalde, tanto en el almacenamiento de la información como en la realización de cálculos y tratamiento de grandes volúmenes de información. Es por ello que el control, o al menos el seguimiento, de un proyecto como ASSIST debe estar en manos de un grupo de personas pertenecientes a estas disciplinas. En el caso de ASSIST, un proyecto europeo perteneciente a la categoría de las tecnologías de la información enfocado a solucionar un problema de ciencias de la vida, se ha puesto más interés y recursos en investigar y solucionar temas de ingeniería informática que en los estudios de asociación propiamente.

6 Consideraciones Conclusiones

1. Se ha implementado un módulo estadístico que permite realizar:

Usuari UAB, 08/09/08,
De todo esto no queda claro cual es la solución final adoptada, el PML??????
Usuari UAB, 08/09/08,
Usuari UAB, 08/09/08,
Poner referencia????
Page 38: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

a) Estimación de la cantidad de datos necesaria en un estudio de asociación.b) Descripción estadística de datos genéticos y estadísticos.c) Estudios de asociación caso-control entre factores genéticos y fenotípicos.d) Validación de hipótesis respecto a la enfermedad que involucren a más de una variable

(en construcción)

2. La inferencia de datos a través de los mecanismos proporcionados por la ontología del núcleo proporciona una gran cantidad de datos expresados en un vocabulario común (ontología), sin embargo esa inferencia tiene un alto precio en cuanto a recursos utilizados y tiempo de recuperación de los datos.

3. El sistema ha sido probado por los usuarios con éxito, teniendo en cuenta que aún no está finalizado y falta trabajo por hacer, especialmente en la interfaz de usuario y en la recuperación de datos.

4. Se baraja la posibilidad de incluir a nuevos hospitales en el proyecto, intentando de esta manera incrementar el volumen de datos.

5. Los hospitales disponen de muy pocos datos genéticos de sus pacientes. En parte se debe a que los polimorfismos de interés varían según la enfermedad sobre la que se quiera investigar, de manera que un hospital difícilmente guardará información acerca de los polimorfismos de interés para, en este caso, el cáncer cervical.

6. Este tipo de proyectos requieren de varias disciplinas muy alejadas hasta ahora, como son la genética, la estadística y las tecnologías de la información. Todos los flancos son importantes, por lo que el control, o al menos el seguimiento, de un proyecto como este debería estar en manos de un grupo de personas pertenecientes a estas disciplinas.

7. Al ser un proyecto europeo perteneciente a la categoría de las tecnologías de la información se ha puesto más interés en investigar y solucionar temas de ingeniería informática que en los estudios de asociación propiamente.

Usuari UAB, 07/09/08,
Falta una discusión algo más seria que estas consideraciones generales. También deberías decir que ha habido una reuníon de usuarios para probar el sistema y que ha funcionado con éxito También habría que añadir las conclusiones de los resultados que han obtenido. Por ejemplo, (que sirve de guía, pero redáctalo tú pues no está redactado) Se ha implementado un módulo estadísticos para de asocia…. Análisis de datos genéticos y fenot´piocs caos control … Se ha definido una ontología Se ha probado por usuarios pruena y funciona….
Usuari UAB, 08/09/08,
Estas última 4 conclusiones las quitaría y la pasaría a la discusión. Quédates con las tres primeras conclusiones. De la conclusión 3 no dices nada en el texto. En algún sitio deberías decir algo que se ha probado.
Usuari UAB, 07/09/08,
Page 39: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

Bibliografía

Rosner B., “Fundamentals of Biostatistics”. Duxbury Press; 6th edition (Febrero de 2005)

The Wellcome Trust Case Control Consortium, “Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls”. Nature Pub-lishing Group (2007)

Venables W. N., Smith D. M. and the R Development Core Team “An Introduction to R” (Julio de 2008, en línea) http://cran.r-project.org/doc/manuals/R-intro.pdf

Sokal R. R., Rohlf F. J., “Introduction to Biostatistics”. W.H. Freeman & Company; 2nd edition (Marzo de 1987)

Gordon D., Finch S. J., “Factors affecting statistical power in the detection of ge-netic association”. The Journal of Clinical Investigation, Volume 115, Number 6 (Ju-nio de 2005)

Lloyd D. Fisher, Gerald Van Belle, “Biostatistics, a Methodology for the Health Sci-ences”. Wiley-Interscience publication (1993)

Documentos de ASSIST

ASSIST D.4.2Deliverable 6.3

Usuari UAB, 07/09/08,
La bibliografía me parece pobre
Page 40: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

User interface specification, version 3.0R in ASSIST

APÉNDICE A: DELIVERABLE 6.3

Page 41: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo

APÉNDICE B: R IN ASSIST

Page 42: Desarrollo (creaciónbioinformatica.uab.es/base/documents/base/máster Emilio... · Web viewY, por último y no por ello menos importante, quiero agradecer a Sònia Casillas su apoyo