Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO....

22
Bizkai Lab Área prioritaria / Lehenetsitako arloa: AP2/2. LA Responsable / Arduraduna: Pablo García Bringas Equipo / Lan taldea: Pablo García Bringas, Aitziber Emaldi Código Proyecto / Proiektu Kodea: 5715 Acción - proyecto / Ekintza - proiektua: GENO-PROTEO. Apoyo al diagnóstico médico mediante el estudio asistido de variables genómicas y proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea: emprendimiento e innovación / Bizkaia Ekintzailea: ekintzailetza eta berrikuntza Iniciativa / Ekimena: Investigación para la transferencia / Transferentziarako ikerketa

Transcript of Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO....

Page 1: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

BizkaiLab

Área prioritaria / Lehenetsitako arloa: AP2/2. LA

Responsable / Arduraduna: Pablo García Bringas

Equipo / Lan taldea: Pablo García Bringas, Aitziber Emaldi

Código Proyecto / Proiektu Kodea: 5715

Acción - proyecto / Ekintza - proiektua: GENO-PROTEO. Apoyo al diagnóstico médico mediante el estudio asistido de variables genómicas y proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez

Bizkaia Ekintzailea: emprendimiento e innovación / Bizkaia Ekintzailea: ekintzailetza eta berrikuntza Iniciativa / Ekimena: Investigación para la transferencia / Transferentziarako ikerketa

Page 2: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

Proyecto Konsult@ (GenoProteo)

Detección de cáncer de vejiga y cáncer de pulmón

mediante el uso de marcadores proteínicos y

aprendizaje automático, e identificación de

marcadores mutagénicos para la detección de

hipercolesterolemia.

Enero 2012

2012 DeustoTech Fundación Deusto

Este documento es propiedad compartida de Fundación Deusto y los autores firmantes, y su contenido es confidencial. Este documento no puede ser reproducido, ni total, ni parcialmente, ni mostrado a otros, ni utilizado para propósitos distintos de los que han originado su entrega, sin permiso previo. En el caso de ser entregado en virtud de un contrato, su utilización estará limitada a lo expresamente autorizado en dicho contrato. Los autores no podrán considerarse responsables de eventuales errores u omisiones en la edición del documento.

Page 3: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

Versión 1.0

Fecha Enero 2012

Tipo Oficial

Naturaleza Memoria Final

Autoría Cátedra de Derecho y Genoma Humano, DeustoTech Computing

Detección de cáncer de

vejiga y cáncer de pulmón

mediante el uso de

marcadores proteínicos y

aprendizaje automático, e

identificación de marcadores

mutagénicos para la

detección de

hipercolesterolemia.

Page 4: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

Epígrafe sobre confidencialidad

Este documento presenta un resumen ejecutivo del trabajo realizado conjuntamente

con Progenika. El trabajo se encuentra dividido en 3 partes: (i) Detección de cáncer de

vejiga mediante el uso de marcadores proteínicos y aprendizaje automático, (ii)

detección de cáncer de pulmón mediante el uso de marcadores proteínicos y

aprendizaje automático, y (iii) identificación de marcadores mutagénicos para la

detección de hipercolesterolemia. Los documentos que contienen los detalles de esta

investigación son estrictamente confidenciales y están sujetos a las normas de

propiedad industrial, por lo que están custodiados por Deustotech y no pueden ser

presentados como anexos en este documento público. Sin embargo, si fuera necesario,

están disponibles para su presentación y consulta, siempre bajo autorización y en

condiciones que aseguren la privacidad y confidencialidad requeridas.

1. Grado de avance del proyecto y actividades

desarrolladas

El proyecto Konsult@ tenía varias acciones previstas para el año 2011.

Desde el punto de vista ético y jurídico, se ha revisado la documentación remitida por

algunos miembros del proyecto en relación con las cuestiones éticas y jurídicas que

aparecen reflejadas en el proyecto de investigación, es decir, cuestiones relativas a la

obtención y el uso de muestras biológicas y datos genéticos utilizados en el proyecto.

Por otro lado, se está estudiando de manera pormenorizada, por la posible afectación al

proyecto, la reciente normativa sobre el uso de muestras para investigación Real

Page 5: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

Decreto 1716/2011, de 18 de noviembre, por el que se establecen los requisitos básicos

de autorización y funcionamiento de los biobancos con fines de investigación

biomédica y del tratamiento de las muestras biológicas de origen humano, y se regula

el funcionamiento y organización del Registro Nacional de Biobancos para

investigación biomédica. Por otro lado, se han mantenido varias reuniones con el

grupo de trabajo puesto que son varias las dudas ético-jurídicas que se plantean

durante determinadas fases del proceso. Se ha publicado un artículo con la referencia a

Bizkailab en una revista jurídica de impacto. El artículo es: Carlos María ROMEO

CASABONA, Diversidad cultural y pluralismo en la Declaración Universal sobre

Bioética y Derechos Humanos, Revista de Derecho y Genoma Humano, Núm. 35, 2011,

pp.13-38.

Por otro lado, las más relevantes desde el punto de vista técnico son la configuración de

un entorno para la secuenciación masiva, en particular, para el desarrollo de nuevos

métodos para detectar mutaciones relativas a la aparición de hipercolesterolemia y la

generación de modelos de aprendizaje automático utilizando marcadores proteínicos

para la prevención de cáncer de vejiga y pulmón.

En el primero de los apartados, el equipo de investigación ha trabajado de manera

conjunta con los expertos de Progenika para desplegar y configurar el entorno de

experimentación, formado por un servidor de altas capacidades de computación y

paralelización de procesos. Previa compra de este equipo, se han realizado sendos

experimentos de benchmarking para el lanzamiento de los procesos de secuenciación y

análisis de mutaciones, utilizando el software de referencia en estos ámbitos. En este

contexto, se ha comenzado ya, con cierto éxito, a automatizar el proceso de análisis de

variaciones del número de copias (Copy Number Value, CNV). No obstante, las

Page 6: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

particularidades el análisis para el ámbito de la hipercolesterolemia, han hecho que el

equipo de investigación vaya a proponer nuevos métodos para el análisis de CNVs

basados en modelos estadísticos y predictivos.

Por otro lado, en lo referente al proceso de prevención de cáncer, se han obtenido los

siguientes resultados:

Cáncer de vejiga. A la vista de los resultados obtenidos a la hora de utilizar el

historial, el equipo concluyó que los datos de sexo y edad no aportan un valor

significativo a la hora de entrenar el modelo, por lo que podemos descartarlos a

la hora de crear el prototipo. Sin embargo, aún podríamos utilizar datos

históricos adicionales para ver cómo reaccionan los resultados ante otro tipo de

datos históricos.

Por otro lado, en el conjunto de datos existe un problema de balanceo de datos,

ya que el número de casos positivos, esto es, aquellos en los que se da la

enfermedad, son mucho mayores que los casos en los que no se da. Esto afecta

negativamente a la hora de obtener resultados de los modelos, ya que la

tendencia de los mismos es la de clasificar las muestras como positivas. Por ello,

se ha planteado un enfoque para la generación de datos de forma artificial,

mediante una técnica de SMOTE, para equiparar de esta forma los casos

positivos de los negativos. Este enfoque ha dado unos resultados más

balanceados en detección de casos negativos y falsos positivos.

Cáncer de pulmón. El estudio realizado arroja ciertas conclusiones

interesantes para la predicción de presencia tumoral en el pulmón a partir de

marcadores proteicos. En primer lugar, los marcadores 11 y 12, deberían estar

Page 7: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

en la combinación final elegida. Los resultados que hemos obtenido indican que

la presencia de estos marcadores garantizan los mejores resultados. No

obstante, en el conjunto de datos que teníamos los marcadores 11 y 12 tenían un

gran número de valores perdidos, limitando en cierta medida el alcance de los

resultados al tener que omitirlos tanto para el entrenamiento como para la

prueba ya que estos valores no se iban a dar en un entorno real jamás.

Por otro lado, las regresiones logísticas son los clasificadores que, en global,

mejores resultados han arrojado. En este caso, dichos resultados parece que

responden a que la división de los datos es lineal y que no son necesarias

clasificadores complejos para realizar la discriminación.

2. Previsión de finalización del proyecto

Se prevé que el proyecto finalice en diciembre de 2013.

3. Indicadores esperados del proyecto

A la finalización del proyecto KONSULT@ se prevé que se van a obtener los siguientes

indicadores:

1. Académicos: se agrupan todos los indicadores de todos aquellos aspectos

relativos a la búsqueda de la excelencia académica, como son la publicación en

conferencias de referencias y la publicación en revistas de alto impacto.

Page 8: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

2. Jurídicos y éticos: la componente ética y jurídica del se ve reflejada también en

los resultados del proyecto. En este apartado se incluye:

Elaboración de un informe sobre las implicaciones jurídico-éticas que surgen a

lo largo del proyecto: Protección de datos de carácter personal, Derecho a la

información, Derecho de autodeterminación informativa…

Presentación del proyecto y del informe sobre las implicaciones jurídicas en

diferentes seminarios y jornadas a nivel nacional e internacional.

Asesoramiento jurídico sobre cuestiones puntuales que pudieran tener los

miembros del equipo investigador durante su investigación.

Asesoramiento ético durante el desarrollo del proyecto

3. Empresariales: en la segunda fase del proyecto, la creación de una empresa con

vertiente tecnológica es el más vivo resultado de este proyecto.

1. Con todos estos indicadores se dispone de una visión global del crecimiento que

el proyecto experimenta a lo largo de los años.

4. Resumen ejecutivo del avance y resultados del proyecto

Este proyecto se divide en 3 partes diferenciadas:

1. Detección de cáncer de vejiga mediante el uso de marcadores proteínicos y

aprendizaje automático.

2. Detección de cáncer de pulmón mediante el uso de marcadores proteínicos y

aprendizaje automático.

Page 9: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

3. Identificación de marcadores mutagénicos para la detección de

hipercolesterolemia.

Las dos primeras partes, relativas a detección de cáncer mediante marcadores

proteínicos y aprendizaje automático, dadas las similitudes del trabajo realizado, se

abordan de forma conjunta en la primera parte de este documento, mientras que la

tercera, relativa a la identificación de marcadores mutagénicos se aborda por separado.

Detección de cáncer mediante el uso de marcadores proteínicos y

aprendizaje automático

A continuación se relata el proceso que se ha llevado a cabo para la generación de

modelos para la clasificación de pacientes que padecen cáncer de vejiga y cáncer de

pulmón en base a marcadores proteínicos.

Se ha realizado un estudio en profundidad para evaluar los resultados que pueden

obtenerse con distintos algoritmos de aprendizaje automático. Posteriormente, se

detallaran los conjuntos de datos utilizados para este proyecto. Finalmente, se

analizarán los resultados obtenidos en el mismo.

Para la construcción de los modelos, se han utilizado los datos provistos por

Proteomika. Subsiguientemente, se realizó el estudio para elegir el algoritmo de

clasificación más adecuado para cada uno de los casos. Con este fin, se probaron una

gran variedad de algoritmos de clasificación de distinta naturaleza, para ver cómo se

comportaban con la colección de datos.

Tras ello, se hizo un análisis de la información de cara a determinar si un pre-

tratamiento de los datos mejoraría los resultados. De esta forma se consigue

Page 10: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

determinar el punto de equilibrio que permita minimizar el número de marcadores a

utilizar y no tenga un impacto significativo en las tasa de acierto.

Además, a partir de la experimentación realizada, se desarrolló un prototipo que

permite obtener las probabilidades de reaparición de la enfermedad.

En conclusión, este documento resume la naturaleza de los datos, el tratamiento

realizado y los resultados obtenidos al aplicarles distintos algoritmos para obtener un

sistema que sea capaz de predecir con la mayor precisión posible pacientes a los que se

les reproduce la enfermedad, buscando minimizar los casos de falsos positivos.

Conjuntos de datos

En el caso de detección cáncer de vejiga, el conjunto de datos está formado por un total

de 791 pacientes que padecieron cáncer de vejiga. Los datos se dividen en datos

históricos (datos demográficos y personales del paciente, así como datos del historial

médico del paciente), marcadores, y clasificaciones. En el caso de los datos históricos,

por motivos de preservación de la intimidad del paciente y por motivos de

descentralización de datos en la seguridad social, solamente se consideraron la edad y

el sexo. En cuanto a los marcadores, se distinguió entre "marcadores azules" y

"marcadores naranjas". En lo respectivo a las distintas clasificaciones en las que dividir

el conjunto de datos, se optó por realizar experimentos con 5 clasificaciones diferentes:

distinguiendo entre aparición y ausencia de cáncer (primer caso), y la discriminación

de diferentes tipos de cáncer (el resto de casos).

Además, posteriormente, tras unos experimentos previos se realizó una selección de

atributos previa con el fin de minimizar el gasto en el proceso, y determinar el número

Page 11: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

óptimo de atributos para realizar la clasificación con una precisión suficiente. De este

modo se redujo el conjunto de atributos a 5, 4, 3, y 2 atributos en sucesivos

experimentos.

En el caso de cáncer de vejiga, el conjunto de datos está formado por 731 pacientes que

padecieron cáncer de pulmón. Para ello se emplearon 2 grupos de marcadores, el

primero formado por 9 marcadores y el segundo por 6, para clasificar los pacientes en 2

conjuntos, aparición o ausencia de cáncer.

Del mismo modo que en el caso anterior, se realizó una selección de atributos para

determinar el número mínimo de marcadores necesario para obtener una precisión

suficiente en la detección. Se realizaron 14 combinaciones diferentes de 2, 3, 4 y 5

marcadores diferentes, en este caso dividiendo el conjunto de datos en 3 grupos, dado

que no se disponían datos de todos los pacientes para los marcadores 11 y 12. El

primero grupo correspondía a los pacientes con datos sobre ambos marcadores, el

segundo a aquellos que solo disponían de datos sobre el marcador 12, y el tercero sobre

aquellos pacientes sin datos para ninguno de los 2.

Algoritmos de aprendizaje automático

Se utilizaron diferentes algortimos de aprendizaje automático, una rama de la

inteligencia artificia,l con el objetivo de entrenar modelos capaces de clasificar los datos

de pacientes nuevos a partir de datos históricos de otros pacientes. Para ello, ya que se

dispone de datos etiquetados, se emplearon algoritmos supervisados, que permiten, a

partir de un conjunto de entrenamiento etiquetado, generar modelos capaces de

predecir la clasificación de instancias nuevas no presentes en el conjunto utilizado para

el "entrenamiento".

Page 12: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

Algunos de los algoritmos empleados son redes bayesianas, árboles de decisión, K-

nearest neighbours (solo para cáncer de vejiga), Support Vector Machines, y en el caso

de cáncer de pulmón, además: Radial basis function network, Logistic Regression, y

Simple Logistic.

Además en el caso de cáncer de vejiga se empleó la técnica SMOTE para generar

muestras sintéticas a partir del conjunto de datos y así balancear el conjunto de datos

para obtener mejores resultados en algoritmos supervisados.

En el caso de cáncer de pulmón, sin embargo, se utilizaron técnicas de resampling, que

permiten generar un nuevo conjunto de datos de forma sintética siguiendo la

distribución estadística de los datos originales.

Resultados

Para evaluar los diferentes clasificadores hemos utilizado un servidor multinúcleo que

optimiza el entrenamiento de los modelos de aprendizaje automático. Los resultados

han sido medidos en términos de Accuracy, TPR (True Positive Ratio), FPR (False

Positive Ratio), y AUC (Area Under the Roc Curve).

Para cáncer de vejiga se utilizaron dos conjuntos de datos diferentes, omitiendo y

utilizando los datos históricos en cada caso. Además, en un primer experimento se

empleó un conjunto de datos no balanceado, obteniendo una tendencia a clasificar las

muestras como positivas, mientras que en un segundo caso se empleó SMOTE para

balancear los datos de cada clasificación. Aún así, aún creemos que la tasa de falsos

positivos es alta (en torno al 10%), y creemos que se puede mejorar utilizando

aprendizaje sensitivo al coste, que permite atribuir un coste mayor a los falsos positivos

Page 13: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

y así balancear los falsos positivos y falsos negativos.

Por otro lado, los experimentos con datos históricos concluyen que éstos no aportan un

valor significativo a los clasificadores, siendo descartados para la creación del

prototipo.

En general, para la primera clasificación, los resultados obtenidos1 oscilan entre 0,5 y

0,8 de AUC, resultando algunos clasificadores más efectivos que otros. No se presenta,

en cambio, una diferencia muy clara entre los diferentes conjuntos de atributos

empleados para el entrenamiento, habiendo una variación mínima (por debajo de 0.05

de AUC) entre los mismos, para cada una de las 5 clasificaciones diferentes (aparición o

ausencia de cáncer y distinción entre diferentes tipos de cáncer). En el caso de

distinción entre tumores T0, Ta, T1G1, T1G2 y T1G3, T2 , y la distinción entre tumores

T0, Ta, T1 y T2, llama la atención la escasa diferencia de resultados que se han obtenido

al usar los distintos clasificadores. Como podemos observar, los 4 modelos dan un

rendimiento superior al 95% en la mayoría de los atributos. También llama la atención

los altos ratios de acierto que tienen los modelos en esta clasificación, obteniendo un

98% en 4 de los 6 clasificadores analizados.

En el caso de cáncer de pulmón se han realizado dos experimentos diferentes, en

primer lugar se ha utilizado el 80% de los datos de cada uno de los grupos de datos

diferentes. La validación cruzada realiza 10 divisiones diferentes de los datos utilizando

el 90% para entrenar y el 10% restante para validar. En segundo lugar, se ha entrenado

con todo el 80% de los datos, y se ha testado con el 20% restante.

1 Por motivos de confidencialidad no se pueden detallar los resultados obtenidos en cada uno de los

experimentos.

Page 14: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

Además de los clasificadores de aprendizaje automático utilizados, en el caso de cáncer

de pulmón, Proteomika ha utilizado la regresión logística de SPSS sobre las mismas

combinaciones.

En términos generales, la regresiones logísticas son los métodos que mejor se adaptan

al conjunto de datos, tanto si la validación se hace cruzada como si se hace con un

conjunto de datos independiente. Por otro lado, la mejor combinación parece ser la

formada por los marcadores 11, 12, 5 y 6, puesto que es en la que mejores resultados se

obtienen utilizando validación cruzada. Así, las combinaciones formadas por los

marcadores 11 y 12, obtienen todas ellas buenos resultados para la mayoría de

clasificadores. En cuanto a las combinaciones en las que se omite el marcador 11, los

resultados son peores que cuando se utilizan 11 y 12. Lo mismo ocurre al no utilizar ni

11 ni 12.

Cuando la técnica de resampling es aplicada, los resultados mejoran en algunos casos

entorno a un 0,01 de AUC, llegando hasta un 0,07 en el mejor de los casos.

Como conclusión, dados los resultados obtenidos, deberían incluirse los marcadores 11

y 12, ya que los resultados obtenidos garantizan los mejores resultados.

Por otro lado, las regresiones logísticas son los clasificadores que, en global, mejores

resultados han arrojado. En este caso, dichos resultados parece que responden a que la

división de los datos es lineal y que no son necesarias clasificadores complejos para

realizar la discriminización.

Conclusiones

En resumen, a lo largo del proyecto, se ha abordado la clasificación de casos médicos en

Page 15: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

base a marcadores proteicos para la predicción de casos. En una primera fase se

consideró una primera clasificación en la que el historial del usuario estaban presentes

en el conjunto de datos utilizado. Posteriormente, se llegó a la conclusión de que estos

datos no afectaban la clasificación. Por otro lado, se observó durante los experimentos

que los datos estaban muy desbalanceados, y se utilizaron técnicas como SMOTE y

resampling, para generar casos artificiales y así mejorar de forma significativa los

resultados de los modelos.

Posteriormente, en la última parte del proyecto se ha analizado el impacto que el

número de atributos tiene en la clasificación. Si bien la precisión de la clasificación se

reduce ligeramente cuando un menor número de atributos es utilizado, el coste de

utilizar más atributos es significativamente superior, por lo que se deberá buscar una

zona de confort para el número de atributos y el ratio de detección.

LipoUniversal

El proyecto LipoUniversal, relativo a la identificación de marcadores mutagénicos para

la detección de hipercolesterolemia, se encuentra en pleno proceso de desarrollo. El

desarrollo actual consta de dos partes que están siendo unificadas. De esta forma, la

primera de ellas es la que se conoce como AVA. Esta primera parte es la encargada de la

generación de los ficheros AVA básicos para la segunda de las partes del sistema. Para

llevar a cabo este proceso se desarrolló un software en Python con el objetivo de

interaccionar con el software encargado de realizar los análisis. El resultado final son

una serie de ficheros AVA a los que le han sido aplicados diferentes cortes o filtros.

La segunda de las partes, y más compleja, es la que se encarga de realizar todos los

análisis de los ficheros generados en la ya mencionada primera parte del sistema. El

Page 16: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

proceso que se desarrolla es el siguiente:

1. Carga de los valores básicos (correspondencias de traducción, ficheros de

grupos, etc.).

2. Lectura de los valores extraídos en la fase 1.

3. Generación de las estructuras de memoria necesarias para representar la

información del fichero leído. Además, se generan nuevos valores, campos

calculados, que permiten obtener la información completa del fichero inicial.

4. Cálculo de las coberturas y generación de la gráfica de coberturas.

5. Cálculo de CNVs basados en la comparación y el cálculo logarítmico.

6. Volcados a fichero en diversas formas de la información contenida en las

estructuras de memoria.

Una de las tareas más importantes del proceso, y que se engloba en el punto 3, con la

generación de valores calculados, es la de la traducción de exones. En otras palabras,

dadas las filas extraídas del fichero inicial, se encargará de realizar las traducciones de

las mutaciones, intentando generar una nomenclatura más acorde a la utilizada en los

centros de trabajo.

El desarrollo al completo ha sido realizado utilizando el lenguaje de programación

Python con el fin de mantener la idea de multiplataforma inicial con la que se comenzó

el proyecto. Del mismo modo, los desarrollos iniciales han sido planteados como el

núcleo, o framework, sobre el que es posible la creación de futuros desarrollos.

Por último, y a modo de facilitar la utilización del núcleo de procesamiento realizado, se

ha desarrollado una interface gráfica de usuario que permite facilitar los pasos de la

configuración de los ficheros de la experimentación. Esta interface de usuario ha sido

Page 17: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

desarrollada con la librería QT y Python, con lo que se mantiene la filosofía ya definida

a lo largo de todo el proceso de desarrollo del sistema.

A parte de los desarrollos básicos de la aplicación, se ha tenido que para el avance para

la corrección de pequeños fallos detectados en el funcionamiento del núcleo del

sistema. Del mismo modo, a lo largo del proceso de desarrollo se han realizado

diferentes cambios sobre el proceso definido en un primer lugar, por lo que, al igual que

en la corrección de fallos, se ha paralizado el proceso de desarrollo con el fin de

mantener siempre una versión totalmente completa y funcional de la solución software

desarrollada.

Trabajo futuro

a) Dimensión técnica

En concreto, quedan las siguientes mutaciones por convertir:

Deleción de una base

En el caso de que falte una base, el conversor se fija en las bases cercanas a la

eliminada. En el caso de una repetición de nucleótido (varias repeticiones del

mismo nucleótido), el programa AVA detecta automáticamente la primera base

como borrada cuando, según la guía HGVS debería ser la última.

Deleción de dos y tres bases

Para la deleción de una base, el programa mira las bases cercanas a las

eliminadas. En caso de que haya repetición de el di o tri nucleótido borrado,

cambia de la primera a la última repetición.

Page 18: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

Pos 1---5----10---15---20---25---30

Ref GTCGATGGACGACGACGCTCGAATAGCGAT

Mut GTCGATGGACGAC---GCTCGAATAGCGAT

AVA GTCGATGGAC---GACGCTCGAATAGCGAT

Inserción de dos o más bases

Para la inserción de 2 o más bases, el software tiene que mirar las bases

cercanas para comprobar que no se trate de una duplicación.

Pos 1---5----10---15---20---25---30

Ref GTCGATGGACCAC---GCTCGAATAGCGAT

Mut GTCGATGGACCACCACGCTCGAATAGCGAT

AVA GTCGATGGACGACCACGCTCGAATAGCGAT

Deleción de más de tres bases

Detección de varias mutaciones presentes en el mismo alelo

Además, se realizarán las siguientes tareas:

Diseño y validación técnica del prototipo HF GS Junior de Roche

Esta tarea consistirá en 3 actividades principales, en parte análogas a las

llevadas a cabo en la Tarea 1.1.

1) En primer lugar se llevará a cabo el diseño de los cebadores que

permitan la amplificación de los fragmentos a resecuenciar, así como los

cebadores correspondientes a los fragmentos que se utilizarán para la

detección los CNV del gen LDLR.

Page 19: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

2) La tecnología GS Junior de Roche permite la resecuenciación de un gran

número de muestras a la vez gracias a la utilización de etiquetas que

identifican específicamente cada muestra. El procesamiento simultaneo

de varias muestras (pacientes) puede realizarse empleando dos diseños

de cebadores diferentes: 1) un diseño en el que todos los cebadores para

todas las muestras son utilizados en una única PCR, y 2) un diseño

donde la amplificación se hace en dos pasos, un primer paso para

amplificar los fragmentos de interés de cada una de las muestras y un

segundo paso donde se realiza la identificación de cada muestra. En el

transcurso de esta tarea ambos diseños serán abordados y comparados

para elegir el diseño más adecuado desde el punto de vista técnico y de

viabilidad económica del producto final.

3) Seguidamente se diseñará el método de análisis para la detección de las

mutaciones puntuales (sustituciones), indel y CNV. Para esta fase,

también es necesaria la utilización de técnicas de reconocimiento de

patrones textuales.

4) Finalmente se realizará la validación técnica del prototipo diseñado

mediante la hibridación de un mínimo de 2 mutaciones, 1 sustitución y 1

indel (cuando estén disponibles), por fragmento a resecuenciar.

También se hibridaran muestras con deleciones e inserciones de cada

uno de los exones del gen LDLR (cuando estén disponibles).

Comparación de los prototipo HF GeneChip y GS Junior

En esta tarea se evaluarán de forma comparativa los datos de exactitud,

especificidad y sensibilidad obtenidos durante las validaciones técnicas de cada

uno de los prototipos desarrollados en las tareas 1.1 y 1.2, respectivamente.

Page 20: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

También se analizará la viabilidad económica y comercial de ambos prototipos,

en términos de costes, rapidez y facilidad de obtención de resultados en servicio.

Como resultado de estas comparaciones se determinará cuál es la tecnología

más adecuada, desde todos los puntos de vista, para el desarrollo del producto

final que será introducido en el mercado.

Desarrollo del producto

Una vez elegido el prototipo más adecuado en la tarea se desarrollara el

producto.

Durante esta anualidad para las tareas de cálculo de CNVs y para obtener las

mutaciones en los genes se ha utilizado el software Junior Roche utilizando un servidor

multinúcleo que optimiza el secuenciamiento de las cadenas de ADN para la obtención

de mutaciones. Durante la próxima anualidad se le dará un uso más exhaustivo, si cabe,

a este equipo.

a) Dimensión jurídica/ética

Las propuestas técnicas y biológicas del proyecto están sujetas a componentes jurídicos

y éticos relevantes y complejos, en muchos casos podrían suponer la suspensión del

proyecto. En efecto, desde el punto de vista metodológico, jurídico y ético que es el que

valoran los comités de ética en los proyectos de investigación las cuestiones que en este

proyecto se plantean son muy delicadas. Actualmente la obtención de información a

partir de los datos generados implica múltiples pasos en los que han de utilizarse

diversas aplicaciones informáticas para cuyo manejo es necesario un conocimiento

especializado. El volumen de datos generado es de tal magnitud que previamente a su

análisis primario el usuario ha de someter los datos a un proceso de transformación y

Page 21: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

condensación. Posteriormente, el equipo jurídico, es decir la cátedra de derecho y

genoma humano vela porque se lleve adecuadamente el proyecto bajo los parámetros

de la legalidad, una responsabilidad que requiere el trabajo coordinado de los

diferentes grupos que forman este proyecto.

Asimismo, otro de nuestros objetivos es ayudar en todas las dudas ético-legales que se

planteen a lo largo del proyecto así como hacer la mayor difusión tanto del proyecto, en

la medida de los posible, como de la ayuda que Bizkailab nos está ofreciendo para poder

desarrollarlo, para ello las conferencias y publicaciones que realice la cátedra durante

este período llevarán la alusión a la concesión de este proyecto.

Desde el punto de vista de la subcontratación, existe la necesidad en la Cátedra de

disponer de una persona contratada al 100% de jornada laboral o bien, dos personas

contratadas al 50%.

Además, se realizará:

Elaboración de un informe sobre las implicaciones jurídico-éticas que surgen a

lo largo del proyecto: Protección de datos de carácter personal, Derecho a la

información, Derecho de autodeterminación informativa, etc.

Presentación del proyecto y del informe sobre las implicaciones jurídicas en

diferentes seminarios y jornadas a nivel nacional e internacional.

Asesoramiento jurídico sobre cuestiones puntuales que pudieran tener los

miembros del equipo investigador durante su investigación.

Asesoramiento ético durante el desarrollo del proyecto.

Page 22: Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez Bizkaia Ekintzailea:

BizkaiLabDeustoUniversidad de Deusto Deustuko Unibertsitatea