Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO....
Transcript of Bizkai - Bizkailab · PDF file · 2012-09-20proteómicas / GENO-PROTEO....
BizkaiLab
Área prioritaria / Lehenetsitako arloa: AP2/2. LA
Responsable / Arduraduna: Pablo García Bringas
Equipo / Lan taldea: Pablo García Bringas, Aitziber Emaldi
Código Proyecto / Proiektu Kodea: 5715
Acción - proyecto / Ekintza - proiektua: GENO-PROTEO. Apoyo al diagnóstico médico mediante el estudio asistido de variables genómicas y proteómicas / GENO-PROTEO. Mediku diagnostikorako laguntza, aldagai genomiko eta proteomikoen azterketaren bidez
Bizkaia Ekintzailea: emprendimiento e innovación / Bizkaia Ekintzailea: ekintzailetza eta berrikuntza Iniciativa / Ekimena: Investigación para la transferencia / Transferentziarako ikerketa
Proyecto Konsult@ (GenoProteo)
Detección de cáncer de vejiga y cáncer de pulmón
mediante el uso de marcadores proteínicos y
aprendizaje automático, e identificación de
marcadores mutagénicos para la detección de
hipercolesterolemia.
Enero 2012
2012 DeustoTech Fundación Deusto
Este documento es propiedad compartida de Fundación Deusto y los autores firmantes, y su contenido es confidencial. Este documento no puede ser reproducido, ni total, ni parcialmente, ni mostrado a otros, ni utilizado para propósitos distintos de los que han originado su entrega, sin permiso previo. En el caso de ser entregado en virtud de un contrato, su utilización estará limitada a lo expresamente autorizado en dicho contrato. Los autores no podrán considerarse responsables de eventuales errores u omisiones en la edición del documento.
Versión 1.0
Fecha Enero 2012
Tipo Oficial
Naturaleza Memoria Final
Autoría Cátedra de Derecho y Genoma Humano, DeustoTech Computing
Detección de cáncer de
vejiga y cáncer de pulmón
mediante el uso de
marcadores proteínicos y
aprendizaje automático, e
identificación de marcadores
mutagénicos para la
detección de
hipercolesterolemia.
Epígrafe sobre confidencialidad
Este documento presenta un resumen ejecutivo del trabajo realizado conjuntamente
con Progenika. El trabajo se encuentra dividido en 3 partes: (i) Detección de cáncer de
vejiga mediante el uso de marcadores proteínicos y aprendizaje automático, (ii)
detección de cáncer de pulmón mediante el uso de marcadores proteínicos y
aprendizaje automático, y (iii) identificación de marcadores mutagénicos para la
detección de hipercolesterolemia. Los documentos que contienen los detalles de esta
investigación son estrictamente confidenciales y están sujetos a las normas de
propiedad industrial, por lo que están custodiados por Deustotech y no pueden ser
presentados como anexos en este documento público. Sin embargo, si fuera necesario,
están disponibles para su presentación y consulta, siempre bajo autorización y en
condiciones que aseguren la privacidad y confidencialidad requeridas.
1. Grado de avance del proyecto y actividades
desarrolladas
El proyecto Konsult@ tenía varias acciones previstas para el año 2011.
Desde el punto de vista ético y jurídico, se ha revisado la documentación remitida por
algunos miembros del proyecto en relación con las cuestiones éticas y jurídicas que
aparecen reflejadas en el proyecto de investigación, es decir, cuestiones relativas a la
obtención y el uso de muestras biológicas y datos genéticos utilizados en el proyecto.
Por otro lado, se está estudiando de manera pormenorizada, por la posible afectación al
proyecto, la reciente normativa sobre el uso de muestras para investigación Real
Decreto 1716/2011, de 18 de noviembre, por el que se establecen los requisitos básicos
de autorización y funcionamiento de los biobancos con fines de investigación
biomédica y del tratamiento de las muestras biológicas de origen humano, y se regula
el funcionamiento y organización del Registro Nacional de Biobancos para
investigación biomédica. Por otro lado, se han mantenido varias reuniones con el
grupo de trabajo puesto que son varias las dudas ético-jurídicas que se plantean
durante determinadas fases del proceso. Se ha publicado un artículo con la referencia a
Bizkailab en una revista jurídica de impacto. El artículo es: Carlos María ROMEO
CASABONA, Diversidad cultural y pluralismo en la Declaración Universal sobre
Bioética y Derechos Humanos, Revista de Derecho y Genoma Humano, Núm. 35, 2011,
pp.13-38.
Por otro lado, las más relevantes desde el punto de vista técnico son la configuración de
un entorno para la secuenciación masiva, en particular, para el desarrollo de nuevos
métodos para detectar mutaciones relativas a la aparición de hipercolesterolemia y la
generación de modelos de aprendizaje automático utilizando marcadores proteínicos
para la prevención de cáncer de vejiga y pulmón.
En el primero de los apartados, el equipo de investigación ha trabajado de manera
conjunta con los expertos de Progenika para desplegar y configurar el entorno de
experimentación, formado por un servidor de altas capacidades de computación y
paralelización de procesos. Previa compra de este equipo, se han realizado sendos
experimentos de benchmarking para el lanzamiento de los procesos de secuenciación y
análisis de mutaciones, utilizando el software de referencia en estos ámbitos. En este
contexto, se ha comenzado ya, con cierto éxito, a automatizar el proceso de análisis de
variaciones del número de copias (Copy Number Value, CNV). No obstante, las
particularidades el análisis para el ámbito de la hipercolesterolemia, han hecho que el
equipo de investigación vaya a proponer nuevos métodos para el análisis de CNVs
basados en modelos estadísticos y predictivos.
Por otro lado, en lo referente al proceso de prevención de cáncer, se han obtenido los
siguientes resultados:
Cáncer de vejiga. A la vista de los resultados obtenidos a la hora de utilizar el
historial, el equipo concluyó que los datos de sexo y edad no aportan un valor
significativo a la hora de entrenar el modelo, por lo que podemos descartarlos a
la hora de crear el prototipo. Sin embargo, aún podríamos utilizar datos
históricos adicionales para ver cómo reaccionan los resultados ante otro tipo de
datos históricos.
Por otro lado, en el conjunto de datos existe un problema de balanceo de datos,
ya que el número de casos positivos, esto es, aquellos en los que se da la
enfermedad, son mucho mayores que los casos en los que no se da. Esto afecta
negativamente a la hora de obtener resultados de los modelos, ya que la
tendencia de los mismos es la de clasificar las muestras como positivas. Por ello,
se ha planteado un enfoque para la generación de datos de forma artificial,
mediante una técnica de SMOTE, para equiparar de esta forma los casos
positivos de los negativos. Este enfoque ha dado unos resultados más
balanceados en detección de casos negativos y falsos positivos.
Cáncer de pulmón. El estudio realizado arroja ciertas conclusiones
interesantes para la predicción de presencia tumoral en el pulmón a partir de
marcadores proteicos. En primer lugar, los marcadores 11 y 12, deberían estar
en la combinación final elegida. Los resultados que hemos obtenido indican que
la presencia de estos marcadores garantizan los mejores resultados. No
obstante, en el conjunto de datos que teníamos los marcadores 11 y 12 tenían un
gran número de valores perdidos, limitando en cierta medida el alcance de los
resultados al tener que omitirlos tanto para el entrenamiento como para la
prueba ya que estos valores no se iban a dar en un entorno real jamás.
Por otro lado, las regresiones logísticas son los clasificadores que, en global,
mejores resultados han arrojado. En este caso, dichos resultados parece que
responden a que la división de los datos es lineal y que no son necesarias
clasificadores complejos para realizar la discriminación.
2. Previsión de finalización del proyecto
Se prevé que el proyecto finalice en diciembre de 2013.
3. Indicadores esperados del proyecto
A la finalización del proyecto KONSULT@ se prevé que se van a obtener los siguientes
indicadores:
1. Académicos: se agrupan todos los indicadores de todos aquellos aspectos
relativos a la búsqueda de la excelencia académica, como son la publicación en
conferencias de referencias y la publicación en revistas de alto impacto.
2. Jurídicos y éticos: la componente ética y jurídica del se ve reflejada también en
los resultados del proyecto. En este apartado se incluye:
Elaboración de un informe sobre las implicaciones jurídico-éticas que surgen a
lo largo del proyecto: Protección de datos de carácter personal, Derecho a la
información, Derecho de autodeterminación informativa…
Presentación del proyecto y del informe sobre las implicaciones jurídicas en
diferentes seminarios y jornadas a nivel nacional e internacional.
Asesoramiento jurídico sobre cuestiones puntuales que pudieran tener los
miembros del equipo investigador durante su investigación.
Asesoramiento ético durante el desarrollo del proyecto
3. Empresariales: en la segunda fase del proyecto, la creación de una empresa con
vertiente tecnológica es el más vivo resultado de este proyecto.
1. Con todos estos indicadores se dispone de una visión global del crecimiento que
el proyecto experimenta a lo largo de los años.
4. Resumen ejecutivo del avance y resultados del proyecto
Este proyecto se divide en 3 partes diferenciadas:
1. Detección de cáncer de vejiga mediante el uso de marcadores proteínicos y
aprendizaje automático.
2. Detección de cáncer de pulmón mediante el uso de marcadores proteínicos y
aprendizaje automático.
3. Identificación de marcadores mutagénicos para la detección de
hipercolesterolemia.
Las dos primeras partes, relativas a detección de cáncer mediante marcadores
proteínicos y aprendizaje automático, dadas las similitudes del trabajo realizado, se
abordan de forma conjunta en la primera parte de este documento, mientras que la
tercera, relativa a la identificación de marcadores mutagénicos se aborda por separado.
Detección de cáncer mediante el uso de marcadores proteínicos y
aprendizaje automático
A continuación se relata el proceso que se ha llevado a cabo para la generación de
modelos para la clasificación de pacientes que padecen cáncer de vejiga y cáncer de
pulmón en base a marcadores proteínicos.
Se ha realizado un estudio en profundidad para evaluar los resultados que pueden
obtenerse con distintos algoritmos de aprendizaje automático. Posteriormente, se
detallaran los conjuntos de datos utilizados para este proyecto. Finalmente, se
analizarán los resultados obtenidos en el mismo.
Para la construcción de los modelos, se han utilizado los datos provistos por
Proteomika. Subsiguientemente, se realizó el estudio para elegir el algoritmo de
clasificación más adecuado para cada uno de los casos. Con este fin, se probaron una
gran variedad de algoritmos de clasificación de distinta naturaleza, para ver cómo se
comportaban con la colección de datos.
Tras ello, se hizo un análisis de la información de cara a determinar si un pre-
tratamiento de los datos mejoraría los resultados. De esta forma se consigue
determinar el punto de equilibrio que permita minimizar el número de marcadores a
utilizar y no tenga un impacto significativo en las tasa de acierto.
Además, a partir de la experimentación realizada, se desarrolló un prototipo que
permite obtener las probabilidades de reaparición de la enfermedad.
En conclusión, este documento resume la naturaleza de los datos, el tratamiento
realizado y los resultados obtenidos al aplicarles distintos algoritmos para obtener un
sistema que sea capaz de predecir con la mayor precisión posible pacientes a los que se
les reproduce la enfermedad, buscando minimizar los casos de falsos positivos.
Conjuntos de datos
En el caso de detección cáncer de vejiga, el conjunto de datos está formado por un total
de 791 pacientes que padecieron cáncer de vejiga. Los datos se dividen en datos
históricos (datos demográficos y personales del paciente, así como datos del historial
médico del paciente), marcadores, y clasificaciones. En el caso de los datos históricos,
por motivos de preservación de la intimidad del paciente y por motivos de
descentralización de datos en la seguridad social, solamente se consideraron la edad y
el sexo. En cuanto a los marcadores, se distinguió entre "marcadores azules" y
"marcadores naranjas". En lo respectivo a las distintas clasificaciones en las que dividir
el conjunto de datos, se optó por realizar experimentos con 5 clasificaciones diferentes:
distinguiendo entre aparición y ausencia de cáncer (primer caso), y la discriminación
de diferentes tipos de cáncer (el resto de casos).
Además, posteriormente, tras unos experimentos previos se realizó una selección de
atributos previa con el fin de minimizar el gasto en el proceso, y determinar el número
óptimo de atributos para realizar la clasificación con una precisión suficiente. De este
modo se redujo el conjunto de atributos a 5, 4, 3, y 2 atributos en sucesivos
experimentos.
En el caso de cáncer de vejiga, el conjunto de datos está formado por 731 pacientes que
padecieron cáncer de pulmón. Para ello se emplearon 2 grupos de marcadores, el
primero formado por 9 marcadores y el segundo por 6, para clasificar los pacientes en 2
conjuntos, aparición o ausencia de cáncer.
Del mismo modo que en el caso anterior, se realizó una selección de atributos para
determinar el número mínimo de marcadores necesario para obtener una precisión
suficiente en la detección. Se realizaron 14 combinaciones diferentes de 2, 3, 4 y 5
marcadores diferentes, en este caso dividiendo el conjunto de datos en 3 grupos, dado
que no se disponían datos de todos los pacientes para los marcadores 11 y 12. El
primero grupo correspondía a los pacientes con datos sobre ambos marcadores, el
segundo a aquellos que solo disponían de datos sobre el marcador 12, y el tercero sobre
aquellos pacientes sin datos para ninguno de los 2.
Algoritmos de aprendizaje automático
Se utilizaron diferentes algortimos de aprendizaje automático, una rama de la
inteligencia artificia,l con el objetivo de entrenar modelos capaces de clasificar los datos
de pacientes nuevos a partir de datos históricos de otros pacientes. Para ello, ya que se
dispone de datos etiquetados, se emplearon algoritmos supervisados, que permiten, a
partir de un conjunto de entrenamiento etiquetado, generar modelos capaces de
predecir la clasificación de instancias nuevas no presentes en el conjunto utilizado para
el "entrenamiento".
Algunos de los algoritmos empleados son redes bayesianas, árboles de decisión, K-
nearest neighbours (solo para cáncer de vejiga), Support Vector Machines, y en el caso
de cáncer de pulmón, además: Radial basis function network, Logistic Regression, y
Simple Logistic.
Además en el caso de cáncer de vejiga se empleó la técnica SMOTE para generar
muestras sintéticas a partir del conjunto de datos y así balancear el conjunto de datos
para obtener mejores resultados en algoritmos supervisados.
En el caso de cáncer de pulmón, sin embargo, se utilizaron técnicas de resampling, que
permiten generar un nuevo conjunto de datos de forma sintética siguiendo la
distribución estadística de los datos originales.
Resultados
Para evaluar los diferentes clasificadores hemos utilizado un servidor multinúcleo que
optimiza el entrenamiento de los modelos de aprendizaje automático. Los resultados
han sido medidos en términos de Accuracy, TPR (True Positive Ratio), FPR (False
Positive Ratio), y AUC (Area Under the Roc Curve).
Para cáncer de vejiga se utilizaron dos conjuntos de datos diferentes, omitiendo y
utilizando los datos históricos en cada caso. Además, en un primer experimento se
empleó un conjunto de datos no balanceado, obteniendo una tendencia a clasificar las
muestras como positivas, mientras que en un segundo caso se empleó SMOTE para
balancear los datos de cada clasificación. Aún así, aún creemos que la tasa de falsos
positivos es alta (en torno al 10%), y creemos que se puede mejorar utilizando
aprendizaje sensitivo al coste, que permite atribuir un coste mayor a los falsos positivos
y así balancear los falsos positivos y falsos negativos.
Por otro lado, los experimentos con datos históricos concluyen que éstos no aportan un
valor significativo a los clasificadores, siendo descartados para la creación del
prototipo.
En general, para la primera clasificación, los resultados obtenidos1 oscilan entre 0,5 y
0,8 de AUC, resultando algunos clasificadores más efectivos que otros. No se presenta,
en cambio, una diferencia muy clara entre los diferentes conjuntos de atributos
empleados para el entrenamiento, habiendo una variación mínima (por debajo de 0.05
de AUC) entre los mismos, para cada una de las 5 clasificaciones diferentes (aparición o
ausencia de cáncer y distinción entre diferentes tipos de cáncer). En el caso de
distinción entre tumores T0, Ta, T1G1, T1G2 y T1G3, T2 , y la distinción entre tumores
T0, Ta, T1 y T2, llama la atención la escasa diferencia de resultados que se han obtenido
al usar los distintos clasificadores. Como podemos observar, los 4 modelos dan un
rendimiento superior al 95% en la mayoría de los atributos. También llama la atención
los altos ratios de acierto que tienen los modelos en esta clasificación, obteniendo un
98% en 4 de los 6 clasificadores analizados.
En el caso de cáncer de pulmón se han realizado dos experimentos diferentes, en
primer lugar se ha utilizado el 80% de los datos de cada uno de los grupos de datos
diferentes. La validación cruzada realiza 10 divisiones diferentes de los datos utilizando
el 90% para entrenar y el 10% restante para validar. En segundo lugar, se ha entrenado
con todo el 80% de los datos, y se ha testado con el 20% restante.
1 Por motivos de confidencialidad no se pueden detallar los resultados obtenidos en cada uno de los
experimentos.
Además de los clasificadores de aprendizaje automático utilizados, en el caso de cáncer
de pulmón, Proteomika ha utilizado la regresión logística de SPSS sobre las mismas
combinaciones.
En términos generales, la regresiones logísticas son los métodos que mejor se adaptan
al conjunto de datos, tanto si la validación se hace cruzada como si se hace con un
conjunto de datos independiente. Por otro lado, la mejor combinación parece ser la
formada por los marcadores 11, 12, 5 y 6, puesto que es en la que mejores resultados se
obtienen utilizando validación cruzada. Así, las combinaciones formadas por los
marcadores 11 y 12, obtienen todas ellas buenos resultados para la mayoría de
clasificadores. En cuanto a las combinaciones en las que se omite el marcador 11, los
resultados son peores que cuando se utilizan 11 y 12. Lo mismo ocurre al no utilizar ni
11 ni 12.
Cuando la técnica de resampling es aplicada, los resultados mejoran en algunos casos
entorno a un 0,01 de AUC, llegando hasta un 0,07 en el mejor de los casos.
Como conclusión, dados los resultados obtenidos, deberían incluirse los marcadores 11
y 12, ya que los resultados obtenidos garantizan los mejores resultados.
Por otro lado, las regresiones logísticas son los clasificadores que, en global, mejores
resultados han arrojado. En este caso, dichos resultados parece que responden a que la
división de los datos es lineal y que no son necesarias clasificadores complejos para
realizar la discriminización.
Conclusiones
En resumen, a lo largo del proyecto, se ha abordado la clasificación de casos médicos en
base a marcadores proteicos para la predicción de casos. En una primera fase se
consideró una primera clasificación en la que el historial del usuario estaban presentes
en el conjunto de datos utilizado. Posteriormente, se llegó a la conclusión de que estos
datos no afectaban la clasificación. Por otro lado, se observó durante los experimentos
que los datos estaban muy desbalanceados, y se utilizaron técnicas como SMOTE y
resampling, para generar casos artificiales y así mejorar de forma significativa los
resultados de los modelos.
Posteriormente, en la última parte del proyecto se ha analizado el impacto que el
número de atributos tiene en la clasificación. Si bien la precisión de la clasificación se
reduce ligeramente cuando un menor número de atributos es utilizado, el coste de
utilizar más atributos es significativamente superior, por lo que se deberá buscar una
zona de confort para el número de atributos y el ratio de detección.
LipoUniversal
El proyecto LipoUniversal, relativo a la identificación de marcadores mutagénicos para
la detección de hipercolesterolemia, se encuentra en pleno proceso de desarrollo. El
desarrollo actual consta de dos partes que están siendo unificadas. De esta forma, la
primera de ellas es la que se conoce como AVA. Esta primera parte es la encargada de la
generación de los ficheros AVA básicos para la segunda de las partes del sistema. Para
llevar a cabo este proceso se desarrolló un software en Python con el objetivo de
interaccionar con el software encargado de realizar los análisis. El resultado final son
una serie de ficheros AVA a los que le han sido aplicados diferentes cortes o filtros.
La segunda de las partes, y más compleja, es la que se encarga de realizar todos los
análisis de los ficheros generados en la ya mencionada primera parte del sistema. El
proceso que se desarrolla es el siguiente:
1. Carga de los valores básicos (correspondencias de traducción, ficheros de
grupos, etc.).
2. Lectura de los valores extraídos en la fase 1.
3. Generación de las estructuras de memoria necesarias para representar la
información del fichero leído. Además, se generan nuevos valores, campos
calculados, que permiten obtener la información completa del fichero inicial.
4. Cálculo de las coberturas y generación de la gráfica de coberturas.
5. Cálculo de CNVs basados en la comparación y el cálculo logarítmico.
6. Volcados a fichero en diversas formas de la información contenida en las
estructuras de memoria.
Una de las tareas más importantes del proceso, y que se engloba en el punto 3, con la
generación de valores calculados, es la de la traducción de exones. En otras palabras,
dadas las filas extraídas del fichero inicial, se encargará de realizar las traducciones de
las mutaciones, intentando generar una nomenclatura más acorde a la utilizada en los
centros de trabajo.
El desarrollo al completo ha sido realizado utilizando el lenguaje de programación
Python con el fin de mantener la idea de multiplataforma inicial con la que se comenzó
el proyecto. Del mismo modo, los desarrollos iniciales han sido planteados como el
núcleo, o framework, sobre el que es posible la creación de futuros desarrollos.
Por último, y a modo de facilitar la utilización del núcleo de procesamiento realizado, se
ha desarrollado una interface gráfica de usuario que permite facilitar los pasos de la
configuración de los ficheros de la experimentación. Esta interface de usuario ha sido
desarrollada con la librería QT y Python, con lo que se mantiene la filosofía ya definida
a lo largo de todo el proceso de desarrollo del sistema.
A parte de los desarrollos básicos de la aplicación, se ha tenido que para el avance para
la corrección de pequeños fallos detectados en el funcionamiento del núcleo del
sistema. Del mismo modo, a lo largo del proceso de desarrollo se han realizado
diferentes cambios sobre el proceso definido en un primer lugar, por lo que, al igual que
en la corrección de fallos, se ha paralizado el proceso de desarrollo con el fin de
mantener siempre una versión totalmente completa y funcional de la solución software
desarrollada.
Trabajo futuro
a) Dimensión técnica
En concreto, quedan las siguientes mutaciones por convertir:
Deleción de una base
En el caso de que falte una base, el conversor se fija en las bases cercanas a la
eliminada. En el caso de una repetición de nucleótido (varias repeticiones del
mismo nucleótido), el programa AVA detecta automáticamente la primera base
como borrada cuando, según la guía HGVS debería ser la última.
Deleción de dos y tres bases
Para la deleción de una base, el programa mira las bases cercanas a las
eliminadas. En caso de que haya repetición de el di o tri nucleótido borrado,
cambia de la primera a la última repetición.
Pos 1---5----10---15---20---25---30
Ref GTCGATGGACGACGACGCTCGAATAGCGAT
Mut GTCGATGGACGAC---GCTCGAATAGCGAT
AVA GTCGATGGAC---GACGCTCGAATAGCGAT
Inserción de dos o más bases
Para la inserción de 2 o más bases, el software tiene que mirar las bases
cercanas para comprobar que no se trate de una duplicación.
Pos 1---5----10---15---20---25---30
Ref GTCGATGGACCAC---GCTCGAATAGCGAT
Mut GTCGATGGACCACCACGCTCGAATAGCGAT
AVA GTCGATGGACGACCACGCTCGAATAGCGAT
Deleción de más de tres bases
Detección de varias mutaciones presentes en el mismo alelo
Además, se realizarán las siguientes tareas:
Diseño y validación técnica del prototipo HF GS Junior de Roche
Esta tarea consistirá en 3 actividades principales, en parte análogas a las
llevadas a cabo en la Tarea 1.1.
1) En primer lugar se llevará a cabo el diseño de los cebadores que
permitan la amplificación de los fragmentos a resecuenciar, así como los
cebadores correspondientes a los fragmentos que se utilizarán para la
detección los CNV del gen LDLR.
2) La tecnología GS Junior de Roche permite la resecuenciación de un gran
número de muestras a la vez gracias a la utilización de etiquetas que
identifican específicamente cada muestra. El procesamiento simultaneo
de varias muestras (pacientes) puede realizarse empleando dos diseños
de cebadores diferentes: 1) un diseño en el que todos los cebadores para
todas las muestras son utilizados en una única PCR, y 2) un diseño
donde la amplificación se hace en dos pasos, un primer paso para
amplificar los fragmentos de interés de cada una de las muestras y un
segundo paso donde se realiza la identificación de cada muestra. En el
transcurso de esta tarea ambos diseños serán abordados y comparados
para elegir el diseño más adecuado desde el punto de vista técnico y de
viabilidad económica del producto final.
3) Seguidamente se diseñará el método de análisis para la detección de las
mutaciones puntuales (sustituciones), indel y CNV. Para esta fase,
también es necesaria la utilización de técnicas de reconocimiento de
patrones textuales.
4) Finalmente se realizará la validación técnica del prototipo diseñado
mediante la hibridación de un mínimo de 2 mutaciones, 1 sustitución y 1
indel (cuando estén disponibles), por fragmento a resecuenciar.
También se hibridaran muestras con deleciones e inserciones de cada
uno de los exones del gen LDLR (cuando estén disponibles).
Comparación de los prototipo HF GeneChip y GS Junior
En esta tarea se evaluarán de forma comparativa los datos de exactitud,
especificidad y sensibilidad obtenidos durante las validaciones técnicas de cada
uno de los prototipos desarrollados en las tareas 1.1 y 1.2, respectivamente.
También se analizará la viabilidad económica y comercial de ambos prototipos,
en términos de costes, rapidez y facilidad de obtención de resultados en servicio.
Como resultado de estas comparaciones se determinará cuál es la tecnología
más adecuada, desde todos los puntos de vista, para el desarrollo del producto
final que será introducido en el mercado.
Desarrollo del producto
Una vez elegido el prototipo más adecuado en la tarea se desarrollara el
producto.
Durante esta anualidad para las tareas de cálculo de CNVs y para obtener las
mutaciones en los genes se ha utilizado el software Junior Roche utilizando un servidor
multinúcleo que optimiza el secuenciamiento de las cadenas de ADN para la obtención
de mutaciones. Durante la próxima anualidad se le dará un uso más exhaustivo, si cabe,
a este equipo.
a) Dimensión jurídica/ética
Las propuestas técnicas y biológicas del proyecto están sujetas a componentes jurídicos
y éticos relevantes y complejos, en muchos casos podrían suponer la suspensión del
proyecto. En efecto, desde el punto de vista metodológico, jurídico y ético que es el que
valoran los comités de ética en los proyectos de investigación las cuestiones que en este
proyecto se plantean son muy delicadas. Actualmente la obtención de información a
partir de los datos generados implica múltiples pasos en los que han de utilizarse
diversas aplicaciones informáticas para cuyo manejo es necesario un conocimiento
especializado. El volumen de datos generado es de tal magnitud que previamente a su
análisis primario el usuario ha de someter los datos a un proceso de transformación y
condensación. Posteriormente, el equipo jurídico, es decir la cátedra de derecho y
genoma humano vela porque se lleve adecuadamente el proyecto bajo los parámetros
de la legalidad, una responsabilidad que requiere el trabajo coordinado de los
diferentes grupos que forman este proyecto.
Asimismo, otro de nuestros objetivos es ayudar en todas las dudas ético-legales que se
planteen a lo largo del proyecto así como hacer la mayor difusión tanto del proyecto, en
la medida de los posible, como de la ayuda que Bizkailab nos está ofreciendo para poder
desarrollarlo, para ello las conferencias y publicaciones que realice la cátedra durante
este período llevarán la alusión a la concesión de este proyecto.
Desde el punto de vista de la subcontratación, existe la necesidad en la Cátedra de
disponer de una persona contratada al 100% de jornada laboral o bien, dos personas
contratadas al 50%.
Además, se realizará:
Elaboración de un informe sobre las implicaciones jurídico-éticas que surgen a
lo largo del proyecto: Protección de datos de carácter personal, Derecho a la
información, Derecho de autodeterminación informativa, etc.
Presentación del proyecto y del informe sobre las implicaciones jurídicas en
diferentes seminarios y jornadas a nivel nacional e internacional.
Asesoramiento jurídico sobre cuestiones puntuales que pudieran tener los
miembros del equipo investigador durante su investigación.
Asesoramiento ético durante el desarrollo del proyecto.
BizkaiLabDeustoUniversidad de Deusto Deustuko Unibertsitatea