Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

61
IX Encuentro e-Salud y Telemedicina: TIC para los retos de I+i en servicios de salud en enfermedades crónicas Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos José Luis Martínez Fernández Socio Director de DAEDALUS S.A. Profesor Asociado de la Universidad Carlos III de Madrid @jlmartinez_es http://es.linkedin.com/in/jlmartinezfernandez 1 de Julio de 2015, Santander Universidad Internacional Menéndez Pelayo

Transcript of Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

IX Encuentro e-Salud y Telemedicina: TIC para los retos de I+i en servicios de salud en enfermedades crónicas

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

José Luis Martínez Fernández Socio Director de DAEDALUS S.A. Profesor Asociado de la Universidad Carlos III de Madrid

@jlmartinez_es http://es.linkedin.com/in/jlmartinezfernandez

1 de Julio de 2015, Santander

Universidad Internacional Menéndez Pelayo

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Contenido

§  ¿Qué es Big Data? §  Big Data en el dominio de salud §  Arquitectura típica de un proceso de Big Data §  Datos

•  Análisis de datos estructurados en Big Data •  Aprendizaje automático

•  Análisis de datos no estructurados en Big Data •  Técnicas de Análisis de Texto

•  Evaluando técnicas de análisis de texto §  Recursos §  Aplicaciones

•  La experiencia de TrendMiner §  Retos

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

¿QUÉ ES BIG DATA?

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  Técnicas para capturar, gestionar y procesar grandes volúmenes de datos en tiempos aceptables

§  Doug Laney (analista de META Group, ahora Gartner) identifica en 2001 los retos y oportunidades del crecimiento de los datos:

•  Volumen: aumento de datos •  Velocidad: de entrada/salida de datos •  Variedad: rango de tipos y fuentes de datos

§  Gartner: modelo de las 3Vs (2012): •  “Big data is high volume, high velocity, and/or high variety information assets that

require new forms of processing to enable enhanced decision making, insight discovery and process optimization.”

Big Data: ¿qué es?

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

5

¿Qué es Big Data?

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Data Never Sleep 2.0 https://www.domo.com/learn/data-never-sleeps-2

¿Qué es Big Data?

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Big Data en el dominio de salud

VOLUMEN VELOCIDAD

VARIEDAD

§  Millones de historias clínicas

§  Miles de publicaciones científicas

§  Dispositivos §  Internet …

§  Informes diarios … §  Nuevas publicaciones

científicas §  Internet …

§  ECGS §  Diagnósticos §  Resultados de pruebas § …

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

“En los últimos 5 años se ha generado más información científica que en toda la historia …”

Winston Hide, Escuela Pública de Harvard

“Solo en MedLine se publican 20.000 artículos a la semana”

María Herrero, Tesis Doctoral

“Los profesionales de salud dedican el 20% de su tiempo a buscar y procesar información necesaria para la práctica sanitaria ”

Clinical Solutions, Elsevier

Big Data en el dominio de salud

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Big Data en el dominio de salud

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

#cardiotuitero

Big Data en el dominio de salud

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Big Data en el dominio de salud

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Big Data en el dominio de salud

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

La información no estructurada es cada vez más importante en Salud

Documentación médica Medios sociales

Redes, foros, comunidades de salud

Extraer información estructurada “accionable” de contenido no estructurado

Big Data en el dominio de salud

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  ¿Cuántos datos se procesan de la Historia Clínica Electrónica?

§  Aplicaciones:

•  Soporte a la codificación ICD9/10, SNOMED CT, CIMA, …

•  Sistemas de ayuda a operadores humanos: procesos de codificación (p. ej.: diagnósticos en partes de alta en urgencias)

No Estructurados Estructurados

Big Data en el dominio de salud

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

ARQUITECTURA TÍPICA DE UN PROCESO DE BIG DATA

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Arquitectura típica de un proceso de análisis de sentimiento

Adquisición/Grabación

Extracción/Limpieza

Interpretación/Agregación

Análisis/Modelado

Interpretación

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Arquitectura típica de un proceso de análisis de sentimiento

Big Interactions Big Transactions

Big Processing

Big Analytics

•  Sociales: Twitter….. •  Generadas por máquinas:

sensores, escáneres de seguridad, ...

•  Datos históricos: que crecen exponencialmente

•  Web: clicks, logs, …

•  No SQL: Hadoop (distribución) •  Evolución SGBD: Oracle Exadata •  Aumento RAM •  Visualización: nubes, árboles, …

•  Análisis de opinión •  Segmentación de clientes •  Detección de fraude

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

DATOS

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Datos no estructurados Datos estructurados

19

Datos

20% de los datos frente al … ¡¡80%!!

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  De bases de datos relacionales

§  A bases de datos NoSQL

Datos

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

ANÁLISIS DE DATOS ESTRUCTURADOS EN BIG DATA

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Machine Learning/ Pattern

Recognition

Statistics/ AI

Data Mining

Database systems

Datos estructurados

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Modelo

Valida (estadística)

Genera (aprendizaje)

DATOS RESULTADOS

Datos estructurados

Proceso de Análisis

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Modelos

Predictivos

responden preguntas sobre datos futuros

Ej.: •  ¿Cuáles serán las ventas el año próximo?

•  ¿Es esta transacción fraudulenta?

•  ¿Qué tipo de seguro es más probable que contrate el cliente X?

Descriptivos

Proporcionan información sobre las relaciones entre los datos y sus características

Ej.: •  Los clientes que compran pañales suelen

comprar cerveza.

•  El tabaco y el alcohol son los factores más importantes en la enfermedad Y.

•  Los clientes sin televisión y con bicicleta tienen características muy diferenciadas del resto.

Datos estructurados

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Técnica

Supervisada

No-supervisada

Predicción Clasificación

Descripción Clustering Asociación

•  Bayesiana •  Redes de neuronas •  Regresión •  Árboles de decisión •  Support Vector Machines •  …

•  K-Medias •  Conceptual •  Probabilístico •  A priori •  …

Datos estructurados

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

TÉCNICAS DE ANÁLISIS DE TEXTO EN BIG DATA

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Pipeline para análisis de texto

ACL2014 proceedings, CoreNLP description

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  División de un texto de entrada en oraciones y palabras.

§  ¡Fácil!, ¿verdad? Ejemplos:

Técnicas de Análisis de Texto

Segmentación (tokenization)

Ø  ECG al alta: Ritmo sinusal a 70 Ipm. PR 100 msec. BRD+HBAI. QRS 120 msec.

Ø  SCASEST (ANGINA MIXTA) EN VARON DE 67 AÑOS CON CARDIOPATIA

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  Este proceso asigna a cada palabra la categoría gramatical que le corresponde.

§  Ej.: Acude por angina progresiva desde hace 10 días

Técnicas de Análisis de Texto

Etiquetado de partes del discurso (POS tagging)

{ "form": "angina", "id": "3", "inip": "10", "endp": "15", "bold": "no", "italic": "no", "underscore": "no", "separation": "1”, "analysis_list": [ { "tag": "NCFS-NYN3", "lemma": "angina", "original_form": "angina”}]}

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  Dos tipos de implementaciones: •  Estadística: Hidden Markov Models, Maximum Entropy, Support Vector Machines,

basado en reglas •  Basada en conocimiento: Introduce un paso previo al análisis estadístico en el

que las etiquetas posibles para una palabra forman parte de una base léxica. §  Se apoyan en colecciones de texto etiquetadas: TreeBank (Linguistic Data Consortium,

LDC)

§  Problemas •  Ambigüedad

•  Casa: Juan se casa el viernes, Juan se ha ido de casa •  Puede incluir o no lematización

§  Precisión del 97% (teóricamente): dependiente del contexto de aplicación

Técnicas de Análisis de Texto

Etiquetado de partes del discurso (POS tagging)

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  Identificación de nombres propios.

§  Ej.: “En el Día Internacional de la Enfermería, entrevistamos a ROSA PÉREZ, enfermera, autora de El blog de Rosa”

Extracción de Entidades (NER)

Técnicas de Análisis de Texto

"entity_list": [ { "form": "Día Internacional de la Enfermería", "sementity": { "class": "instance", "type": "Top", "confidence": "unknown" }}]

"variant_list": [ { "form": "ROSA PÉREZ", "sementity": { "class": "instance", "type": "Top>Person>FullName", "confidence": "unknown" }, "variant_list": [ { "form": "ROSA PÉREZ", "inip": "58", "endp": "67" } ], "relevance": "100" }]

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  El proceso de extracción de entidades, en ocasiones, va más allá: categorización (persona, lugar, …)

§  ¿Estándar para la categorización?

§  Linked Open Data

Extracción de Entidades (NER)

Técnicas de Análisis de Texto

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  El análisis sintáctico consiste en obtener la estructura sintagmática de una frase.

Análisis sintáctico (syntactic parsing)

Técnicas de Análisis de Texto

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Análisis sintáctico (syntactic parsing)

Técnicas de Análisis de Texto

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  Implementación: •  Se implementa como parte del proceso de etiquetado POS:

§  los corpus de entrenamiento incluyen etiquetas para identificar sintagmas

•  Técnicas basadas en análisis de dependencias: •  La estructura sintáctica consiste en entradas léxicas enlazadas mediante

relaciones binarias asimétricas, denominadas dependencias.

Análisis sintáctico (syntactic parsing)

Técnicas de Análisis de Texto

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  Asignar un texto a un conjunto de clases predeterminado.

§  Tipos de algoritmos: •  Estadísticos:

•  Aprendizaje automático: árboles de decisión, SVM, Redes neuronales, clasificadores bayesianos

•  Representación vectorial •  Basados en reglas:

Clasificación de textos

Técnicas de Análisis de Texto

C

B

A

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  Selección de características:

•  Índice Gini: basado en la probabilidad condicional de que un documento pertenezca a una clase dado que contiene una palabra determinada.

•  Ganancia de información: no solo tiene en cuenta la aparición de una palabra en el documento si no que también contempla el número de documentos que contienen esa palabra.

•  Información mutua: tiene en cuenta la co-ocurrencia de una palabra determinada

y una clase concreta.

Clasificación de textos

Técnicas de Análisis de Texto

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  Creación de clases/grupos a partir del conjunto de elementos.

§  Número desconocido de clases. §  Técnicas:

•  Algoritmos basados en distancias: cercanía entre dos documentos

•  Algoritmos aglomerativos o jerárquicos: agrupa elementos dando lugar a una jerarquía.

•  Algoritmos basados en particiones: •  K-means: utiliza k representantes alrededor de los cuales se forman los

grupos

•  Topic modeling: crear un modelo probabilístico generativo a partir de los textos del corpus. El corpus se representa en función de variables aleatorias, cuyos parámetros se estiman a partir de una colección concreta.

Agrupación de textos (clustering)

Técnicas de Análisis de Texto

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  Determinar el parecer de un hablante respecto a un tema determinado

§  Determinar la polaridad (positiva, negativa o neutra) expresada en un texto. §  Implementación:

•  Listas de palabras positivas/negativas à Cuenta •  Aprendizaje automático •  Análisis PLN: detección de aspectos y de sentimiento sobre estos aspectos

Análisis de sentimiento (sentiment analysis)

Técnicas de Análisis de Texto

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Estoy encantado con el servicio de urgencias del hospital

Análisis de sentimiento (sentiment analysis)

Técnicas de Análisis de Texto

"polarity_term_list": [{ "text": "estar encantado”, "score_tag": "P+", "sentimented_concept_list": [ { "form": "servicio de urgencias”,

"type": "Top>Product>ProfessionalService", "score_tag": "P+" }]

"sentimented_concept_list": [{ "form": "hospital", "type": "Top>Location>Facility", }]

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  Herramienta para organizar grandes cantidades de información. §  ¿Sobre qué temas o topics trata el contenido de un documento? §  Modelo bayesiano:

§  Asumimos que un topic queda definido por una distribución probabilística de términos.

§  Asumimos que cada documento se genera a partir de una distribución de topics (ocultos).

§  Algoritmos (no supervisados) para entrenar un modelo LDA: inferencia variacional y muestreo de Gibbs.

§  Herramientas open-source que lo implementan: Mallet (muestreo de Gibbs).

Latent Dirichlet Allocation

Técnicas de Análisis de Texto

Análisis de tendencias

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Análisis de tendencias. LDA

Técnicas de Análisis de Texto

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

EVALUACIÓN

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  Precisión: Proporción de sentimientos etiquetados correctamente de entre los encontrados por el sistema

§  Recall(cobertura): Proporción de sentimientos encontrados respecto al total de expresiones de sentimiento existentes en la colección

S

S

S

S S

S

Evaluación

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  Los requisitos dependen de la aplicación •  Monitorización de marca en medios sociales: alta precisión, baja cobertura •  Lucha antiterrorista: alta cobertura, baja precisión

§  Precisión y cobertura están inversamente relacionadas

•  Buscar compromiso

§  Las personas NO tenemos una precisión del 100%

•  Tests con analistas humanos: acuerdo 85-95%

(91% en dominio médico, [Krallinger, 2015]))

Evaluación

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Evaluación

Estado del arte en cuanto a medidas de precisión

§  Extracción de entidades: 70-85%

§  Clasificación: 70-80%

§  Análisis de sentimiento: 60-70%

La mejora de calidad depende de la adaptación de las herramientas y recursos a la aplicación/tarea

Evaluación

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

RECURSOS

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Anatomical Therapeutic Chemical (ATC) Classification

System

Ibuprofeno algiasdin|apirofeno|aragel|articalm|astefor|brufen|dalsy|dersindol|diltix|dolencar|doltra|espididol|espidifen|….

nauseas estomago revuelto|sentirse mareado|nauseas|nauseas solas|nauseoso|nauseoso|ansia nauseosa|…… 35.259 términos

16.418 fármacos y 2.228 principios activos

2.566 códigos ATC

42.548 principales

enfermedades

Cáncer|neoplasia maligna|….

Recursos

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

TRENDMINER

Aplicaciones

Monitorización de información sobre salud en medios sociales

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  Detectar menciones de fármacos y eventos médicos (enfermedades, síntomas, efectos adversos, etc.) en medios sociales.

§  Los medios sociales pueden ser fuentes valiosas en la monitorización de eventos médicos.

§  Aplicación a tareas de farmacovigilancia llevadas a cabo por las agencias de medicamentos y compañías farmacéuticas.

Objetivos

Aplicaciones. TrendMiner

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Patients on Twitter

Spanish patient Forums

Aplicaciones. TrendMiner

Fuentes analizadas

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Aplicaciones. TrendMiner

§  Ejemplo de comentario en Forumclinic

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Spanish DrugEffect DB containing relations among drugs and effects

63.000 relations

Aplicaciones. TrendMiner

Recursos integrados

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Collecting texts from Twitter & Blogs

Datawarehouse

Health monitoring Dashboard

GATE Annotation Pipeline

Analytics Processing

Gatherer processes

Real-time visualization

Inquirer processes Spanish

Drug Effect

Database

Aplicaciones. TrendMiner

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Datos agregados de los efectos del fármaco lorazepam

Aplicaciones. TrendMiner

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Línea temporal con la evolución de los fármacos y eventos mencionados con el lorazempan

Aplicaciones. TrendMiner

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

RETOS

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

§  ¡¡Datos!! •  Acceso a los datos para los no médicos •  Anonimización (Proyecto Visc+) •  Estandarización •  Propiedad de la información •  Compartición de conjuntos de datos

§  Veracidad/confiabilidad de los datos

§  Aplicaciones dirigidas por los usuarios (médicos y pacientes)

§  Integración de sistemas aislados •  Dispersión en diferentes hospitales, centros de salud, …

Retos

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

¡Gracias por vuestra atención! José Luis Martínez Fernández Socio Director de Daedalus S.A. Profesor Asociado Universidad Carlos III de Madrid [email protected] Daedalus, S.A. Tel: +34 913324301 [email protected] http://www.daedalus.es @daedalus_sa

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Bibliografía

§  Aggarwal, Charu C., & Zhai, ChengXiang (2012). A survey of text classification algorithms. In Mining text data (pp. 163–222).

§  El Poder de los datos, Informe de la Fundación Bankinter, Mayo 2015

§  Europeans becoming enthusiastic users of online health information, EU report, 2014

§  María Herrero Zazo, Semantic Resources in Pharmacovigilance: A Corpus and an Ontology for Drug-Drug Interactions, Directores: Isabel Segura-Bedmar y Paloma Martínez, Universidad Carlos III de Madrid, Departamento de Informática, 2015

§  Martínez,P., Nuevo sistema para detectar efectos adversos de los medicamentos usando redes sociales, 2015, Oficina de Información Científica, Universidad Carlos III de Madrid

§  Martin Krallinger et al. CHEMDNER: The drugs and chemical names extraction challenge. Journal of Cheminformatics, 7(Suppl 1):S1 (2015)

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Bibliografía

§  Maynard, D. Et al, NLP Techniques for Term Extraction and Ontology Population, Proceedings of the 2008 conference on Ontology Learning and Population: Bridging the Gap between Text and Knowledge, Pages 107-127

§  Monitorización de la alergia en Twitter, Fundación Telefónica, 2015 §  Isabel Segura-Bedmar, Paloma Martínez, Ricardo Revert , Julián Moreno-Schneider,

(2015). Exploring Spanish Health Social Media for detecting drug effects, BMC Medical Informatics and Decision Making, June, 2015, Volumen: 15, Número: Supplement S2, Páginas: doi:10.1186/1472-6947-15-S2-S

§  Paloma Martínez, Isabel Segura-Bedmar, Thierry Declerck, José Luis Martínez Fernández, (2014).TrendMiner: Large-scale Cross-lingual Trend Mining Summarization of Realtime Media Streams, September, 2014, Procesamiento del Lenguaje Natural , Volumen: 53, Páginas: 163-166