MEDICINA BASADA EN EVIDENCIA: … · Gorra Devars, Daniela Trejo Medina, Daniel DIVULGACIÓN...

10
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/311735646 Medicina basada en evidencia: introducción al análisis de datos con topología algebráica Working Paper · November 2016 DOI: 10.13140/RG.2.2.13215.76966 CITATIONS 0 READS 165 2 authors, including: Some of the authors of this publication are also working on these related projects: Modelo y algoritmo de inteligencia basado en teoría ergodica View project Medicina basada en evidencia View project Daniel Trejo-Medina DSA Soluciones 13 PUBLICATIONS 0 CITATIONS SEE PROFILE All content following this page was uploaded by Daniel Trejo-Medina on 20 December 2016. The user has requested enhancement of the downloaded file.

Transcript of MEDICINA BASADA EN EVIDENCIA: … · Gorra Devars, Daniela Trejo Medina, Daniel DIVULGACIÓN...

Page 1: MEDICINA BASADA EN EVIDENCIA: … · Gorra Devars, Daniela Trejo Medina, Daniel DIVULGACIÓN CIENTÍFICA DSA SOLUCIONES® Ciudad de México ...

See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/311735646

Medicina basada en evidencia: introducción al análisis de datos con topología

algebráica

Working Paper · November 2016

DOI: 10.13140/RG.2.2.13215.76966

CITATIONS

0READS

165

2 authors, including:

Some of the authors of this publication are also working on these related projects:

Modelo y algoritmo de inteligencia basado en teoría ergodica View project

Medicina basada en evidencia View project

Daniel Trejo-Medina

DSA Soluciones

13 PUBLICATIONS   0 CITATIONS   

SEE PROFILE

All content following this page was uploaded by Daniel Trejo-Medina on 20 December 2016.

The user has requested enhancement of the downloaded file.

Page 2: MEDICINA BASADA EN EVIDENCIA: … · Gorra Devars, Daniela Trejo Medina, Daniel DIVULGACIÓN CIENTÍFICA DSA SOLUCIONES® Ciudad de México ...

DSA Soluciones® 2016 Página 1 de 9 Investigación y Desarrollo

MEDICINA BASADA EN EVIDENCIA: INTRODUCCIÓN AL ANÁLISIS DE

DATOS CON TOPOLOGÍA ALGEBRÁICA

Gorra Devars, Daniela Trejo Medina, Daniel DIVULGACIÓN CIENTÍFICA DSA SOLUCIONES®

Ciudad de México

___________________________________________________________________________________________________________________

Resumen

La aplicación del análisis de datos es tan amplia como la cantidad de datos que podemos generar diariamente, históricamente los datos no se hallaban estructurados (recetas, papers, investigaciones) y su generación procedía de dispositivos analógicos, actualmente la mayoría son digitales y se han ordenado de tal forma que podemos analizarlos. De acuerdo con el tema que manejamos (medicina, educación, negocios) existen distintas formas de ejecutar el análisis de datos y de mejorar las competencias para la toma de decisiones, a continuación, comentamos brevemente una desde la perspectiva simple de la topología como una posible opción de análisis.

___________________________________________________________________________________________________________________

En un mundo donde casi todo se almacena en datos, es natural que las empresas y los gobiernos quieran analizarlos, para así comprender nuestra conducta y poder hacer predicciones o ajustar su manera de actuar, de esta manera pueden conseguir maximizar sus ventas, mejorar los servicios públicos, desarrollar nuevas tecnologías, etc.

Un ejemplo, la medicina basada en evidencia, es una práctica que genera una gran cantidad de datos, contenido e información, ya sea como diagnóstico o investigaciones las cuales pueden incidir en la práctica clínica actual.

Como médico o investigador, el analizar resultados de ensayos clínicos, revisiones metódicas, trabajo cualitativo, modelización teórica, análisis de bases de datos y análisis cuantitativo no es una tarea sencilla, pero el conocimiento embebido e implícito en esas fuentes diversas de información puede proporcionar indicadores no evidentes que facilitarían o mejorarían el diagnóstico de una enfermedad en la atención primaria o posterior.

Una referencia relevante es que el conocimiento explícito actual, pese a ser accesible para todos, no se ha explotado con una habilidad de inteligencia colectiva de forma abierta y consulta masiva al público en general, para evitar posibles reclamos de eventos previos que pudieron ser evitados, pero al tener una cantidad tan grande de datos no es factible (Trejo Medina, 2012).

Actualmente la tecnología permite explotar fuentes agnósticas de contenido para impulsar un mejor análisis y fomentar que los datos e información sigan al usuario o médico, con un objetivo impulsar una atención sanitaria de calidad, el de fomentar una inteligencia colectiva en beneficio del paciente en tiempo y forma mas eficiente (Trejo Medina, 2012).

Page 3: MEDICINA BASADA EN EVIDENCIA: … · Gorra Devars, Daniela Trejo Medina, Daniel DIVULGACIÓN CIENTÍFICA DSA SOLUCIONES® Ciudad de México ...

DSA Soluciones® 2016 Página 2 de 9 Investigación y Desarrollo

Ilustración3.Redesneuronales.Fuente:Adaptacióndescikit-learn(s.f.)

Esta forma de análisis no sólo queda a nivel médico en la práctica clínica, puede incidir positivamente en la política institucional o de planeación de salud pública.

A continuación, se presenta una base sencilla del uso de la topología para su aproximación y sustento desde la parte matemática.

Los métodos clásicos para análisis de datos son regresión lineal, regresión logística, y logística anidada, conocida como redes neuronales:

a) Los datos nos pueden dar varias características de un objeto que sirven para determinar otra característica del mismo objeto, llamada resultado. Por ejemplo, el tamaño, ubicación, número de cuartos, etc. de una casa, ayudan a determinar el precio de la casa. Así, podemos predecir el resultado (precio) de nuevos objetos (casas), teniendo sus características y una base de datos de características y resultados de otros objetos (características y precios de casas). Para este análisis se usa la regresión lineal (hacer pasar una línea lo más cerca posible de todos los datos).

b) Pueden darnos varias características de un objeto para hacer clasificaciones. Por ejemplo, al tener ubicación, tamaño y apariencia de varios tumores, malignos y benignos, teniendo las mismas características de un nuevo tumor podemos predecir si es maligno o no, para ello se emplea el algoritmo conocido como la regresión logística, que separa a los datos mediante una curva pues una línea recta no puede hacerlo. c) Pueden darnos todas las características de los

objetos, y el análisis consiste en buscar un agrupamiento de los datos. Por ejemplo, sabiendo ubicación geográfica, edad, sexo y condiciones de vivienda, se puede hallar una relación entre posibles enfermedades y el medio ambiente. Otro ejemplo es el reconocimiento de imágenes por parte de una computadora. Para esto, se usa logística anidada más de una vez.

Podemos mencionar que es complicado aplicar regresión lineal al problema de las enfermedades, pues ninguna línea recta hará una separación correcta de los datos, del mismo modo que es complicado aplicar el algoritmo de regresión logística. Así pasa con todas las diferentes distribuciones espaciales: la solución que aplica para una, no aplica para las demás.

Ilustración1.Regresiónlineal.Fuente:Gorra(2016)

Ilustración2.Regresiónlogística.Fuente:AdaptacióndeFischetti(2014)

Page 4: MEDICINA BASADA EN EVIDENCIA: … · Gorra Devars, Daniela Trejo Medina, Daniel DIVULGACIÓN CIENTÍFICA DSA SOLUCIONES® Ciudad de México ...

DSA Soluciones® 2016 Página 3 de 9 Investigación y Desarrollo

Esto ya nos deja ver dos principios básicos en el análisis de datos, que dejan ver la justificación del uso de topología (Carlsson, 2015):

1. Todos los datos tienen forma

2. La forma importa.

Para emplear un método de análisis a los datos, debemos conocer la forma en que éstos se distribuyen en el espacio; sin embargo, conocer la forma no es tan sencillo como graficarlos y comparar: para empezar, rara vez los datos se presentan en tercera o segunda dimensión, haciéndonos imposible visualizarlos como lo hicimos ante; además, describimos aquí sólo tres tipos de distribuciones que presentan, pero estas no son todas, son una mínima parte: la cantidad de figuras que pueden presentar los datos es vasta (Carlsson, 2015).

Otro problema para conocer la forma subyacente es el ruido, los datos rara vez se presentan limpios: hay ruido por errores de medición, comportamientos fuera de lo común, fenómenos naturales, por mencionara algunos; aunque la estructura subyacente a los datos sea clara y fácilmente identificable, el ruido puede ocultarla haciéndola irreconocible, y hacer particularmente difícil encontrar la estructura de las figuras (Lesnick, 2013): en la ilustración 4 presentamos la distribución con y sin ruido, en este ejemplo el ciclo se pierde en el ruido, resultando en una posible identificación incorrecta de patrones.

Es aquí donde se utiliza la topología: para encontrar la forma de los datos. Consideremos desde el punto de vista técnico informático que las fuentes de datos no sólo están en bases de datos, están en textos planos, en archivos PDF, incluso en formatos propietarios de imagenología y que para analizarlos no deberíamos utilizar métodos obsoletos o métodos que pretenden aplanar la información, para hacer una minería de datos heredada, es decir, no modificar las propiedades de los datos y mantenerlas, y sobre este universo hallar las relaciones no evidentes.

Informalmente, la topología es la rama de las matemáticas interesada en las propiedades que preserva un objeto al ser contraído, dilatado o deformado, pero sin romperlo: es decir, sin ‘despegar’ ni ‘pegar’ partes de la figura original. Una de las propiedades que se preservan al hacer estas deformaciones son los hoyos de una figura (Lesnick, 2013), por ejemplo: un vaso y una esfera (rellena) son topológicamente equivalentes, al igual que una taza y una dona, pero la taza y el vaso no, porque la taza tiene un asa: tiene un espacio libre completamente rodeado por el objeto.

DatosconruidoDatossinruido

Ilustración4.Datosquepresentanunaestructuracíclicaconysinruido.Fuente:AdaptacióndeLesnick(2013)

Page 5: MEDICINA BASADA EN EVIDENCIA: … · Gorra Devars, Daniela Trejo Medina, Daniel DIVULGACIÓN CIENTÍFICA DSA SOLUCIONES® Ciudad de México ...

DSA Soluciones® 2016 Página 4 de 9 Investigación y Desarrollo

A la topología no le importa la forma, en el sentido tradicional y más básico de la palabra, de un objeto, sino la cantidad de hoyos que tiene. En la figura 5 tenemos objetos con 0, 1 y 2 hoyos, respectivamente, y sus equivalencias topológicas. Destacando que hay diferentes tipos de hoyos (Lesnick, 2013): si la pelota de tenis no fuera sólida, sino que estuviera vacía por dentro, como una pelota de plástico, tendría un hoyo por dentro. Este hoyo es de tercera clase, es decir, tridimensional. Claramente, de tenerlo, la pelota no sería equivalente al vaso ni al

ladrillo. Entonces, de cierta manera sí le importa la forma, pero de una manera distinta a la que se está acostumbrado.

Si observa la noción aplicada a gráficas: si se tienen 3 ciclos (gráficas cerradas) en un espacio agujerado, como en la ilustración 6, dos ciclos (el rojo y el azul) rodean al hoyo, se puede decir que son esencialmente el mismo, pues se puede encoger el azul al rojo sin salirse del espacio. En cambio, el ciclo verde no es equivalente, pues para ‘emparejarlo’ con los otros, debería pasar por el hoyo (salir del espacio), o romper el ciclo y volverlo a pegar, cosas que no permite la topología. La relación de equivalencia que empareja entre los ciclos azul y rojo se basa en la yuxtaposición de los objetos (ciclos), es encontrada por la topología algebraica, que nos da, además, invariantes para parametrizar ciclos equivalentes más grandes, aunque no estén en la figura, pues la yuxtaposición de ciclos induce clases de equivalencia. Dentro cada una de ellas, están los ciclos equivalentes entre sí.

Cada clase de equivalencia da origen a un grupo homotópico, pese a ello encontrarlos es difícil, pues el proceso implica relaciones de generación y relación de grupos libres como menciona Carlsson (2009) “Un grupo libre F! es aquel que presenta todas las posibles expresiones de los elementos de S”, así, en vez de estos grupos, se usa una especie de simplificación, explicada más adelante: los grupos homólogos

Otra de las propiedades que preserva la topología es el número de componentes u objetos separados que forman las cosas, por ejemplo, el signo + está formado por un sólo elemento, el signo ! está formado por dos, y el signo % por tres, podemos deformarlos como queramos, pero el número de elementos que los forman, es decir, la cantidad de objetos separados que los componen, no cambia, formalmente, esto es equivalente al problema de contar los hoyos que presenta una figura (Lesnick, 2013).

Como puede notar, son las distancias entre puntos lo que cambia o ‘no importa’ en la topología: da lo mismo el ciclo azul que el rojo, aunque el azul esté más lejos del hoyo, y aunque haya una distancia mayor a cero entre cada uno de los puntos del ciclo azul y su punto más cercano del ciclo rojo, lo que ocurre es que la distancia que se usa no es la

Ilustración6.Equivalenciatopológicadeciclos.Fuente:Gorra(2016)

Ilustración5.Equivalenciastopológicas.Fuente:Gorra,2016

Page 6: MEDICINA BASADA EN EVIDENCIA: … · Gorra Devars, Daniela Trejo Medina, Daniel DIVULGACIÓN CIENTÍFICA DSA SOLUCIONES® Ciudad de México ...

DSA Soluciones® 2016 Página 5 de 9 Investigación y Desarrollo

euclidiana, que es la que regularmente se conoce, en cambio, se consideran subconjuntos: si dos puntos están en el mismo subconjunto, la idea intuitiva es que su distancia sea cero, sin embargo, no puede ser igual a cero, pues por definición de distancia, d x, y = 0 ↔ x = y. Entonces, se introduce la noción de proximidad infinita (Carlsson, 2008, 2009; Nanda, 2016).

Así, dos puntos del mismo subconjunto están infinitamente cerca, para el pretzel de arriba, por ejemplo, el subconjunto considerado es precisamente el pretzel, cualquier punto del pretzel, por estar en él, está infinitamente cerca de cualquier otro punto del pretzel, así, no importa cómo lo deformemos, pues los puntos en el nuevo objeto (las tijeras, por ejemplo) siguen estando infinitamente cerca unos de otros.

Este concepto no usa métricas, pues como dijimos anteriormente, la elección y el uso de éstas no está justificado en las ciencias aplicadas, en cambio, es el concepto intuitivo detrás de la topología, que da la idea de pertenecer a la misma vecindad (dos puntos son ‘infinitamente cercanos’ si y sólo si están en la misma vecindad) sin tener que hablar de distancia o métricas (una topología puede existir aunque no haya métrica).

Formalmente: Sea 𝑋 un conjunto y τ una colección de subconjuntos de 𝑋 con las siguientes propiedades

i) Ø,X ∈ τ (τ contiene al conjunto vacío y al todo, X)

ii) A! i ϵ I} ⊆ τ → A!!!! ⊆ τ (la unión finita arbitraria de subconjuntos de τ está en τ)

iii) A! ⊆ τ, 1 ≤ i ≤ n → A!!!!! ⊆ τ (la intersección finita de subconjuntos de τ está en τ)

Entonces, τ es una topología sobre 𝑋, y 𝑋, τ es un espacio topológico. (Körner, 2015)

¿Cómo puede la topología darnos la forma de los datos?

Para empezar, los puntos se presentan como puntos inconexos en el espacio, de modo que si nuestro set de datos es 𝑋, con 𝑛 entradas, tendremos 𝑛 componentes separadas sin ningún hoyo, de modo que no nos dice nada interesante (Lesnick, 2013), por lo tanto, para encontrar estructuras, no se puede considerar simplemente el análisis topológico de X: se necesita que los puntos estén conectados de alguna manera, creando gráficas.

La topología se ayuda de “ensanchamientos” de 𝑋, esto quiere decir que si toma un número pequeño positivo 𝛿, y para cada dato 𝑖, en vez de considerar a 𝑖 , considera 𝐵!(𝑖), la bola con centro en 𝑖 y radio 𝛿, al final, obtiene un engrosamiento 𝑇(𝑋, 𝛿), donde cualquier punto en 𝑇 𝑋, 𝛿 está a una distancia menor o igual a 𝛿 de un punto de 𝑋 (Lesnick, 2013). En la ilustración 7 se muestra en negro los puntos pertenecientes a X y en rojo su engrosamiento.

Si conectamos a dos puntos 𝑥 y 𝑦 si las bolas de radio 𝛿 con centro en 𝑥 y 𝑦 se intersecan, es decir, si 𝐵! 𝑥 ∩ 𝐵! 𝑦 ≠ ∅, después de esto, se ‘rellenan’ las formas creadas para crear conjuntos convexos (Carlsson, 2009), estos sirven para la formación de simplejos, que son la equivalencia n-dimensional a un triángulo.

Page 7: MEDICINA BASADA EN EVIDENCIA: … · Gorra Devars, Daniela Trejo Medina, Daniel DIVULGACIÓN CIENTÍFICA DSA SOLUCIONES® Ciudad de México ...

DSA Soluciones® 2016 Página 6 de 9 Investigación y Desarrollo

Si se escoge 𝛿 correctamente, los grupos (cúmulos) de 𝑋 corresponderán a elementos de 𝑇 𝑋, 𝛿 , mientras que los ciclos de 𝑋 serán los hoyos de 𝑇 𝑋, 𝛿 (Lesnick, 2013), sin embargo, estas estructuras son débiles frente al ruido, y la elección de 𝛿 no es clara desde el principio, por lo que, en vez de usar una sola 𝛿 fija, se considera una familia de objetos 𝑇 𝑋, 𝛿 , para distintos valores de 𝛿, estas 𝛿 son elegidas arbitrariamente y se toma una cantidad finita de ellas, que depende del problema que a estudiar, así las figuras más persistentes son quienes representan mejor las características de los datos, lo demás es considerado ruido. Que una figura sea persistente significa que es recurrente (que se presenta un mayor número de veces en las iteraciones de las distintas 𝛿), esto se llama homología persistente y es la herramienta clave detrás de la topología de datos (Lesnick, 2013).

Para poder aplicar, automatizada, homología persistente, se usan los números de Betti (Rote y Gert, 2007; Delfinado y Edelsbrunner, 2009; Carlsson 2009), estos son un vector n-dimensional que básicamente nos da la topología de un objeto: cada número k nos dice la cantidad de superficies independientes k-dimensionales, así, el primer número indica la cantidad de componentes que tenemos, y si lo analizamos con hoyos, para k ≥ 2 el número k nos dice cuántos hoyos de dimensión k hay en el objeto, por ejemplo, para un globo (en tercera dimensión) los números de Betti son 𝛽! = 1,𝛽! = 0,𝛽! = 0,𝛽! = 3, para una pelota rellena, son 𝛽! = 1,𝛽! = 0,𝛽! = 0,𝛽! = 0.

Para calcular matemáticamente los números de Betti, se necesita trabajar en un complejo simplicial, estos están formados por simplejos: un simplejo es la envoltura convexa de un conjunto de puntos independientes; un complejo simplicial 𝐾 es un conjunto finito de simplejos que cumple que si un simplejo pertenece a 𝐾, entonces todas sus caras pertenecen a 𝐾, y que si dos simplejos se cortan, su intersección es cara común (Rote y Gert, 2007; Delfinado y Edelsbrunner), los simplejos creados a partir del engrosamiento 𝑇(𝑋, 𝛿) del conjunto de datos 𝑋 son usados para formar el complejo simplicial 𝐾.

Definimos además 𝐻! 𝐾,ℚ como el k-ésimo vector de homología de 𝐾 sobre ℚ (los racionales), y puede ser escrito como

𝐻! 𝐾,ℚ =𝑘𝑒𝑟 𝜕!𝑖𝑚 𝜕!!!

donde 𝜕! es la frontera de un simplejo, que es un mapeo lineal entre espacios vectoriales. Si 𝐴!!!! son los 𝑘-simplejos de 𝐾, tomamos la 𝑘-cadena 𝑥 = 𝑔!!

!!! 𝐴!!

Ilustración7.Creacióndegruposhomológicosycomplejossimpliciales.Fuente:AdaptacióndeCarlsson(2009)

Page 8: MEDICINA BASADA EN EVIDENCIA: … · Gorra Devars, Daniela Trejo Medina, Daniel DIVULGACIÓN CIENTÍFICA DSA SOLUCIONES® Ciudad de México ...

DSA Soluciones® 2016 Página 7 de 9 Investigación y Desarrollo

𝜕(𝑥) = 𝑔!𝜕!

!!!

(𝐴𝑖𝑘)

donde 𝑔! son coeficientes de un grupo abeliano.

Es sólo ahora que se puede presentar el algoritmo para encontrar los números de Betti. El algoritmo, descrito por Rote y Gert (2007) y Delfinado y Edelsbrunner (s.f.) es el siguiente:

𝛽! 𝐾,ℚ = 𝑑𝑖𝑚𝐻! 𝐾,ℚ

Es decir,

β! K,ℚ = dim(ker ∂!)− dim(im ∂!!!)

Recordando que la dimensión de un espacio vectorial no es más que la cardinalidad de una base del mismo.

Aunque parezca lo contrario, encontrar estos conjuntos es difícil: simplemente, la construcción de complejos simpliciales presenta un reto a los programadores. Es importante tomar en cuenta que, además, normalmente se trabaja en dimensiones altísimas: en las aplicaciones vemos un ejemplo 24,479-dimensional, manejar datos en dimensiones tan altas no es una tarea sencilla, independientemente de la experiencia y habilidad del programador.

En la medicina basada en evidencia

Actualmente, la topología para análisis de datos es usada en un amplio número de campos, muy diversos entre sí, lo que nos deja vislumbrar la fuerza e importancia de esta herramienta. Presentaremos dos importantes aplicaciones, en campos completamente distintos: medicina e inteligencia artificial, y el gran impacto que tuvo la topología para análisis de datos en estos campos.

Medicina: descubrimiento de un nuevo subtipo de cáncer de seno: en 2011, un grupo de científicos dirigidos por Nicolau (2011), estudiaron una base de datos de expresión genética de los tumores de cáncer de seno de 295 pacientes, representaron la información en un espacio 24,479-dimensional, cada punto correspondía a un tumor y cada coordenada, al nivel de expresión de un gen en tejido del tumor (el ser humano tiene entre 20 y 25 mil genes).

Mapearon después estos datos del espacio 24,479-dimensional a uno 262-dimensional, conservando únicamente los aspectos de la estructura relevantes al cáncer, utilizando topología, descubrieron que los datos se repartían en una Y, donde cada brazo corresponde a un tipo de cáncer de seno, pese a ello, uno de los brazos se subdividía en tres cúmulos, cada uno un subtipo de cáncer, dos de ellos eran ya conocidos, pero el tercero no, lo llamaron c-MYB+, y representa el 7.5% de los tumores en el set de datos.

Las clasificaciones estándar de cáncer lo dividen en 5 tipos. El subtipo c-MYB+ caía en 3 de los 5 grupos, a pesar de ser muy distinto a cualquier otro tipo de cáncer.

Page 9: MEDICINA BASADA EN EVIDENCIA: … · Gorra Devars, Daniela Trejo Medina, Daniel DIVULGACIÓN CIENTÍFICA DSA SOLUCIONES® Ciudad de México ...

DSA Soluciones® 2016 Página 8 de 9 Investigación y Desarrollo

En inteligencia artificial, en el reconocimiento de imágenes, médicas o de otro tipo, se aplica topología para analizar una base de datos de números 2 escritos a mano, con esto, se puede identificar la estructura esencial detrás de la imagen del número dos y lo demás fue descartado como ruido (Tenenbaum, V.S. y Langford, J.C., 2000).

El mismo principio es utilizado para descartar caras en las fotografías, o más aún, la cara de una persona en particular en una fotografía. Es también este principio detrás de las búsquedas por imagen en el famoso buscador de google®.

Conclusión

El método de topología para análisis de datos es el que muestra mejores resultados, siendo relativamente nuevo (comparado con otros métodos de inteligencia artificial), es entendible que siga sin ser el más popular; sin embargo, presenta grandes beneficios respecto a otros algoritmos, especialmente al ser usado en la solución de problemas aplicados, como es el caso de cualquier disciplina que no sea matemática ni física.

La mayor ventaja que presenta la topología frente a otros métodos de análisis de datos es la precisión de resultados, se conoce que una mala categorización de los datos muy probablemente lleva a un análisis incorrecto de los mismos, sobre todo con si ocupa tecnologías heredadas en el procesamiento, lo que arroja resultados erróneos, en varias ocasiones muy alejados de la realidad.

Estos errores son particularmente fatales cuando se trata de problemas como medicina basada en evidencia, detección de fraude o predicción de conducta de los clientes:

a) Respecto a detección de fraude, el riesgo es doble; que gente inocente sea marcada como culpable, y que gente culpable sea marcada como inocente, lo que implica gastar tiempo y dinero en investigar (o hasta incriminar) gente inocente, mientras que no se invierten esos recursos en la gente realmente culpable, gastando dinero sin encontrar la raíz del problema.

b) En cuanto a predicción de conducta, no únicamente se puede pronosticar un desarrollo de una enfermedad con base en síntomas no evidentes en relación, también puede utilizarse en otros campos: se puede predecir una gran intención de compra y gastar millones en marketing y producción de productos que en realidad la gente no quería o pueden hacerse predicciones erróneas sobre un resultado electoral.

c) Los analíticos y la consolidación de datos para su aplicación en medicina basada en evidencia puede facilitar la interpretación de imágenes, relaciones no evidentes, categorización de enfermedades o síntomas con perfil sociodemográfico, por mencionar algunos, pudiendo aplicar al manejo de inventario de material y consumibles médicos.

Cualquier organización que tenga datos y quiera explotarlos para maximizar su impacto, puede usar algoritmos de inteligencia artificial. Sin embargo, antes de aplicar cualquier algoritmo para analizar de un conjunto complejo de datos, sugerimos también como alternativa aplicar la topología para determinar el tipo de análisis a utilizar.

Page 10: MEDICINA BASADA EN EVIDENCIA: … · Gorra Devars, Daniela Trejo Medina, Daniel DIVULGACIÓN CIENTÍFICA DSA SOLUCIONES® Ciudad de México ...

DSA Soluciones® 2016 Página 9 de 9 Investigación y Desarrollo

Referencias

Carlsson, G. (2009). Topology and data. Bulletin of the american mathematical society 46(2), 255-308 http://www.ams.org/images/carlsson-notes.pdf

Carlsson, G. (2015, enero). Why topological data Works. AYASDI. Consultado el 4 de noviembre en https://www.ayasdi.com/blog/bigdata/why-topological-data-analysis-works/

Carlsson, G. (2008, junio). Topology and Data, Depatamento de Matemáticas, Stanford University. Consultado el 8 de noviembre en http://web.stanford.edu/group/mmds/ slides2008/carlsson.pdf

Delfinado, C.J.D. y Edelsbrunner, H. (s.f). An Incremental algorithm for Betti numbers of simplicial complexes on the 3-sphere. https://users.cs.duke.edu/~edels/Papers/1995-J-03-IncrementalBettiNumbers.pdf

Fischetti, T. (2014). Interactive visualization of non-linear logistic regression decisión boundaries with Shiny. On the lambda. Blog from a data analyst. Consultado el 8 de noviembre de 2016 en http://www.onthelambda.com/2014/07/24/interactive-visualization-of-non-linear-logistic-regression-decision-boundaries-with-shiny/

Körner, T.W. (2015, agosto). Metric and Topological Spaces. Obtenido el 22 de noviembre de 2016 de https://www.dpmms.cam.ac.uk/~twk/Top.pdf

Lesnick, M. (2013). Studying the shape of data using topology. Institute for Advanced Study. Consultado el 10 de noviembre en https://www.ias.edu/ideas/2013/lesnick-topological-data-analysis

Nanda, V. (2016). Algebraic Topology for Data Analysis. University of Oxford. Consultado el 14 de noviembre de 2016 en http://www.sas.upenn.edu/~vnanda/source/RSVWeb.pdf

Nicolau, M., Levine, A.J. y Carlsson, G. (2011). Topology-Based Data Analysis Identifies a Subgroup of Breast Cancers with a Unique Mutational Profile and Excellent Survival, Proceedings of the National Academy of Sciences, 108(17), 7265–7270.

Rote, G. y Gert, V. (2007). Effective Computational Geometry for curves and Surfaces. Chapter 7, Computational Topology: an introduction. Springer-Verlag, Berlin.

sickits learn (s.f.). 4.2 Clustering. Obtenido el 9 de noviembre de 2016 de http://scikit-learn.sourceforge.net/0.8/modules/clustering.html

Tenenbaum, V.S. y Langford, J.C. (2000). A global geometric framework for nonlinear dimensionality reduction, Science, 290, 2319-2323.

Trejo Medina, D. (2012). Analíticos y consolidación de datos para si aplicación en medicina basada en evidencia. Obtenido 20 de noviembre de 2016 de http://www.dantm.com/publicaciones/MBE_20mar12_pap_v1_0.pdf

View publication statsView publication stats