Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas...

62
Algunos problemas computacionales en metagenómica Francesc Rosselló Grupo de Biología Computacional y Bioinformática (UIB) Técnicas Inteligentes en Bioinformática Sevilla, 16 de junio de 2014

Transcript of Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas...

Page 1: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Algunos problemas computacionales enmetagenómica

Francesc Rosselló

Grupo de Biología Computacional y Bioinformática (UIB)

Técnicas Inteligentes en BioinformáticaSevilla, 16 de junio de 2014

Page 2: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Los reyes de la Tierra?

2 / 53

Page 3: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Los reyes de la Tierra?

2 / 53

Page 4: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Aunque sólo sea por número

N. C. Kyrpides, Nature Biotech. 27 (2009), 627–6323 / 53

Page 5: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Los microbios controlan la atmósfera

El ciclo del carbono

Fuente: http://www.bigelow.org/foodweb/carbon_cycle.jpg4 / 53

Page 7: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Los verdaderos amos

6 / 53

Page 8: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Cómo se estudian los microbios?

Era pre-genómica: 1650-1975

7 / 53

Page 9: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Cómo se estudian los microbios?

Era genómica: 1975-. . .

• 1975-1980: Primeros genomas de virus secuenciados

• 1995: Primer genoma de bacteria secuenciado H. influenziæ

• Hoy: Más de 3.000 genomas completos de microorganismossecuenciados y depositados en GenBank, 12.000 proyectos desecuenciado de microorganismos en marcha sólo en el DoE.

• Básicamente, microbios en cultivos puros o (a partir de 2005)de especies dominantes en su comunidad o de genomafácilmente separable.

8 / 53

Page 10: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Cómo se estudian los microbios?

The new science of metagenomics. The National Academies Press (2007). Fig. 1-3

9 / 53

Page 11: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Cómo se estudian los microbios?

The new science of metagenomics. The National Academies Press (2007). Fig. 1-3

10 / 53

Page 12: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Metagenómica

La metagenómica (más allá del estudio genómico de un soloorganismo) analiza las colecciones de secuencias obtenidas demuestras microbianas ambientales

De moda porque:• La mayoría de los microbios no se pueden estudiar aislados enlaboratorios

• El estudio de las comunidades microbianas es más interesante

• Las nuevas técnicas de secuenciación producen cantidadesgrandes de secuencias de DNA a bajo coste

11 / 53

Page 13: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Metagenómica

Secuenciadores de nueva generación

A. Magi et al, Genes 1 (2010), 294–307

12 / 53

Page 14: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Oportunidades en metagenómica

13 / 53

Page 15: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Pasos de un estudio metagenómico

The new science of metagenomics. The National Academies Press (2007). Fig. 4-114 / 53

Page 16: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

15 / 53

Page 17: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

2 Muestreo• Las muestras han de ser representativas: Cálculo de curvas de

rarefacción

S. Monira, S Nakamura et al, Front. Microbiol. 2 (2011), 228

• Elección de las condiciones de muestreo

• Metadatos (para poder reciclar los datos)

15 / 53

Page 18: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

2 Muestreo

3 Extracción de las macromoléculas que se usarán• Marcadores específicos

• Secuenciado shotgun aleatorio de DNA

15 / 53

Page 19: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

2 Muestreo

3 Extracción de las macromoléculas que se usarán

4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )

15 / 53

Page 20: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

2 Muestreo

3 Extracción de las macromoléculas que se usarán

4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )

5 Procesado computacional de las secuencias• Identificación de anomalías

• Identificación de OTU

15 / 53

Page 21: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

2 Muestreo

3 Extracción de las macromoléculas que se usarán

4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )

5 Procesado computacional de las secuencias

6 Análisis filogenético o taxonómico de la muestra de secuencias

15 / 53

Page 22: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

2 Muestreo

3 Extracción de las macromoléculas que se usarán

4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )

5 Procesado computacional de las secuencias

6 Análisis filogenético o taxonómico de la muestra de secuencias

7 Análisis de la comunidad

15 / 53

Page 23: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

rRNA

X. C. Morgan, C. Huttenhower, PLoS Comput. Biol. 8 (2012), e1002808 16 / 53

Page 24: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

rRNA

Subunidades 16S (bacterias y archaea) y 18S rRNA (hongosunicelulares)

Fuente: B. Alberts et al, Molecular biology of the cell

17 / 53

Page 25: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

rRNA

Subunidades 16S (bacterias y archaea) y18S rRNA (hongos unicelulares):

• Largas• Ubicuas• Baratas de obtener y secuenciar• Estructura y función altamenteconservadas: buen marcadorevolutivo

18 / 53

Page 26: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

rRNA

Subunidades 16S (bacterias y archaea) y18S rRNA (hongos unicelulares):

• Largas• Ubícuas• Baratas de obtener y secuenciar• Estructura y función altamenteconservadas: buen marcadorevolutivo

• Contienen pequeños trozosaltamente conservados: primersuniversales para PCR

• Contienen trozos muy variables:marcadores característicos de laespecie

19 / 53

Page 27: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

rRNA

Problemas:

• Raros en el genoma (< 0.1%)• Los trozos similares dificultan el ensamblado correcto delecturas pequeñas

• No todos los rRNA se amplifican en la misma medida con losprimers universales

• Especies con diversas copias de sus genes rRNA• No se conoce un umbral fijo de similitud que separe especies• Tendencia a producirse quimeras en la PCR

20 / 53

Page 28: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Procesado computacional de rRNA

Etapas:

1 Filtrado

2 Eliminación de quimeras y otras anomalías

3 Formación de OTU

4 Identificación de los OTU con organismos en bases de datos

Algunos paquetes permiten llevar a cabo todo el proceso:• mothur: http://www.mothur.org

• QIIME: http://qiime.org

21 / 53

Page 29: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Formación de quimeras en la PCR

22 / 53

Page 30: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Formación de quimeras en la PCR

(Aunque la PCR de emulsión las reduce)23 / 53

Page 31: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Detección computacional de quimeras: Pintail

Fuente: K. E. Ashelford, et al, Appl. Environ. Microbiol. 71 (2005), 7724–773624 / 53

Page 32: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Detección computacional de quimeras: ChiSeqI

Fuente: A. M. Arigon, G. Perrière, M. Gouy, Biochimie 90 (2008), 609–614.25 / 53

Page 33: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Detección computacional de quimeras: Otros

Bellerophon T. Huber et al, Bioinformatics 20 (2004), 2317–2319

Mallard K. E. Ashelford et al, Appl Environ Microbiol. 72 (2006), 5734–5741

ChimeraSlayer B. Haas et al, Genome Res. 21 (2011), 494–504.

Uchime R. Edgar et al, Bioinformatics 27 (2011), 2194-2200.

Perseus C. Quince et al, BMC Bioinformatics 12 (2011), 38.

DECIPHER E. S. Wright et al, Appl. Environ. Microbiol 78 (2012) 717–725

...

26 / 53

Page 34: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Agrupamiento de secuencias en OTU

• Mediante comparación con secuencias consenso (QIIME)• Aceptando o descartando secuencias nuevas

• Recalculando los consensos

• Técnicas de aprendizaje automático supervisado (redesBayesianas, SVM)

• Mediante clustering no supervisado basado en distancias deedición

En todos los casos, el OTU se representa mediante una secuenciade consenso obtenida mediante alineamiento múltiple

27 / 53

Page 35: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Agrupamiento de secuencias en OTU

Clustering no supervisado: mothur

• Alineamiento múltiple con secuencias modelo de una base dedatos (SILVA)

• Clustering jerárquico UPGMA por distancias de edición• Corte manual del árbol para producir los OTU

28 / 53

Page 36: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Agrupamiento de secuencias en OTU

Clustering no supervisado: DBC1 Parte de diversas muestras2 Preclasificación en grupos de 90% de similitud3 Usa una combinación de distancia de edición (por alin.

múltiple) e información sobre distribución en las muestras

S. P. Preheim et al, Appl Environ Microbiol. 79 (2013), 6593–6603 29 / 53

Page 37: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Bases de datos

• INSDC (International Nucleotide Sequence DatabaseCollaboration, http://www.insdc.org): agrupa secuenciasanotadas de DNA de diversos repositorios. Demasiado grande,lento y no cuidado para buscar sólo rRNA

• NCBI RefSeq (http://www.ncbi.nlm.nih.gov):Nomenclatura y clasificación taxonómica de los organismos enINSDC

• RDP (Ribosomal Database Project,http://rdp.cme.msu.edu/): Clasificación filogenética de16S rRNA procariota en INSDC

• Greengenes (http://greengenes.lbl.gov/): Clasificaciónfilogenética de 16S rRNA procariota en GenBank

• SILVA (http://www.arb-silva.de): Clasificaciónfilogenética de 16S y 18S rRNA de bacterias, archaea y hongosen el European Nucleotide Archive

30 / 53

Page 38: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Bases de datos

• INSDC (International Nucleotide Sequence DatabaseCollaboration, http://www.insdc.org): agrupa secuenciasanotadas de DNA de diversos repositorios. Demasiado grande,lento y no cuidado para buscar sólo rRNA

• NCBI RefSeq (http://www.ncbi.nlm.nih.gov):Nomenclatura y clasificación taxonómica de los organismos enINSDC

• RDP (Ribosomal Database Project,http://rdp.cme.msu.edu/): Clasificación filogenética de16S rRNA procariota en INSDC

• Greengenes (http://greengenes.lbl.gov/): Clasificaciónfilogenética de 16S rRNA procariota en GenBank

• SILVA (http://www.arb-silva.de): Clasificaciónfilogenética de 16S y 18S rRNA de bacterias, archaea y hongosen el European Nucleotide Archive

30 / 53

Page 39: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Análisis taxonómico

lecturasreferenciagenómica

estadísticas referenciataxonómica

clasificaciónno-taxonómica

clasificacióntaxonómica

mapeo

asignaciónno-taxonómica

asignacióntaxonómica

31 / 53

Page 40: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Problema de la asignación taxonómica

Input:• Una referencia genómica S (conjunto de secuencias)

• Una referencia taxonómica T (árbol) de hojas L, cada unaetiquetada con una secuencia de S

• Un conjunto R de reads (lecturas) de rRNA

Output:• Para cada Ri ∈ R , un nodo de T que represente lo mejorposible el conjunto Mi ⊆ L de secuencias que se asignan a Ri(hits)

32 / 53

Page 41: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

MEGAN

• Filtrado de hits relevantes:• Umbral de puntuación del alineamiento entre read y hoja con

BLASTX, absoluto y en porcentaje del máximo

• Para cada read, sólo los hits de máxima puntuación

• Sólo reads con un número mínimo de hits

• . . .

• Se asigna cada Ri al LCA del Mi obtenido de esta manera

D. Huson et al, Genome Res. 17 (2007), 377–386

33 / 53

Page 42: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

TANGO

http://www.lsi.upc.edu/~valiente/tango/

D. Alonso-Alemany et al, Bioinformatics 30 (2014), 17–2334 / 53

Page 43: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Precisión y Exhaustividad

VP: Verdaderos positivos FP: Falsos positivosVN: Verdaderos negativos FN: Falsos negativos

Precisión: P =VP

VP + FP

Exhaustividad: R =VP

VP + FN

Índice F : Media armónica de P y R , F =2

1P + 1

R=

2PRP + R

35 / 53

Page 44: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Precisión y Exhaustividad en una asignación taxonómicaSean• k > 0 un umbral máximo de errores de alineamiento• Ri el i-ésimo read• Mi las hojas de T que contienen Ri salvo k errores• Ti el subárbol de T con raíz el LCA de Mi• Ni las hojas de Ti que no contienen Ri salvo k errores

Hojas de Ti :• VP i = Mi

• FP i = Ni

• VN i = ∅• FN i = ∅

Ti

Ni Mi

FPi VPi 36 / 53

Page 45: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Precisión y Exhaustividad en TANGO

Sean• Tij el subárbol de Ti con raíz en el j-ésimo nodo de Ti

• Mij las hojas Tij que contienen Ri salvo k errores• Nij las hojas Tij que no contienen Ri salvo k errores

Hojas de Ti , paracada j :• VP ij = Mij

• FP ij = Nij

• VN ij = Ni \ Nij

• FN ij = Mi \Mij

Ti

Tij

Ni Nij MijMi

VNij FPij VPij FNij

37 / 53

Page 46: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Evaluación de la asignación taxonómica

• La precisión de la asignación de Ri a la raíz de Tij es

Pij =|VP ij |

|VP ij |+ |FP ij |

• La exhaustividad de la asignación de Ri a la raíz de Tij es

Rij =|VP ij |

|VP ij |+ |FN ij |

• El índice F de la asignación de Ri a la raíz de Tij es

Fij =2PijRij

Pij + Rij

38 / 53

Page 47: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

BacteriaAquificae

AquificaeAquificales

AquificaceaeAquifex

Aquifex pyrophilusHydrogenobaculum

Hydrogenobaculum acidophilumHydrogenobacter

Hydrogenobacter subterraneusHydrogenobacter thermophilusHydrogenobacter hydrogenophilus

PersephonellaPersephonella hydrogeniphilaPersephonella marinaPersephonella guaymasensis

SulfurihydrogenibiumSulfurihydrogenibium subterraneumSulfurihydrogenibium azorenseSulfurihydrogenibium yellowstonense

ThermocrinisThermocrinis albusThermocrinis ruber

HydrogenivirgaHydrogenivirga caldilitoris

P = 6/(6+ 8) = 43%R = 6/(6+ 0) = 100%

F = 60%

P = 3/(3+ 0) = 100%R = 3/(3+ 3) = 50%

F = 67%

39 / 53

Page 48: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Evaluación de la asignación taxonómica

• El índice F de la asignación de Ri a la raíz de Tij es

Fij =2PijRij

Pij + Rij=

2|VP ij ||FN ij |+ |FP ij |+ 2|VP ij |

• La penalización de la asignación de Ri a la raíz de Tij es

PS ij = q|FN ij ||VP ij |

+ (1− q)|FP ij ||VP ij |

Asignaremos cada Ri minimizando PS . El parámetro q ∈ [0, 1]influye en la altura de la asignaciónq = 0 Cada Ri se asigna a una hojaq = 0.5 Cada Ri se asigna a un nodo de maximiza F (Teorema)q = 1 Cada Ri se asigna al LCA de Mi

40 / 53

Page 49: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Protocolo de asignación taxonómica

• Aplicar una herramienta de mapeo de reads a R y T paracalcular el conjunto de hits Mi para cada Ri ∈ R

• Especificar q ∈ [0, 1]

• Para cada Ri ∈ R• Si |Mi | = 0, la salida es null• Si |Mi | = 1, la salida es la hoja en Mi• Si no, la salida son los nodos j de Ti con menor PS i,j

41 / 53

Page 50: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Protocolo de asignación taxonómica

TeoremaDados un conjunto Mi ⊆ L de hits y el subárbol Ti de T con raízsu LCA:• Todas las penalizaciones PSi ,j se pueden calcular en tiempototal O(|Ti |)

• Todas las penalizaciones PSi ,j se pueden calcular en tiempototal O((|Mi |) con un preprocesado (común) en tiempoO(|T |)

42 / 53

Page 51: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Análisis de la comunidad

• Estudio de la biodiversidad por comunidad

• Comparación de composiciones de comunidades

• Predicción de asociación de especies con metadatos

• Análisis de correlaciones para detectar grupos demicroorganismos

43 / 53

Page 52: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Biodiversidad

Obtenemos Ni observaciones del OTU si• Estimación de abundancias relativas

xi =Ni + 1∑i (Ni + 1)

Se puede obtener también su distribución de probabilidad (másinformativo)

P(x |N) = Dir(N + 1)

• Entropía de Shannon para estimar biodiversidad (la máspopular)

H = −∑i

xi ln(xi )

• Número efectivo de especies

neff = eH

44 / 53

Page 53: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Distancia UniFrac entre comunidades

La distancia más popular es UniFrac: la distancia entre lacomunidad A y la comunidad B es la fracción de ramas del árbolfilogenético o taxonómico de las que cuelgan OTU de A o de Bpero no de ambos

Similar Communities Maximally Different Communities

UniFrac Distance Measure = (------) / (------ + ------)

C. Lozupone, R. Knight, Appl. Env. Microbiol. 71 (2005), 8228–8235

45 / 53

Page 54: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Distancia UniFrac entre comunidades

Versiones con pesos según abundancias:

dW (A,B) =

∑i`i |pAi − pBi |∑

i`i (pAi + pBi )

d (α)(A,B) =

∑i`i (pAi + pBi )

α |pAi −p

Bi |

pAi +pB

i∑i`i (pAi + pBi )α

donde• `i : longitud del arco i

• pAi , pBi : abundancias relativas de OTU de A y B que cuelgan

de idW (A,B): C. Lozupone et al, Appl. Environ. Microbiol. 73 (2007), 1576–1585.

d(α): J. Chen et al, Bioinformatics 28 (2012), 2106–2113

46 / 53

Page 55: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Distancia UniFrac entre comunidades

MDS con la distancia UniFrac

¿Qué significan los ejes?

F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e56859

47 / 53

Page 56: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Edge PCA

Partimos de S muestras y un árbol filogenético con E arcos.

1 Para cada muestra s y cada arco e, se calcula el número dereads en s que cuelgan del arco menos el número de los que nocuelgan del arco

2 Organizamos estas diferencias como una matriz S × E : filas,muestras, columnas, arcos

3 Se aplica el PCA. (Con suerte) Los primeros vectoresprincipales explican la mayor parte de la variabilidad de lasmuestras

4 Los vectores principales son combinaciones de arcos, y sepueden visualizar/interpretar en el árbol

5 La proyección sobre los primeros vectores principales ayuda avisualizar la similitud de las muestras

F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e56859

48 / 53

Page 57: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Edge PCA

Microbioma vaginal:

1er vector principal → 56% devariabilidad total

2o vector principal → 24% devariabilidad total

F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e5685949 / 53

Page 58: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Edge PCA

F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e5685950 / 53

Page 59: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Correlaciones entre grupos de microorganismos

Para cada especie xi , se estima su abundancia relativa xil en lacomunidad l :

x i = (xi1, . . . , xim)

• Usar correlación de Pearson sobre datos dependientes esincorrecto

• Se han hecho simulaciones mostrando que, en efecto, su usoen variables composiciones en metagenómica da resultadossesgados

51 / 53

Page 60: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

SparCC

Para cada especie xi , se estima su abundancia relativa xil en lacomunidad l :

x i = (xi1, . . . , xim)

• y ij = log(x i/x j) tiene información sobre abundancias absolutas

• tij = Var(y ij)

• tij = ω2i + ω2

j − 2ρijωij donde las ω son las (co)varianzas dellog de abundancias absolutas y ρij su correlación

• Se pueden aproximar las ω si suponemos ρij ≈ 0 y muchosρij = 0 (sparse correlation), y se despejan las ρij

• Se itera eliminando los pares de especies más correlacionados

L. Friedman, E. J. Alm, PLoS Comput Biol 8 (2012), e1002687

52 / 53

Page 61: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)

Y éste era el enfoque fácil

Los problemas computacionales en metagenómica con secuenciadoshotgun son mucho más difíciles.

Lectura recomendada:• V. Kunin et al, “A Bioinformatician’s Guide to Metagenomics”.Microbiol. Mol. Biol. Rev. 72 (2008), 557–578

• Briefings in Bioinformatics, Special Issue on Bioinformaticsapproaches and tools for metagenomic analysis, 13 (6) 2012

53 / 53

Page 62: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)