Presentación de la Plataforma Bioinformática de Andalucía.

59
La Plataforma Andaluza de Bioinformática : cómo utilizar la bioinformática sin morir en el intento M. Gonzalo Claros Departamento de Biología Molecular y Bioquímica PLATAFORMA ANDALUZA DE BIOINFORMÁTICA

Transcript of Presentación de la Plataforma Bioinformática de Andalucía.

Page 1: Presentación de la Plataforma Bioinformática de Andalucía.

La Plataforma Andaluza de Bioinformática: cómo utilizar la

bioinformática sin morir en el intentoM. Gonzalo Claros

Departamento de Biología Molecular y Bioquímica

PLATAFORMA ANDALUZA DE BIOINFORMÁTICA

Page 2: Presentación de la Plataforma Bioinformática de Andalucía.

Plataforma de Genómica, Proteómica y Biocomputación

Vamos a situarnos...

Investigación

Soporte a los usuarios (formación)

Acceso a recursos bioinformáticos

Centro de Supercomputación y Bioinformática (UMA)

PlataformaComputacional

de la UMA

Red Españolade Super-

computación

HP SuperDome

Mare Nostrum

Plataforma Andaluza de Bioinformática Genómica y Proteómica

(SCAI, UCO)

Page 3: Presentación de la Plataforma Bioinformática de Andalucía.

Objetivos

• Poner a disposición del entorno Ciencia-Tecnología-Empresa andaluz la infraestructura, tecnología, y personal altamente cualificado para el acceso eficiente a las nuevas tecnologías denominadas «ómicas»

• Potenciar a los grupos de investigación y unidades I+D+I al poner a su disposición las herramientas necesarias para incrementar su competitividad y proyección internacional, así como fomentar la transferencia de tecnología.

BOE 172 del 20-7-2005, 25926-33

Page 4: Presentación de la Plataforma Bioinformática de Andalucía.

Funcionamiento

• Acceso a los programas sin necesidad de instalarlos.

• Programas comerciales (garantizado por 5 años).

• Espacio para almacenar datos, con backup.

• Acceso a bases de datos comerciales.

• Computación de altas prestaciones

SupercomputadorSuperDome HP

Page 5: Presentación de la Plataforma Bioinformática de Andalucía.

Acceso: www.scbi.uma.es

Page 6: Presentación de la Plataforma Bioinformática de Andalucía.

Acceso: www.scbi.uma.es

Identificación

Page 7: Presentación de la Plataforma Bioinformática de Andalucía.

Lo que se puede ver

Page 8: Presentación de la Plataforma Bioinformática de Andalucía.

Recursos bioinformáticos

Page 9: Presentación de la Plataforma Bioinformática de Andalucía.

GCG AccelrysEMBOSSSeqTrimFull-LengtherAlignMinerSeq2ContigWFCap3MIRA2

Lo que se puede usar

HyperChemDiscovery Studio

SYBYLAMPACAmber

Bioconductor (R)ArrayHubArrayUnlockLitheMinerSpotFire Decisionsite

GE DeCyderSpotFire DecisionsiteIngenuity Pathway (IPA)

Protein LooungeMatLab:

• Simulink• Bioinformatics ToolBox• Simbiology

Page 10: Presentación de la Plataforma Bioinformática de Andalucía.

Herramientas públicas (propias)

Page 11: Presentación de la Plataforma Bioinformática de Andalucía.

¿Quiénes lo usan?!

19 usuarios19 usuarios

2 usuarios1 usuario

3 usuarios

3 usuarios

1 usuario

Page 12: Presentación de la Plataforma Bioinformática de Andalucía.

Frecuencia de usoResumen anual

Último mes10 usuarios (25%)

Page 13: Presentación de la Plataforma Bioinformática de Andalucía.

Se usa desde la zona privada

Page 14: Presentación de la Plataforma Bioinformática de Andalucía.

Las máquinas virtuales

Page 15: Presentación de la Plataforma Bioinformática de Andalucía.

Descarga de la máquina virtual

Page 16: Presentación de la Plataforma Bioinformática de Andalucía.

Uso de la máquina virtual

Page 17: Presentación de la Plataforma Bioinformática de Andalucía.

Las herramientas propias

PLATAFORMA ANDALUZA DE BIOINFORMÁTICA

Page 18: Presentación de la Plataforma Bioinformática de Andalucía.

SeqTrim

www.scbi.uma.es/seqtrim Falgueras et al, 2007

Page 19: Presentación de la Plataforma Bioinformática de Andalucía.

SeqTrim is modular... and something moreSequences (fasta) Seqs + Quals (fasta)

Trimming Adaptors

Trimming polyA | T

Removing specialized features

Trimming Ns

Trimming Low Qual

Removing low quality seqs

Trimming Contaminants

Removing contaminant seqs

Maskering Repeats

Dust

Repeat Masker

chromatograms (abi, scf...)

Sequences

QualitiesInfo

Trimming Vector

Removing cloning vector

Terminal tranferase

Removing Additional artifacts

Ending As, Ts, Ns, Xs

Phred ZIPSeveral input formats

Four modular functions

Two sequential, optional functions

Output formats for pipeliningFalgueras et al, 2007

Page 20: Presentación de la Plataforma Bioinformática de Andalucía.

SeqTrim

Falgueras et al, 2007

Page 21: Presentación de la Plataforma Bioinformática de Andalucía.

Browsing window

Falgueras et al, 2007

Page 22: Presentación de la Plataforma Bioinformática de Andalucía.

Browsing window

Falgueras et al, 2007

Page 23: Presentación de la Plataforma Bioinformática de Andalucía.

Browsing window

Falgueras et al, 2007

Page 24: Presentación de la Plataforma Bioinformática de Andalucía.

Browsing window

Falgueras et al, 2007

Page 25: Presentación de la Plataforma Bioinformática de Andalucía.

Browsing window

Falgueras et al, 2007

Page 26: Presentación de la Plataforma Bioinformática de Andalucía.

Browsing window

Falgueras et al, 2007

Page 27: Presentación de la Plataforma Bioinformática de Andalucía.

Browsing window

Falgueras et al, 2007

Page 28: Presentación de la Plataforma Bioinformática de Andalucía.

Browsing window

Falgueras et al, 2007

Page 29: Presentación de la Plataforma Bioinformática de Andalucía.

Utilizaciones de SeqTrim

• EST

• GEMINI

• PIN

• SSH

• Compresión/lateral

• Juvenil/madura

• Secuenciación de ADNg

• BAC de Pinus pinaster

0

25

50

75

100

Vect

or

Adap

tado

res

Baja

cal

idad

Inde

term

inac

ione

s

Cont

amin

ante

s

70,6885,63

99,65

Porcentaje de lecturas afectadas

% L

ectu

ras

0

25

50

75

100

Vect

or

Ada

ptad

ores

Baj

a ca

lidad

Inde

term

inac

ione

s

Con

tam

inan

tes

18,625,34

25,48

Porcentaje de nucleótidos recortados

% N

ucle

ótid

os

nt Reads

Page 30: Presentación de la Plataforma Bioinformática de Andalucía.

Full-Lengther

www.scbi.uma.es/full-lengther Lara et al, 2007

Page 31: Presentación de la Plataforma Bioinformática de Andalucía.

Análisis de los resultados

N. Fernández-Pozo, 2008

Page 32: Presentación de la Plataforma Bioinformática de Andalucía.

AlignMiner

www.scbi.uma.es/alignminer

Page 33: Presentación de la Plataforma Bioinformática de Andalucía.

Trabajar con AlignMiner

Page 34: Presentación de la Plataforma Bioinformática de Andalucía.

Visualización de los resultados

Page 35: Presentación de la Plataforma Bioinformática de Andalucía.

InGeBiol: modelo general en Ruby

Page 36: Presentación de la Plataforma Bioinformática de Andalucía.

Nuestro uso de CAP3web

N. Fernández-Pozo, 2008

100 100

73,93

48,9350,99

36,37

0

20

40

60

80

100

120

Lecturas Nucleótidos

Porc

enta

je d

e Le

ctur

as o

Nuc

leóti

dos

Iniciales Limpias Únicas

100 100

67,18

37,3636,03

23,15

0

20

40

60

80

100

120

Lecturas Nucleótidos

Porc

enta

je d

e Le

ctur

as o

Nuc

leóti

dos

Iniciales Limpias Únicas

PIN GEMINI

Page 37: Presentación de la Plataforma Bioinformática de Andalucía.

Interfaz simplificada para MIRA2

Page 38: Presentación de la Plataforma Bioinformática de Andalucía.

El «gran proyecto»

Page 39: Presentación de la Plataforma Bioinformática de Andalucía.

Colaboración en investigación

PLATAFORMA ANDALUZA DE BIOINFORMÁTICA

NC/-N-C_a

NC/-N-C_z

-N-C/NC_a

-N-C/NC_z

Condiciones experimentales

GEM-009-H07

GEM-108-C01

GEM-032-C07

GEM-020-C11

GEM-103-E10

CK16 2 F10

GEM-058-D04

CK16 1 B05

GEM-051-B04

GEM-100-H11

gDNA pinaster

GEM-003-B08

GEM-002-F10

GEM-097-H03

PIN-9-A08

GEM-077-C08

GEM-105-C03

GEM-088-A07

PIN-5-F01

GEM-094-G04

GEM-026-H10

Spike 2

Spike 6

Spike 2

ASPG

GEM-078-C04

GEM-093-C02

GEM-085-C12

Spike 4

GEM-093-A05

AS

Spike 6

Spike 4

Ge

ne

s c

an

did

ato

s

Page 40: Presentación de la Plataforma Bioinformática de Andalucía.

Investigación

• Úselo usted mismo

• Colaboración científica

• Analizar resultados e interpretarlos

• Diseño de bases de datos, portales y algoritmos a medida

• Desarrollo de flujos de trabajo estándares para la investigación

• Socio bionformático para proyectos ómicos.

• Ejemplos:

• Proyecto piloto nacional para la secuenciación de Pinus pinaster (UMA. IP: Francisco M. Cánovas)

• European Animal Disease Genomics Network of Excellence for animal health and food safety (UCO. IP: Juan José Garrido)

Page 41: Presentación de la Plataforma Bioinformática de Andalucía.

Base de datos en Ruby

Page 42: Presentación de la Plataforma Bioinformática de Andalucía.

Base de datos en Ruby

Page 43: Presentación de la Plataforma Bioinformática de Andalucía.

Análisis de micromatrices 2C

Datos(GenePix,QScan)

•Datos normalizados•Genes con expresión

diferencial•Visualización de los

resultados•Calidad de los datos

Script propio

Page 44: Presentación de la Plataforma Bioinformática de Andalucía.

Visualización de los datos 2CDatos orginales Datos normalizados

Page 45: Presentación de la Plataforma Bioinformática de Andalucía.

Los genes candidatosCalidad datos

Genes con expresión diferencial

Page 46: Presentación de la Plataforma Bioinformática de Andalucía.

Interpretación funcional

NC/-N-C_a

NC/-N-C_z

-N-C/NC_a

-N-C/NC_z

Condiciones experimentales

GEM-009-H07

GEM-108-C01

GEM-032-C07

GEM-020-C11

GEM-103-E10

CK16 2 F10

GEM-058-D04

CK16 1 B05

GEM-051-B04

GEM-100-H11

gDNA pinaster

GEM-003-B08

GEM-002-F10

GEM-097-H03

PIN-9-A08

GEM-077-C08

GEM-105-C03

GEM-088-A07

PIN-5-F01

GEM-094-G04

GEM-026-H10

Spike 2

Spike 6

Spike 2

ASPG

GEM-078-C04

GEM-093-C02

GEM-085-C12

Spike 4

GEM-093-A05

AS

Spike 6

Spike 4

Genes c

andid

ato

s

NC/-N-C_a

NC/-N-C_z

-N-C/NC_a

-N-C/NC_z

---NA---

---NA---

metallothionein-like protein

acid phosphatase

---NA---

---NA---

---NA---

---NA---

glyoxalase bleomycin resistance protein dioxygenase

transaldolase

catalase

stem-specific proteinexpressed

---NA---

stem-specific proteinexpressed

aldose 1-epimerase

---NA---

seed imbibition protein

stem-specific proteinexpressed

general substrate transporter

myo-inositol oxygenase

NC/-N-C_a

NC/-N-C_z

-N-C/NC_a

-N-C/NC_z

Condiciones experimentales

GEM-009-H07

GEM-108-C01

GEM-032-C07

GEM-020-C11

GEM-103-E10

CK16 2 F10

GEM-058-D04

CK16 1 B05

GEM-051-B04

GEM-100-H11

gDNA pinaster

GEM-003-B08

GEM-002-F10

GEM-097-H03

PIN-9-A08

GEM-077-C08

GEM-105-C03

GEM-088-A07

PIN-5-F01

GEM-094-G04

GEM-026-H10

Spike 2

Spike 6

Spike 2

ASPG

GEM-078-C04

GEM-093-C02

GEM-085-C12

Spike 4

GEM-093-A05

AS

Spike 6

Spike 4

Genes c

andid

ato

s

Page 47: Presentación de la Plataforma Bioinformática de Andalucía.

Experimentos en serieAnálisis ANOVA

Enriquecimiento biológico (análisis asociativo)

Page 48: Presentación de la Plataforma Bioinformática de Andalucía.

Un ejemplo de resultado

!"#$"$% !""#$

CytosolMitochondria

Plastid

D.P. Villalobos 2008

Page 49: Presentación de la Plataforma Bioinformática de Andalucía.

Varia

bilit

y

Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad

Mejor normalización (Affymetrix)El mejorDatos brutos

RMA es el que mejor se comporta

El 2.º mejor

Pérez-Florido et al 2009

Page 50: Presentación de la Plataforma Bioinformática de Andalucía.

Varia

bilit

y

Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad

Mejor normalización (Affymetrix)El mejorDatos brutos

RMA es el que mejor se comporta

El 2.º mejor

Pérez-Florido et al 2009

Page 51: Presentación de la Plataforma Bioinformática de Andalucía.

Varia

bilit

y

Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad

Mejor normalización (Affymetrix)El mejorDatos brutos

RMA es el que mejor se comporta

El 2.º mejor

Los datos brutos tienen poca correlaciónLos otros métodos son parecidosRMA y GCRMA se basan en mejorar la correlación de los datos

Pérez-Florido et al 2009

Page 52: Presentación de la Plataforma Bioinformática de Andalucía.

Varia

bilit

y

Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad

Mejor normalización (Affymetrix)El mejorDatos brutos

RMA es el que mejor se comporta

El 2.º mejor

Los datos brutos tienen poca correlaciónLos otros métodos son parecidosRMA y GCRMA se basan en mejorar la correlación de los datos

Spe

arm

an

corr

elat

ion

RMA es el que mejor se comportaVSN es una buena alternativa

Pérez-Florido et al 2009

Page 53: Presentación de la Plataforma Bioinformática de Andalucía.

Varia

bilit

y

Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad

Mejor normalización (Affymetrix)El mejorDatos brutos

RMA es el que mejor se comporta

El 2.º mejor

Los datos brutos tienen poca correlaciónLos otros métodos son parecidosRMA y GCRMA se basan en mejorar la correlación de los datos

Spe

arm

an

corr

elat

ion

RMA es el que mejor se comportaVSN es una buena alternativa

Pérez-Florido et al 2009

Page 54: Presentación de la Plataforma Bioinformática de Andalucía.

Ensamblaje de un BAC de pino

FragmentaciónPirosecuenciación (media: 200 pb)

Ensamblaje

Filtrado

ADN pinoVector pIndigoBAC536Genómico E. coli

Allcontig

Largecontig ( > 500 pb)

Page 55: Presentación de la Plataforma Bioinformática de Andalucía.

Estrategias de ensamblajeSecuencias

Newbler® SeqTrim

Contig

Estrategia FLX Estrategias

Cap3

PCAP

MIRA2

EULER-SR

Celera Assembler

Otros ensambladores

probados

SeqTrim

Newbler®

Large contigs

AmosValidate

Reliable contigs

Contig

SeqTrim

Page 56: Presentación de la Plataforma Bioinformática de Andalucía.

¿Qué contiene 176P12?

Fd-GOGAT

Ty1-Copia elementRetroelement pol polyprotein-like

Page 57: Presentación de la Plataforma Bioinformática de Andalucía.

El gen Fd-GOGAT

Page 58: Presentación de la Plataforma Bioinformática de Andalucía.

Recursos humanos actuales

• 2 Ldo. en informática

• Darío Guerrero Fernández

• Antonio J. Lara Aparicio

• 2 Dr. en Biología

• Rocío Bautista Moreno

• M. Gonzalo Claros Díaz (supervisión)

• Otros colaboradores

• Guillermo Pérez Trabado (supervisión)

• Juan Falgueras (profesor)

• Rafael Larrosa (gestor del sistema)

• Noé Fernández Pozo (doctorando)

Page 59: Presentación de la Plataforma Bioinformática de Andalucía.

SCBIPLATAFORMA ANDALUZA DE BIOINFORMÁTICA