El proyecto genoma - bioinformatica.uab.catbioinformatica.uab.cat/base/documents\masterGP\Master GP....

68
El proyecto genoma humano The human genome

Transcript of El proyecto genoma - bioinformatica.uab.catbioinformatica.uab.cat/base/documents\masterGP\Master GP....

El proyecto

genoma

humano

The human genome

El proyecto genoma humano

1. Consorcio de 20 laboratorios públicos pertenecientes a 6

países. Liderado por F.S.Collins y E. Lander.

2. Discusión y debate en la comunidad científica 1984-1990.

Iniciativa: Departament of Energy y National Institutes of

Health (US). Comienzo del proyecto: 1990. Borrador: Oct

2000. Publicación: Feb 2001. Finalización: Octubre 2004.

3. Secuenciación aleatoria jerárquica (Hierarchical Shotgun

Sequencing).

4. Material: DNA obtenido de donantes anónimos. La

identidad de los donantes no es conocida (ni siquiera por

ellos mismos).

5. Los datos se han hecho públicos a través de los bancos

públicos de datos sin ninguna restricción a medida que se

progresaba en el proyecto.

6. Publicación: Nature 409: 860-921 (15 febrero 2001); Nature

431: 931-945 (21 Octubre 2004).

El Proyecto Genoma Humano

Estrategias de Secuenciación de genomas

Aproximación Clon a clon (Consorcio público)

Francis Collins

Eric Lander

Secuenciación del genoma (Aproximación aleatoria)

J. Craig Venter

Tema 11: Genómica 6

Arquitectura del genoma de Haemophilusinfluenzae

1. Celera Genomics. Empresa privada de biotecnología que

dirige J. Craig Venter y cotiza en bolsa.

2. Anuncio del proyecto: 1998. Comienzo de la secuenciación:

8 Sep 1999. Finalización de la secuenciación: 17 Jun 2000.

Ensamblaje del borrador: 1 Oct 2000.

3. Estrategia: Secuenciación aleatoria del genoma (Shotgun

sequencing).

4. Material: Se reclutaron 21 donantes voluntarios. De ellos se

seleccionaron 5 sujetos (dos hombres y tres mujeres): 2

caucásicos, un afroamericano, un asiático (chino) y un

hispano (mejicano).

5. Condiciones para el acceso a los datos mediante acuerdo

entre Science y Celera Genomics. Los datos está a

disposición de los investigadores a partir de la fecha de

publicación a través de la Web de Celera y con ciertas

restricciones.

6. Publicación: Science 291: 1304-1351 (16 febrero 2001).

Celera Sequencing Project

Secuenciación de Genomas

Hierarchical Shotgun Sequencing

vs

Shotgun Sequencing

Ensamblaje

de la

secuencia

Hierarchical

Shotgun

Sequencing

Secuenciación de Genomas

Hierarchical Shotgun Sequencing

vs

Shotgun Sequencing

Ensamblaje

de la

secuencia

Shotgun

Sequencing

Calidad de una secuencia

• P = Probabilidad de error de cada base

• Q = Calidad de una base

• Q = - 10 log10 P

• Al iniciar un proyecto de secuenciación es

conveniente fijar cual es el objetivo: la

calidad de la secuencia final a obtener. De

ella depende la redundancia necesaria.

• Borrador Q = 30; Secuencia final Q = 40

Niveles de ensamblado

Strategy for whole-genome shotgun sequencing assembly

Figure 13-6

Paired-end reads may be used to join two sequence contigs

Secuenciación de un clon

100-200 kb

• Fase 1. Secuenciación aleatoria– Construcción de una genoteca aleatoria en plásmido ->

colección de clones 1-2 kb de tamaño promedio.

– Secuenciación de uno o ambos extremos de un cierto número de clones -> colección de lecturas (“reads”).

– Ensamblaje de las lecturas -> un cierto número de “contigs” con huecos (“gaps”) entre ellos.

• Fase 2. Finalización (corrección de errores y rellenado de huecos mediante secuenciación dirigida)

Secuenciación

de un clon 100-200 kb

• Base-calling. PHRED permite obtener la probabilidad de error de cada base.

• Ensamblaje. PHRAP permite ensamblar las lecturas en contigs.

• Edición. CONSED permite visualizar el ensamblaje y la secuencia consenso así como calcular la probabilidad de error de cada base en la secuencia consenso.

• Finalización. AUTOFINISH permite dirigir toda la operación de finalización basándose en la calidad de cada base.

Strategy for ordered-clone sequencing

Figure 13-8

26 de Junio del 2000

Presentación de la

Secuencia del

genoma humano

Estamos aprendiendo el

lenguaje con el que Dios

creó la vida. Aumenta

nuestro asombro por la

complejidad, la belleza y la

maravilla del más sagrado y

divino don de Dios.

15 y 16 de Febrero 2001: Publicación secuencia borrador

del genoma humano

El genoma humano

Generación del borradorPaisaje genómico amplio

Variación en contenido GCIslas CpGComparación de distancia genética y física

Contenido de repeticionesContenido de genesAnálisis del proteoma

Generación del borrador

Paisaje genómico amplioVariación en contenido GC

Paisaje genómico amplioIslas CpG

Paisaje genómico amplioComparación de distancia genética y física

Paisaje genómico amplioComparación de distancia genética y física

Contenido de repeticionesDerivados de trasposonesPseudogenes procesadosRepeticiones de secuencias sencillasDuplicaciones segmentales 10-300 kbBloques de secuencias repetidas en tándem (centrómeros, telómeros,...)

Derivados de trasposones

Contenido de repeticionesDerivados de trasposones

Elementos H. sapiens D. melanogaster C. elegans A. thaliana

LINE/SINE 33.40% 0.70% 0.40% 0.50%

LTR 8.10% 1.50% 0.00% 4.80%

DNA 2.80% 0.70% 5.30% 5.10%

Total 44.40% 3.10% 6.50% 10.50%

Contenido de repeticionesDerivados de trasposones

Variación en la distribución de repeticiones

Trasposones como fuerza creativa

Contenido de repeticionesRepeticiones de secuencias sencillas (micro y minisatélites)

3% genoma

Contenido de repeticionesDuplicaciones segmentales 10-300 kb

IntercromosómicasIntracromosómicas

Contenido de repeticionesDuplicaciones segmentales 10-300 kb

IntercromosómicasIntracromosómicas

Genes que cifran RNA no codificador en el genoma humano

Genes de

RNA

Número

esperado

Número

Observado

Genes relacionados

(pseudogenes, fragmentos,

parálogos)

tRNA 1.310 497 324

18S rRNA 150-200 0 40

5.8S rRNA 150-200 1 11

28S rRNA 150-200 0 181

5S rRNA 200-300 4 520

snoRNA 97 84 645

snRNA (U1-U12) ?? 78 1542

7SL RNA 4 3 773

Contenido de genes

RNAs que codifican proteínas

Método

Número

de genes

Longitud

promedio (aa)

Genes conocidos

(RefSeq/SwissProt/TrEMBL

14.882 469

Ensembl system (Genscan + similaridad

con prot, EST y mRNA de cualquier

organismo) + Genie

4.057 443

Ensembl 12.839 187

Total 31.778 352

Genes detectados por el Consorcio

del Proyecto Genoma Humano

(Initial gene index, IGI)

Características de los genes humanos que codifican proteínas.

Característica Mediana Promedio Tamaño muestra

Tamaño exones 122 bp 145 bp 43.317

Número exones 7 8.8 3.501

Tamaño intrones 1.023 bp 3.365 bp 27.238

3’ UTR 400 bp 770 bp 689 (crom. 22)

5’ UTR 240 300 463 (crom. 22)

Secuencia codificadora 1.100 bp 1.340 bp 1.804

(CDS) 367 aa 447 aa

Extensión genómica 14 kb 27 kb 1.804

Comparación de los genes humanos

con los de Caenorhabditis y

Drosophila

GC content and gene density

DNA codificante (exones)

0.8% Intrones,

30.8%

DNA intergénico

DNA, 68.3%5'UTR, 4.7%

3'UTR, 0.7%

Ha habido un considerable aumento en la complejidad del proteoma

desde las levaduras unicelulares hasta los vertebrados representado

por los humanos pasando por los invertebrados multicelulares.

A este aumento contribuyen cinco aspectos:

1. El genoma humano contiene un mayor número de genes;

2. El proteoma humano contiene más familias de dominios y proteínas;

3. El proteoma humano contiene más parálogos (expansión de

familias);

4. El proteoma humano contiene más proteínas multidominio con

múltiples funciones;

5. El proteoma humano contiene más arquitecturas de proteínas.

Por lo tanto, la mayor complejidad del proteoma humano no es

simplemente consecuencia de su tamaño sino también de la innovación

de proteínas a gran escala.

Human Proteome

Proteome analysis:

Categorization of the human gene catalog

Comparación de proteínas entre genomas

Sólo humanos

<1%Eucariota

y

procariota

23%

Vertebrados y otros

animales

27%

Vertebrados no

mamíferos

vertebrados

6%

Mamíferos

14%

Animales y otros

eucariotas

29%

Distribución de homologías en proteínas humanasDistribución de homologías en proteínas humanas

Número de tipos de dominios distintos

Humano

2.000

1.800

1.600

1.400

1.200

1.000

800

400

200

0

Transmembrana

Mosca Gusano Levadura

Extracelular

Intracelular

Nu

mero

de d

om

inio

s p

rote

ico

s

Arquitectura compleja de las proteínas

humanas (acreción de dominios)

Homología entre los

cromosomas humanos

y los de ratón

Genomas

mamíferos

Genes de

enfermedades

posicionados

•Completitud

• Exactitud

•Validez del

ensamblado

Secuenciación del genoma

Verificación de

las secuencias

Bases de datos del genoma humano

Genoma humano en GenBank

http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=hum_chr.inf&query=

http://www.ncbi.nlm.nih.gov/genome/guide/human/

Visualizador del genoma humano

Guia del genoma humano

Ensembl http://www.ensembl.org/Homo_sapiens/index.html

Annotated human Genome sequence data

UCSC http://genome.ucsc.edu/cgi-bin/hgGateway?hgsid=100768159&clade=vertebrate&org=0&db=0

UCSC Genome Browser

Viajando a través del Genoma Humà

Viajando a través del Genoma Humà

Bases de datos del genoma humano

Genoma Humano (versión 21-Oct-2004)

Genoma Humano (versión 21-Oct-2004)

• Se han conseguido secuenciar 2.850 Mb (99% de la

eucromatina).

• La tasa de error es 1/100.000 bases.

• Se ha reducido el número de “gaps” (huecos) de

~150.000 a sólo 341.

• De ellos, 33 (total ~198 Mb) en la heterocromatina y 308

(total ~28 Mb) en la eucromatina.

• Tamaño total: 2.850 + 198 + 28 = 3.080 Mb.

• Número de genes: 20.000-25.000 (19.600 genes

conocidos + 2.200 predicciones).

• Pseudogenes: ~20.000.

El proyecto ENCODE

• El proyecto ENCODE (Encyclopedia od DNA elements) pretende identificar TODOS los elementos funcionales de la secuencia del genoma humano.

• Fase piloto. Análisis detallado de 44 regiones discretas repartidas por todo el genoma que suman ~30 Mb (~1%).

• Fase de desarrollo tecnológico.

• Fase de producción. Aplicación de las técnicas desarrolladas en la fase anterior al conjunto del genoma.

The human genome at ten(Nature 464 1 April 2010)

Biology is complex

•ENCyclopedia Of DNA Elements (ENCODE) (2003-2001)

•The International HapMap Project (2002-2005)

Other “Big Biology” efforts

•Gene and Gene regulation concepts are far more complex than ever imagined

•Universe of non-coding DNA•The p53 network

•Development into “modules” of genes

•System biology as new discipline

•Interdisciplinary teams

•The sense that anything is scientifically possible

•Breathtaking technology -> Scientific progress

•Roadmap Epigenomic Programa (2008-2013)

•Genome-wide Association Studies (GWAS)