Selección de SNPs en xenética médica

Post on 26-Jan-2016

95 views 2 download

description

Selección de SNPs en xenética médica. Javier Costas Hospital Clínico Universitario. O Proxecto Xenoma Humano. Orixe nos 80 Unha visión global dos xenomas podería acelerar significativamente a investigación biomédica - PowerPoint PPT Presentation

Transcript of Selección de SNPs en xenética médica

Selección de SNPs en xenética médica

Javier Costas

Hospital Clínico Universitario

Orixe nos 80Unha visión global dos xenomas podería

acelerar significativamente a investigación biomédica

A dimensión do proxecto exixiría un esforzo comunitario de grande envergadura

O Proxecto Xenoma Humano

Grande desenvolvemento tecnolóxico

Primeiro borrador da secuencia do xenoma humano: febreiro 2001

O Proxecto Xenoma Humano

Principais logros iniciais3 x 109 bp

Identificación de 30000-40000 xenes (~22500 xenes)

Identificación de marcadores moleculares, microsatélites e SNPs (>1’4 millones)

Mapa físico do xenoma

O Proxecto Xenoma Humano

Marcadores moleculares

• Microsatélites (Simple tandem repeats, STRs)– Repeticións de secuencias cortas ACTT CGT CGT CGT CGT CGT CAAT

– Moi variables

• SNPs (Single nucleotide polymorphisms)– Cambios dun único nucleótido (frecuencia > 1%)

AAG T TACG AAG A TACG

– Moi abundantes (1 SNP/300 bp)– Doados de analizar a grande escala

Haplotipos

Cromosoma 1 AA(CTT)7ACT...CGCTCAA...CACTTG...

Cromosoma 2 AA(CTT)5ACT...CGCCCAA...CACATG...

Haplotipo 1 (CTT)7TT

Haplotipo 2 (CTT)5CA

Xenotipo

AA(CTT)5,7ACT...CGC(C/T)CAA...CAC(A/T)TG...

Enfermedades mendelianas

Debidas a mutacións nun único xenePouco frecuentesEx: Distrofia muscular de Duchenne, -

talasemia, hemofilia, fenilcetonuria, fibose cística...

1745 descripcións fenotípicas con base molecular coñecida

Human Gene Mutation Database 45875 mutacións en 1800 xenes

asociados con enfermedades

Haravuori et al. Am. J. Hum. Genet., 62:620-626, 1998

Mapeo xenético de enfermedades mendelianas Cosegregación de marcador e enfermedade: ligamento en familias

Enfermedades multifactoriais complexas

Alto risco de enfermedade

Factores xenéticos de risco

Factores xenéticos de protección

Factores ambientais de risco

Factores ambientais de protección

Baixo risco de enfermedade

Interaccións xene-xene e xene-ambiente

Múltiples xenes e/ou ambiente

Comúns Estudos de asociación en

poboacións Exemplos: asma, artrite,

cancro, hipertensión, trastorno bipolar...

Único xene Raras Estudos de ligamento en

familias Exemplo: distrofia

muscular (DMD), hemofilia, fibrose cística...

Enfermedades Mendelianas vs enfermedades complexas

Estudos de asociación

Diferencia significativa en distribución de SNPs en casos e controles

Muestreo mais simple que métodos baseados en familias

Mais potencia que estudos de ligamento en familias no caso de riscos relativos pequenos

Asociación frente a ligamento

Mag

nit

ud

e d

o ef

ecto

Frecuencia na poboación

Estudos de ligamentoen familias

Estudos de asociaciónen poboacións

Estudos de asociación

Hipótese enfermedade común/variante común

O risco xenético a padecer enfermedades comúns é xeralmente debido a alelos de predisposición que segregan a frecuencias relativamente elevadas na poboación (Lander, Science 1996)

Ex: ApoE4 e Alzheimer: Frec: ~15%, OR: 3’3, GRR-homoz:12

Localización (xenes candidato)

Validación

Frecuencia

Secuencia

Tipo de SNP (método de asociación)

dbSNP (NCBI) http://www.ncbi.nlm.nih.gov/SNP/

Selección de SNPs

dbSNP

SNPs H. sapiens

0

2000000

4000000

6000000

8000000

10000000

12000000

Localización (xenes candidato)

Validación

Frecuencia

Secuencia

Tipo de SNP (método de asociación)

Selección de SNPs

Selección xenes candidato Xenes candidato funcionais (función, expresión, interaccións)

Xenes candidato posicionais (ligamento)

Base bibliográfica: > 4800 revistas biomédicas > 15 millones de referencias

Gene Ontology

Vocabulario común para a descripción estructural de funcións protéicas en diferentes organismos organismos modelo

Actualmente, más de 16000 termos que describen función molecular, proceso biolóxico, localización celular

http://www.geneontology.org/

Artritis reumatoide

Ex.1: enfermedades autoinmunes, artrite reumatoide

Farmacogenética

Ex.2: farmacoxenética

Rutas metabólicas

Listado de vías metabólicas

Búsqueda por xene, enzima, composto o combinación de 2

100 rutas 300 rutas

                                   

                                                   

Ruta de sinalización de NF-kB

Localización (xenes candidato)

Validación

Frecuencia

Secuencia

Tipo de SNP (método de asociación)

Selección de SNPs

• Validación

dbSNP

dbSNP

SNPs H. sapiens

0

2000000

4000000

6000000

8000000

10000000

12000000

Totais

Validados

Localización (xenes candidato)

Validación

Frecuencia

Secuencia

Tipo de SNP (método de asociación)

Selección de SNPs

Distribución de frecuencias de SNPs

Frecuencia do alelo menor

Pro

porc

ión

de p

olim

orfi

smos

Risco relativo = 2

0

0,2

0,4

0,6

0,8

1

0 250 500 750 1000

Sample size

0,01

0,05

0,1

0,2

0,3

0,4

0,5

p0

Efecto da frecuencia sobre a potencia dun estudo de asociación caso-control

Diferencias de frecuencias entre poboacións

Hipótese “Out-of-Africa”

Cambios nas frecuencias xénicas (resultado de mutación, deriva xenética, selección e migración)

Colonización paleolítica

Dispersión paleolítica post-glaciación

Dispersión Neolítica

Diferencias de frecuencias entre poboacións

Localización (xenes candidato)

Validación

Frecuencia

Secuencia

Tipo de SNP (método de asociación)

Selección de SNPs

Secuencia en torno ao SNP

Depende do método de xenotipación (PCR)Non repetitivaSNPs secundarios

Localización (xenes candidato)

Validación

Frecuencia

Secuencia

Tipo de SNP (método de asociación)

Selección de SNPs

Estudos de asociación

Método indirecto: mapeo por desequilibrio de ligamento (LD)

Método directo: SNPs funcionais (causais)

T C

T CA T

LD LD

A C

Selección de SNPs funcionais

SNPs codificantes non sinónimos ou sen senso

SNPs que afecten ao “splicing”

SNPs en posibles sitios de unión de factores de transcripción (TFBS)

SNPs en rexións conservadas

SNPs codificantes non sinónimos ou sen senso

Código xenético

SNPs que afecten ao “splicing”

Rexión promotora

Sitios de unión de factores de transcripción (TFBS)

Secuencias curtas

Pouco específicas

Diferente afinidade e especificidade

Difíciles de predecir (non existe equivalente ao código xenético das rexións codificantes)

SNPs en posibles sitios de unión de factores de transcripción

SNPs en posibles sitios de unión de factores de transcripción

SNPs en posibles sitios de unión de factores de transcripción

Predicción de TFBS

Secuencias consenso: WAACCCTTT Matrices de posicións ponderadas (Positional weight matrices)

BS1 : BS2 : BS3 : BS4 : BS5 :

AAACCCTTTTAACCCTTTATACCCTATTCACCCATTAATCCCTTC

: 9 : 9 : 9 : 9 : 9

BS1 : BS2 : BS3 : BS4 : BS5 :

AAACCCTTTTAACCCTTTATACCCTATTCACCCATTAATCCCTTC

: 9 : 9 : 9 : 9 : 9

A 3 3 4 0 0 0 1 1 0 C 0 1 0 5 5 5 0 0 1G 0 0 0 0 0 0 0 0 0 T 2 1 1 0 0 0 4 4 4

2) Xeneración de matrices do aliñamento1) Colección de TFBS coñecidos

Identificación de TFBS mediante matrices de posicións ponderadas

3) Transformación a PWM baseado nas probabilidades a priori

Pesoij ~ lnFrecuenciaij

Probabilidadei

A 0.61 0.61 0.87 -1.79 -1.79 -1.79 -0.33 -0.33 -1.79

C -1.79 0.00 -1.79 1.47 1.47 1.47 -1.79 -1.79 0.00

G -1.79 -1.79 -1.79 -1.79 -1.79 -1.79 -1.79 -1.79 -1.79

T 0.25 -0.33 -0.33 -1.79 -1.79 -1.79 0.87 0.87 0.87

SNPs en posibles sitios de unión de factores de transcripción

SNPs en rexións conservadas Se as secuencias non son funcionais acumulación de mutacións co tempo diverxencia

Se son funcionais selección eliminando mutacións conservación de secuencias

Comparación humano-rato: 5% do xenoma conservado

Ex: 1Mb cr11

SNPs en rexións conservadas

http://pipeline.lbl.gov/cgi-bin/vistatrack

SNPs en rexións conservadas

Obxectivo: identificación de tódalas secuencias funcionais do xenoma humano

Rexións escollidas na fase inicial: 30Mb, 1%

•50% escollidas manualmente:

- Xenes (o outros) ben coñecidos

- Datos comparativos

14 rexións, 0,5-2Mb

•50% escollidas ao longo do xenoma en función da densidade xénica e conservación de rexións non-exónicas

30 rexións de 500 Kb

Estudos de asociación

Método indirecto: mapeo por desequilibrio de ligamento (LD)

Método directo: SNPs funcionais (causais)

T C

T CA T

LD LD

A C

Desequilibrio de ligamiento (LD) Presencia conxunta de dous alelos próximos a unha frecuencia significativamente distinta á esperada en función das súas frecuencias individuais

B bA fAB = fA.fB + D fAb = fA.fb - D

a faB = fa.fB - D fab = fa.fb + D

Problema: depende das frecuencias

D’ = D/Dmax , –1< D’<1

r2 = D2/fA.fa.fB.fb, 0<r2<1

Xene 1

Xene 2

...AACATCTG...ACCTGCCTTA...CCTGTACT...

...AACATCTG...ACCTGCCTTA...CCTGCACT...

...AACTTCTG...ACCTGCCTTA...CCTGCACT...

...AACTTCTG...ACCTGCCTTA...CCTGTACT...

...AACATCTG...ACCTGCCTTA...CCTGTACT...

...AACATCTG...ACCTGCCTTA...CCTGCACT...

...AACTTCTG...ACCCGCCTTA...CCTGTACT...

...AACTTCTG...ACCTGCCTTA...CCTGTACT...

Orixe do LD

A T TA T CT C TT T T

Desequilibrio de ligamento (LD)Haplotipos

Mapeo por desequilibrio de ligamento (LD)

Non precisa coñecemento previo sobre a funcionalidade do SNP

Menor potencia que o método directo, a non ser que o LD sexa perfecto

T CA T

LD LD

C

LD

A

50% 50% 0%

50% 40% 10%

Bloques haplotípicos

Rexións do xenoma humano con baixa diversidade haplotípica e alto LD

Definición:– Diversidade haplotípica

– LD

– Test dos 4 gametos ( recombinación)

ACCT ACCTGCCT GCCT

GCCC

Bloques haplotípicos: LD

Bloque 2

Se hai recombinación: 2N = 512 haplotipos

Sen recombinación: N +1 = 10 haplotipos

Haplotipos > 1% Haplotipos > 5%

Bloques haplotípicos

Identificación de bloques haplotípicos

Selección dun subconxunto de SNPs que identifiquen os distintos haplotipos a frecuencias superiores a un mínimo establecido (5%, 10%)

Haplotipos > 5%

tagSNPs

Bloques haplotípicos: tagSNPs

“LD bins”Conxunto de SNPs, non necesariamente consecutivos, que presentan unha r2 elevada entre eles

1 tagSNP/LD bin

Selección SNPs para mapeo por LD: LD útil

O incremento do tamaño muestral preciso para manter a potencia nun estudo de asociación caso-control é inversamente proporcional a r2

Ex.: Se se precisan 1000 casos/controles asumindo que xenotipamos o SNP causal, precisaranse 2000 casos/controles usando un marcador con r2 = 0’5

International HapMap Project

Orixe no 2001

Xapón, Reino Unido, Canadá, China, EE.UU., Nixeria

Describir os patróns comúns de variación humana

Desenvolver un mapa haplotípico do xenoma humano

Información disponible públicamente http://www.hapmap.org/index.html.en

Densidade mínima 1 SNP/ 5 Kb

Identificar SNPs distintivos (tagSNPs)

International HapMap Project

Mostras de 4 poboacións representativas:CEU: 30 tríos de residentes en Utah con ascendencia no norte e oeste de Europa (Centre d'Etude du Polymorphisme Humain, 1980) CHB: 45 chinos Han de PekínJPT: 45 xaponeses de Tokio

YRI: 30 tríos de Yoruba de Ibadan (Nigeria)

Fase I finalizada

Fase II: incrementar densidade de SNPs nas rexións con pouco LD

International HapMap Project

Obxectivo final:

Facilitar o descubrimento de variantes de susceptibilidade a enfermedades comúns

Reducir o número de SNPs precisos para realizar estudos de asociación de todo o xenoma (whole-genome scans)

1.586.383 SNPs71 individuos americanos de ascendencia europea,

africana ou chinaDisponible públicamente

http://genome.perlegen.com/browser/index.html