SELECCION DE “TEMPLATES” Y ALINEAMIENTO. Energía X Nativa.

Post on 02-Apr-2015

116 views 1 download

Transcript of SELECCION DE “TEMPLATES” Y ALINEAMIENTO. Energía X Nativa.

SELECCION DE “TEMPLATES” SELECCION DE “TEMPLATES” Y ALINEAMIENTOY ALINEAMIENTO

Energía

XNativa

• Búsqueda homólogos con estructura conocida

• Selección homólogos de interés (miembros más cercanos, criterios adicionales)

• Obtención del alineamiento de la secuencia con los homólogos

• Cálculo del modelo • Contraste del modelo • Experimentación• “Feed-back” con el modelo

Búsqueda de homólogos de Búsqueda de homólogos de estructura conocidaestructura conocida

SIMILITUD ENTRE SECUENCIAS

INDICA SIMILITUD ENTRE

ESTRUCTURAS Y FUNCION

HOMOLOGIA Y COMPARACION DE SECUENCIAS

SIMILITUD ENTRE SECUENCIAS

HOMOLOGIA

(Mismo orígen evolutivo)

ALINEAMIENTO DE SECUENCIAS

AGGVIIIQVGAGGVL-IQVG

AGGVIIIQVG AGGVLIQVG

IMPORTANCIA ALINEAMIENTO

• Detección homólogos

• Construcción modelo estructural

Búsqueda de homólogos

SECUENCIA INCOGNITAATTVG...LMN

BASE DE DATOS DE SECUENCIAS

AGLM...WTKRTCGGLMN..HICGWRKCPGL...

COMPARACION SECUENCIAS

• Construir alineamiento óptimo

• Puntuar candidato

COMPARACION DE COMPARACION DE SECUENCIASSECUENCIAS

• HOMOLOGIA ALTA: HOMOLOGIA ALTA:

AWTRRATVHDGLAWTRRATVHDGLMMEDEFAAEDEFAA AWTRRATVHDGLAWTRRATVHDGLCCEDEFAAEDEFAA

• HOMOLOGIA BAJA: HOMOLOGIA BAJA:

AWTAWTRRRRATATAWTAWTKLKLATAVVVATAVVVFEFEGLGLCCEDEEDEWGGWGG

VVHDHDGLGLMMEDEEDEFAAFAA

Búsqueda de homólogos

• PUNTUACION SECUENCIAS BASE DATOS (Proteínas estructura conocida)

• LOCALIZACION CANDIDATO CON MAYOR PUNTUACION

• PREDICCION FUNCIONAL/ESTRUCTURAL POR ASOCIACION/”HERENCIA”

PROBLEMAS HABITUALES

• Solo hay familiares remotos:

– BAJA SIMILITUD DE SECUENCIA

– DIFICIL TENER BUENOS ALINEAMIENTOS

ALINEAMIENTO DE SECUENCIAS

• OBTENER EL ALINEAMIENTO OPTIMO

• NECESARIO: – METODO PARA PUNTUAR AMINOACIDOS

COMPARADOS

– METODO PARA CONSTRUIR LOS ALINEAMIENTOS

MATRIZ DE IDENTIDADES

A C D ...Y

A 1 0 0 ...0C 0 1 0 ...0 .....Y 0 0 .....1

NUMERO TOTAL DE ALINEAMIENTOS

DOS SECUENCIAS DE LONGITUD N Y M:

N + M

N

N = M = 1000 10600

HERRAMIENTAS BASICAS

• MATRIZ COMPARACION AMINOACIDOS (Dayhoff, 1972)

• ALGORITMOS DE COMPARACION DE SECUENCIAS (Needleman & Wunsch, 1970).

MATRIZ DE DAYHOFF

log(fij/qi.qj)

PUNTUACION DE LOS AMINOACIDOS ALINEADOS

fij: frecuencia de mutación de residuo i al j

qi, qj: frecuencia de los residuos i, j

MATRIZ DE DAYHOFF

• REFLEJA LAS PROPIEDADES FISICO-QUIMICAS DE LOS AMINOACIDOS:

propensidades de estructura secundaria

hidrofobicidad

volumen

MATRICES COMPARACION SECUENCIAS

• BLOSUM62 (Henikoff & Henikoff, 1992): derivada a partir de la comparación bloques de secuencias

• GONNET (Gonnet et al, 1992): alineamiento masivo de secuencias

ALGORITMO NEEDLEMAN & WUNSCH

R G F QR 1 0 0 0Y 0 0 0 0G 0 1 0 0Q 0 0 0 1

R G F QR 3 1 1 0Y 2 1 1 0G 1 2 1 0Q 0 0 0 1

R_GFQRYG_Q

GAPS (INSERCIONES/DELECIONES)

• LOCALIZADOS EN LOOPS

??CandidatoCandidato

GAPS (INSERCIONES/DELECIONES)

• ESQUEMAS DE PUNTUACION:– DEPENDIENDO DE ESTRUCTURA 2a– VALOR CONSTANTE– FUNCION LINEAL

go + n . gl

PROGRAMACION DINAMICA

• VENTAJAS: PROPORCIONA UN ALINEAMIENTO REPRODUCIBLE Y OPTIMO

• DESVENTAJAS: ES LENTO

METODOS SUBOPTIMOS

• 10 – 100 MAS RAPIDOS

• PROPORCIONAN ALINEAMIENTOS SUBOPTIMOS

• BLAST, FASTA

BLAST

• BLAST (Altschul et al, 1990):

localiza pequeños fragmentos comunes

extenderlos hasta que la puntuación cae

BLAST

• RAPIDO, segundos EXPLORAR GENBANK, PDB

• FILTROS BAJA COMPLEJIDAD

• INDICES DE FIABILIDAD

ESTADISTICA

• INDICE DE REFERENCIA:

E: número de falsos positivos esperado

• Búsquedas esporádicas: 0.01 – 0.001

• Búsquedas masivas (anotación genoma) : 10-6

LIMITES COMPARACION LIMITES COMPARACION SECUENCIASSECUENCIAS

• EXISTENCIA DE PARENTESCOS EXISTENCIA DE PARENTESCOS INDETECTABLESINDETECTABLES

• PREDICCIONES ESTRUCTURALES DE PREDICCIONES ESTRUCTURALES DE BAJA CALIDAD EN MUCHOS CASOSBAJA CALIDAD EN MUCHOS CASOS

THE TWILIGHT ZONE

• IDENTIDAD INFERIOR AL 25 %

• SIMILITUD ESTRUCTURAL: HOMOLOGIA REMOTA Y ANALOGIA

THE TWILIGHT ZONE

• HOMOLOGIA REMOTA: ORIGEN EVOLUTIVO COMUN. E.G. HEMOGLOBINAS

• ANALOGIA: CONVERGENCIA ESTRUCTURAL. E.G. HEMOGLOBINA Y COLICINA

USO DE ALINEAMIENTOS MULTIPLES

• SIMILITUD BAJA, DOS SECUENCIAS:SIMILITUD BAJA, DOS SECUENCIAS:

AVTTGLNMWTTAKRPGMDDFYTILLPGLMNCIGLFTAIDMHFFGRKPACEEYFTLVVDGLCNCI

• SIMILITUD BAJA, SECUENCIASMULTIPLES:SIMILITUD BAJA, SECUENCIASMULTIPLES:

ALTTGIDMMWTTAKRPPDMDDYYTIIIPGLLMNCIAVTTGLNMMWTTAKRPPGMDDFYTTILLPGLLMNCIGVTTTGLNMMYFTARRPPGLDEFYTTLVLRTLLCMCLGIFTTDIDMMHFYVKKPPGLDEFFTTLVLRTLLCMAA

GIFTTDIDMMHFYVKKPPGLDEFFTTLVLRTLLCMAA

AVTTGLNMMWTTAKRPPGMDDFYTTILLPGLLMNCIGLFTTALNMMHFFGRKPPACEEYFTTLVVDGLLCNCI

ALINEAMIENTOS MULTIPLES

• RESIDUOS CONSERVADOS: RELEVANTES PARA FUNCION O ESTRUCTURA

• PUNTUACION PONDERA LA CONSERVACION

PSI-BLAST

• BUSQUEDA UTILIZANDO ALINEAMIENTOS MULTIPLES:– BUSQUEDA BASE DE DATOS– CONSTRUCCION POSITION-SPECIFIC

SCORE– ITERAR

PSI-BLAST

• PSI-BLAST NO ENCUENTRA LO QUE NO HAY EN LA PRIMERA BUSQUEDA BLAST

• DEFINIR E PARA LA INCLUSION DE SECUENCIAS (0.01)

THREADING/FOLD RECOGNITION

• ESTRATEGIA SIMILAR COMPARACION DE SECUENCIAS

• USO BASE DE DATOS ESTRUCTURAL

• DIFERENTE PUNTUACION CANDIDATOS

ATTWV....PRKSCTATTWV....PRKSCT

..........

10.510.5 5.2>> ..........

CANDIDATO SELECCIONADOCANDIDATO SELECCIONADO

COMPARACION SECUENCIA-COMPARACION SECUENCIA-ESTRUCTURAESTRUCTURA

• EVALUAR “EL GRADO DE AJUSTE DE LA SECUENCIA A LA ESTRUCTURA”

• UTILIZAR PROPIEDADES DIVERSAS: DISTANCIAS INTERRESIDUO, ESTRUCTURA SECUNDARIA, ETC

Selección templates: uso Selección templates: uso información adicionalinformación adicional

Proyecto: 2HNQ ....HYTTWPDFGVP...

CANDIDATO: 1YTS ....HVGNWPDQTAV...

Proyecto: 2HNQ .....HCSAGIGRS...

CANDIDATO: 1YTS .....HSRAGVGRT...

................

1YTS, 2HNQ: TIROSINA-FOSFATASA1YTS, 2HNQ: TIROSINA-FOSFATASA

SELECCION “TEMPLATES”

• Varios candidatos, similitudes bajas (30% - 35 %)

• Bibliografía: sólo SSAO en H.Polymorpha y E.coli con TPQ en orientación correcta (modelos previos erróneos).

RESTRICCIONES CENTRO ACTIVO

SELECCION “TEMPLATES”

• Preferible X-ray sobre NMR

• Uso información experimental (e.g. centro activo)

• Preferible sin ligandos unidos, o generar dos modelos

• Vigilar la presencia de contactos en el cristal

• Preferible nativo sobre mutante

EL ALINEAMIENTO

ALINEAMIENTOS

• SECUENCIA - CANDIDATO

• Entre candidatos estructurales

ALINEAMIENTO ENTRE CANDIDATOS

• Alineamientos estructurales, ya disponibles (HOMSTRAD), mediante software (SAP, Taylor & Orengo, 1989).

• Mejor pocos candidatos estructurales, y similares

ALINEAMIENTO TEMPLATES

ALINEAMIENTO SECUENCIAS-CANDIDATOS

• Relación entre similitud estructural y % identidad

• Límite inferior del modelado: 30 %

• Porcentaje diseño de fármacos: > 70 %.

Similitud secuencia - estructura

Rms

% Ident.

EL ALINEAMIENTO

• Baja similitud de secuencia => alineamiento baja calidad

• Número de resíduos alineados => limita calidad modelo (NW en GCG vs. BLAST)

Energía

XNativa

Energía

XNativa

Energía

XNativa

Energía

XNativa

Energía

X

Nativa

ALINEAMIENTO Y MODELADO

Nativa

Modelo

CALIDAD ALINEAMIENTO

• Uso de potenciales fuerza media (PROSA)

• Uso de propiedades composicionales (GCG)

• Análisis de propiedades locales

CALIDAD DEL ALINEAMIENTO

• Test globalTest global: comparar la secuencia con N pérmutas (N=1000).

• Calcular el Z-score resultante

• Si (alineamientos 100-200 aas):• Z > 15 Ideal

• 5 < Z <= 15 70 % resíduos core bien alineados

• Z <= 5 Problemáticos

HHHHH--------HHHHHHHHHH-----HHHHHHHHHHHH-------HH

LYLTIHSDHEGGNVSAHTSHLVGSALSDPYLSFAAAMNGLAGPLHGLAN

LMVKVLDAVRGSPAINVAVHVFRKAADDTWEPFASGKTSESGELHGLTT

EEEEEEE----EE----EEEEEEE-----EEEEEEEE-----EE-----

• Alineamiento: citrate synthase - transthyritin

• Z-score: 7.55

CALIDAD LOCAL

• Zonas mayor calidad: independientes de pequeños cambios en los parámetros del alineamiento (posible utilizando GCG)

• Zonas de mayor calidad: presentes en los alineamientos subóptimos

ALINEAMIENTOS SUBOPTIMOS

• Zonas comunes en los alineamientos subóptimos son las más fiables: alinear ALLIM vs. ALLM

Sc. 7 Sc.6

ALLIM ALLIM

ALL-M AL-LM

Alineamiento localAlineamiento local

Proyecto: 2HNQ ....HYTTWPDFGVP...

CANDIDATO: 1YTS ....HVGNWPDQTAV...

Proyecto: 2HNQ .....HCSAGIGRS...

CANDIDATO: 1YTS .....HSRAGVGRT...

................

1YTS, 2HNQ: TIROSINA-FOSFATASA1YTS, 2HNQ: TIROSINA-FOSFATASA

ALINEAMIENTO LOCAL

• Presencia de motivos PROSITE

• Adicionalmente: fijar estructura del motivo al construir el modelo.

ESTRATEGIA

• Utiliar siempre que sea posible:

– Alineamientos estructurales para los templates (vigilar orígen: alineamientos sencillos o múltiples)

– Alineamientos múltiples (e.g. Pfam) para alinear la secuencia a los templates

– Análisis visual

•Obtener alineamiento Pfam SSAO

•Obtener alineamiento HOMSTRAD 1spu, 1a2v de Pfam

•Eliminar 1spu, 1a2v de Pfam

•Alineamiento Homstrad con Pfam mediante CLUSTALW

ALINEAMIENTO SSAO RATON CON LAS TEMPLATES

CONCLUSIONES: SENTIDO COMUN !!

• Analizar la calidad de los candidatos: ello decide el límite del modelado y del problema

• Examinar el alineamiento, y eventualmente generar varios modelos (buscar consistencia con datos experimentales)