Bases de Datos Usadas en Bioinformatica

Curso Mitolab-Ciberer 09

Tradicionalmente la investigacioacuten en Biologiacutea Molecular se ha realizado en el laboratorio experimental pero la inmensa cantidad de datos generados en los uacuteltimos antildeos con la conclusioacuten del Proyecto Genoma Humano y desarrollo subsiguiente de otros grandes proyectos de genotipado (HapMap Project 1000 Genomes Project) destinados a explorar la relacioacuten entre variantes geneacuteticas y la predisposicioacuten a las enfermedades diagnoacutestico y respuesta a los faacutermacos requiere el desarrollo de herramientas computacionales que permitan extraer toda la informacioacuten contenida en las bases de datos para generar nuevo conocimiento Conjuntamente los continuos avances tecnoloacutegicos en la Biologiacutea Molecular unidos al desarrollo informaacutetico han aumentado las posibilidades de conocer el funcionamiento de los seres vivos a nivel molecular y celular Es necesario unificar toda esta informacioacuten para alcanzar un cuadro completo de la biologiacutea de la ceacutelula para comprender coacutemo se alteran distintos procesos en distintas enfermedades Por eso hoy en diacutea es difiacutecil entender la investigacioacuten en el aacuterea de las enfermedades geneacuteticas humanas sin la Bioinformaacutetica

Seguacuten la definicioacuten del National Center for Biotechnology Information (NCBI) la Bioinformaacutetica es la disciplina cientiacutefica que combina biologiacutea computacioacuten y tecnologiacuteas de la informacioacuten El objetivo de esta disciplina es investigar y desarrollar herramientas uacutetiles para llegar a entender el flujo de informacioacuten Inicialmente la bioinformaacutetica se ocupaba sobre todo de la creacioacuten de bases de datos de informacioacuten bioloacutegica especialmente secuencias y del desarrollo de herramientas para la utilizacioacuten y anaacutelisis de los datos contenidos en esas bases de datos La Bioinformaacutetica ha ido evolucionando para ocuparse cada vez con mayor profundidad del anaacutelisis e interpretacioacuten de los distintos tipos de datos (secuencias de genomas proteomas dominios y estructuras de proteiacutenas etc)

iquestPara queacute se utilizan las bases de datos Las bases de datos utilizadas en biologiacutea molecular son archivos de datos que provienen de diferentes aacutereas almacenados de modo eficaz y uniforme y de uso puacuteblico para la comunidad cientiacutefica

Hay que tener en cuenta los siguientes aspectos

- Los proveedores de recursos centros u organizaciones especializadas en tener y mantener las bases de datos

- Las bases de datos hay mucha variedad

- Las herramientas para estudiar y analizar toda la informacioacuten contenida en las bases de datos y asiacute poder extraer conocimiento en sentido bioloacutegico a partir de ellas

Existen bases de datos primarias que contienen secuencias de DNA y de proteiacutenas estructuras de proteiacutenas y perfiles de expresioacuten de genes y proteiacutenas Cada registro de estas bases de datos contiene una secuencia y su correspondiente anotacioacuten (comentarios que incluyen informacioacuten acerca de esa secuencia habitualmente hechos de modo manual por alguacuten anotador)

Las bases de datos secundarias archivan los datos que son fruto del anaacutelisis de las bases de datos primarias tales como familias de proteiacutenas motivos o dominios

APLICACIOacuteN DE HERRAMIENTAS

BIOINFORMAacuteTICAS EN EL ESTUDIO DE LAS

ENFERMEDADES GENEacuteTICAS HUMANAS

1

INTRODUCCIOacuteN


proteicos familias de genes mutaciones polimorfismos implicacioacuten en enfermedades etc

Existen cientos de bases de datos por el tipo de informacioacuten se pueden distinguir bibliograacuteficas taxonoacutemicas de nucleoacutetidos genoacutemicas de proteiacutenas de microarrays y otras

Un cataacutelogo completo de todas las Bases de Datos disponibles aparece todos los antildeos en la revista Nucleic Acids Research El artiacuteculo del 2008 lo podeacuteis conseguir en

httpnaroxfordjournalsorgcgicontentfull36suppl_1D2

En este curso nos centraremos en las bases de datos bibliograacuteficas de nucleoacutetidos genoacutemicas de proteiacutenas y cliacutenico-geneacuteticas principalmente

Organizacioacuten de los artiacuteculos publicados en la revistas de aacutembito cientiacutefico

ndash Pubmed (NCBI) httpwwwncbinlmnihgovpubmed

ndash Medline Hay que estar suscrito httpmedlinecoscom

Las bases de datos de secuencias de nucleoacutetidos son muy importantes para la biologiacutea Para asegurar la disponibilidad de las secuencias al puacuteblico general ninguna revista cientiacutefica puede publicar un artiacuteculo describiendo una secuencia de nucleoacutetidos o proteica si no ha sido depositada en una de las 3 principales bases de datos internacionales

Existe una colaboracioacuten internacional entre las 3 principales bases de datos de nucleoacutetidos EMBL-Bank en el EBI DDBJ (DNA Data Bank of Japan) en el CIBNIG y GenBank en el NCBI Estas bases de datos intentan alojar todas las secuencias de nucleoacutetidos que son de dominio puacuteblico Estaacuten divididas en varias secciones que reflejan grupos taxonoacutemicos ademaacutes de otros grupos tales como secuencias EST (expressed sequence tag) patentes secuencias HTGs (high-through-put genomic sequences) etc En estas bases de datos prima la cantidad sobre la calidad en el sentido de que contienen todo lo que los investigadores depositan en ellas y son bastante heterogeacuteneas en cuanto al tipo de secuencias su calidad su anotacioacuten etc Por este motivo son tambieacuten redundantes ya que la misma secuencia puede encontrarse repetida en distintos registros procedentes de distintos autores Estas bases de datos son accesibles gratuitamente por Internet y se sincronizan entre ellas cada 24 horas por lo que contienen exactamente la misma informacioacuten

Cada entrada en estas bases de datos es un registro que debe tener un identificador uacutenico formado por letras yo nuacutemeros que se denomina nuacutemero de acceso (accession number) y es estable (nunca cambiaraacute en sucesivas versiones de ese registro) Por tanto otro identificador indicaraacute las sucesivas versiones de cada acceso por lo que es importante conocer ambos En febrero de 1999 el consorcio

2

BASES DE DATOS

1 BASES DE DATOS BIBLIOGRAacuteFICAS

2 BASES DE DATOS DE NUCLEOacuteTIDOS


GenBankEmblDDBJ acordoacute un formato de versioacuten consistente en el nuacutemero de acceso seguido de un punto y un nuacutemero Ademaacutes GenBank incluye el indicador GI

Buacutesquedas en EMBL Constituye el repositorio maacutes importante en Europa Las principales fuentes de secuencias de DNA y RNA son reportadas por investigadores individuales proyectos de secuenciacioacuten de genomas y aplicaciones patentadas httpwwwebiacukemblindexhtml

Buacutesquedas en GenBank GenBank es la base de datos de secuencias del NIH en EEUU una coleccioacuten anotada de todas las secuencias de DNA disponibles puacuteblicamente

httpwwwncbinlmnihgovsitesentrezdb=nuccoreampitool=toolbar

DDBJ (Japoacuten) httpwwwddbjnigacjpWelcome-ehtml

Localizacioacuten y anaacutelisis genoacutemico de una secuencia en el genoma humano Genome Browser y ENSEMBL extraccioacuten de toda la informacioacuten contenida en estos recursos Informacioacuten sobre secuencia (exoacuten cDNA proteiacutena)

Genomes Server informacioacuten o enlaces de todos los genomas secuenciados por el momento desde virus a humanos httpwwwebiacukgenomesindexhtml

Wormbase es el portal del genoma de gusano C elegans httpwwwwormbaseorg

Flybase es el portal de la mosca del vinagre Drosophila melanogaster Flybase httpflybasebioindianaedu y httpwwwfruitflyorg

A Entrez Proteins Actualmente las principales fuentes de datos de secuencias de proteiacutenas son traducciones de secuencias de nucleoacutetidos depositadas en las bases de datos GenBakEMBLDDBJ El NCBI protein database ofrece el maacutes simple y completo set de proteiacutenas deducidas Casi todas las proteiacutenas en Entrez tienen links a distintas bases de datos nucleoacutetidos en GenBank NCBI taxonomiacutea Pubmed MMDB OMIM etc

httpwwwncbinlmnihgovsitesentrezdb=Proteinampitool=toolbar

B UniprotKB Existe una gran variedad de bases de datos de proteiacutenas sobre todo bases de datos secundarias Las principales bases de datos primarias de aminoaacutecidos estaacuten ahora unificadas en UniprotKB (Universal Protein Resource) httpwwwuniprotorghelpuniprotkb

3

3 BASES DE DATOS DE GENOMAS

4 BASES DE DATOS DE PROTEIacuteNAS


que contiene el cataacutelogo maacutes completo de proteiacutenas y reuacutene la informacioacuten de las 3 principales bases de datos primarias Swiss-Prot TrEMBL y PIR

UniProtkbSwiss-Prot base de datos de secuencias proteicas proporcionando un alto nivel de informacioacuten (descripcioacuten de la funcioacuten de la proteiacutena estructura de los dominios modificaciones post-transduccionales variantes etc) Swiss-Prot httpwwwexpasychsprot Las buacutesquedas de enzimas se realizan con ENZYME database httpwwwexpasyorgenzyme Para identificar y caracterizar proteiacutenas es muy uacutetil la paacutegina de Proteomics Tools httpwwwexpasychtools

UniProtKBTrEMBL (Translation of EMBL Nucleotide Sequence Database) un suplemento de Swiss-Prot que contiene todas las traducciones de las secuencias de nucleoacutetidos del EMBL pero que no se han integrado todaviacutea en el Swiss-Prot httpwwwebiacukuniprot

PIR (Protein Information Resource) Se creoacute originalmente por Margaret Dayhoff y actualmente se mantiene en Georgetown University en colaboracioacuten con Munich Information Center para secuencias de proteiacutenas PIR es menos riguroso que Swiss-prot en mantener la calidad de sus anotaciones httppirgeorgetownedu

C Algunas bases de datos de proteomas estructuras secundarias o dominios Variacutea seguacuten la fuente de las proteiacutenas y el anaacutelisis que se realiza sobre ellas Los teacuterminos de motivo o dominio de proteiacutena son ampliamente utilizados en biologiacutea para describir ciertas partes de las proteiacutenas Se puede definir como motivo el conjunto de residuos de aminoaacutecidos conservados que son importantes para la funcioacuten proteica y estaacuten localizados a una pequentildea distancia unos de otros Un dominio proteico es una unidad compacta tridimensional que forma una estructura estable y muestra un nivel de conservacioacuten en la evolucioacuten

MOTIFSCAN Encuentra los motivos en una secuencia httpmyhitsisb-sibchcgi-binmotif_scan

PROSITE Contiene informacioacuten sobre la estructura secundaria de proteiacutenas familias dominios etc Expresiones regulares sobre Swiss-prot PROSITE

BLOCKS Motivos alineados de PROSITEPRINTS httpbioinformaticsweizmannacilblocks

PRINTS Conjunto de motivos que definen una familia sobre Swiss-protTrEMBL httpwwwbioinfmanchesteracukdbbrowserPRINTSindexphp

BLOCKS y PRINTS utilizan motivos muacuteltiples (fingerprints o bloques)

EMOTIF es una base de datos de motivos de secuencia de proteiacutenas representando propiedades bioquiacutemicas y funciones bioloacutegicas conservadas httpmotifstanfordeduemotif

INTERPRO Integra la informacioacuten de muchas bases de datos de dominios INTERPRO

D Bases de datos de estructuras proteicas tridimensionales Las estructuras tridimensionales de las proteiacutenas son mucho maacutes difiacuteciles de determinar

4


que las secuencias primarias pero son al menos en algunos aspectos maacutes informativas El conocimiento de las coordenadas de los aacutetomos proporciona la informacioacuten de la arquitectura del sitio activo la situacioacuten de elementos secundarios la exposicioacuten espacial de las cadenas las posiciones relativas de dominios individuales etc Hay bases de datos de proteiacutenas que almacenan datos referidos a la estructura tanto las coordenadas obtenidas por cristalizacioacuten como clasificaciones de dominios estructurales por familias

PDB (Protein Data Bank) Principal base de datos de estructuras tridimensionales de proteiacutenas PDB Para el modelado de proteiacutenas-mutaciones se pueden usar los programas viewer-prot 50 rasmol y pmol

E Otras bases de datos de proteiacutenas

Human Protein Reference Database (HPRD) La base de datos HPRD representa una plataforma centralizada para representar e integrar informacioacuten perteneciente a arquitectura de dominios modificaciones post-traduccionales redes de interaccioacuten y enfermedades asociadas a cada proteiacutena en el proteoma humano Toda la informacioacuten depositada en HPRD ha sido extraiacuteda de manera manual de la literatura por bioacutelogos expertos los cuales leen interpretan y analizan los datos publicados httpwwwhprdorg

Mitochondrial Proteome httpwwwmitopde8080mitop2

A OMIM contiene informacioacuten sobre enfermedades geneacuteticas humanas genes y fenotipos descripcioacuten caracteriacutesticas cliacutenicas diagnoacutestico geneacutetica molecular referencias etc httpwwwncbinlmnihgovomim

B GeneCards es una base de datos de genes humanos que proporciona una informacioacuten concisa genoacutemica proteoacutemica transcriptoacutemica geneacutetica y funcional de todos los genes humanos conocidos y candidatos La informacioacuten incluye relacioacuten con enfermedades mutaciones SNPs expresioacuten geacutenica funcioacuten geacutenica interacciones proteiacutena-proteiacutena etc httpwwwgenecardsorg

A The Human Gene Mutation Database at the Institute of Medical Genetics in Cardiff httpwwwhgmdcfacukacindexphp

Incluye mutaciones en el DNA nuclear HGMD ha recogido datos de mutaciones durante 12 antildeos y se publicoacute en Internet en abril del 1996 Acuerdo con Celera

Hay que estar suscrito Podeacuteis entrar con mi password HGMD258761 y mi email erichardcbmuames en log in Vamos a buscar las mutaciones descritas en MMAA PAH (como gene symbol) y propionic acidemia (como diseasephenotype)

B Human Mitocondrial Genome Database Contiene mutaciones en el genoma mitocondrial MITOMAP httpwwwmitomaporg

5

5 BASES DE DATOS CLIacuteNICO-GENEacuteTICAS

6 BASES DE DATOS DE VARIANTES DEL GENOMA HUMANO


C Base de datos de polimorfismos Un polimorfismo de un soacutelo nucleoacutetido o SNP (Single Nucleotide Polymorphism) es una variacioacuten en la secuencia de DNA que afecta a una sola base de una secuencia del genoma Sin embargo algunos autores consideran que cambios de unos pocos nucleoacutetidos como tambieacuten pequentildeas inserciones y deleciones pueden ser consideradas como SNP Una de estas variaciones debe darse al menos en un 1 de la poblacioacuten para ser considerada como un SNP Los SNP forman hasta el 90 de todas las variaciones genoacutemicas humanas y aparecen cada 100 a 300 bases en promedio a lo largo del genoma humano Dos tercios de los SNP corresponden a la sustitucioacuten de una citosina por una timina

a) Single Nucleotide Polymorphism dbSNP httpwwwncbinlmnihgovprojectsSNP

Herramientas de buacutesquedas de SNPs funcionales

Pupasuite httppupasuitebioinfocipfes

F-SNP httpcompbiocsqueensucaF-SNP

SYSNPs httpwwwsysnpsorg

b) Hapmap Es un cataacutelogo de variantes geneacuteticas comunes que ocurren en los humanos Describe cuaacuteles son esas variantes doacutende ocurren en el DNA y coacutemo estaacuten distribuidas entre la gente en poblaciones y entre poblaciones en diferentes partes del mundo httpwwwhapmaporgindexhtmlen

c) Data Base of Genomic Variants (DGV) Proporciona un resumen de la variacioacuten estructural en el genoma humano El contenido de la base de datos es solamente representando variaciones estructurales (alteraciones genoacutemicas que implican segmentos de DNA gt1kb) identificadas en muestras control Proporciona un cataacutelogo uacutetil de datos de controles para estudios de correlacioacuten entre el genotipo y fenotipo httpprojectstcagcavariation

Alineamientos globales y locales de secuencias Alineamientos muacuteltiples usando Clustalw httpwwwebiacukToolsclustalw2indexhtml en el EBI (leer antes el tutorial sobre ClustalW disponible en httpwwwebiacuk2cantutorialsproteinclustalwhtml

Buacutesqueda de secuencias en bases de datos mediante alineamientos (buacutesqueda de secuencias similares) httpblastncbinlmnihgovBlastcgi y todas sus variantes explicadas en la guiacutea de seleccioacuten de programas httpwwwncbinlmnihgovBLASTproducttableshtml

6

HERRAMIENTAS


El objetivo de esta praacutectica es la utilizacioacuten de las herramientas bioinformaacuteticas para la exploracioacuten del genoma humano y para la buacutesqueda de informacioacuten relacionada con enfermedades geneacuteticas Para ello se plantean los siguientes objetivos especiacuteficos

- Conocer en profundidad las bases de datos

- Utilizar con soltura las herramientas bioinformaacuteticas para el estudio de enfermedades geneacuteticas humanas

- Desarrollar ejemplos que permitan el uso de estos recursos

- Suministrar una perspectiva de las liacuteneas de actuacioacuten en este campo para el desarrollo de otros trabajos de investigacioacuten

Actividades 1-6 Exploracioacuten de bases de datos bioloacutegicos y comparacioacuten de secuencias En estas actividades exploraremos varias bases de datos de secuencias de DNA de proteiacutenas y de genomas A partir de secuencias anoacutenimas de DNA realizaremos buacutesquedas en las bases de datos por ejemplo para identificar con que tipo de gen o proteiacutena estamos trabajando Realizaremos alineamientos de secuencias y buacutesquedas de secuencias homoacutelogas Imparte Eva Richard

Actividades 7-9 Anaacutelisis de secuencias de DNA Se analizaraacuten distintas secuencias de DNA de pacientes con enfermedades metaboacutelicas hereditarias y se identificaraacuten las mutaciones aprendiendo las normas para su nomenclatura Realizaremos un estudio del efecto de mutaciones de splicing y de polimorfismos Imparte Lourdes Ruiz

Identificar y descargar secuencias de DNA y proteiacutenas Como se ha indicado anteriormente existen 3 grandes servicios principales de acceso a bases de datos de DNA y proteiacutenas localizados en USA Europa y Japoacuten

En USA existe la base de datos GenBank

En Europa existe la base de datos EMBL En Japoacuten existe la base de datos DDBJ httpwwwddbjnigacjpWelcome-

ehtml

Las bases de datos de aacutecidos nucleicos y proteiacutenas son praacutecticamente las mismas en las 3 instituciones ya que intercambian registros cada 24 horas Las tres bases de datos se diferencian en los distintos servicios que ofrecen y en el modo en que se ofrecen dichos servicios

Hay muchas formas de realizar una buacutesqueda en GenBank Se puede hacer usando soacutelo texto o calificadores La buacutesqueda es altamente sensitiva a lo que se escriba es decir a tu query

7

OBJETIVOS

PRAacuteCTICA

Actividad 1 Bases de datos de nucleoacutetidos y proteiacutenas


Ejercicio 11 Busca en GenBank la secuencia codificadora completa (cds) nucleotiacutedica del gen de la methylmalonic aciduria cblA type iquestCuaacutentos registros encuentras con cada una de la siguientes buacutesquedas MMAA human methylmalonic aciduria cblA type human AND methylmalonic aciduria cblA type human methylmalonic aciduria cblA type gene Una vez que hayas identificado la secuencia maacutes apropiada anota su nuacutemero de identificacioacuten iquestCuaacutel es el siacutembolo de este gen iquestCuaacutel es su longitud iquestqueacute funcioacuten tiene la proteiacutena iquestdoacutende se localiza

Ejercicio 12 Repite la buacutesqueda del gen en el ENSEMBL Busca el transcrito la proteiacutena los exones los SNPs Aprender a exportar la secuencia proteica en formato fasta Actualmente este navegador es el maacutes usado por los investigadores para ver genes y sus productos toda la informacioacuten estaacute integrada

Ejercicio 13 Analiza tambieacuten la informacioacuten del gen en las siguientes direcciones UniGene

httpwwwncbinlmnihgovUniGeneclustcgiUGID=621827ampTAXID=9606ampSEARCH=Homo20sapiens[organism]20AND20MMAA

y en Entrez Gene httpwwwncbinlmnihgovgene166785ordinalpos=1ampitool=EntrezSystem2PEntrezGeneGene_ResultsPanelGene_RVDocSum

Debido a la explosioacuten en el nuacutemero genomas completos secuenciados durante los uacuteltimos antildeos y al intereacutes en su anaacutelisis y comparacioacuten existen diversas bases de datos de genomas Entre las maacutes importantes se encuentran como se ha mencionado anteriormente

Base de datos de genomas del NCBI

Base de datos de genomas del EMBL

Asimismo se han desarrollado o una serie de herramientas bioinformaacuteticas para su exploracioacuten como el visor de mapas del NCBI de genomas eucarioacuteticos y el navegador de ENSEMBL

Ejercicio 21 En el visor de mapas del genoma humano del NCBI utiliza el sistema de buacutesqueda para localizar el gen de human methylmalonic aciduria cblA type iquestCuaacutel es su posicioacuten cromosoacutemica iquestQueacute dos genes rodean a este gen en el mapa citogeneacutetico

Ejercicio 22 Repite esta misma buacutesqueda en el navegador de genomas de ENSEMBL

En Internet hay una innumerable cantidad de bases de datos disponibles que no soacutelo son de secuencias de aacutecidos nucleicos y proteiacutenas

8

Actividad 2 Bases de datos de genomas

Actividad 3 Otras bases de datos


OMIM (Online Mendelian Inheritance in Man) que refleja estudios sobre las causas moleculares de las enfermedades humanas

PDB (Protein Data Bank) de estructuras tridimensionales de las proteiacutenas Swiss 2D Page Base de datos de proteoacutemica que incluyen informacioacuten e

imaacutegenes de geles 2-DE

Ejercicio 31 Busca la informacioacuten relativa al gen de human methylmalonic aciduria cblA type en la base de enfermedades OMIM iquestCuacuteantos intrones y exones se incluyen iquestQueacute tratamiento de lleva a cabo con estos pacientes

Ejercicio 32 Busca la informacioacuten relativa al gen de human phenylalanine hydroxylase en la base de enfermedades OMIM iquestCuacuteantos intrones y exones se incluyen iquestQueacute tratamiento se lleva a cabo con estos pacientes

iquestHas notado alguna diferencia en estas dos enfermedades iquestla extensioacuten de la informacioacuten es la misma

Ejercicio 33 Anaacutelisis de estructuras tridimensionales con PDB En avanced search poner el nuacutemero de EC 25117 correspondiente a methylmalonic aciduria cblB type (human ATP cobalamin adenosyltransferase) Analizar la estructura tridimensional de la proteiacutena

Para poder comparar secuencias debemos de proceder siempre a su alineamiento ya que necesitamos asegurarnos de que estamos realizando comparaciones entre posiciones homoacutelogas es decir que proceden de una posicioacuten ancestral comuacuten Debe de quedar claro que similitud y homologiacutea son cosas diferentes Similitud es parecido y se suele medir en porcentaje El concepto de homologiacutea es evolutivo e implica descendencia a partir de un ancestro comuacuten La homologiacutea no se mide de forma cuantitativa como la similitud o se es homoacutelogo o no se es

Los meacutetodos para comparar dos secuencias se pueden agrupar en dos grandes grupos

Global comparacioacuten de dos secuencias en toda su longitud tratando de obtener el mejor alineamiento posible En general son aplicables a secuencias maacutes o menos parecidas y de longitudes similares

Local comparacioacuten de pequentildeos fragmentos (palabras) de las dos secuencias en toda su longitud tratando de obtener el mejor alineamiento posible Son asiacute aplicables a secuencias con grados diferentes de similitud o con longitudes diferentes La mayoriacutea de los bioacutelogos utilizan este tipo de meacutetodos

Un alineamiento muacuteltiple de secuencias es simplemente el alineamiento de maacutes de dos secuencias De nuevo se trata de establecer relaciones de homologiacutea Algunos de los meacutetodos de alineamiento muacuteltiple maacutes eficaces son los meacutetodos jeraacuterquicos que construyen primero un aacuterbol que sirve de guiacutea para el alineamiento posterior Uno de los programas maacutes utilizados es ClustalW

Ejercicio 41 Alinea la proteiacutena MMAB humana con la de ratoacuten (M musculus) C elegans y D rerio (Zebrafish) utilizando el servidor EBI ClustalW Buscar los archivos de las proteiacutenas de las distintas especies en el ENSEMBL exportarlos en formato FASTA a un archivo de Word y hacer el alineamiento en clustalw Analizar tambieacuten el alineamiento con todos los ortoacutelogos que realiza el Ensembl

9

Actividad 4 Comparacioacuten y alineamiento de secuencias


iquestCuaacutentos homoacutelogos (ortoacutelogos) aparecen en Ensembl iquestqueacute regioacuten estaacute maacutes conservada en todas las especies iquesthay muchos gaps iquestPor queacute iquestQueacute longitud tienen iquestPor queacute

Los meacutetodos de buacutesqueda de secuencias en bases de datos se basan en el alineamiento y similitud significativa entre la secuencia problema (query) y las secuencias depositadas base de datos El algoritmo maacutes utilizado de buacutesqueda de secuencias es el BLAST

BLAST Identificacioacuten de dominios y secuencias homoacutelogas en distintas especies Una de las aplicaciones de BLAST maacutes habituales es la buacutesqueda bioinformaacutetica (in silico) de genes humanos causantes de enfermedad de los que soacutelo se conoce la funcioacuten de la proteiacutena utilizando como sondas genes o proteiacutenas homoacutelogas de otros organismos es lo que se conoce como genoacutemica comparativa Mediante BLAST se pueden detectar regiones relativamente cortas de similitud entre la sonda utilizada y las proteiacutenas resultantes de la traduccioacuten conceptual de la base de datos de EST (Expressed Sequence Tags) secuencias parciales de cDNAs procedentes de genotecas especiacuteficas de tejido o tipo celular Hay que tener en cuenta que la secuencia de aminoaacutecidos estaacute maacutes conservada que la de nucleoacutetidos por eso se usa como sonda la secuencia de aminoaacutecidos y la herramienta de tblastn Un ejemplo de esta aplicacioacuten la podeacuteis encontrar en la siguiente referenciaGallardo et al 2001 httpwwwcellcomAJHGretrievepiiS0002929707640865en la que se describe el clonaje in silico de los genes humanos MCCA y MCCB responsables de la metilcrotonilglicinuria

Un ejemplo de coacutemo las teacutecnicas para localizar genes responsables de EMH han avanzado incorporando la informacioacuten de bases de datos puacuteblicas lo constituye la reciente identificacioacuten de los genes implicados en el metabolismo intracelular de cobalaminas grupos de complementacioacuten cblA y cblB (acidemia metilmaloacutenica aislada) genes MMAA y MMAB mediante buacutesquedas de homologiacutea a proteiacutenas bacterianas que formaban parte de un operoacuten bacteriano en el que se encontraba la metilmalonil-CoA mutasaDobson et al 2002 httpwwwpnasorgcontent992415554longDobson et al 2002bis httphmgoxfordjournalsorgcgicontentfull11263361Esta estrategia se basa en el hecho de que en bacterias es frecuente que los genes implicados en una misma ruta metaboacutelica se encuentren agrupados en lo que se denomina cluster u operoacuten

Ejercicio 51 Buscar secuencias similares de proteiacutenas a la proteiacutena methylmalonic aciduria cblB type human (MMAB) Conseguir la secuencia en formato fasta en el ENSEMBL (ya la teneacuteis en el archivo de Word de las secuencias fasta) Copiar la secuencia Ir a la base de datos de BLAST del NCBI httpblastncbinlmnihgovBlastcgiCMD=WebampPAGE_TYPE=BlastHome

Ir a protein BLAST y pegar la secuencia en formato fasta Analizar los datos iquestSe obtienen las proteiacutenas homoacutelogas que en el apartado de ortoacutelogos del ENSEMBL iquestcoacutemo es el alineamiento

10

Actividad 5 Buacutesqueda de secuencias similares

Actividad 6 Anaacutelisis de secuencias de proteiacutenas


Es interesante resaltar que podemos tambieacuten obtener la siguiente informacioacuten de la secuencia de proteiacutena prediccioacuten peacuteptido sentildeal peso molecular pI localizacioacuten celular etc

httpwwwuniprotorguniprotP22033

Ejercicio 61 Calcula el peso molecular y el pI de la proteiacutena methylmalonic aciduria cblB type human (MMAB) con la base de datos de httpwwwexpasychtoolspi_toolhtml

Ejercicio 62 Predice el peacuteptido liacuteder de la secuencia de la proteiacutena methylmalonic aciduria cblB type human (MMAB) con la base de datos de httpwwwcbsdtudkservicesSignalP

Existe otra web que es especiacutefica de peacuteptido sentildeal de proteiacutenas mitocondriales MITOPROT httpihg2helmholtz-muenchendeihgmitoprothtml

Existe una base de datos de los peacuteptidos liacutederes httpwwwsignalpeptidedeindexphpm=intro

71 Mapas de restriccioacuten

Si queremos cortar una secuencia nos seraacute muy uacutetil conocer su mapa de restriccioacuten Esto lo podemos realizar con la herramienta Mapper o con WEBCUTTER httprnalundberggusecutter2

Ejercicio 71 Construye el mapa de restriccioacuten de la secuencia de la methylmalonic aciduria cblA type con Mapper

72 Identificacioacuten de mutaciones

Utilizando el programa CHROMAS que nos permite visualizar secuencias vamos a analizar el exoacuten 11 del gen PAH que ha sido amplificado a partir de muestras de DNA genoacutemico de pacientes con fenilcetonuria El objetivo de esta actividad es identificar las mutaciones en homocigosis o en heterocigosis y aprender la nomenclatura

Abrir las secuencias 1-8 (escoger dos) con el CHROMAS Identificar la secuencia exoacutenica y la introacutenica flanqueante y compararla con la secuencia normal (sacada del ENSEMBL) Anotar los posibles cambios confirmar que no son SNP (en el ENSEMBL) iquestLas mutaciones estaacuten en homocigosis o en heterocigosis Analizar el efecto de las mutaciones en la secuencia codificante iquestQueacute cambio de aminoaacutecido producen iquestY las mutaciones en la secuencia introacutenica iquestQueacute efecto tendraacuten iquestCoacutemo se nombran cada una de estas mutaciones (nombre comuacuten y nombre

sistemaacutetico) Utilizar la informacioacuten siguiente

Nomenclatura de mutaciones

Cada tipo de mutacioacuten requiere una definicioacuten precisa del cambio predecible a nivel de proteiacutena a nivel del DNA genoacutemico y del mRNA si corresponde Las normas internacionales de nomenclatura de mutaciones se recogen en httpwwwhgvsorgmutnomen En el caso de sustituciones de aminoaacutecidos se utiliza

11

Actividad 7 Anaacutelisis de secuencia de DNA


normalmente el coacutedigo de una letra para eacutestos apareciendo primero el coacutedigo del aminoaacutecido que cambia la posicioacuten y el aminoaacutecido mutante con una p delante para indicar que se trata de la nomenclatura a nivel de proteiacutena (p ej pR176L indica un cambio de arginina por leucina en la posicioacuten 176 de la proteiacutena) En el caso de mutaciones nonsense el codoacuten de parada se designa con una X (pR243X sustitucioacuten de una arginina por un codoacuten de parada en la posicioacuten 243 de la proteiacutena) Esta designacioacuten de las mutaciones se conoce como nombre comuacuten (el maacutes usual) En el nombre sistemaacutetico la posicioacuten del nucleoacutetido aparece primero y luego el cambio (1248GA) y se incluye una c minuacutescula (c1248GA) para indicar que se trata de la numeracioacuten del cDNA (secuencia codificante complementaria al mRNA y designando como nucleoacutetido 1 la A del codoacuten de iniciacioacuten ATG de la cadena polipeptiacutedica) Para las mutaciones de splicing localizadas en intrones en el nombre comuacuten se designa el nuacutemero del introacuten tras las siglas IVS (intervening sequence) y la posicioacuten nucleotiacutedica del cambio contando a partir del exoacuten maacutes cercano (p ej IVS3+1 gt cambio de una g por una t en la base 1 del introacuten 3) En general se suele escribir las bases introacutenicas en minuacutesculas y las exoacutenicas en mayuacutesculas para facilitar el reconocimiento de secuencias exoacutenicas e introacutenicas Para inserciones o deleciones se utilizan las abreviaturas ins y del respectivamente (p ej 1202del4 delecioacuten de 4 nucleoacutetidos en la posicioacuten 1202 del cDNA) y en el nombre comuacuten se incluye las siglas fs si produce un cambio en la fase de lectura (frameshift)

Ejemplos de nomenclatura de mutaciones Nombre comuacuten Nombre sistemaacutetico Efecto

Missense (cambio de aminoaacutecido)

pR243Q c728 GA cambio de Arg por Gln en la posicioacuten 243 pI65T c194 TC cambio de Ile por Thr en la posicioacuten 65

Nonsense (parada de la traduccioacuten)

pR111X c331CT cambio de Arg 111 por codoacuten de parada de la traduccioacuten

Insercioacuten pK452fsinsA c1355insA cambio de la fase de lectura (frameshift)

Delecioacuten pP211fsdelC c632delC cambio de la fase de lectura (frameshift) pY198fs c593_641del22pb cambio de la fase de lectura (frameshift)

Splicing (procesamiento del mRNA)

IVS10nt-11ggta c1066-11ga alteracioacuten del splicing (activacioacuten sitio criacuteptico)

IVS12nt1ggta c1315+1ga alteracioacuten del splicing (exon skipping)

Este uacuteltimo tipo de mutaciones y la nomenclatura seguacuten su efecto se describiraacuten con mayor detalle en la siguiente actividad

12

Actividad 8 Anaacutelisis de mutaciones de splicing


Objetivo Utilizaremos distintos programas para predecir sentildeales de splicing en una regioacuten calcular su fuerza relativa y ver coacutemo las mutaciones las afectan Vamos a analizar las mutaciones IVS10-11ggta y IVS10-3ggtc en el exoacuten 11 del gen PAH identificadas en la actividad anterior y otras de localizacioacuten exoacutenica

Informacioacuten

Aproximadamente un 15 de las mutaciones puntuales asociadas a enfermedades geneacuteticas humanas afectan al procesamiento del mRNA o splicing Se conoce como splicing al proceso mediante el cual el mRNA sufre el procesamiento de eliminacioacuten de sus intrones previamente a la traduccioacuten de la secuencia codificante Se lleva a cabo por un complejo macromolecular denominado spliceosoma compuesto por 5 partiacuteculas ribonucleoproteiacutenas -snRNPs- (U1 U2 U4 U5 y U6) y maacutes de 50 proteiacutenas Cada snRNP estaacute compuesto por un RNA pequentildeo nuclear rico en uridinas (snRNA) y muacuteltiples proteiacutenas asociadas

Las mutaciones de splicing pueden afectar a las secuencias conservadas 5acute donadora o 3acute aceptora de splicing el tracto polipirimidiacutenico y la secuencia de ramificacioacuten BPS o a secuencias reguladoras auxiliares menos conservadas como son los potenciadores o enhancers y silenciadores de splicing que pueden estar localizados en secuencias exoacutenicas (ESE ndashexonic splicing enhancers- ESS -exonic splicing silencers-) o introacutenicas (ISE ndashintronic splicing enhancers- ISS ndashintronic splicing silencers-)

Los dos efectos maacutes comunes de las mutaciones de splicing son la no inclusioacuten de alguacuten exoacuten en el mRNA (exon skipping) o la activacioacuten de nuevos sitios criacutepticos de splicing resultando en la generacioacuten de transcritos aberrantes

Mediante el anaacutelisis in siacutelico podemos orientarnos sobre el mecanismo molecular por el cuacuteal la mutacioacuten ejerce su efecto bien por disminuir la complementariedad de secuencia entre distintas proteiacutenas del spliceosoma como la ribonucleoproteiacutena U1 que se une especiacuteficamente al sitio 5acute de splicing bien por modificar secuencias reconocidas como enhancers de splicing exoacutenicos e introacutenicos (ESEs e ISEs) donde se unen las proteiacutenas SR auxiliares de splicing Para ello estaacuten disponibles distintos programas

1) wwwfruitflyorgseq_toolssplicehtml para determinar sitios de splicing2) httpastbioinfotauacilSpliceSiteFramehtm 3) httpgenesmiteduburgelabmaxentXmaxentscan_scoreseqhtml para

determinar el score4) httpcryp-skipimgcascz para predecir el efecto de mutaciones5) ESE finder httprulaicshledutoolsESE6) RESCUE-ESE httpgenesmiteduburgelabrescue-ese7) PESX Server (httpcubwebbiologycolumbiaedupesx)

Estos tres uacuteltimos facilitan la identificacioacuten de posibles ESEs basaacutendose en su reconocimiento por cuatro proteiacutenas SR SF2ASF SC35 SRp40 y SRp55

13


Secuencias implicadas en el procesamiento del mRNA o splicing

Ejercicio 81 Analiza las secuencias 3rsquo y 5rsquo de splicing del exoacuten 11 con los programas 1 2 3 iquestTienen un score alto es decir son buenas secuencias para ser reconocidas por la maquinaria de splicing Analiza la secuencia 3rsquo de splicing con las mutaciones IVS10-3ggtc y IVS10-11ggta iquestQueacute efecto ves sobre el score iquestQueacute ocurre con la mutacioacuten IVS10-11ggta

Ejercicio 82 Analiza la mutacioacuten IVS10-3ggtc con el programa 4 iquestQueacute efecto predice

Ejercicio 83 Analiza con los programas 5 y 6 el cambio c1155GC (L385L) en el mismo exoacuten 11 para analizar si podriacutea afectar al splicing (ya que no cambia aa)

Ejercicio 91 Analiza los SNPs anotados en el gen MMAB utilizando el ENSEMBL y el servidor SYSNPs httpwwwsysnpsorg que utiliza la informacioacuten integrada de las siguientes bases de datos (uacuteltima versioacuten actualizada) Ensembl 53 Hapmap release 24 Haploview 41 y Pupasuite Abrir la paacutegina del servidor Pupasuite httppupasuitebioinfocipfes

para ver las opciones de asignacioacuten de funciones a los SNPs

iquestQueacute efecto predice el programa para cada SNP iquestEstaacuten validados los SNPs iquestCuaacutentos tag-SNPs hay

14

Actividad 9 Anaacutelisis de SNPs


Ejemplos de nomenclatura de mutaciones





proteicos familias de genes mutaciones polimorfismos implicacioacuten en enfermedades etc

Existen cientos de bases de datos por el tipo de informacioacuten se pueden distinguir bibliograacuteficas taxonoacutemicas de nucleoacutetidos genoacutemicas de proteiacutenas de microarrays y otras

Un cataacutelogo completo de todas las Bases de Datos disponibles aparece todos los antildeos en la revista Nucleic Acids Research El artiacuteculo del 2008 lo podeacuteis conseguir en

httpnaroxfordjournalsorgcgicontentfull36suppl_1D2

En este curso nos centraremos en las bases de datos bibliograacuteficas de nucleoacutetidos genoacutemicas de proteiacutenas y cliacutenico-geneacuteticas principalmente

Organizacioacuten de los artiacuteculos publicados en la revistas de aacutembito cientiacutefico

ndash Pubmed (NCBI) httpwwwncbinlmnihgovpubmed

ndash Medline Hay que estar suscrito httpmedlinecoscom

Las bases de datos de secuencias de nucleoacutetidos son muy importantes para la biologiacutea Para asegurar la disponibilidad de las secuencias al puacuteblico general ninguna revista cientiacutefica puede publicar un artiacuteculo describiendo una secuencia de nucleoacutetidos o proteica si no ha sido depositada en una de las 3 principales bases de datos internacionales

Existe una colaboracioacuten internacional entre las 3 principales bases de datos de nucleoacutetidos EMBL-Bank en el EBI DDBJ (DNA Data Bank of Japan) en el CIBNIG y GenBank en el NCBI Estas bases de datos intentan alojar todas las secuencias de nucleoacutetidos que son de dominio puacuteblico Estaacuten divididas en varias secciones que reflejan grupos taxonoacutemicos ademaacutes de otros grupos tales como secuencias EST (expressed sequence tag) patentes secuencias HTGs (high-through-put genomic sequences) etc En estas bases de datos prima la cantidad sobre la calidad en el sentido de que contienen todo lo que los investigadores depositan en ellas y son bastante heterogeacuteneas en cuanto al tipo de secuencias su calidad su anotacioacuten etc Por este motivo son tambieacuten redundantes ya que la misma secuencia puede encontrarse repetida en distintos registros procedentes de distintos autores Estas bases de datos son accesibles gratuitamente por Internet y se sincronizan entre ellas cada 24 horas por lo que contienen exactamente la misma informacioacuten

Cada entrada en estas bases de datos es un registro que debe tener un identificador uacutenico formado por letras yo nuacutemeros que se denomina nuacutemero de acceso (accession number) y es estable (nunca cambiaraacute en sucesivas versiones de ese registro) Por tanto otro identificador indicaraacute las sucesivas versiones de cada acceso por lo que es importante conocer ambos En febrero de 1999 el consorcio

2

BASES DE DATOS

1 BASES DE DATOS BIBLIOGRAacuteFICAS

2 BASES DE DATOS DE NUCLEOacuteTIDOS














3

















4













5














6

HERRAMIENTAS












ehtml



7

OBJETIVOS

PRAacuteCTICA















8

















9









10



















11















12




Informacioacuten








13









14




















3

















4













5














6

HERRAMIENTAS












ehtml



7

OBJETIVOS

PRAacuteCTICA















8

















9









10



















11















12




Informacioacuten








13









14





















4













5














6

HERRAMIENTAS












ehtml



7

OBJETIVOS

PRAacuteCTICA















8

















9









10



















11















12




Informacioacuten








13









14



















5














6

HERRAMIENTAS












ehtml



7

OBJETIVOS

PRAacuteCTICA















8

















9









10



















11















12




Informacioacuten








13









14


















6

HERRAMIENTAS












ehtml



7

OBJETIVOS

PRAacuteCTICA















8

















9









10



















11















12




Informacioacuten








13









14


















ehtml



7

OBJETIVOS

PRAacuteCTICA















8

















9









10



















11















12




Informacioacuten








13









14




















8

















9









10



















11















12




Informacioacuten








13









14





















9









10



















11















12




Informacioacuten








13









14














10



















11















12




Informacioacuten








13









14























11















12




Informacioacuten








13









14




















12




Informacioacuten








13









14









Informacioacuten








13









14















14







Bases de Datos Usadas en Bioinformatica

Documents

Transcript of Bases de Datos Usadas en Bioinformatica