13 Genomas y Genómica - UAB Barcelonabioinformatica.uab.es/base/documents/tradgriffiths/Cap...

140
13 Genomas y Genómica Preguntas clave - ¿Cómo se elaboran los mapas de las secuencias de genomas? - ¿Cómo se descifra la información de los genomas? - ¿Qué puede revelar la genómica comparativa sobre la estructura y evolución del genoma? - ¿Cómo afecta al análisis genético el que se pueda disponer de la secuencia genómica? Esquema 13.1 La revolución genómica 13.2 Creando el mapa de la secuencia de un genoma 13.3 Bioinformática: dando significado a la secuencia genómica 13.4 La estructura del genoma humano 13.5 Genómica comparativa 13.6 Genómica funcional y genética inversa

Transcript of 13 Genomas y Genómica - UAB Barcelonabioinformatica.uab.es/base/documents/tradgriffiths/Cap...

13 Genomas y Genómica

13 Genomas y Genómica

Preguntas clave

- ¿Cómo se elaboran los mapas de las secuencias de genomas?

- ¿Cómo se descifra la información de los genomas?

- ¿Qué puede revelar la genómica comparativa sobre la estructura y evolución del genoma?

- ¿Cómo afecta al análisis genético el que se pueda disponer de la secuencia genómica?

Esquema

13.1 La revolución genómica

13.2 Creando el mapa de la secuencia de un genoma

13.3 Bioinformática: dando significado a la secuencia genómica

13.4 La estructura del genoma humano

13.5 Genómica comparativa

13.6 Genómica funcional y genética inversa

En 1997, un grupo de investigación de la Universidad de Munich encabezado por Svante Päävo publicó la secuenciación de una región de 379 pb de DNA mitocondrial obtenida del fémur del fósil original de Neandertal descubierto en 1856 (Figura 13-1). La obtención de esta secuencia fue un logro técnico asombroso. Las moléculas de DNA se rompen y acumulan modificaciones químicas con el paso del tiempo, por lo que sólo una serie de secuencias muy cortas pudieron ser descifradas y yuxtapuestas. La cantidad de DNA mitocondrial presente en la muestra era muy pequeña y la cantidad de DNA nuclear era despreciable. Además, los científicos tuvieron que tener mucho cuidado para asegurarse que la secuencia que obtuvieron no era una contaminación de la de humanos modernos o de alguna otra fuente. Más apasionante aún fue el hecho de que la secuencia del fragmento de DNA mitocondrial indicó que los Neandertales se extinguieron sin contribuir al DNA mitocondrial de los humanos modernos.

Menos de 10 años después, el grupo de Päävo, ahora en el Instituto Max Planck de Antropología Evolutiva en Leipzig, anunció que habían obtenido más de 1 millón de pares de bases de la secuencia de DNA nuclear de un espécimen de Neandertal.

(pág. 453)

(pág. 454)

Además, pretendían obtener secuencias genómicas completas, no sólo de nuestro primo recientemente extinguido, sino también de diez Neandertales individuales.

Estos avances en la genética del Neandertal ilustran los tremendos avances en la tecnología y las ambiciones de la genómica: el estudio de los genomas en su totalidad. Lo que empezó como un goteo es ahora un torrente de datos. En 1995 se secuenció el primer genoma de un organismo vivo de vida libre: el genoma de 1.8 Mb (1.8 megabases) de la bacteria Hemophilus influenzae. En 1996 vino el genoma de 12 Mb de Saccharomyces cerevisiae; en 1998 el genoma de 100 Mb de C. elegans; en el 2000, el genoma de 180 Mb de Drosophila melanogaster; en el 2001, el primer borrador de las 3000 Mb del genoma humano; y en el 2005, el primer borrador de nuestro pariente viviente más cercano: el chimpancé. Estas especies son sólo una pequeña muestra; ahora tenemos las secuencias de más de 300 genomas bacterianos, 50 genomas de hongos, muchas plantas (Arabidopsis y el arroz, por ejemplo) y un listado de mamíferos que crece rápidamente (la rata, el perro, la zarigüeya) y otros animales.

La genómica ha revolucionado los métodos de análisis genético y ha abierto grandes líneas de investigación que eran inconcebibles pocos años atrás. La mayoría de los análisis genéticos que se han considerado hasta aquí emplean una aproximación directa para analizar los procesos genéticos y biológicos. Es decir, el análisis empieza primero buscando sistemáticamente mutantes que afectan algún fenotipo observable, y la caracterización de estos mutantes eventualmente conducen hasta el gen y la función del DNA, el RNA y las secuencias proteicas. Por el contrario, el hecho de tener la secuencia de DNA completa del genoma de un organismo permite a los genetistas trabajar en ambas direcciones: directa, del fenotipo al gen, e inversa, del gen al fenotipo. Sin excepción, las secuencias genómicas revelan muchos genes que no se detectaron mediante análisis mutacionales clásicos. Mediante la genética inversa, los genetistas pueden ahora estudiar sistemáticamente las funciones de estos genes que no habían sido identificados previamente. Además, la falta de estudios genéticos clásicos previos ha dejado de ser un impedimento en la investigación genética de los organismos. Las fronteras del análisis experimental están creciendo mucho más allá de los límites del modesto número de organismos modelo que han sido explorados ampliamente.

Los análisis de genomas completos permean ahora en todos los rincones de la investigación biológica. En genética humana, la genómica está proporcionando nuevas formas de localizar genes que contribuyen a muchas de las enfermedades genéticas determinadas por combinaciones complejas de factores genéticos. En los sistemas modelo, el disponer de las secuencias genómicas de especies ampliamente estudiadas y sus parientes ha acelerado enormemente la identificación de genes, el análisis de la función de genes y la caracterización de elementos no codificadores en el genoma. Las nuevas tecnologías para el análisis global en un genoma del papel fisiológico de todos los productos génicos está conduciendo al desarrollo de un nuevo campo: la biología de sistemas. Desde una perspectiva evolutiva, la genómica proporciona una visión detallada de cómo los genomas han divergido y se han adaptado a lo largo del tiempo geológico. En la investigación ecológica, los biólogos están desarrollando nuevos métodos para estudiar la distribución de los organismos a partir de la detección de la presencia y la concentración de distintos genomas en muestras tomadas de la naturaleza. Y en la medicina humana ya se vislumbra el día en el que la secuencia genómica de una persona formará parte rutinaria de su historial médico.

La secuencia de DNA del genoma es el punto de partida para un nuevo conjunto de análisis enfocados a entender la estructura, función y evolución del genoma y de sus componentes. En este capítulo nos centraremos en tres aspectos dominantes de los análisis genómicos:

- la Bioinformática, que analiza el contenido informativo de genomas completos. Esta información incluye los números y tipos de genes y de productos génicos, así como los sitios de unión al DNA y al RNA que permiten a los productos funcionales ser producidos en el tiempo y lugar precisos.

(pág. 454)

(pág. 455)

- la Genómica comparativa, que estudia los genomas tanto de especies estrechamente relacionadas como de especies lejanas para adquirir nuevo conocimiento sobre la evolución, y se utilizan las secuencias conservadas como guía para el análisis de la función génica.

- la Genómica funcional, que usa una variedad cada vez mayor de métodos, incluyendo la genética inversa, para la comprensión de las funciones génicas y la definición de redes de genes y proteínas que interactúan en procesos biológicos.

13.1 La revolución genómica

Después del desarrollo de la tecnología del DNA recombinante en la década de los 70, los laboratorios de investigación solían clonar y secuenciar un único gen, y sólo después de que se hubiera encontrado algo interesante sobre el gen mediante un análisis mutacional clásico. Los pasos que se requerían para ir desde la obtención de un mapa genético clásico de un locus hasta el aislamiento del DNA que codifica el gen (clonar) y determinar su secuencia, eran con frecuencia numerosos y largos. En la década de los 80, algunos científicos se dieron cuenta de que un equipo grande de investigadores podría, haciendo un esfuerzo coordinado, clonar y secuenciar el genoma entero de un organismo determinado. Tales proyectos genoma permitirían que tanto los clones como la secuencia fueran recursos disponibles públicamente. Un atractivo de este recurso es que cuando los investigadores se interesan en un gen de una especie cuyo genoma ha sido secuenciado, sólo necesitan encontrar dónde está localizado el gen en el mapa del genoma para aproximarse a su secuencia y potencialmente a su función. De este modo, un gen podría ser caracterizado mucho más rápido que clonándolo y secuenciándolo desde cero, un proyecto que podría tardar varios años en completarse. Esta aproximación más rápida es ahora una realidad para todos los organismos modelo. De forma similar, en genética humana, la secuencia genómica puede ayudar a identificar genes causantes de enfermedad.

Desde una perspectiva más amplia, los proyectos genoma tienen el atractivo de arrojar luz sobre los principios de construcción de los genomas. Obtener una secuencia genómica es como haber desenterrado una antigua tablilla en un lenguaje no descifrable. El genoma humano, por ejemplo, está compuesto de 24 cadenas de pares de bases, representando a los cromosomas X e Y y los 22 autosomas. En total, el genoma humano contiene 3 mil millones de pares de bases de DNA. Aunque nos podamos convencer a nosotros mismos de que entendemos un determinado gen de interés, el mayor reto de la genómica hoy en día es el alfabetismo genómico: ¿cómo leemos este gran almacén de información codificada en la secuencia de los genomas?

Las técnicas básicas necesarias para secuenciar genomas enteros estaban ya disponibles en la década de los 80, incluyendo los plásmidos bacterianos y los cromosomas de bacteriófagos (usados como vehículos para clonar DNA), la reacción en cadena de la polimerasa (PCR, del inglés “polymerase chain reaction”) para amplificar genes y máquinas de secuenciación de DNA. Pero la escala necesaria para secuenciar genomas complejos estaba, desde la perspectiva de un proyecto de ingeniería, muy lejos de la capacidad de la comunidad científica del momento. La genómica de finales de los 80 y los 90 evolucionó a partir de los grandes centros de investigación que podían integrar estas tecnologías elementales en una línea de producción a nivel industrial. Estos centros desarrollaron la robótica y la automatización para llevar a cabo los varios miles de pasos de clonación y millones de reacciones de secuenciación necesarios para ensamblar la secuencia de un organismo complejo. Con estos centros a punto, los años de finales de los 90 y a partir de 2000 han sido la época de oro de la secuenciación de genomas. La velocidad de secuenciación de genomas está en continua aceleración. Nuevas tecnologías que combinan microfluidos y fibra óptica pueden obtener más de 25 millones de bases de secuencia en un día de trabajo con un solo aparato.

La genómica, con la ayuda de una tecnología de la información creciendo de modo explosivo, ha impulsado nuevas formas de experimentación en los investigadores, así como el análisis computacional del genoma en su conjunto, en lugar de analizar un gen cada vez. También ha demostrado el valor de reunir conjuntos de datos a gran escala con anterioridad a su uso, por su gran potencial para atacar problemas científicos específicos. La genómica también ha

(pág. 455)

(pág. 456)

cambiado la sociología de la investigación biológica, demostrando el valor de la colaboración en grandes redes científicas como un complemento de los pequeños laboratorios científicos independientes (que todavía florecen). Estos efectos incrementarán conforme aumente la información, la tecnología y la comprensión de la genética. En la última sección de este capítulo exploraremos algunas maneras en las que la genómica impulsa la investigación básica y aplicada en la genética actual. En los capítulos siguientes veremos cómo la genómica está catalizando avances en el conocimiento de las dinámicas de la mutación, la recombinación y la evolución.

Mensaje: Caracterizar genomas enteros es importante para una comprensión fundamental de los principios que operan en los organismos vivos y para el descubrimiento de nuevos genes, como los que están implicados en enfermedades genéticas humanas.

13.2 Elaboración del mapa de la secuencia de un genoma

Cuando se encuentra un nuevo territorio, una de las primeras actividades es elaborar un mapa. Esta práctica es cierta para exploradores, geógrafos, oceanógrafos y astrónomos, y es igualmente cierta para genetistas. Los genetistas usan muchos tipos de mapas para explorar el terreno de un genoma. Algunos ejemplos son los mapas de ligamiento basados en los patrones de herencia de los alelos de los genes, y mapas citogenéticos basados en la localización de las características visibles en el microscopio, como puntos de rotura de reordenaciones.

El mapa de mayor resolución es la secuencia completa de DNA del genoma; es decir, la secuencia completa de nucleótidos A, T, C y G de cada doble hélice en el genoma. Puesto que hacer un mapa de la secuencia completa del genoma es una empresa de gran envergadura, de un tipo no visto antes en biología, deben usarse nuevas estrategias basadas en la automatización.

Conversión de lecturas de secuencias en mapas de secuencia

Probablemente habrá visto un juego de magia en el que el mago corta una página de un periódico a pedazos, los mezcla en su sombrero, dice unas palabras mágicas y voilà! una página intacta del periódico reaparece. Básicamente, así es como se producen los mapas de secuencia genómicos. La aproximación es la siguiente: (1) romper un genoma en miles o millones de segmentos más o menos al azar, (2) leer la secuencia de cada pequeño segmento, (3) computacionalmente buscar el solapamiento entre los pequeños segmentos donde sus secuencias son idénticas y (4) continuar solapando en piezas aún mayores hasta que todos los segmentos pequeños se hayan unido (Figura 13-2). En este punto, se ha ensamblado un mapa de la secuencia de un genoma.

¿Por qué este proceso debe ser automatizado? Para entenderlo, consideremos el genoma humano, que contiene aproximadamente 3 x 109 pb de DNA, ó 3 mil millones de pares de bases (3 giga-pares de bases = 3 Gpb). Supongamos que podemos purificar el DNA intacto de cada uno de los 24 cromosomas humanos (el X, el Y y los 22 autosomas), poner separadamente cada una de estas muestras de DNA en una máquina de secuenciación y leer sus secuencias directamente desde un telómero al otro. Crear un mapa de la secuencia completa sería tan fácil como leer un libro de 24 capítulos, aunque un libro muy, muy largo con 3 mil millones de caracteres (aproximadamente el tamaño de 3000 novelas). Desafortunadamente, tal máquina de secuenciación no existe. Por el contrario, la secuenciación automática basada en fluorescencia del tipo que se discutió en el Capítulo 20 es ahora la tecnología más moderna de secuenciación de DNA. Reacciones de secuenciación individuales (llamadas lecturas de secuenciación) proporcionan generalmente cadenas de letras de aproximadamente 600 bases de largo. Estas longitudes son minúsculas comparadas con el DNA de un solo cromosoma (aproximadamente 3 x 108 pb de DNA) y sólo aproximadamente el 0.00002% del genoma humano entero. Por lo tanto, un reto principal al que se enfrenta un proyecto genoma es el ensamblado de secuencias, es decir, la construcción,

(pág. 456)

(pág. 457)

a partir de las lecturas individuales, de una secuencia consenso, una secuencia por la cual hay consenso (o concordancia) y que es la auténtica representación de la secuencia por cada una de las moléculas de DNA en este genoma.

Veamos ahora estos números de otro modo para entender la magnitud del problema. Como sucede con cualquier observación experimental, las máquinas de secuenciación automática no siempre dan lecturas de secuencias perfectamente correctas. Además, la tasa de error no es constante; depende de factores tales como los colorantes que se unen a las moléculas secuenciadas, la pureza y la homogeneidad de la muestra inicial de DNA y la secuencia específica de pares de bases en la muestra de DNA. Por lo tanto, para asegurar la exactitud, los proyectos genoma obtienen típicamente múltiples (hasta 10) lecturas de secuencia independientes para cada par de bases en el genoma. Una cobertura de diez veces (indicada como 10() asegura que los errores al azar en las lecturas no causan una reconstrucción falsa de la secuencia consenso. Dada una longitud promedio de lectura de secuencia de unas 600 bases de DNA y un genoma humano de 3 mil millones de pares de bases, una cobertura promedio de 10 veces por cada par de bases requiere 50 millones de lecturas exitosas independientes. No obstante, no todas las lecturas son exitosas y por lo tanto el número de lecturas que deben intentarse es aún mayor. Así, la

(pág. 457)

(pág. 458)

cantidad de información y material a ser rastreados es enorme. Para intentar minimizar tanto el error humano como la necesidad de personal que lleve a cabo tareas muy repetitivas, los laboratorios de los proyectos genoma han implementado la automatización, el seguimiento informático mediante el uso de códigos de barras y sistemas de análisis informático siempre que sea práctico.

Por estas razones, la preparación de clones, el aislamiento del DNA, la electroforesis y los protocolos de secuenciación se han adaptado a la automatización. Por ejemplo, uno de los adelantos recientes ha sido el desarrollo de máquinas de secuenciación en cadena que trabajan las veinticuatro horas del día sin ningún tipo de intervención humana. Los grandes genomas de mamíferos han sido secuenciados en centros genómicos que tienen muchas máquinas de secuenciación trabajando en paralelo y que son capaces de producir hasta 150 000 lecturas en un solo día. Un solo centro de secuenciación tiene la capacidad de ensamblar la secuencia de un genoma de mamífero de 3-Gpb en 1 ó 2 años. La Figura 13-3 muestra una cadena de montaje de secuenciación. Nuevos desarrollos están acelerando aún más la velocidad de secuenciación, a la vez que disminuyendo los costes.

¿Cuáles son los objetivos de secuenciar un genoma? En primer lugar, elaborar una secuencia consenso que sea una representación verdadera y fiel del genoma a partir de un organismo individual o de líneas estándares a partir de las cuales se ha obtenido el DNA. Esta secuencia servirá luego de secuencia de referencia para esta especie. Ahora se sabe que hay muchas diferencias en la secuencia del DNA entre distintos individuos dentro de una misma especie e incluso dentro de un único individuo diploide. Por eso, ninguna secuencia genómica representa verdaderamente el genoma de toda la especie. Sin embargo, la secuencia del genoma sirve como estándar o referencia con la que comparar otras secuencias y se puede analizar para determinar la información codificada en el DNA, incluyendo el inventario de los RNAs y polipéptidos codificados.

Como en los manuscritos escritos, las secuencias genómicas pueden variar desde la calidad de borrador (el esbozo general está ahí, pero hay errores tipográficos, errores gramaticales,

(pág. 458)

(pág. 459)

huecos, secciones que necesitan ser reordenadas, etc.), a calidad finalizada (una tasa muy baja de errores tipográficos, faltan algunas secciones pero se ha hecho todo lo que es actualmente posible para rellenar estas secciones), a verdaderamente completa (no hay errores tipográficos, cada par de bases es absolutamente correcto de telómero a telómero). En las siguientes secciones se considerarán los métodos generales para elaborar ensamblajes borrador y finalizados de secuencias genómicas, así como algunas de las características de los genomas que desafían a los proyectos de secuenciación de genomas.

Establecimiento de una genoteca de clones

Hay dos estrategias generales para ensamblar la secuencia de un genoma. Una se llama secuenciación aleatoria de genomas completos (WGS, del inglés “whole-genome shotgun”) y la otra se llama secuenciación de clones ordenados. Ambas estrategias se basan en la determinación de la secuencia de muchos segmentos de DNA genómico que se han generado rompiendo los largos cromosomas de DNA en muchos segmentos cortos. Cada aproximación empieza con la elaboración de genotecas (o bibliotecas genómicas), que son colecciones de estos segmentos cortos de DNA que representan a todo el genoma. Los segmentos cortos de DNA de una de estas genotecas se insertan en uno de varios tipos de cromosomas accesorios (elementos no esenciales como los plásmidos, los virus bacterianos modificados o los cromosomas artificiales) y se propagan en microbios, normalmente bacterias o levadura. Estos cromosomas accesorios que llevan insertos de DNA se llaman vectores.

Para generar una genoteca primero se debe trocear el DNA genómico purificado usando enzimas de restricción que cortan el DNA en secuencias específicas. Algunas enzimas cortan el DNA en muchos sitios, mientras que otras lo cortan en pocos sitios; así se puede controlar si el DNA se corta, en promedio, en trozos más o menos largos. Los fragmentos resultantes contienen en ambos extremos fragmentos cortos de DNA de cadena sencilla. Estos fragmentos se unen luego al DNA del cromosoma accesorio, que también se habrá cortado con una enzima de restricción y que tiene extremos que son complementarios a los de los fragmentos genómicos. Para que todo el genoma esté representado, se deben generar miles o millones de tales moléculas recombinantes a partir de múltiples copias del DNA genómico con cortes únicos al azar.

Después se propaga el conjunto de moléculas de DNA recombinante resultante, típicamente mediante su introducción en células bacterianas, de forma que cada célula contiene una molécula recombinante. Luego cada molécula recombinante se replica dentro del ciclo normal de crecimiento y división de su hospedador, y como resultado se producen muchas copias idénticas del fragmento insertado para su uso en el análisis del fragmento de la secuencia de DNA. Debido a que cada molécula recombinante se amplifica a partir de una célula individual, cada célula es un clon distinto. (Podrá encontrar más detalles sobre la clonación del DNA en el Capítulo 20).

La mayoría de las estrategias de secuenciación de genomas están basadas en clones. Con el uso de los clones de una genoteca se puede obtener la secuencia del DNA genómico que se ha insertado junto al DNA del vector. Esta información se usa luego de distintas formas para ensamblar la secuencia genómica, dependiendo de si se aplica una secuenciación aleatoria o una aproximación ordenada.

Secuenciación de un genoma simple usando la aproximación de la secuenciación aleatoria de genomas completos

La lógica detrás de la secuenciación aleatoria de genomas completos es la siguiente: primero secuenciar, luego cartografiar. En primer lugar, se obtienen las lecturas de secuencias a partir de clones seleccionados al azar de una genoteca que no contiene información sobre la localización de estos clones en el genoma. Esta genoteca se llama genoteca genómica. Luego, estas lecturas de secuencia se ensamblan en una secuencia consenso que cubre todo el genoma mediante la unión de secuencias homólogas compartidas por lecturas de clones que se solapan.

El DNA bacteriano es esencialmente DNA de copia única, sin secuencias repetidas. Así, cualquier lectura de secuencia de DNA de un genoma bacteriano viene de un único lugar en este genoma. Además, un genoma bacteriano típico es de sólo unos

(pág. 459)

(pág. 460)

pocos pares de megabases de DNA en tamaño. Gracias a estas propiedades, la secuenciación aleatoria de genomas completos se puede aplicar fácilmente a los genomas bacterianos.

¿Cómo se obtienen las secuencias? La reacción de secuenciación empieza a partir de un cebador de secuencia conocida. Debido a que la secuencia del inserto clonado no se conoce (y de hecho es la finalidad del experimento), los cebadores se diseñan a partir de la secuencia de DNA del vector adyacente y se usan para guiar la reacción de secuenciación del fragmento insertado. Por lo tanto, estos cebadores permiten secuenciar cortas regiones a uno o a ambos extremos de las inserciones genómicas (Figura 13-4). Después de la secuenciación, el resultado es una gran colección de secuencias cortas al azar, algunas de ellas solapadas. Las secuencias de las lecturas que se solapan son ensambladas en unidades llamadas contigs (secuencias que son contiguas o que se tocan), de modo que cada contig cubre una región larga del genoma bacteriano. Con el uso de la aproximación de la secuenciación aleatoria del genoma completo, en julio de 2006 se habían secuenciado completamente 320 especies bacterianas y varios centenares de proyectos de secuenciación de otras bacterias estaban en curso.

Uso de la aproximación de la secuenciación aleatoria de genomas completos para crear una secuencia borrador de un genoma complejo

Una gran dificultad en el ensamblaje de una secuencia consenso de un genoma eucariótico es la existencia de numerosas clases de secuencias repetidas, algunas organizadas en tándem y otras dispersas. ¿Por qué son un problema para la secuenciación genómica? En pocas palabras, porque una lectura de la secuencia de DNA repetitivo encaja en muchos lugares del borrador del genoma. No es infrecuente que la secuencia repetitiva en tándem sea en total más larga que la longitud máxima de una lectura de secuencia, de modo que no hay forma de llenar el hueco entre las secuencias únicas adyacentes. Los elementos repetitivos dispersos pueden causar alineamientos erróneos y la asignación errónea de lecturas a diferentes cromosomas o a diferentes partes del mismo cromosoma.

Mensaje: el paisaje de los cromosomas eucarióticos incluye una variedad de segmentos de DNA repetitivos. Estos segmentos son difíciles de alinear a partir de las lecturas de secuencias.

La secuenciación aleatoria de genomas completos es particularmente conveniente para elaborar secuencias de calidad borrador de genomas complejos que contienen muchas secuencias repetitivas. Por ejemplo, consideremos el genoma de la mosca de la fruta D. melanogaster, que fue inicialmente secuenciado usando este método. El proyecto empezó con la secuenciación de genotecas de clones genómicos de distintos tamaños (2 kb, 10 kb ó 150 kb). Las lecturas de secuencias se obtuvieron a partir de ambos extremos de los insertos de los clones genómicos, y estas se alinearon mediante una lógica idéntica a la usada para la secuenciación aleatoria de genomas completos de procariotas. Según esta lógica se identificaron los solapamientos de secuencias homólogas y se ordenaron los clones, elaborando contigs: secuencias consenso para estos fragmentos de copia única del genoma. Aún así, a diferencia de la situación en bacterias donde sólo hay DNA de copia única, los contigs avanzaban hasta encontrarse con un segmento de DNA repetitivo que impidió su ensamblaje preciso en un genoma completo. Estos contigs tenían un tamaño promedio de aproximadamente 150 kb, y el reto fue conseguir colocar los miles de estos contigs en su correcto orden y orientación.

La solución a este problema fue utilizar los pares de lecturas de la secuencia de los extremos opuestos de los insertos genómicos del mismo clon: estas lecturas se llaman lecturas de extremos emparejados. La idea era encontrar lecturas de extremos emparejados que abarcaran los

(pág. 460)

(pág. 461)

huecos entre dos contigs (Figure 13-5). En otras palabras, si un extremo de un inserto era parte de un contig y el otro extremo era parte del segundo contig, luego este inserto debía abarcar el hueco entre los dos contigs, y los dos contigs debían estar necesariamente uno junto al otro. De hecho, ya que el tamaño de cada clon era conocido (es decir, venía de una genoteca que contenía insertos genómicos de tamaño uniforme, ya fuere librerías de 2 kb, de 100 kb ó de 150 kb), la distancia entre las lecturas de los extremos era conocida. Además, el alineamiento de las secuencias de dos contigs usando lecturas de extremos emparejados automáticamente determina la orientación relativa de los dos contigs. De este modo se pudieron unir los contigs de copia única, aunque con huecos en donde los elementos repetitivos residían. Estas colecciones de contigs unidos que contienen huecos se llaman andamios (a veces también referidos como supercontigs). Debido a que la mayoría de las repeticiones en Drosophila son largas (3-8 kb) y ampliamente espaciadas (una repetición cada aproximadamente 150 kb), esta técnica fue extremadamente efectiva para elaborar una secuencia borrador correctamente ensamblada del DNA de copia única. La Figura 13-6 muestra un resumen de la lógica de esta aproximación.

Uso de la aproximación de clones ordenados para secuenciar un genoma complejo

La lógica de la secuenciación de clones ordenados es opuesta a la de la aproximación de la secuenciación aleatoria de genomas completos: primero cartografiar, luego secuenciar. Los insertos individuales clonados de una genoteca se exploran para buscar similitudes en, por ejemplo, los sitios de reconocimiento de enzimas de restricción, indicando que dos insertos se solapan para formar un contig de clones (Figura 13-7). El solapamiento nos indica que estos insertos son contiguos en el genoma. Este procedimiento resulta en un conjunto de clones ordenados y orientados que conjuntamente abarcan todo el genoma. Tal conjunto de clones ordenados y orientados que cubren el genoma completo se llama el mapa físico del genoma. Aquí, la palabra “físico” se utiliza en el sentido de que el mapa está compuesto de objetos reales (segmentos de DNA) que se pueden aislar y estudiar en un tubo de ensayo.

En las primeras fases de un proyecto genoma, son numerosos los contigs de clones que son segmentos separados del genoma, pero a medida que se van caracterizando más clones, estos permiten el solapamiento de dos contigs de clones previamente separados y

(pág. 461)

(pág. 462)

su unión permite la fusión de los dos contigs de clones en un sólo contig más largo. Este proceso de fusión de contigs continúa hasta que finalmente el número de contigs de clones es igual al número de cromosomas. En este punto, si cada contig de clones se extiende hasta los telómeros de su cromosoma, se dice que se ha completado el mapa físico.

Mensaje: La cartografía física se desarrolla mediante el ensamblaje de clones en grupos que se solapan, llamados contigs de clones. A medida que se acumulan más datos, los contigs de clones acaban abarcando la longitud de los cromosomas enteros.

Después de que se ha obtenido el mapa físico, el siguiente paso es la elección, de entre todos los clones usados para elaborar el mapa, de un conjunto de clones que se solapan mínimamente y que conjuntamente cubren todo el genoma (Figura 13-8). Luego estos clones se secuencian completamente, tratando cada clon genómico como un proyecto de secuenciación de un mini-genoma en el que múltiples lecturas de secuencia para el clon se juntan usando la lógica de la aproximación de la secuenciación aleatoria de genomas completos. Finalmente, las secuencias de los clones se ensamblan en una secuencia consenso global del genoma según el orden conocido de estos clones en el mapa físico. Esta capacidad de contar con el mapa físico para ordenar y orientar las secuencias de los clones es una enorme ventaja de la aproximación de clones ordenados. Una segunda ventaja muy importante es la posibilidad de incluir ciertos elementos repetitivos, ya que su localización dentro del clon es precisa, siendo ésta una ventaja capital para la creación de la secuencia consenso clon a clon.

Los vectores que pueden llevar largos insertos son los más útiles, porque el genoma se romperá en menos piezas y habrá menos clones de los que seguir la pista. Sin embargo, aún usando vectores que lleven largos insertos, crear un mapa físico es una tarea abrumadora. Incluso los supuestos genomas pequeños contienen grandes cantidades de DNA. Considere, por ejemplo, el genoma de 100-Mpb del diminuto nematodo Caenorhabditis elegans. Dos vectores usados comúnmente para transportar clones son los cósmidos (híbridos del DNA del fago ( y del DNA de plásmido bacteriano en forma circular) y los vectores BAC derivados del plásmido F bacteriano. Debido a que un inserto promedio de un cósmido es de aproximadamente 40 kb, por lo menos 2500 cósmidos serían necesarios para cubrir este genoma, y muchos más para estar seguros de que todos los segmentos del genoma estarán representados. Una librería de BACs para C. elegans con un tamaño promedio de los insertos de 200 kb simplificaría la tarea cinco veces.

Mensaje: Las dos aproximaciones básicas de secuenciación de genomas son la secuenciación aleatoria de genomas completos y la secuenciación de clones ordenados a partir de mapas físicos.

Rellenado de huecos en la secuencia

Tanto en la secuenciación aleatoria de genomas completos como en la secuenciación de clones ordenados, generalmente quedan algunos huecos. Algunos huecos esporádicos aparecen siempre que por azar una región del genoma no se encuentra en la genoteca genómica, por ejemplo porque algunos fragmentos de DNA no se replican bien en algunos vectores de clonación. En estos casos se deben usar técnicas especiales para rellenar estos huecos en los ensamblajes de secuencias. Si los huecos son cortos, los fragmentos faltantes se pueden generar usando las secuencias conocidas

(pág. 462)

(pág. 463)

de los extremos de los ensamblajes como cebadores para amplificar y analizar la secuencia genómica de en medio. Si los huecos son más largos, se puede intentar clonar estas secuencias en un hospedador distinto, como por ejemplo la levadura. Si la clonación en un hospedador distinto fracasa, entonces los huecos en la secuencia permanecerán.

El hecho de decidir secuenciar un genoma según los estándares de la secuencia “borrador” o “finalizada” es una cuestión de análisis coste-beneficio. Mientras que elaborar un borrador es relativamente fácil, resulta muy difícil elaborar una secuencia finalizada usando los métodos actuales.

13.3 La bioinformática: significado a partir de la secuencia genómica

La secuencia genómica es un código sumamente cifrado que contiene la información para construir y mantener un organismo funcional. El estudio del contenido informativo de los genomas recibe el nombre de bioinformática. Estamos lejos de poder leer esta información de principio a fin en la forma en la que leeríamos un libro. Aunque sabemos qué tripletes codifican los aminoácidos en los segmentos que codifican proteínas, la mayor parte de la información contenida en un genoma no se puede descifrar con una mera inspección.

La naturaleza del contenido informativo del DNA

El DNA contiene información, ¿pero en qué forma está codificada? Convencionalmente, la información se considera como la suma de todos los productos génicos, tanto proteínas como RNAs. Sin embargo, el contenido informativo del genoma es más complejo que esto. El

(pág. 463)

(pág. 464)

genoma también contiene sitios de unión para distintas proteínas y RNAs. Muchas proteínas se unen a sitios localizados en el propio DNA, mientras que otras proteínas y RNAs se unen a sitios localizados en el mRNA (Figura 13-9). La secuencia y las posiciones relativas de dichos sitios permiten a los genes ser transcritos, procesados y traducidos correctamente, en el momento y en el tejido adecuado. Por ejemplo, los sitios de unión a proteínas reguladoras determinan cuándo, dónde y en qué cantidad se expresará un gen. A nivel de RNA en los eucariotas, las localizaciones de los sitios de unión para los RNAs y las proteínas del espliceosoma determinarán los sitios de corte y empalme 5’ y 3’ por donde se eliminarán los intrones. Tanto si un sitio de unión actúa como tal en el DNA como si lo hace en el RNA, el sitio tiene que estar codificado en el DNA. Por lo tanto, la información en el genoma puede ser considerada como la suma de todas las secuencias que codifican las proteínas y los RNAs, más los sitios de unión que determinan el tiempo y el espacio de sus acciones. El principal objetivo después del ensamblado de un genoma borrador y mientras éste se continúa mejorando, es la identificación de todos los elementos funcionales del genoma. Este proceso recibe el nombre de anotación.

Deducción de los genes que codifican proteínas a partir de la secuencia genómica

Debido a que las proteínas que están presentes en una célula en gran medida determinan su morfología y sus propiedades fisiológicas, uno de los principales objetivos del análisis genómico y de la anotación es intentar hacer un inventario de todos los polipéptidos que están codificados en el genoma de un organismo. Este inventario recibe el nombre de proteoma del organismo, y puede ser considerado como un “listado de las partes” de la célula. Para determinar este listado de polipéptidos, la secuencia de cada mRNA codificado en el genoma debe ser deducida. Debido al corte y empalme de los intrones, esta tarea supone un desafío en el caso de los eucariotas multicelulares, donde los intrones son la norma. En humanos, por ejemplo, un gen promedio tiene aproximadamente 10 exones. Además, varios genes codifican exones alternativos; es decir, algunos exones son incluidos en algunas versiones de un mRNA procesado pero no son incluidos en otras (véase el Capítulo 8). Los mRNAs que son procesados alternativamente pueden codificar polipéptidos que compartan la mayoría, pero no toda la secuencia aminoacídica. Aunque hay un gran número de genes y mRNAs completamente secuenciados, todavía no se puede identificar con mucha exactitud los sitios de corte y empalme 5’ y 3’ a partir únicamente de la secuencia de DNA. Por eso, no podemos estar seguros de qué secuencias corresponden a los intrones. La predicción de los exones que son usados alternativamente es aún más propensa a error. Por estas razones, la deducción del listado completo de polipéptidos en los eucariotas superiores es aún un gran reto. A continuación se detallan algunas aproximaciones.

Detección de ORFs La principal aproximación para elaborar un listado de polipéptidos es usar el análisis computacional de la secuencia genómica para predecir secuencias de mRNAs y polipéptidos, lo que representa una parte importante de la bioinformática. La aproximación básica es buscar secuencias que tengan las características de los genes. Estas secuencias tendrían el tamaño de los genes

(pág. 464)

(pág. 465)

y estarían compuestas de codones con sentido después de que los posibles intrones fueran eliminados. Las secuencias correspondientes a los extremos 5’ y 3’ estarían presentes, como por ejemplo los codones de inicio y final de la traducción. Las secuencias que tienen estas características típicas de los genes se llaman marcos abiertos de lectura (ORFs, del inglés “open reading frames”). Para encontrar ORFs candidatos, el ordenador rastrea la secuencia de las dos cadenas del DNA para cada posible marco de lectura. Como hay tres marcos de lectura por cada cadena, en total hay seis marcos de lectura posibles.

Evidencia directa a partir de secuencias de cDNA Otra forma de identificar ORFs y exones es a través del análisis de la expresión del mRNA. Este análisis se lleva a cabo mediante la creación de librerías de moléculas de DNA que son complementarias a las secuencias del mRNA, llamadas cDNA. Las secuencias de DNA complementarias son extremadamente valiosas en dos aspectos. En primer lugar, son la evidencia directa de que un determinado segmento del genoma se expresa y puede, por lo tanto, codificar un gen. En segundo lugar, debido a que el cDNA es complementario al mRNA maduro, los intrones del transcrito primario han sido ya eliminados, lo que facilita enormemente la identificación de los exones y los intrones del gen (Figura 13-10). El alineamiento de cDNAs con sus secuencias genómicas correspondientes claramente delinea los exones, y por lo tanto los intrones se revelan como las regiones que caen en medio de los exones. En el cDNA, el ORF debería ser continuo desde el codón de inicio hasta el codón de fin de la traducción. Por lo tanto, las secuencias de cDNA pueden ayudar enormemente a identificar el marco de lectura correcto, incluyendo los codones de inicio y fin de la traducción. La evidencia de cDNAs completos se usa como prueba de oro de que uno ha identificado la secuencia de una unidad de transcripción, incluyendo sus exones y su localización en el genoma.

Además de las secuencias de cDNA completas, hay grandes conjuntos de datos de cDNAs en los que sólo los extremos 5’ ó 3’ ó ambos han sido secuenciados. Estas lecturas cortas de secuencias de cDNAs reciben el nombre de etiquetas de secuencia expresada (ESTs, del inglés “expressed sequence tags”). Las etiquetas de secuencia expresada se pueden alinear con el DNA genómico y así determinar los extremos 5’ y 3’ de los transcritos o, en otras palabras, determinar los límites del transcrito, tal i como se muestra en la Figura 13-10.

Predicciones de los sitios de unión Como ya se discutió anteriormente, un gen consiste de un segmento de DNA que codifica un transcrito, así como de señales reguladoras que determinan cuándo, dónde y cuánto se produce un transcrito. A su vez, este transcrito tiene las señales necesarias para determinar su corte y empalme en el mRNA y la traducción de este

(pág. 465)

(pág. 466)

mRNA a un polipéptido (Figura 13-11). Actualmente hay programas de ordenador “buscadores de genes” estadísticos, que buscan dentro del DNA genómico las secuencias predichas de los varios sitios de unión a promotores, sitios de inicio de la transcripción, sitios 5’ y 3’ de corte y empalme, y codones de inicio de la traducción. Estas predicciones están basadas en motivos consenso para secuencias conocidas de este tipo, pero no son ni mucho menos perfectas.

Uso de la similitud de polipéptidos y DNA Debido a que los organismos tienen ancestros comunes, también tienen muchos genes con secuencias similares en común. Por lo tanto, un gen tendrá seguramente parientes entre los genes aislados y secuenciados de otros organismos, especialmente en los más cercanos. Así, los genes candidatos predichos por las técnicas anteriores pueden a menudo ser verificados mediante su comparación con todas las otras secuencias génicas que se han encontrado hasta entonces. Una secuencia candidata es enviada como una “secuencia problema” a las bases de datos públicas que contienen las secuencias para todos los genes conocidos. Este procedimiento recibe el nombre de búsqueda por BLAST (BLAST significa herramienta básica de búsqueda de alineamientos locales, del inglés “Basic Local Alignment Search Tool”). La secuencia puede enviarse como secuencia nucleotídica (una búsqueda BLASTn) o como una secuencia traducida a aminoácidos (BLASTp). El ordenador explora la base de datos y retorna un listado de “aciertos”, completos o parciales, empezando con las mejores coincidencias. Si la secuencia candidata se parece mucho a la de un gen previamente identificado en otro organismo, esta semejanza es una clara evidencia de que el gen candidato es un gen real. Incluso las coincidencias menos cercanas son útiles. Por ejemplo, una identidad de aminoácidos de sólo el 35%, pero en posiciones idénticas, es un claro indicador de que dos proteínas tienen una estructura tridimensional común.

(pág. 466)

(pág. 467)

Las búsquedas por BLAST son útiles en muchos otros aspectos, aunque el objetivo es siempre descubrir algo más sobre alguna secuencia de interés identificada.

Predicciones basadas en el sesgo en el uso de codones Recuerde del Capítulo 9 que el código de tripletes es degenerado para los aminoácidos; es decir, la mayoría de los aminoácidos están codificados por dos o más codones (véase Figura 9-6). Los múltiples codones para un único aminoácido se llaman codones sinónimos. En una especie dada, no todos los codones sinónimos para un aminoácido son usados con la misma frecuencia, sino que ciertos codones están presentes mucho más a menudo en los mRNAs (y por lo tanto en el DNA que los codifica). Por ejemplo, en D. melanogaster, de los dos codones para la cisteína, el UGC es usado un 73% de las veces, mientras que el UGU es usado sólo el 27%. Este uso sirve de diagnóstico en Drosophila porque en otros organismos este “sesgo en el uso de codones” es algo distinto. Se cree que el sesgo en el uso de los codones es debido a la abundancia relativa de los tRNAs complementarios a los distintos codones de una especie dada. Si el sesgo en el uso de codones de un ORF predicho coincide con el patrón conocido del sesgo en el uso de codones de la especie, luego esta coincidencia respalda la evidencia de que el ORF propuesto es genuino.

Reuniendo todas la piezas La Figura 13-12 ilustra un resumen de cómo se combinan las diferentes fuentes de información para crear la mejor predicción de mRNAs y genes. Estos distintos tipos de evidencia son complementarios y pueden

(pág. 467)

(pág. 468)

reforzarse entre sí. Por ejemplo, la estructura de un gen puede ser inferida a partir de la evidencia de similitud proteica dentro de una región del DNA genómico limitada por ESTs 5’ y 3’. Pero incluso se pueden hacer predicciones útiles sin ninguna secuencia de cDNA o evidencia de similitudes proteicas: un programa de predicción de sitios de unión puede proponer un ORF hipotético, y un sesgo en el uso de codones apropiado estaría apoyando la evidencia.

Mensaje: Las predicciones de estructuras de mRNAs y polipéptidos a partir de la secuencia del DNA genómico dependen de la integración de la información procedente de la secuencia de cDNAs, predicciones de sitios de unión, similitudes de polipéptidos y el sesgo en el uso de los codones.

Consideremos la nueva comprensión que se ha obtenido de un primer análisis de las estructuras genómicas en su conjunto y del listado global de algunas especies cuyos genomas ya han sido secuenciados. Empezaremos con nosotros mismos. ¿Qué podemos aprender mirando al genoma humano en sí mismo? Posteriormente, veremos qué podemos aprender comparando nuestro genoma con el de otros organismos.

13.4 La estructura del Genoma Humano

Para hacer una descripción de la estructura global del genoma humano, primero debemos enfrentarnos con su estructura repetitiva. Una fracción considerable del genoma humano, aproximadamente el 45%, es repetitiva. La mayor parte de este DNA repetitivo está compuesto por copias de elementos transponibles. De hecho, incluso dentro del DNA de copia única restante, una fracción contiene secuencias que sugieren que podrían descender de elementos transponibles antiguos que son ahora inmóviles y que han acumulado mutaciones al azar, causando que su secuencia diverja de los elementos transponibles ancestrales. Por lo tanto, la mayor parte del genoma humano parece estar compuesto por “autoestopistas” genéticos.

Sólo una pequeña parte del genoma humano codifica polipéptidos; es decir, algo menos del 3% de éste codifica los exones de los mRNAs. Los exones son típicamente pequeños (aproximadamente 150 bases), mientras que los intrones son largos, muchos extendiéndose más de 1000 bases y algunos incluso más de 100 000 bases. Los transcritos están compuestos de 10 exones en promedio, aunque muchos tienen substancialmente más. Finalmente, los intrones pueden ser eliminados del mismo gen en distintos lugares. Esta variación en la localización de los sitios de corte y empalme genera una diversidad añadida considerable en el mRNA y la secuencia de polipéptidos. Considerando los datos de cDNAs y ESTs actuales, el 60% de los genes que codifican proteínas en humanos tienen probablemente dos o más variantes de corte y empalme. En promedio, hay aproximadamente tres variantes de corte y empalme por gen. Por lo tanto, el número de proteínas distintas codificadas por el genoma humano es aproximadamente tres veces mayor al número de genes reconocidos.

El número de genes en el genoma humano no ha sido fácil de estimar. En el borrador inicial del genoma humano, había unos 30 000 a 40 000 genes identificados que codificaban proteínas. Sin embargo, la compleja arquitectura de estos genes y del genoma puede hacer difícil su anotación. Algunas secuencias anotadas como genes pueden de hecho ser exones de genes más largos. Además, hay más de 19 000 pseudogenes, que son ORFs o ORFs parciales que pueden parecer genes a primera vista pero que no son funcionales o bien están inactivos por como se originaron o debido a mutaciones. Los supuestos pseudogenes procesados son secuencias de DNA que han sido retrotranscritas a partir del RNA e insertadas al azar en el genoma. El noventa% aproximadamente de los pseudogenes humanos es de este tipo. Alrededor de 900 pseudogenes parecen ser genes convencionales que han adquirido una o más mutaciones durante el curso de la evolución que interrumpen el ORF. A medida que las dificultades en la anotación se han ido superando, el número estimado de genes en el genoma humano ha ido cayendo de forma continua. La cifra actual, a fecha de junio del 2006, es de unos 22 000 genes, y la cifra final podría ser cercana a los 19 000 genes funcionales.

Un modo en el que la anotación del genoma humano ha progresado es mediante la finalización de las secuencias de cada cromosoma, uno a uno. Estas

(pág. 468)

(pág. 469)

secuencias se convierten luego en el terreno dónde se van a cazar genes candidatos. La Figura 13-13 muestra un ejemplo de predicciones de genes en un cromosoma del genoma humano. Tales predicciones están siendo continuamente revisadas a medida que están disponibles nuevos datos y nuevos programas computacionales. El estado actual de las predicciones se puede ver en muchos sitios Web, notablemente en los bancos de datos públicos de los Estados Unidos y de Europa (véase el Apéndice B). Estas predicciones son actualmente las mejores inferencias de genes que codifican las proteínas presentes en la especie secuenciada y, como tales, son trabajos en curso.

Las proteínas se pueden agrupar en familias de proteínas relacionadas, similares en estructura y función, basándose en la similitud de la secuencia de los aminoácidos. Para una familia proteica que se conoce en muchos organismos, el número de proteínas en la familia es generalmente superior en los humanos que en los invertebrados cuyos genomas han sido secuenciados. Las proteínas están compuestas de dominios modulares que se combinan y ajustan para llevar a cabo varias funciones. Muchos de estos dominios están asociados con funciones biológicas específicas. El número de dominios modulares por proteína también parece ser superior en los humanos que en los organismos invertebrados.

A medida que se dispone de información más refinada del genoma humano, se pueden averiguar nuevas características. Un ejemplo reciente es el mapa de la secuencia finalizada de uno de los cromosomas humanos mejor estudiado: el cromosoma 7. Inicialmente, este cromosoma fue estudiado intensamente porque contiene el gen que al mutar causa la fibrosis quística. El gen de la fibrosis quística fue identificado al comienzo del Proyecto Genoma Humano mediante el solapamiento del mapa de ligamiento con los mapas físico y de secuencia, tal y como se describió en el Capítulo 4. El cromosoma 7 humano se ha continuado estudiando en detalle, y actualmente hay alrededor de 800 clones del mapa físico cartografiados en este cromosoma.

Un posible uso de los clones del mapa físico es la localización de puntos de rotura de reordenaciones asociadas con enfermedades humanas. Las reordenaciones cromosómicas son un tipo de mutaciones que resultan de la rotura de un cromosoma en un punto, el punto de rotura de la reordenación, y su reunión con otro sitio roto de forma similar en el mismo cromosoma o en otro. Estas roturas causan mutaciones cuando un gen reside en el punto de rotura. Con el uso de clones físicos, se han podido localizar aproximadamente 1600 puntos de rotura de reordenaciones asociadas con enfermedades humanas en el

(pág. 469)

(pág. 470)

cromosoma 7, lo que ha permitido elaborar un mapa citogenético de alta densidad (Figura 13-14). De estos puntos de rotura, 440 han sido secuenciados, lo que ha permitido la asociación de fenotipos mutantes a genes que están en la secuencia del DNA.

13.5 Genómica comparativa

Uno de las formas más poderosas de avanzar en el análisis de nuestro o de cualquier otro genoma es mediante la comparación de la estructura y de la secuencia genómica entre especies relacionadas. Debido a que la selección natural generalmente elimina las mutaciones que disminuyen la eficacia biológica, los genes y otras secuencias de DNA funcionales están conservados durante largos períodos de la evolución. Un trozo de secuencia de DNA que es común entre especies divergentes seguramente lleva a cabo una función necesaria, y estos trozos comunes se pueden usar para guiar estudios cuyo objetivo es descubrir estas funciones. Además, los genes que ya han identificados en una especie modelo son más fácilmente identificables, a partir de su secuencia y localización en el genoma, en otras especies relacionadas.

Además de la identificación de regiones conservadas, la genómica comparativa tiene el potencial de revelar como divergen las especies. Las especies evolucionan y sus rasgos característicos cambian

(pág. 470)

(pág. 471)

a través de cambios en la secuencia del DNA. La comparación de los genomas de las especies puede desvelar sucesos únicos en linajes particulares que han podido contribuir a las diferencias en la fisiología, el comportamiento o la anatomía. A continuación estudiaremos unos cuantos ejemplos de como la genómica comparativa revela qué es similar y qué es diferente entre las especies.

Sobre ratones y humanos

La secuencia del genoma del ratón ha sido particularmente informativa para comprender el genoma humano, debido al antiguo papel del ratón como especie modelo en genética, el amplio conocimiento en genética clásica y la relación evolutiva del ratón con los humanos. Los linajes del ratón y el humano divergieron hace aproximadamente 75 millones de años, tiempo suficiente para que las mutaciones hayan hecho diferir sus genomas, en promedio, alrededor de uno de cada dos nucleótidos. De este modo, las secuencias comunes a los genomas del ratón y el humano es probable que indiquen funciones comunes.

El primer paso en la comparación de genomas es la identificación de los genes más estrechamente relacionados, llamados homólogos. Es importante distinguir aquí dos clases de genes homólogos. Algunos homólogos son el mismo locus genético heredado de un antecesor común; nos referimos a estos genes como ortólogos. Sin embargo, muchos genes pertenecen a familias que se han expandido (o contraído) en número a lo largo de la evolución. Los genes que están relacionados por sucesos de duplicación génica en el genoma reciben el nombre de parálogos. En las comparaciones genómicas, no siempre es posible identificar las relaciones entre los parálogos en familias génicas.

Los homólogos se identifican porque tienen secuencias de DNA similares. El análisis del genoma del ratón indica que contiene un número de genes que codifican proteínas que es similar al del genoma humano. Una inspección más detallada de los genes del ratón revela que al menos un 99% de todos los genes del ratón tienen algún homólogo en el genoma humano, y que al menos un 99% de todos los genes humanos tienen algún homólogo en el genoma del ratón. Así, los tipos de proteínas codificadas en cada genoma son los mismos. Además, alrededor del 80% de todos los genes del ratón y humanos se pueden identificar claramente como ortólogos.

Las similitudes entre los genomas se extienden mucho más allá del inventario de genes que codifican proteínas y llegan hasta la organización genómica. Más del 90% de los genomas del ratón y humano pueden ser divididos en regiones correspondientes de sintenia conservada, donde el orden de los genes dentro de bloques de tamaño variable es el mismo que su orden en el ancestro común más reciente de las dos especies. Esta sintenia es muy útil cuando se relacionan los mapas de dos genomas. Por ejemplo, el cromosoma 17 humano es ortólogo a un único cromosoma del ratón (el cromosoma 11). Aunque ha habido muchas reordenaciones intracromosómicas en el cromosoma humano, hay 23 segmentos de secuencias colineares de más de 100 kb de tamaño (Figura 13-15).

(pág. 471)

(pág. 472)

Hay algunas diferencias detectables entre los inventarios de genes de ratón y humano. El ratón posee más copias de genes involucrados en inmunidad, olfacción y reproducción. El mayor número de estas clases de genes puede sugerir que los sistemas fisiológicos han estado evolucionando en el linaje de los roedores. Esto sin duda tiene sentido si se tiene en cuenta el estilo de vida de las especies. Los ratones dependen mucho de su sentido del olfato, y se encuentran con constelaciones muy diferentes de patógenos respecto a las que se encuentran los humanos (o nuestros ancestros antropoides). Además, nuestras fisiologías reproductivas son muy diferentes. Aún así, estas diferencias en el contenido génico son relativamente modestas a la luz de las enormes diferencias en la anatomía y el comportamiento. La similitud general en los genomas del ratón y el humano se corresponde con el cuadro que emerge del examen del juego de herramientas genético que controla el desarrollo en diferentes taxones (véase el Capítulo 12). Estas grandes diferencias pueden evolucionar de los genomas que contienen conjuntos de genes similares.

Mensaje: Los genomas de mamíferos, incluyendo los de los humanos, contienen conjuntos similares de genes.

Se ilustra el mismo mensaje cuando se compara nuestro genoma con el de nuestro pariente vivo más cercano: el chimpancé.

Genómica comparativa de chimpancés y humanos

Los chimpancés y los humanos tuvieron el último ancestro común hace aproximadamente 6 millones de años. Desde entonces, se han acumulado diferencias genéticas mediante mutaciones que han ocurrido en cada linaje. La secuenciación de genomas ha revelado que hay alrededor de 35 millones de diferencias de un único nucleótido entre los chimpancés y los humanos, correspondiendo a un grado de divergencia de aproximadamente 1.06%. Además, aproximadamente 5 millones de inserciones o deleciones, desde sólo un único nucleótido hasta más de 15 kb, contribuyen a un total de aproximadamente 90 Mb de secuencia de DNA divergente (alrededor de un 3% del total del genoma). La mayoría de estas inserciones o deleciones están fuera de las regiones codificadoras.

En conjunto, las proteínas codificadas por los genomas humano y del chimpancé son extremadamente parecidas. El 29% de todas las proteínas ortólogas son idénticas en secuencia, y la mayoría de las que difieren lo hacen en sólo dos cambios aminoacídicos aproximadamente. Sin embargo, hay algunas diferencias detectables entre los chimpancés y los humanos en el conjunto de genes funcionales. Alrededor de 80 genes que eran funcionales en su ancestro común ya no son funcionales en los humanos, dando como resultado su deleción o la acumulación de mutaciones. Algunos de estos cambios podrían contribuir a diferencias fisiológicas.

Además de cambios en genes particulares, las duplicaciones de segmentos cromosómicos en un único linaje han contribuido a la divergencia de los genomas. Más de 170 genes en el genoma humano y más de 90 genes en el genoma del chimpancé están presentes en largos segmentos duplicados. Estas duplicaciones son responsables de una cantidad aún mayor de divergencia genómica total que todas las mutaciones de un único nucleótido sumadas. Sin embargo, no está todavía claro que estas duplicaciones contribuyan a diferencias fenotípicas mayores.

¿Qué hacen los genetistas hoy en día?

Elementos no codificadores conservados y ultraconservados

La discusión hasta el momento se ha centrado exclusivamente en las regiones del genoma que codifican proteínas. Este énfasis es debido más a la facilidad de análisis que a la importancia biológica. Debido a la simplicidad y universalidad del código genético, la detección de ORFs y exones es mucho más fácil que la detección de secuencias funcionales no codificadoras. Como se ha dicho previamente, sólo alrededor del 3% del genoma humano codifica exones de mRNAs, y menos de la mitad de estas secuencias exónicas, aproximadamente el 1 o el 2% del DNA genómico total, codifica secuencias proteicas. Así, más del 98% de nuestro genoma no codifica proteínas. ¿Cómo podemos identificar otras partes funcionales del genoma?

(pág. 472)

(pág. 473)

A parte de las regiones promotoras de los genes, que contienen algunos motivos de secuencia típicos (véase el Capítulo 11), es difícil asignar función a la mayoría de las secuencias no codificadoras. Sin embargo, una forma de localizar elementos no codificadores potencialmente funcionales es buscar secuencias conservadas, que no han cambiado demasiado a lo largo de millones de años de evolución. Las comparaciones de los genomas del ratón y el humano revelan que aproximadamente el 5% de toda la secuencia está conservada, correspondiendo alrededor de un tercio de esta cantidad a secuencias que codifican proteínas y los restantes dos tercios a secuencias que no codifican proteínas. Así, la proporción del genoma que dirige cómo se regulan los genes podría ser mayor que la que codifica proteínas.

La genómica comparativa puede facilitar la identificación de elementos funcionales no codificadores. Por ejemplo, uno puede buscar secuencias de tamaño modesto ultraconservadas entre unas cuantas especies, o bien secuencias más largas pero no tan conservadas entre un número de especies mayor. Las comparaciones del genoma humano, de la rata y del ratón han dado lugar a la identificación de los supuestos elementos ultraconservados, que son secuencias que están perfectamente conservadas entre las tres especies. Las búsquedas en estos genomas han arrojado más de 5000 secuencias de más de 100 pb y 481 secuencias de más de 200 pb que están absolutamente conservadas.

La extensión de este análisis para incluir el genoma del perro ha dado lugar a más de 140 000 elementos muy conservados de 50 ó más pb de longitud fuera de las secuencias que codifican proteínas. Aunque el 50% de estos elementos están en regiones pobres en genes, están sobrerepresentadas cerca de genes reguladores que son importantes para el desarrollo. La mayoría de estos elementos no codificadores ultraconservados podrían estar en gran parte involucrados en regular la expresión del juego de herramientas genético que se requiere para el desarrollo de los mamíferos y otros vertebrados.

¿Cómo podemos verificar que los elementos conservados juegan un papel en la regulación de los genes? Estos elementos podrían ser estudiados de la misma manera que los elementos reguladores de la transcripción que actúan en cis, examinados en los capítulos anteriores, mediante el uso de genes informadores. El investigador pone regiones reguladoras candidatas adyacentes a un promotor y a un gen informador, e introduce el gen informador en una especie hospedadora. La Figura 13-16 muestra uno de estos ejemplos. Un elemento que está ultraconservado entre los mamíferos, la gallina y una especie de rana está a 488 kb del extremo 3’ del gen ISL1 humano, el cual codifica una proteína necesaria para la diferenciación de las neuronas motoras. Este elemento se colocó aguas arriba de un promotor y del gen informador β-galactosidasa (lacZ), y el constructo se inyectó en el pronúcleo de oocitos de ratón fecundados. El gen informador se expresó a lo largo de la cuerda espinal y en la cabeza, como se esperaría de la localización de las futuras neuronas motoras (Figura 13-16). Más significativo aún, el patrón de expresión se corresponde parcialmente al patrón de expresión del gen ISL1 típico del ratón (presumiblemente otros elementos no codificadores controlan otras características de la expresión de ISL1). Muchos miles de elementos reguladores no codificadores de humanos podrían ser identificados teniendo en cuenta la conservación de la secuencia y de su actividad en ensayos de genes informadores.

Las comparaciones de los proteomas del ratón, los humanos y los chimpancés, así como la identificación y análisis de sus elementos no codificadores comunes, subrayan la naturaleza conservadora de la evolución genómica. Sin embargo, la genómica comparativa también ha desvelado algunas diferencias dramáticas en el contenido genómico, con enormes implicaciones para la medicina humana. A continuación estudiaremos uno de estos ejemplos.

Genómica comparativa de E. coli no patogénica y patogénica

Escherichia coli es generalmente un simbionte benigno que se encuentra en nuestras bocas y tractos intestinales en grandes cantidades. Debido a su papel central en la investigación genética, fue uno de los primeros genomas bacterianos en ser secuenciado. El genoma de E. coli es de aproximadamente 4.6 Mb de tamaño y contiene 4405 genes. Sin embargo, el hecho de llamarlo “el genoma de E. coli” no es nada acertado. El primer genoma en ser secuenciado provenía

(pág. 473)

(pág. 474)

de la cepa común de E. coli del laboratorio K-12. Pero existen muchas otras cepas de E. coli, incluyendo varias de importancia para la salud humana.

En el 1982, hubo un brote en varios estados de los EEUU de una enfermedad humana relacionada con el consumo de carne picada de ternera poco cocida. La cepa de E. coli O157:H7 fue identificada culpable, y desde entonces se ha asociado con algunos brotes de infección a gran escala. De hecho, hay unos 75 000 casos estimados cada año en los Estados Unidos. Aunque la mayoría de la gente se recupera de la infección, una fracción desarrolla el síndrome hemolítico urémico, una enfermedad de los riñones potencialmente mortal.

Para entender las bases genéticas de la patogenicidad, se secuenció el genoma de una cepa O157:H7 de E. coli. Las cepas O157 y K-12 tienen un contenido común de 3574 genes que codifican proteínas, y la identidad nucleotídica media entre genes ortólogos es del 98.4%, comparable a la de los ortólogos entre humanos y chimpancés. Aproximadamente el 25% de los ortólogos de E. coli codifican proteínas idénticas, un valor similar al 29% que hay entre los ortólogos de humanos y chimpancés.

A pesar de las similitudes en muchas proteínas, los genomas y proteomas difieren enormemente en contenido. El genoma de la E. coli O157 codifica 5416 genes, mientras que el genoma de la E. coli K-12 codifica 4405 genes. El genoma de la E. coli O157 contiene 1387 genes que no se encuentran en el genoma de la K-12, y 528 genes que están en el genoma de la K-12 no están en el genoma de la O157. La comparación de los mapas genómicos revela que el contenido común de las dos cepas está entremezclado junto a islas de genes específicos la K-12 o de O157 (Figura 13-17).

Entre los 1387 genes específicos de E. coli O157 hay muchos genes candidatos que codifican factores de virulencia, incluyendo toxinas, proteínas de invasión celular, proteínas de adhesión

(pág. 474)

(pág. 475)

y sistemas de secreción, así como posibles genes metabólicos que podrían ser necesarios para el transporte de nutrientes, la resistencia a los antibióticos y otras actividades que podrían conferir la posibilidad de sobrevivir en distintos hospedadores. La mayoría de estos genes no se conocían antes de la secuenciación y no se conocerían todavía hoy si los investigadores se hubieran basado sólo en la E. coli K-12 como guía para todas las E. coli.

El nivel sorprendente de diversidad entre dos miembros de la misma especie muestra cuán dinámica puede ser la evolución del genoma. Se cree que la mayoría de genes nuevos en las cepas de E. coli se introdujeron por transferencia horizontal desde genomas de virus y de otras bacterias. Las diferencias también podrían haber evolucionado a partir de deleciones de genes. Otras especies patogénicas de E. coli y de otras bacterias muestran también una tendencia a acumular muchas diferencias en el contenido génico, al compararlas con sus primos no patogénicos. La identificación de genes que podrían contribuir directamente a la patogenicidad abre nuevas puertas a la prevención y al tratamiento de la enfermedad.

13.6 Genómica funcional y genética inversa

Durante las últimas décadas, los genetistas han estado estudiando la expresión y las interacciones de productos génicos. Sin embargo, estos estudios eran a pequeña escala, considerando sólo un gen o unos pocos genes a la vez. Con la aparición de la genómica, tenemos la oportunidad de expandir estos estudios a un nivel global, usando aproximaciones de genomas completos para estudiar la mayoría o todos los productos génicos sistemática y simultáneamente. Esta aproximación global al estudio de la función, la expresión y la interacción de productos génicos recibe el nombre de genómica funcional.

Oma, dulce oma

Además del genoma, hay otros conjuntos de datos globales de interés. Siguiendo el ejemplo del término genoma, en el que “gen” más “oma” se convierte en un término para “todos los genes”, los investigadores genómicos han acuñado varios términos para describir otros conjuntos de datos globales en los que están trabajando. Esta lista de ‑omas deseados incluye:

El transcriptoma. La secuencia y patrones de expresión de todos los transcritos (dónde, cuándo, cuánto).

El proteoma. La secuencia y patrones de expresión de todas las proteínas (dónde, cuándo, cuánto).

El interactoma. El conjunto completo de interacciones físicas entre proteínas y segmentos de DNA, entre proteínas y segmentos de RNA, y entre proteínas.

No consideraremos todos estos –omas en esta sección, sino que nos centraremos en algunas de las técnicas globales que se están empezando a explotar para obtener estos conjuntos de datos.

Uso de microarrays de DNA para estudiar el transcriptoma Suponga que queremos responder a la pregunta: ¿qué genes están activos en una célula particular bajo ciertas condiciones? Estas condiciones pueden ser una o más etapas en el desarrollo, o pueden ser la presencia o ausencia de un patógeno o de una hormona. Los genes activos se transcriben a RNA, por lo que el conjunto de transcritos de RNA presentes en una célula puede decirnos qué genes están activos. Aquí es donde se manifiesta la gran potencia de la nueva tecnología de los chips de DNA, usada para analizar los transcritos de RNA.

Los chips de DNA son muestras de DNA dispuestas como una serie de gotas microscópicas unidas a un “chip” de vidrio del tamaño de un cubreobjetos de microscopio. Un chip puede contener gotas de segmentos de DNA correspondientes a todos los genes del genoma. El conjunto de DNAs así expuesto recibe el nombre de microarray. El chip de DNA es expuesto a una muestra de RNA marcado

(pág. 475)

(pág. 476)

(llamado sonda) tomado de una célula; cada transcrito de RNA se unirá (hibridará) con su secuencia de DNA complementaria. Las gotas que han sido unidas en el chip indican qué genes se están transcribiendo activamente en una condición dada. Los chips de DNA han revolucionado la genética permitiendo el análisis de los transcritos de RNA para todos los genes simultáneamente en un solo experimento. Veamos como funciona este proceso en más detalle.

A continuación de indica un protocolo para hacer chips de DNA. Máquinas robotizadas con múltiples inyectores parecidas a plumillas estilográficas en miniatura descargan gotitas microscópicas de solución de DNA en posiciones específicas (direcciones) del chip. Se seca el DNA y se trata de forma que quede unido al vidrio, pudiéndose aplicar miles de muestras sobre un chip. En una primera aproximación, la colección de DNAs consiste en todos los cDNAs conocidos del genoma. Otro tipo de colección contiene oligonucleótidos sintéticos cortos que representan la mayoría o todos los genes del genoma. Estas colecciones se exponen a una sonda, por ejemplo una que consiste en el conjunto total de moléculas de RNA extraídas de un tipo celular particular en una etapa específica del desarrollo. Se unen unos marcadores fluorescentes a la sonda, y la unión de las moléculas de la sonda a las gotas de DNA homólogo en el chip de vidrio se monitoriza automáticamente con el uso de un microscopio iluminado por rayos láser. La Figura 13-18 muestra unos resultados típicos. De este modo se pueden analizar los genes que están activos en cualquier etapa del desarrollo o bajo unas determinadas condiciones. La Figura 13-19 muestra un ejemplo de un perfil de expresión de un gen del desarrollo generado por el análisis este tipo de chip.

Sabiendo qué genes están activos o inactivos en una etapa dada, en un tipo celular particular, o en varias condiciones ambientales, se pueden identificar los conjuntos de genes que podrían responder a inputs de regulación similares. Además, los perfiles de expresión génica pueden dibujar un cuadro de las diferencias entre las células normales y las enfermas. Mediante la identificación de genes cuya expresión se ha alterado por mutaciones, en las células cancerosas o por un patógeno, los investigadores podrían ser capaces de concebir nuevas estrategias terapéuticas.

Uso de la prueba del doble híbrido para estudiar el interactoma Una de las actividades más importantes de las proteínas es su interacción con otras proteínas. Debido al elevado

(pág. 476)

(pág. 477)

número de proteínas que hay en cualquier célula, los biólogos han buscado formas de estudiar sistemáticamente todas las interacciones de proteínas individuales de una célula. Una de las formas más comunes de estudio del interactoma usa un sistema de ingeniería en células de levadura llamado prueba del doble híbrido, que detecta interacciones físicas entre dos proteínas. La base de la prueba es el activador transcripcional codificado por el gen GAL4 de la levadura (véase el Capítulo 11). Recuerde que esta proteína tiene dos dominios: (1) un dominio de unión al DNA que se une al sitio de inicio de la transcripción y (2) un dominio de activación que activará la transcripción, pero que no puede por si mismo unirse al DNA. Así, los dos dominios tienen que estar muy próximos para que ocurra la activación transcripcional. En el sistema del doble híbrido, el gen del activador transcripcional Gal4 se separa entre dos plásmidos, de modo que un plásmido contiene la parte que codifica el dominio de unión al DNA y el otro plásmido contiene la parte que codifica el dominio de activación. En un plásmido, el gen de una proteína estudiada es empalmado al dominio de unión al DNA, y esta proteína fusionada actúa como “cebo”. En el otro plásmido, un gen para otra proteína estudiada es empalmada al dominio de activación y la proteína fusionada resultante se dice que es la “diana” (Figura 13-20). Los dos plásmidos híbridos se introducen entonces en la misma célula de levadura, quizás uniendo células haploides que contienen los plásmidos cebo y diana. El último paso es esperar que se produzca la activación de la transcripción por un constructo con un gen informador regulado por Gal4, que sería la prueba de que cebo y diana se han unido. El sistema del doble híbrido puede automatizarse para permitir la búsqueda de interacciones proteicas en todo el proteoma.

(pág. 477)

(pág. 478)

Estudio del interactoma utilizando el ensayo de inmunoprecipitación de la cromatina (ChIP, del inglés chromatin immunoprecipitation assay)

La especificidad de secuencia en la unión de las proteínas al DNA es crítica para la correcta expresión de los genes. Por ejemplo, las proteínas reguladoras se unen a los promotores y activan o reprimen la transcripción tanto en las bacterias como en los eucariotas (véase los Capítulos 10, 11 y 12). En el caso de los eucariotas, los cromosomas están organizados en la cromatina, cuya unidad fundamental, el nucleosoma, contiene DNA enrollado alrededor de las histonas. La modificación postraduccional de las histonas a menudo dicta qué proteínas se unen y dónde (véase el Capítulo 11). La importancia de las interacciones proteína-DNA ha llevado al desarrollo de varias tecnologías que facilitan el aislamiento de regiones específicas de la cromatina de modo que el DNA y sus proteínas asociadas pueden ser analizados conjuntamente. El método más usado es la ChIP (siglas de inmunoprecipitación de la cromatina, del inglés chromating immunoprecipitation), cuyas aplicaciones se describen a continuación (Figura 13-21).

Supongamos que ha aislado un gen de levadura y sospecha que codifica una proteína que se une al DNA cuando la levadura se ha cultivado a temperatura elevada. Quiere saber si esta proteína se une al DNA y, en caso afirmativo, a qué secuencia de la levadura. Una forma de abordar esta cuestión es primero tratar las células de la levadura que han sido cultivadas a altas temperaturas con una sustancia química que hace que las proteínas y el DNA se unan entre sí (interconexión). De este modo, las proteínas que estén unidas al DNA durante el aislamiento de la cromatina permanecerán unidas a lo largo de los tratamientos sucesivos. El siguiente paso es romper la cromatina en trozos pequeños. Para separar el fragmento que contiene el complejo proteína/DNA del resto, aísla un anticuerpo que reaccione específicamente con la proteína codificada. Añada el anticuerpo a la mezcla de modo que forme un inmunoprecipitado que pueda ser purificado. Entonces, proteína y DNA pueden ser analizados separadamente después de que la interconexión sea revertida. El DNA unido por la proteína puede ser amplificado en muchas copias, clonándolo en una bacteria o amplificándolo por PCR, como preparación para la secuenciación del DNA (véase el Capítulo 20).

(pág. 478)

(pág. 479)

Como se vio en el Capítulo 11, las proteínas reguladoras a menudo activan la transcripción de muchos genes simultáneamente cuando se unen a varias regiones promotoras. Se ha ideado una variación del método ChIP, llamada ChIP-chip, para identificar múltiples sitios de unión en un genoma secuenciado. Las proteínas que se unen a muchas regiones genómicas son inmunoprecipitadas como se describió arriba, y después de que la interconexión sea revertida, los fragmentos de DNA son marcados y usados para sondear chips de microarrays que contienen, en este caso, la secuencia genómica entera de la levadura.

El procedimiento ChIP-chip también se ha usado para descifrar el código de las histonas en algunos organismos. Por ejemplo, se han aislado anticuerpos que reconocen histonas con modificaciones postraduccionales específicas, como por ejemplo la metilación de un residuo de lisina particular (véase el Capítulo 11). El uso de este anticuerpo con ChIP-chip debería identificar secuencias de DNA en el genoma que están asociadas con histonas y que tienen esta modificación.

La genómica y las otras áreas “ómicas” han engendrado una nueva disciplina llamada biología de sistemas. Mientras que la aproximación de la genética ha sido tradicionalmente reduccionista, diseccionando un organismo con mutaciones para ver cuáles son sus partes, la biología de sistemas intenta agrupar las partes para entender el conjunto como un sistema. Un sistema biológico engloba redes de regulación génica, cascadas de transducción de señales, comunicación célula-célula y varias formas de interacciones, no sólo entre moléculas “genéticas” sino con todas las otras moléculas de la célula y del ambiente.

La genética inversa

Los tipos de datos obtenidos de los experimentos de microarrays y de los rastreos de interacciones proteicas son indicativos de las interacciones dentro del genoma y el proteoma, pero no nos permiten sacar ninguna conclusión convincente acerca de las funciones de los genes y de las interacciones in vivo. Por ejemplo, el hallazgo de que la expresión de ciertos genes se pierde en algunos cánceres no es prueba de causa y efecto. Es necesario alterar específicamente la función del gen y entender los fenotipos en las condiciones naturales. Empezando por las secuencias génicas disponibles, los investigadores pueden ahora usar una variedad de métodos para alterar la función de un gen específico. Estos métodos reciben el nombre de genética inversa. El análisis por genética inversa empieza con una molécula conocida: una secuencia de DNA, un mRNA o una proteína, y trata de alterar esta molécula para valorar el papel del producto génico normal en la biología del organismo.

Hay varias aproximaciones a la genética inversa. Una aproximación es introducir mutaciones al azar en el genoma pero luego dirigirse hacia el gen de interés mediante la identificación molecular de mutaciones en el gen. Una segunda aproximación es conducir una mutagénesis dirigida que produzca mutaciones directamente en el gen de interés. Una tercera aproximación es crear fenocopias (con efectos comparables a los fenotipos mutantes), mediante el tratamiento con agentes que interfieren con el mRNA o con la actividad del producto proteico final.

Cada aproximación tiene sus ventajas. La mutagénesis al azar es la más fácil de llevar a cabo, pero requiere tiempo y esfuerzo para examinar cuidadosamente todas las mutaciones hasta encontrar la pequeña proporción de ellas que incluye el gen de interés. La mutagénesis dirigida también requiere mucho esfuerzo, pero una vez se ha obtenido la mutación dirigida, su caracterización es más sencilla. La creación de fenocopias puede ser muy eficiente, pero existen límites respecto a los tipos de fenocopias que pueden ser copiados. Consideraremos ejemplos de cada una de estas aproximaciones.

Genética inversa mediante mutagénesis al azar La mutagénesis al azar de la genética inversa emplea los mismos tipos de mutágenos generales que se usan en la genética directa: agentes químicos, radiación o elementos genéticos transponibles (véase la página 211). Sin embargo, en lugar de rastrear el genoma a gran escala para buscar mutaciones que ejerzan un efecto fenotípico particular, la genética inversa se centra en el gen en cuestión y puede ser llevada a cabo en una de dos formas generales.

La primera aproximación es centrarse en la localización del gen en el mapa. Sólo las mutaciones que caigan en la región del genoma donde está localizado el gen son retenidas para

(pág. 479)

(pág. 480)

un análisis molecular más detallado. Por lo tanto, en esta aproximación las mutaciones recuperadas deben ser cartografiadas. Una forma sencilla es cruzar un nuevo mutante con un mutante que contenga una deleción conocida o una mutación en el gen de interés. Simbólicamente, el emparejamiento es mutante nuevo/mutante conocido. Sólo los emparejamientos que den lugar a progenie con el fenotipo mutante (mostrando falta de complementación) se guardan para el estudio.

En otra aproximación, se identifica el gen de interés en el genoma mutagenizado y se verifica la presencia de mutaciones. Por ejemplo, si un mutágeno causa pequeñas deleciones, después de la amplificación por PCR se pueden comparar los genes de los genomas parental y mutagenizado y buscar un genoma mutagenizado en el que el gen de interés esté reducido en tamaño. También existen técnicas para el reconocimiento de sustituciones de un único par de bases. De este modo, un conjunto de genomas que contienen mutaciones al azar puede ser rastreado de forma efectiva para identificar la pequeña fracción de las mutaciones que son de interés para el investigador.

Genética inversa mediante mutagénesis dirigida Durante la mayor parte del siglo veinte, los investigadores contemplaron la posibilidad de dirigir mutaciones hacia un gen específico como el “Santo Grial” inalcanzable de la genética. Sin embargo, ahora existen muchas técnicas para hacerlo. Después de que un gen ha sido inactivado en un individuo, los genetistas pueden evaluar el fenotipo resultante para buscar claves sobre la función del gen. En general, las herramientas para hacer mutaciones génicas dirigidas se basan en técnicas genéticas desarrolladas para los organismos modelo. Así, aunque se puede alterar de forma eficiente y directa los genes de la levadura, de la mosca o del ratón, tal alteración no es posible en muchas especies que no son especies modelo.

La mutagénesis específica de gen a menudo requiere el reemplazamiento de una copia residente de tipo salvaje de un gen entero por una versión mutada de este mismo gen. El gen mutado se inserta en el cromosoma por un mecanismo que se parece a la recombinación homóloga, reemplazando la secuencia normal por la mutada (Figura 13-22). Esta aproximación puede usarse para el noqueado dirigido de genes, en el que un alelo nulo sustituye la copia de tipo salvaje. Algunas técnicas son tan eficientes que, en E. coli, por ejemplo, hay esfuerzos en marcha para sistemáticamente mutar cada gen del genoma K-12 para determinar su función biológica.

Mensaje: La mutagénesis dirigida es la forma más precisa de obtener mutaciones en un gen específico y ahora puede practicarse en una variedad de sistemas modelo incluyendo ratones y moscas.

(pág. 480)

(pág. 481)

Genética inversa mediante fenocopiado La ventaja de inactivar un gen en sí mismo es que las mutaciones se transmitirán de una generación a la siguiente, y por lo tanto, una vez que se obtiene siempre habrá disponible una línea de mutantes para su estudio posterior. Sin embargo, estas manipulaciones sólo pueden llevarse a cabo en los organismos bien desarrollados como modelos moleculares. Por el contrario, el fenocopiado puede aplicarse a un número mucho mayor de organismos, con independencia de lo desarrollada que esté la tecnología genética para la especie en cuestión. Las dos secciones siguientes describen dos técnicas de fenocopiado.

Interferencia de RNA Un hallazgo apasionante de los últimos 10 años ha sido el descubrimiento de un mecanismo muy extendido cuya función natural parece ser proteger a la célula del DNA foráneo. Este mecanismo recibe el nombre de interferencia de RNA (RNAi), descrito en la página 314. Los investigadores han aprovechado este mecanismo celular para diseñar un método potente para inactivar genes específicos. La inactivación se lleva a cabo como sigue. Se elabora un RNA de doble cadena con secuencia homóloga a parte del gen estudiado y se introduce en la célula (Figura 13-23). Luego, el complejo de silenciamiento inducido por RNA, o RISC (del inglés RNA-induced silencing complex), degrada cualquier mRNA natural que sea complementario al RNA de doble cadena. El resultado final es una reducción considerable de los niveles de mRNA, que dura horas o días, anulando de este modo la expresión del gen. La técnica se ha aplicado con éxito en muchos sistemas modelo, incluyendo C. elegans, Drosophila, el pez zebra y varias especies de plantas.

Para aplicar las técnicas de fenocopiado a organismos que no son modelo, los genes diana pueden ser identificados mediante genómica comparativa. Entonces, las secuencias de RNAi son producidas para dirigir la inhibición de genes diana específicos. Esta técnica se ha aplicado ya al mosquito que transmite la malaria (Anopheles gambiae). Usando estas técnicas, los científicos pueden entender mejor los mecanismos biológicos subyacentes a los efectos médicos o económicos de esta especie. Por ejemplo, los genes que controlan el complejo ciclo vital del parásito de la malaria, que ocurre parcialmente dentro de un mosquito hospedador y parcialmente dentro del cuerpo humano, pueden ser comprendidos mejor, revelando nuevas formas de controlar la enfermedad infecciosa más común