UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA...

55
UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE INGENIERÍA MATEMÁTICA CLASIFICACIÓN AUTOMÁTICA DE GENES DE BACTERIAS EN FUNCIÓN DE PROPIEDADES ESTRUCTURALES RODOLFO PATRICIO TAPIA NOVOA 2004

Transcript of UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA...

Page 1: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

UNIVERSIDAD DE CHILEFACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS

DEPARTAMENTO DE INGENIERÍA MATEMÁTICA

CLASIFICACIÓN AUTOMÁTICA DE GENES DE BACTERIAS EN FUNCIÓN DEPROPIEDADES ESTRUCTURALES

RODOLFO PATRICIO TAPIA NOVOA

2004

Page 2: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

UNIVERSIDAD DE CHILEFACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS

DEPARTAMENTO DE INGENIERÍA MATEMÁTICA

CLASIFICACIÓN AUTOMÁTICA DE GENES DE BACTERIAS EN FUNCIÓN DEPROPIEDADES ESTRUCTURALES

RODOLFO PATRICIO TAPIA NOVOA

COMISIÓN EXAMINADORA CALIFICACIONESNOTA(n

�) (Letras) FIRMA

PROFESOR GUÍASR. ALEJANDRO MAASS :

PROFESOR CO-GUÍASR. SERVET MARTÍNEZ :

PROFESOR INTEGRANTESRA. NANCY LACOURLY :

NOTA FINAL EXAMEN DE TÍTULO :

MEMORIA PARA OPTAR AL TÍTULO DEINGENIERO CIVIL MATEMÁTICO

SANTIAGO DE CHILEJUNIO 2004

Page 3: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

RESUMEN DE LA MEMORIAPARA OPTAR AL TÍTULO DEINGENIERO CIVIL MATEMÁTICOPOR: RODOLFO TAPIA N.FECHA: 25/06/2004PROF. GUÍA: SR. ALEJANDRO MAASS S.

CLASIFICACIÓN AUTOMÁTICA DE GENES DE BACTERIAS EN FUNCIÓN DEPROPIEDADES ESTRUCTURALES

El objetivo del presente trabajo de título es clasificar automáticamente genes de organismosinferiores en base a su secuencia, con objeto de servir como método alternativo, predictivo y devalidación a experimentos biológicos.

Es sabido que la distribución de la información presente en los genes presenta alguna estruc-tura. La codificación de una zona del gen se relaciona, por ejemplo, con su forma física. Ademásexiste relación entre la forma física que adopta el gen y la función que realiza, lo cual encadenacodificación con función. Por otro lado, se sabe que, dependiendo del organismo en el cual es-tá presente el gen, su secuencia tiene propiedades características. Tiene sentido entonces buscaríndices adecuados que sean capaces de diferenciar genes.

Una vez anotados y secuenciados los genes de los organismos, se procedió al cálculo dealrededor de 70 parámetros para cada gen, mediante una rutina programada. Calculada ya la ma-triz de datos, se procedió a su análisis matemático, reduciendo primero la dimensión del problemay luego, aplicando un método para observar las principales tendencias y correlaciones en el con-junto de datos. Se completa el estudio con la aplicación de métodos estadísticos de clasificación.

El resultado obtenido para una bacteria biominera fue que no se observaron diferenciacionesclaras entre los subgrupos biológicos, pero se logró clasificar en forma satisfactoria los genes defunción desconocida, los cuales constituían la tercera parte de la población. El resultado logradopara un conjunto de genes de diversos organismos fue exitoso, debido a que se diferenciaban no-toriamente en base a nuestros parámetros, netamente cuantitativos, que condujeron a una marcadaclasificación biológica.

Se concluye que el procedimiento virtual de clasificación es aplicable como método alterna-tivo, predictivo y de validación de experimentos biológicos.

Page 4: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

Agradecimientos

Antes que todo, quisiera agradecer a mi familia por el férreo apoyo que siempre me hanbrindado, sobre todo a mi madre Inelia, que ha sido mi principal guía educacional a lo largo demi vida. A mi padre, por conducir la familia y haberme legado sus genes matemáticos. Agradezcotambién a René, mi hermano mayor, por ser el familiar pionero en incursar, con gran sacrificio, encarreras de gran envergadura, permitiéndome, con su ayuda, que mi camino en educación media yuniversitaria fuera bastante cómodo. Quiero agradecer también a mi primer profesor de matemáti-cas, Luis León, el cual, pese a trabajar en un colegio de barrio, ejerce como un profesional de grancalidad. Agradezco a mi colegio, Instituto Nacional, por darme una inolvidable formación edu-cacional. Destaco el gran apoyo y confianza depositada en mi por todos los integrantes de sudepartamente de física. Muchas gracias a mi gran amigo de la infancia Claudio, por ayudarmea tratar de arreglar el mundo en nuestras conversaciones. Agradezco a todos los integrantes dela parroquia San Gerardo, por apoyarme en mi formación moral. Muchas gracias a todos miscompañeros de generación, en especial a Mario y Alexis. Mención aparte reciben Mauricio, JoséLuis, Paulo, Rodrigo y Miguel, con los cuales hemos desarrollado una profunda amistad a partirdel colegio. Quiero dar gracias a la Universidad de Chile, por recibirme con las puertas abiertas yotorgarme gratuidad de estudios. También agradezco a TECSA, en especial a don Enrique y donRicardo, los cuales me brindaron apoyo económico durante cinco años.

Agradezco a todos los integrantes del grupo GENOMA por su gran apoyo técnico. GraciasServet por orientar mi tema, gracias Andrés por ser el sólido puente hacia la concreción de mimemoria, gracias Sra. Nancy por los conocimientos estadísticos que me ha dado y, en forma muyespecial, quiero agradecer a Alejandro Maass, por la enorme confianza que ha depositado en mi,por el grado compromiso que adquirió, por estructurar y corregir mis avances y por ayudarme amanejar sicológicamente este último paso para obtener mi título.

I

Page 5: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

Índice general

1. Estudio de secuencias 11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Introducción Biológica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3. Métodos Estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.1. Análisis de Componentes Principales (ACP) . . . . . . . . . . . . . . . . 61.3.2. Análisis Discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3.3. Análisis de Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2. Estudio de la bacteria BRL000 112.1. Análisis de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.1. Formato de los datos para BRL000 . . . . . . . . . . . . . . . . . . . . 112.1.2. Definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.1.3. Variables a utilzar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.1.4. ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.1.5. Análisis Discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.1.6. K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.1.7. Clasificación Jerárquica . . . . . . . . . . . . . . . . . . . . . . . . . . 272.1.8. Genes anómalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3. Análisis de más organismos 303.1. ACP para arqueas y bacterias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.2. ACP para arqueas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.3. ACP para bacterias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4. Conclusiones 454.1. Para BRL000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.2. Para más organismos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.3. Conclusión final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

II

Page 6: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

Índice de figuras

1.1. Pentosas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Nucleótido (adenina) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3. Bases nitrogenadas púricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4. Bases nitrogenadas pirimidínicas . . . . . . . . . . . . . . . . . . . . . . . . . . 31.5. Enlaces en el ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.6. Aminoácido (R es un grupo variable) . . . . . . . . . . . . . . . . . . . . . . . . 41.7. Bacteria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1. Histograma del largo de los genes . . . . . . . . . . . . . . . . . . . . . . . . . 142.2. Valores propios de la matriz de covarianza . . . . . . . . . . . . . . . . . . . . . 152.3. Genes en el primer plano principal . . . . . . . . . . . . . . . . . . . . . . . . . 162.4. Genes en plano principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.5. Genes en plano principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.6. Círculo de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.7. Círculo de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.8. Círculo de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.9. Genes por grupo en el primer plano principal . . . . . . . . . . . . . . . . . . . 222.10. Genes por grupo en plano principal . . . . . . . . . . . . . . . . . . . . . . . . . 222.11. Genes por grupo en plano principal . . . . . . . . . . . . . . . . . . . . . . . . . 232.12. Gráfico silueta de genes clasificados según K-means . . . . . . . . . . . . . . . . 272.13. Árbol de clasificación jerárquica . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.1. Genes en el primer plano principal . . . . . . . . . . . . . . . . . . . . . . . . . 313.2. Genes en plano principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.3. Genes en plano principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.4. Genes en espacio principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.5. Círculo de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.6. Círculo de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.7. Círculo de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.8. Genes en el primer plano principal . . . . . . . . . . . . . . . . . . . . . . . . . 363.9. Genes en plano principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.10. Genes en plano principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.11. Genes en espacio principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.12. Círculo de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.13. Círculo de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

III

Page 7: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

3.14. Círculo de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.15. Genes en el primer plano principal . . . . . . . . . . . . . . . . . . . . . . . . . 413.16. Genes en plano principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.17. Genes en plano principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.18. Genes en espacio principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.19. Círculo de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.20. Círculo de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.21. Círculo de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Page 8: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

Índice de cuadros

2.1. Formato de los datos a analizar. . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2. Matriz de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.3. Distancia de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.4. Discriminación lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.5. Discriminación cuadrática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.6. K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.7. Validación de grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.8. Genes anómalos 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.9. Genes anómalos 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.1. Más organismos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.2. Selección de organismos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.3. Selección de arqueas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.4. Selección de bacterias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

V

Page 9: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

Capítulo 1

Estudio de genomas mediante métodosmatemáticos

1.1. IntroducciónLa información genética contenida en los organismos, en la cual vemos finalmente una se-

cuencia de cuatro letras, nos entregan detalles particulares del mismo, pues se ha estudiado quelas secuencias que los representan son cualitativamente diferentes de acuerdo, por ejemplo, acategorías biológicas del organismo, como ser eucarionte o procarionte, halófilo, termófilo, etc.Este mensaje genético, al cual queremos dar interpretación, no sólo es capaz de diferenciar ele-mentos externos como categorías, sino que además, dentro de un mismo organismo, posee difer-enciaciones internas, en las cuales se reconocen distintas zonas del mensaje, pues algunos seg-mentos son altamente expresivos, es decir, dan mucha información, mientras que hay zonas ‘os-curas’ que prácticamente nada dicen.

En base a frecuencias de letras en la secuencia codificadora de cada organismo, se hanpublicado artículos con objeto de mostrar propiedades, por ejemplo en [5], se construye lo quelos autores denominan ‘Zcurve’, el cual es un índice en base a 33 parámetros y tiene como obje-tivo reconocer genes codificantes en la secuencia. Otro artículo [1], clasifica secuencias de DNA,ya sea de una misma o de diferentes especies, en subgrupos que corresponden generalmente acategorías biológicas, en base a frecuencias de di-, tri-, y tetranucleótidos.

Esta memoria tiene como motivación ‘encontrar índices’ en las secuencias codificadoras deun gen bacteriano, los cuales permitan describir alguna característica del mismo, como por ejem-plo su función biológica, o bien, propiedades en su secuencia, para lo cual debemos asignar unconjunto de variables en base a ella sobre las cuales aplicaremos metodolgías estadísticas conobjeto de encontrar tendencias, correlaciones y clasificaciones.

Hay una tecnología que permite hacer un análisis comparativo y simultáneo de cómo se ex-presan cientos de genes en un solo experimento, llamada MicroArray (biochips). Ahora bien, unaarista de mi memoria es el servir como MicroArray virtual, de modo de predecir expresión degenes sin la necesidad de hacer experimentos. Puede servir como forma complementaria, ya sea

1

Page 10: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 1. ESTUDIO DE SECUENCIAS

de validación o predicción, claramente más económica que el experimento.

Existe una función que transforma una secuencia de nucleótidos en una secuencia de aminoá-cidos. En [10], se intenta, a partir de una secuencia de aminoácidos, encontrar, en base a datosestadísticos, la ‘mejor’ preimagen de esta secuencia. En dicha tesis me basé para hacer mi memo-ria.

En lo que respecta al contexto biológico, una presentación más extendida se puede encontraren [10]. En aquella referencia se presentan variables matemáticas sobre secuencias codificadoras,las cuales tomé en cuenta para el presente estudio.

1.2. Introducción BiológicaExisten dos grandes grupos de organismos: los eucariontes y los procariontes. Los primeros

se diferencian de los segundos en que son evolutivamente superiores y sus células poseen unamembrana que delimita el núcleo en el cual está contenida su información genética, en forma deácidos nucleicos. Estos últimos son el DNA y el RNA. La unidad básica es el nucleótido, que estáformado por un grupo fosfato, una ribosa (azúcar) y una base nitrogenada. En el caso del DNAesta azúcar es desoxirribosa.

Figura 1.1: Pentosas

Figura 1.2: Nucleótido (adenina)

Los genes son secuencias específicas de nucleótidos en el DNA, a partir de los cuales segeneran las proteínas (formadas por aminoácidos). Además de ser componentes estructurales dela célula, las proteínas participan como enzimas en casi todas las reacciones químicas que seproducen en la materia viva.

2

Page 11: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 1. ESTUDIO DE SECUENCIAS

Genoma

Es la información contenida en las secuencias nucleotídicas del DNA, a partir de la cual seorigina el mensaje para la síntesis de proteínas.

En eucariontes, la molécula del DNA es una doble hebra dispuesta en forma helicoidal, com-puesta por una sucesión de nucleótidos. El DNA puede ser ‘leído’ a través de la utilización de unalfabeto de cuatro letras que representan los cuatro tipos de base nitrogenada que forman parte delos nucleótidos: adenina (A), guanina (G), timina(T) y citocina (C).

Figura 1.3: Bases nitrogenadas púricas

Figura 1.4: Bases nitrogenadas pirimidínicas

Las diferencias entre el DNA de distintos individuos reside en la proporción y orden comose suceden estas bases nitrogenadas. El pareo entre las bases es a través de puentes de hidrógenoentre una base nitrogenada púrica (A y G) y una pirimidínica (C y T), siendo A-T doble y G-Ctriple.

Figura 1.5: Enlaces en el ADN

3

Page 12: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 1. ESTUDIO DE SECUENCIAS

Las bases nitrogenadas en el RNA (reemplaza uracilo por timina) se agrupan de a tres for-mando tripletas, también llamadas codones. Cada tripleta es una palabra cifrada o señal para undeterminado aminoácido. Con las cuatro bases nitrogenadas se puede contruir un número sufi-ciente de tripletas para sintetizar los 20 aminoácidos que forman las proteínas. Las posibilidadesde combinación permiten un total de 64 tripletas para los 20 aminoácidos, pero se ha llegado ademostrar que cada aminoácido puede formarse por más de una tripleta, por cuya razón se diceque el código genético está degenerado. Las tripletas son universales, es decir, especifican el mis-mo aminoácido en todos los seres vivos. Lo que le da la especificidad es el número, tipo y ordende las tripletas en el RNA originadas a partir de DNA.

Figura 1.6: Aminoácido (R es un grupo variable)

La información del DNA se transcribe en una forma complementaria a RNA mensajero(RNAm) a través de un proceso de transcripción y luego, por traducción, las tripletas del RNAoriginan los aminoácidos de las proteínas.

Bacterias

Inicialmente, en este trabajo nos concentraremos en las bacterias, estas son las células vivientesmás simples, por lo cual están clasificadas dentro del grupo de ‘organismos inferiores’. Sonademás procariontas, es decir, no tiene membrana nuclear. Está compuesta por ribosomas, uncromosoma, citoplasma, membrana celular y pared celular. La función del ribosoma es la pro-ducción de proteínas, en tanto que el cromosoma está compuesto de una única molécula de DNAque lleva la información necesaria para operar como un organismo vivo. Los demás elementosposeen las componentes químicas y estructurales necesarias para la vida.

Figura 1.7: Bacteria

Una bacteria típica tiene alrededor de un micrómetro de largo por medio de ancho. Ellaspueden ser cultivadas en laboratorio y la más usada en las investigaciones es Escherichia Coli, lacual reside en nuestros intestinos ( y puede causar diarrea). El tamaño del genoma de una bacteriaes del orden de megabases (4 en el caso de E. coli). Los genes en la bacterias NO se encuentraninterrumpidos, a diferencia de los organismos superiores (esto es el modelo ideal, en la práctica

4

Page 13: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 1. ESTUDIO DE SECUENCIAS

pueden ocurrir muchos casos particulares). El número de genes en una bacteria es del orden delmillar, en consecuencia el tamaño de un gen bacteriano es del orden de kilobase.

5

Page 14: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 1. ESTUDIO DE SECUENCIAS

1.3. Métodos EstadísticosEn este capítulo, prentendo resumir las herramientas estadísticas que utilizaré para el análisis

de los datos.

Todo lo que sigue se enmarcará dentro del contexto que poseemos � individuos, cada unocaracterizado por � variables reales. Lo anterior lo representaremos en forma matricial de lasiguiente manera:

� ���������� � ������� � �������

... . . . ...���� � ��������� � ���������

... . . . ...������ ��������� � ��������� "!!!!!#%$'& �)(��+*-,/.10 donde 2 � � 345 ����

...�����6�78 $ , � es el 9 -ésimo

individuo, 9 ��: 0 � ���;0�� , mientras que �<� � 345 ���...�����

6 78 $ , � es la = -ésima variable, = �>: 0 � � �;0 � .

1.3.1. Análisis de Componentes Principales (ACP)Este método se utiliza cuando se trata del procesamiento de varias variables reales. El objetivo

es encontrar un sub-espacio de pequeña dimensión que mejor represente los individuos (nube depuntos). Con esto se logra exhibir las principales tendencias y correlaciones en el conjunto dedatos.

Principio:

Suponiendo la matriz de datos centrada (media de cada columna igual a cero), la primeracomponente principal es la combinación lineal de las variables con máxima varianza ? *A@BC. :@D � �E �GFHJI ��K�+�Solución:

El vector de coeficientes I � * I �H� ��� I � L. es

vector propio de la matriz de covarianza M ��NPO�N�asociado al mayor valor propio Q tal que ? *R@SL. � Q .

Las siguientes componentes principales se calculan en forma análoga, asociadas a los valorespropios en orden decreciente.

6

Page 15: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 1. ESTUDIO DE SECUENCIAS

1.3.2. Análisis DiscriminanteEn los puntos siguientes se asume que hay un número finito de poblaciones de las cuales

proceden los individuos, y cada población se caracteriza por una distribución de probabilidad. Asícada individuo se considera como una observación aleatoria de esa población. En lo que sigueconsideraremos que hay 9 poblaciones normalmente distribuidas, con media T � y varianza U � ,V * T �A0 U �W. , es decir, si 2 $ , � es un individuo, la probabilidad de que provenga de la población 9es: � ��* 2 . � :*YX�Z[.�\ ][^`_;a�* U �W.cb] _ed`f[g"h :X * 2 h T �-.ji Ulk � * 2 h T �-.jm

Los siguientes métodos están orientados a asignarle un grupo a un individuo de grupodesconocido. Como forma de validación de los métodos de discriminación suelen ‘reclasificarse’individuos a los que ya se les conoce el grupo de procedencia, mediante dos formas:

Resustitución: Se procede a clasificar cada individuo de la población con algún métododiscriminante. Se observa qué porcentaje de individuos de una clase está bien o mal asig-nado, pues conocemos el grupo verdadero.

Validación Cruzada: Para cada individuo 2 perteneciente al grupo n � , se mantienen losgrupos externos al de 2 y se cambia n � por npo� � n �rqts 2vu . Luego se clasifica el indi-viduo 2 . Análogamente al caso anterior, se analiza el porcentaje de individuos bien y malclasificados.

Distancia de Mahalanobis

Se quiere clasificar al individuo 2 en una de las poblaciones. Siendo T � la media empírica dela población 9 , U � la matriz de covarianza de la población 9 , se considera la distancia de 2 a lapoblación 9 como: w)x� * 2 . � * 2 h T �-.ji Ulk � * 2 h T �-.y se asigna al grupo que minimiza la distancia.

Discriminación Lineal

Si se considera que todas las poblaciones poseen la misma matriz de varianza-covarianza U ,resulta que la función de discriminación:y�z|{ * � �j* 2 .� �}* 2 . . �

y�z~{ * � �j* 2 .C.�h y�z~{ * � ��* 2 .G.es lineal en 2 , de ahí el nombre del método. Ahora bien, cómo generar a partir de los datos mues-trales la matriz U ?

Sean ��� , U � para 9 ��: 0�� � �10�� el número de individuos y la matriz de varianza-covarianza dela población 9 , respectivamente. Tenemos que� � :� �E ��FH �H� U �

7

Page 16: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 1. ESTUDIO DE SECUENCIAS

es un estimador insesgado de U , siendo � el total de individuos.Finalmente, cada población tiene distribución

V * T �Y0 � . y se asigna el individuo 2 a la poblaciónque maximiza � �L* 2 . .Discriminación Cuadrática

Se considera que cada población tiene su propia media y matriz de varianza- covarianza, porlo que la función de discriminación no es lineal en 2 , sino cuadrática. Se asigna 2 al grupo quemaximiza � ��* 2 . .1.3.3. Análisis de Cluster

El análisis de cluster es una forma de examinar similaridades entre los individuos. Los datosa menudo se encuentran naturalmente en grupos o cluster de obervaciones, donde las caracterís-ticas de los individuos en el mismo cluster son similares y las características de los individuos encluster diferentes son disimilares. El método busca distinguir o encontrar esos grupos.

Problema General: Sea � la población de los � individuos. El problema es encontrar unapartición (predicción de clases) { � e0�� � ��0 ��� } de � donde los grupos ��� son:

Homogéneos (baja varianza intra grupo).

Bien separados (alta varianza inter grupo).

K-Means

Es un método de particionamiento que trata observaciones en los individuos como objetosde un espacio euclideano donde tienen ubicación y distancias unos de otros. Se particiona lapoblación en K clusters homogéneos y bien separados. Cada cluster se caracteriza por su puntocentral.

Problema: El número � de grupos se conoce a priori. La distancia entre dos individuos laeligiremos como la distancia euclideana clásica normalizada por la desviación estándard ( � � ) decada variable ( � ��: 0�� � �10 � ), es decirw x * 9 0 9A� . � �E

� FH* 2 � � h 2 � o �j� ]� x� 9 0 9A� ��: 0 ��� �;0G�

Inicio: Se escogen � puntos al azar entre 2 �0 � � �;0 2 � los cuales son los centros ��� 0 ��� ��0 ����de los � grupos.

Paso l:� Asignar cada individuo 9 al grupo más cercano �[�� con � �>: 0 � � �;0 �w * 2 �Y0 � �� . � ������� � o � � w * 2 �K0 � �� o .8

Page 17: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 1. ESTUDIO DE SECUENCIAS

� Actualizar la media de cada grupo:� ��� � � :� � �� � E���1�; ¡ 2 �Detención La varianza intragrupos de la etapa ¢ a ¢H£ :

decrece. Se da una tolerancia ¤ aldecrecimiento de esta varianza. Es decir, siendo¥ � � �E � FH E���1�; ¡ w x * 2 �¦h � �� . xse detiene cuando

¥ � h ¥ �§� ©¨ ¤Valor Silueta Para cada individuo 9 $ � � , es una medida de cuán similar es 9 a los individuos

de su propio cluster comparado con los individuos de los otros clusters. Varía de h : a:

y sedefine como: � * 9 . � ������� � � �pª �¬«F �C­+® * 9 0 � .ph°¯�* 9 .�²± d³*R¯H* 9 .e0 �t����� � � �pª �¬«F � ­ ® * 9 0 � .G.¯�* 9 . es el promedio de las distancias del individuo 9 a los individuos de su cluster;® * 9 0 � . es el promedio de la distancia del individuo 9 a los puntos del cluster � ;

Que� * 9 . esté cercano a

:significa que no sólo el individuo 9 está clasificado en su cluster

por tener distancia menor al centro, sino que además posee una distancia menor a la nubede puntos de su cluster que al resto.

Clasificación Jerárquica

Es una forma de investigar agrupación en los individuos simultáneamente sobre una variedadde escalas de distancia, por medio de la creación de un árbol de clasificación. El árbol no es unapartición, como en K-Means, sino una jerarquía de varios niveles, donde los cluster de un nivelse fusionan para formar los cluster del próximo nivel, lo cual permite decidir qué escala de nivelde clasificación es más apropiada.

Procedimiento general: A partir de la partición discreta � de la población (es decir, la for-mada por singletons), se desea crear una cadena de particiones � l´�� � ��´ �¶µ ( ´ · ‘más finaque’) donde � � se obtiene reuniendo dos elementos de � � k cuya distancia es mínima. Luego sedesprende que diferentes distancias entre conjuntos proveerán diferentes árboles.

Distancias: Sean � 0 � � dos subconjuntos de la población, tomando la distanciaw *L¸�0 ¸". entre

dos individuos como en K-Means, podemos definir una variedad de distancias entre grupos:

Min: ¹w µ �§��* � 0 � � . � ��������1� ª � o �1� o w * 9 0 9 � .9

Page 18: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 1. ESTUDIO DE SECUENCIAS

Promedio: ¹w � � � µ * � 0 � � . � º � º�º � o º E ���;� E ���;� ow * 9 0 9 � .

Max: ¹w µ�»j¼ * � 0 � � . � �t± d���;� ª � o �1� o w * 9 0 9 � .Ward: ¹w|½ * � 0 � � . � º � º�º � o ºº � º � º � o º w x * 9 0 9 � .en donde 9 es el centro de gravedad de � . Se pueden tomar pesos equiponderados en laprimera etapa.

La distancia en el árbol binario entre dos individuos 9 y = , ¹w * 9 0 = . , se define como la distanciaentre los dos conjuntos de individuos que define el primer nodo común a 9 y = .

Correlación entre distancias: Seaw

la distancia euclideana normalizada y ¹w la distancia enel árbol, la correlación entre ellas es:

¾�* w 0 ¹w . � E ��¿}� g w * 9 0 = .ph w mKg�* ¹w * 9 0 = .ph ¹w mE ��¿}� g w * 9 0 = .ph w m x E ��¿}� g ¹w * 9 0 = .ph ¹w m xdonde

wes el promedio de la distancia

wentre los individuos, y ¹w es el promedio de la distancia ¹w

sobre los individuos.

10

Page 19: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

Capítulo 2

Estudio de la bacteria BRL000

2.1. Análisis de los datosGlobalmente, para nuestro análisis poseemos 9 organismos, 4 arqueas (a las cuales llamo

A0029, A0030, A2754 y A3106) y 5 bacterias (nominadas BRl000, E. Coli, Y Pestis, B0031,B0032). Cada organismo fue anotado y se pudieron extraer sus genes. La mayor parte del tiem-po durante el cual estuve desarrollando mi memoria, poseía sólo un organismo, bacteria queestudiaremos en este capítulo.

2.1.1. Formato de los datos para BRL000Poseo una lista con À : À~Á genes escritos en filas, codificados de la forma:

Gen Inicio Fin Hebra Racha Dist. Inter. Cai Codificaciónp1 205 600 -1 1 0 0.579 atg . . . atc. . . . . . . .. . . . . . . .. . . . . . . .

p4433 2981926 2982039 -1 851 0 0.63 gtg . . . ccg

Cuadro 2.1: Formato de los datos a analizar.

La primera columna representa la identificación del gen. Cabe notar que en un principio sehan propuesto 4433 posibles genes, de los cuales se descartaron algunos, quedando 3134genes. De ahí que no haya un orden correlativo en la tabla y que el último tenga la codifi-cación p4433.

La segunda y tercera columna se refieren al inicio y fin del gen en términos desde en québase empieza y en qué base termina en la secuenacia.

11

Page 20: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

La cuarta columna se refiere a la hebra del ADN en la cual fue encontrado el gen.

La quinta columna representa el número de veces que el conjunto de genes hasta esa fila hacambiado de hebra.

La sexta columna representa la distancia en término de pares de bases del gen hasta el genmás próximo dentro de la misma hebra. Si se superponen o ha cambiado de hebra se reseteaa  .La séptima columna es un estadístico que se refiere a la frecuencia del uso de codones enun gen.

La octava y última columna se refiere a la secuencia de pares de bases que codifica cada gen.

2.1.2. Definiciones previasEn lo que sigue, trabajaremos en el alfabeto à � s¬Äv0�@B0�Å�0GÆ u

Definición 1 (Nucleótido). Elementos del alfabeto ÃDefinición 2 (Dinucleótido). Palabra ¯)�-¯¬� con ¯|��0�¯¬� $ à .

Definición 3 (Tripleta). Palabra ¯)�W¯¬�1¯ � con ¯c�Y0�¯¬��0�¯ � $ à .

Definición 4 (Fase).� Un dinucléotido ¢ ¢ x se encuentra en fase 9 $ s : 0eX u en la secuencia ¯�J� � ��¯|� si ¢ ¢ x �¯ x � � �-¯ x � � � � para algún � $ÈÇ .� Una tripleta ¢ ¢ x ¢�É se encuentra en fase 9 $ s : 0eX+0 À<u en la secuencia ¯¦J� � �G¯c� si ¢ ¢ x ¢�É �¯ É�� � �-¯ É�� � � � L¯ É�� � � � x para algún � $ÈÇ2.1.3. Variables a utilzar

Ahora bien, para cada gen, representado como ¯�j¯ x � � �G¯cÊ , he calculado las siguientes estadís-ticas en base a su secuencia:

Largo del gen (:

columna), L.

Frecuencia de nucleótidos ( Á columnas).

Frecuencia de dinucleótidos en fase:

y X (:ÌËÎÍ X columnas)

12

Page 21: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

Frecuencia de nucleótidos al inicio, al medio y al final de tripletas en fase: 0eX y À ( Á Í À

columnas)

Número de palabras de largo X<0 À 0 Á y Ï ( Á columnas)

Frecuencia de tripleta ÅB@ÐÆ y tripleta de la forma ÑÐÒÔÓ con Ñ $ s¬ÄÕ0�Å u , Ò $ à , Ó $s�@³0GÆ u , en fase: 0eX y À ( X Í À columnas)

Tripleta más usada y número de veces que lo es, en fase: 0eX y À ( X Í À columnas)

Promedio de uso de tripletas (para tener con qué comparar la tripleta más frecuente). Notarque esta estadística es dependiente (

:BÍ À columnas)

Número de tripletas usadas, lógicamente de un total de 64 (:

columna).

Los cálculos fueron realizados mediante programas escritos en lenguaje JAVA, el cual bási-camente reconocía letras. El resultado se expresa en un documento de texto, que con la ayudadel programa EXCEL de OFFICE, me permitió manipularlo con mayor facilidad. Los análisismatemáticos fueron hechos en el programa MATLAB, versión 6.5, con rutinas programadas pormi, más la ayuda de Toolbox incorporados.

Cabe notar que la denominación de frecuencia, tiene implícito el hecho de la normalizaciónpor el largo del gen, el cual es muy variado. Sólo así tiene sentido comparar genes. La variablelargo del gen presenta el siguiente histograma (previo nivel de corte en el eje x):

13

Page 22: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

0 1000 2000 3000 4000 5000 60000

50

100

150

200

250

300

Largo del gen

Num

ero

de g

enes

Histograma del largo de genes

Figura 2.1: Histograma del largo de los genes

� La distribución del largo se asemeja a una log-normal.

Como hemos considerado fases para las variables, en un primer estudio consideraremos sólola fase

:de las variables, de modo de simplificar el análisis. El estudio se presenta sobre las

siguientes X~Ö variables:

Frecuencia de nucleótidos y dinucleótidos (4 + 16)

Frecuencia de nucleótidos al inicio de tripletas (4)

Frecuencia de tripletas ‘gct’ y ‘rny’ (2)

Número de veces que es usada la tripleta de mayor frecuencia (1)

Número de tripletas usadas (1)

2.1.4. ACPSe hizo un ACP para reducir la dimensión del problema. Los primeros tres valores propios

concentran los siguientes porcentajes de varianza:Q � X Á©× 0 con un valor deË 0�ÖQ x � : À/× 0 con un valor de À 0 ÏQ�É � :~: × 0 con un valor de À 0 :

14

Page 23: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

1 2 3 4 5 10 15 20 25 280

5

1011

15

20

25

Valores propios

Por

cent

aje

de v

aria

nza

Valores propios v/s porcentaje

Nivel de corte

Figura 2.2: Valores propios de la matriz de covarianza

Se observa una brusca caída a partir del tercer valor propio, por lo cual si queremos simpli-ficar el análisis considerando sólo alguna de las componentes principales (las que concen-tren mayor varianza), se justifica un nivel de corte en aquel valor.

15

Page 24: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

−10 −5 0 5 10 15 20−10

−8

−6

−4

−2

0

2

4

6

8

10

Primera componente principal, 24%

Seg

unda

com

pone

nte

prin

cipa

l, 13

%

Genes bacteria biominera en primer plano principal

Figura 2.3: Genes en el primer plano principal

−10 −5 0 5 10 15 20−8

−6

−4

−2

0

2

4

6

8

Primera componente principal, 24%

Terc

era

com

pone

nte

prin

cipa

l, 11

%

Genes bacteria biominera en plano principal

Figura 2.4: Genes en plano principal

16

Page 25: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

−10 −8 −6 −4 −2 0 2 4 6 8 10−8

−6

−4

−2

0

2

4

6

8

Segunda componente principal, 13%

Terc

era

com

pone

nte

prin

cipa

l, 11

%

Genes bacteria biominera en plano principal

Figura 2.5: Genes en plano principal

No se observa una sectorización grupal de los genes en los planos principales, sino una solanube.

Las tendencias de ubicación de los genes, se explian mejor con la ayuda del círculo decorrelaciones de más abajo. Vemos que según la frecuencia de nucleótidos del gen, definela tendencia a ubicarse en sub-cuadrantes de cada plano principal.

Para poder clasificar genes, se recomienda la utilización de métodos orientados precisa-mente a este objetivo.

17

Page 26: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

ac

t

g

aa

ac

at

ag

ca

cc

ct

cg

ta

tc

tt

tg

ga

gc

gtgg

a3i

c3i

t3i

g3igct

rny

nvecesusadas

Factor 1 (24%)

Fact

or 2

(13%

)

Circulo de correlaciones

Figura 2.6: Círculo de correlaciones

18

Page 27: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

La matriz de correlaciones es la siguiente:

Variable c1 c2 c3 c4 c5a 0.7602 -0.4882 0.3679 0.1393 0.0154c -0.7129 -0.4873 -0.4658 -0.0641 -0.0629t 0.6561 0.5865 -0.4052 -0.1378 0.0172g -0.6860 0.4677 0.5110 0.0568 0.0345aa 0.6214 -0.3691 0.3366 0.1254 -0.0501ac 0.0870 -0.5116 -0.0605 0.0299 0.1173at 0.6134 0.0485 -0.0222 -0.1112 0.0095ag 0.0631 -0.2130 0.5167 0.2664 0.0377ca 0.1589 -0.5418 -0.1404 -0.1150 -0.1262cc -0.5356 -0.4107 -0.3917 0.0014 -0.0040ct -0.2208 0.1586 -0.5277 -0.0597 -0.1037cg -0.6626 -0.0809 0.0614 -0.0541 0.1060ta 0.6426 0.0531 -0.1188 -0.0490 0.0464tc 0.0287 -0.1036 -0.4051 -0.2920 0.1960tt 0.5911 0.4559 -0.3417 0.0429 -0.0055tg -0.0285 0.5763 0.0783 -0.0540 0.0636ga 0.1624 -0.0791 0.5450 0.2271 0.2162gc -0.6725 0.0130 0.0014 0.1185 -0.2678gt 0.0988 0.4448 0.1698 -0.1532 -0.0612gg -0.4908 0.4502 0.2524 -0.0719 0.0662a3i 0.7021 -0.4337 0.1858 -0.2491 -0.1453c3i -0.5731 -0.1482 -0.4206 0.5167 0.0786t3i 0.5621 0.4171 -0.4710 0.1006 0.0686g3i -0.5341 0.2424 0.6134 -0.3612 0.0070gct 0.1490 0.2027 0.0685 -0.2328 -0.2245rny -0.0923 -0.3272 0.0720 -0.8542 -0.1149

nveces -0.2582 0.0641 -0.0062 0.0383 -0.7990usadas 0.4303 0.1163 0.1064 0.3289 -0.5679

Cuadro 2.2: Matriz de correlaciones� Se observa que los nucleótidos están muy bien representados por los dos primeros factores,ya que están muy cerca de la circunsferencia unitaria, es decir, su norma en este plano es serepresenta casi en su totalidad (la cual es 1).� Se visualiza que el primer factor separa Ø y Ù de Ú y Û . En tanto que el segundo factorsepara Û y Ø de Ú y Ù . Esto se ve con facilidad sólo con el signo de cada componente,pues se ubican en cuadrantes diferentes.� La ubicación de las variables nos ayuda a la interpretación de la ubicación de los genes enlos planos principales. Por ejemplo, los genes que se encuentran en el plano principal conprimera componente positiva, son más ricos en Ú y Û que en Ù y Ø .

19

Page 28: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

� Existe una correlación negativa entre Ú y Ø ; de la misma forma entre Ù y Û , pues seencuentran casi diametralmente opuestos. Es decir, a medida que un gen posee más Ú , lohace teniendo una disminución de Ø . Análogo con los otros dos.� Existe una gran cercanía entre los nucleótidos con su versión dinucleótido ( Ú con Ú�Ú ,etc), vale decir, un gen rico en Ú tiende a ser rico en Ú�Ú , por ejemplo.� Análogamente existe una alta correlación entre las variables que representan dinucleótidoscon el par de variables de nucleótidos que la forman, por ejemplo, genes ricos en Ú y Û ,tienden a serlo en Ú³Û .

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

a

ct

g

aa

acat

ag

ca

cc

ct

cg

ta

tctt

tg

ga

gc

gtgg

a3i

c3it3i

g3i

gctrny

nveces

usadas

Factor 1 (24%)

Fact

or 3

(11%

)

Circulo de correlaciones

Figura 2.7: Círculo de correlaciones

20

Page 29: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

a

ct

g

aa

ac at

ag

ca

cc

ct

cg

ta

tctt

tg

ga

gc

gtgg

a3i

c3it3i

g3i

gctrny

nveces

usadas

Factor 2 (13%)

Fact

or 3

(11%

)

Circulo de correlaciones

Figura 2.8: Círculo de correlaciones

� Se observa que en los dos últimos círculos, las variables están menos representadas, ubicán-dose cada vez más hacia el centro.� Se mantiene la propiedad que ubicación de los nucleótidos en cuadrantes distintos y sucercanía con su versión dinucleótido.� Por último, se mantiene la consistencia en la ubicación relativa de variables simples consus versiones compuestas.

Cabe notar que tenemos el Ï|ÏÜ× de los genes clasificados por función. A priori, existe unaclaisficación en tres grupos:

1. Procesamiento y almacenamiento de información (color azul)

2. Procesos celulares y señalización (color rojo)

3. Metabolismo (color negro)

(El ÁcÏÝ× restante, diremos que pertenece al grupo de función desconocida)

Los tres grupos se visualizan en los planos principales de la siguiente forma:

21

Page 30: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

−10 −8 −6 −4 −2 0 2 4 6−6

−4

−2

0

2

4

6

Primera componente principal 24 %

Seg

unda

com

pone

nte

prin

cipa

l 13%

Genes con funcion conocida en primer plano principal

Grupo 1Grupo 2Grupo 3

Figura 2.9: Genes por grupo en el primer plano principal

−10 −8 −6 −4 −2 0 2 4 6−8

−6

−4

−2

0

2

4

6

Primera componente principal 24 %

Terc

era

com

pone

nte

prin

cipa

l 11%

Genes con funcion conocida en plano principal

Grupo 1Grupo 2Grupo 3

Figura 2.10: Genes por grupo en plano principal

22

Page 31: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

−6 −4 −2 0 2 4 6−8

−6

−4

−2

0

2

4

6

Segunda componente principal 13 %

Terc

era

com

pone

nte

prin

cipa

l 11%

Genes con funcion conocida en plano principal

Grupo 1Grupo 2Grupo 3

Figura 2.11: Genes por grupo en plano principal

Pese a separarlos ahora por color, aún no se deja ver una tendencia clara entre los genes ,por lo que aplicaremos un análisis discriminante utilizando lo que ya hemos hecho, es decir,conservado por ejemplo las coordenadas de cada gen en las componentes principales. Laidea es encontrar alguna tendencia, con lo cual podremos, por ejemplo, clasificar genes.Aquello nos permitirá, además, asignarle a los genes de grupo desconocido (es decir, losque tienen función desconocida) algún grupo.

Mantendremos el nivel de corte para el análisis discriminante, de modo de representar cadagen con sólo sus tres primeras componentes principales.

Nótese que no se puede aplicar análisis dicriminante a los datos puros, es decir, tomandocomo variables las columnas de frecuencias, ya que, al tratar de hacerlo, las matrices decovarianzas de todos los grupos eran singulares, por ende no invertibles. Aquello no se debea que las variables fuesen linealmente dependientes (cuestión que se tiene), pues redujendola matriz de datos a columnas l.i., las matrices de covarianzas de cada grupo siguen siendosingulares.

23

Page 32: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

2.1.5. Análisis DiscriminanteDistancia de Mahalanobis

Resustitución Validación CruzadaGrupo verdadero Grupo verdadero

Ubicado en grupo 1 2 3 4 1 2 31 38 % 21 % 23 % 25 % 37 % 26 % 26 %2 32 % 41 % 31 % 31 % 32 % 35 % 29 %3 30 % 38 % 46 % 43 % 30 % 39 % 45 %

Total 433 507 785 1409 433 507 785

Cuadro 2.3: Distancia de Mahalanobis

Discriminación lineal

Resustitución Validación CruzadaGrupo verdadero Grupo verdadero

Ubicado en grupo 1 2 3 4 1 2 31 46 % 33 % 30 % 33 % 46 % 33 % 30 %2 30 % 35 % 30 % 29 % 30 % 35 % 30 %3 24 % 32 % 40 % 38 % 24 % 32 % 40 %

Total 433 507 785 1409 433 507 785

Cuadro 2.4: Discriminación lineal

Discriminación cuadrática

Resustitución Validación CruzadaGrupo verdadero Grupo verdadero

Ubicado en grupo 1 2 3 4 1 2 31 62 % 44 % 46 % 39 % 61 % 45 % 46 %2 17 % 25 % 18 % 22 % 18 % 24 % 18 %3 21 % 31 % 36 % 39 % 22 % 31 % 36 %

Total 433 507 785 1409 433 507 785

Cuadro 2.5: Discriminación cuadrática� Notar que en algunas columnas, por problemas de redondeo, no suma 100 %.� Claramente Discriminación Lineal funciona mejor, ya que tiene el menor error de clasifi-cación, pues clasifica a la mayoría de los genes de cada grupo en su grupo respectivo, pesea no ser tan fuerte los porcentajes en la diagonal (tres grupos de control).� Discriminación Lineal tiene además dos consistencias. La primera es que muestra un buencomportamiento en la validación cruzada, teniendo los valores mayores en la diagonal y

24

Page 33: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

segundo, los genes de grupo desconocido siguen la tendencia numérica de la poblaciónconocida, al ser clasificados mayoritariamente al grupo 3.

A la matriz de datos con genes en las filas y las 28 variables en las columnas, aplicaremosk-means, clasificando en tres grupos los genes, con lo cual tendremos otro forma de elegir ovalidar la clasificación de los genes de función desconocida.

2.1.6. K-meansLa iteraciones muestran el número (num) de genes reordenados en cada paso y la inercia

intra-grupos

iter. num. inercia1 3134 79066.52 570 73952.93 356 71970.14 236 71207.95 168 70785.16 130 70531.37 83 70430.78 59 70385.39 51 70355.3

10 40 70335.511 36 70317.212 39 70298.113 38 70276.214 44 70251.315 51 70222.716 40 7019717 44 70163.318 46 70137.419 41 70114.320 42 70089.321 45 70062.1

iter. num. inercia22 33 70047.623 25 70038.524 27 70028.725 29 70018.826 29 70008.827 17 70005.128 5 70004.229 7 70003.630 3 70003.331 3 70002.932 3 70002.633 2 70002.434 2 70002.335 1 70002.236 6 7000237 9 70001.638 13 70000.839 7 70000.540 10 70000.341 5 70000.142 2 70000.1

Cuadro 2.6: K-means

Se realizaron Ï repeticiones del método, con objeto de conseguir una mejor clasificación: lade mínima inercia, los resultados son:

21 iteraciones, suma total de distancias (inercia) = 70345.6

25 iteraciones, suma total de distancias (inercia) = 70000.1

25 iteraciones, suma total de distancias (inercia) = 70000.1

25

Page 34: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

24 iteraciones, suma total de distancias (inercia) = 70000.2

30 iteraciones, suma total de distancias (inercia) = 70000.1

Los tres grupos que originó el método, versus los tres grupos originales calzan de la siguienteforma:

Grupo originalUbicado en grupo 1 2 3 4

1’ 43 % 51 % 40 % 34 %2’ 16 % 15 % 18 % 37 %3’ 40 % 34 % 42 % 29 %

Total 433 507 785 1409

Cuadro 2.7: Validación de grupos.

� Los tres grupos que generó el método (1’,2’ y 3’) tienen una población del Á|Â/× 0eX Ë × yÀcÏÜ× de los genes totales, respectivamente.� La mayoría de los genes del grupo 1 y 2 verdaderos, los clasifica al mismo grupo (1’), esdecir, no los diferencia. Además muestra una tendencia a hacer lo mismo con el grupo 3,el cual consigue, sin embargo, ser diferenciado (pues es clasificado en su mayoría al grupo3’).

26

Page 35: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

−0.2 0 0.2 0.4 0.6 0.8 1

1

2

3

Valor silueta

Clu

ster

Grafico silueta

Figura 2.12: Gráfico silueta de genes clasificados según K-means� El gráfico muestra bajos valores de silueta para todos los grupos (bajo el nivel 0,4), por loque la clasificación no es exitosa, ya que en promedio los genes están tan cerca de los otrosgrupos como del suyo. Más aún, la mitad de los genes del cluster X se acercan más a otranube de puntos que la de su grupo (valor silueta negativo).� Pese a que los genes del grupo 1’ (cluster 1) no se distancian fuertemente (en promedio)de los otros dos grupos (pues no tienen altos valores silueta), están bien clasificados, en elsentido que todos los genes de aquel grupo se acercan más a su grupo que a los otros (enpromedio). Notar que esto no es una consecuencia de Kmeans, el cual reduce la varianzaintra grupos, que significa clasificar un gen al grupo que se encuentra más cercano al centro,NO al promedio.

2.1.7. Clasificación JerárquicaAhora, al aplicar una clasificación jerárquica con la distancia promedio se obtiene una

correlación entre las distancias de: ¾�* w 0 w � . �  0§Ö À� Es una alta correlación, que implica que genes lejanos según la distancia euclideana es-tandarizada, también lo son según la distancia entre los cluster (promedio) en los cualesestán clasificados por el árbol.

El árbol se visualiza de la siguiente forma:

27

Page 36: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

9 14 1 7 3 2 20 8 13 10 15 4 19 11 17 5 6 12 16 18

12

14

16

18

20

22

24

Cluster

Dis

tanc

ia

Arbol de clasificacion

Figura 2.13: Árbol de clasificación jerárquica� El árbol es desmedidamente asimétrico, pues clasifica dos genes ‘extraños’ en cluster indi-viduales, un pequeño grupo de 17 genes en otro cluster, y todo lo restante (3132 genes) enun gran cluster, dentro del cual, están muy poco diferenciados.� Lo anterior puede ser interesante, en el sentido de averiguar qué de especial tienen estos 17genes y los 2 ‘aislados’.

2.1.8. Genes anómalosHay una estadística interesante en relación a la variable “Número de tripletas usadas”. En

promedio, los genes ocupan Ï}Â 0eÞ tripletas en fase:. En general, un gen largo debería usar más

tripletas que un gen corto.

Sea n ��ß�� = {genes que ocupan más de 50 tripletas}Notemos que el largo medio de los genes pertenecientes a n ��ß�� es de

:|: Ö~à nucleótidos, en tantoque su desviación estándard es

Ë Ö Ï .Sea ¯ �á:|: Ö|àÐh Ë Ö Ï � Ï~Â~Á . Definimos n �

{ genes $ n ��ß�� � largo del gen ¨â¯ }Es decir, n , son genes ‘cortos’ que ocupan ‘muchas’ tripletas en fase

:.

Recordemos que los genes tienen una clasificación por función, ya sea en grupos: 0eX<0 À o Á .

Los genes del grupo Á son los que tienen función desconocida. n se descompone así:

28

Page 37: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 2. ESTUDIO DE LA BACTERIA BRL000

Grupo:

14Grupo X 4Grupo À 13Grupo Á 87

Total 118

Cuadro 2.8: Genes anómalos 1.� A pesar que la mayor parte de los genes tiene función conocida ( Ï|ÏÜ× ), sólo un X Ë × den pertenece a alguno de estos grupos (1,2 o 3). En tanto que el Þ Á/× restante pertenece algrupo Á .� En conclusión, el minoritario grupo Á concentra la mayoría de los genes ‘cortos’ que ocupanmás de 50 tripletas.� Lo anterior podría significar que detectar la función de un gen corto estaría relacionadacon la cantidad de tripletas ocupadas, en el sentido que ocupar pocas tripletas facilitaría laasociación de funcionalidad (por ejemplo, comparándola con un gen conocido de una bac-teria de la misma familia), pues en nuestro caso, al tener las secuencias información general(gran cantidad de tripletas) se clasificaron mayoritariamente grupo Á , o sea, desconocido.

Por otro lado, una estadística análoga pero sin resultados a la vista fue hecha.

Sea n k ß � {genes que ocupan menos de Ï : tripletas}El largo medio de los genes $ n k ß es de À Þ Á pares de base, en tanto que su desviación estándardes X : Á .

Sea ® � À Þ Ál£ X : Á � Ï Ö|Ö . Sea n �{ genes $ n k ß � largo del gen ã ® }

En palabras, n son genes ‘largos’ que ocupan ‘pocas’ tripletas, el cual se descompone así:

Proporcióndel grupoen relaciónal total degenes

Número de genes Porcentajeen relacióna n

: Á/× Grupo:

14: ÂÝ×:ÌË × Grupo X 37 X Ë ×X ÏÜ× Grupo À 49 ÀcÏÜ×Á)ÏÜ× Grupo Á 41 X~à ×: Â|ÂÝ× Total 114: Â|ÂÝ×

Cuadro 2.9: Genes anómalos 2.� No existe una marcada diferencia entre la proporción del tamaño del grupo y de los quecumplen la condición en estudio.

29

Page 38: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

Capítulo 3

Análisis de más organismos

Los 9 organismos que analizaré tienen las siguientes características:

Denominación Tipo Número de genesA0029(Arq 1) arquea 1558A0030(Arq 2) arquea 1759A2754(Arq 3) arquea 2976A3106(Arq 4) arquea 2826B0031(Bac 1) bacteria 3430B0032(Bac 2) bacteria 1375

Bio bacteria 3134Ecoli bacteria 4279

Ypestis bacteria 4008

Cuadro 3.1: Más organismos

Cabe destacar que las arqueas no estaban anotadas en forma total, pues en muchos genes nose tiene la secuenciación completa. Por lo cual, purifiqué los datos, dejando en cada gen sólo laszonas correctamente secuenciadas. Hecho esto, se realizó el conteo de letras.

Otro hecho importante de destacar, es la consideración de todas las variables disponiblespara los organismos. Es decir, a diferencia del primer análisis, hecho sobre X~Ö variables, acáconsideraremos

Ë à variables, las cuales fueron detalladas en la sección §2.1.3. Sólo agregamos lavariable dependiente ‘sesgo gc’, que se define en función de la frecuencia de ‘g’ y ‘c’ como ä k+åä � å .3.1. ACP para arqueas y bacterias

Debido al gran número de genes que intervienen y la dificultad consecuente para visualizarpropiedades en una nube tan densa, tomé dos determinaciones. Las dos primeras arqueas fueronpuestas en un mismo grupo, debido dos razones, la primera es que un análisis previo de ACPmostró una sobreposición de la mayoría de los genes en los planos principales y segundo, enel árbol filogenético se encuentran muy cercanas. Por las mismas razones se fusionaron las dos

30

Page 39: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

últimas arqueas en un grupo, mientras Ecoli e Ypestis en otro. Todo lo anterior fue con objeto dereducir el número de grupos, pero para disminuir la cantidad de genes en estudio, tomé la segundadeterminación que fue una filtración mediante el largo. La selección en estudio se resume comosigue:

Denominación Largo Num. genes Pob. TotalA0029 æ : Â|Â|Â 448 818A0030 æ : Â|Â|Â 370A2754 æ : Â|Â|Â ç : X Â|Â 344 624A3106 æ : Â|Â|Â ç : X Â|Â 280B0031 æ : Â|Â|Â 736 736B0032 æ : Â|Â|Â 392 392

Bio æ : Â|Â~Â ç : Ï~Â|Â 654 654Ecoli æ : Â|Â~Â ç :~: Ï~Â 364 743

Ypestis æ : Â~Â|Â ç :|: Ï~Â 379

Cuadro 3.2: Selección de organismos.

−15 −10 −5 0 5 10 15−15

−10

−5

0

5

10Organismos en primer plano principal

Primera componente principal, 36%

Seg

unda

com

pone

nte

prin

cipa

l, 14

%

Arq 1−2Arq 3−4Bac 1Bac 2BioColi−Pestis

Figura 3.1: Genes en el primer plano principal

31

Page 40: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

−15 −10 −5 0 5 10 15−15

−10

−5

0

5

10

15Organismos en plano principal

Primera componente principal, 36%

Terc

era

com

pone

nte

prin

cipa

l, 8%

Arq 1−2Arq 3−4Bac 1Bac 2BioColi−Pestis

Figura 3.2: Genes en plano principal

−15 −10 −5 0 5 10−15

−10

−5

0

5

10

15Organismos en plano principal

Segunda componente principal, 14%

Terc

era

com

pone

nte

prin

cipa

l, 8%

Arq 1−2Arq 3−4Bac 1Bac 2BioColi−Pestis

Figura 3.3: Genes en plano principal

32

Page 41: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

−10−5

05

10

−10

−5

0

5

−10

−5

0

5

10

Primera componente principal, 36%

Organismos en espacio principal

Segunda C.P, 14%

Terc

era

com

pone

nte

prin

cipa

l, 8%

Arq 1−2Arq 3−4Bac 1Bac 2BioColi−Pestis

Figura 3.4: Genes en espacio principal

� Se observa una clara sectorización de los genes según especie en los dos primeros planosprincipales.� Se observa una dicotomía entre los genes que pertenecen a arqueas y bacterias. Es decir, sedefine claramente una zona de arqueas y otra de bacterias.� Ayudándonos con el círculo de correlaciones de más abajo, podemos explicar que dicotomíaque mencionaba anteriormente, se puede explicar fácilmente por el contenido de èé£ëê ,pues va creciendo de izquierda a derecha en la primera componente principal. Obviamentea medida que se tiene mayor contenido èt£ëê , se posee menor contenido ¯ £�ì , lo cualse grafica expresivamente en el círulo de correlaciones. Nótese que este es un resultadoconocido, pues se sabe que el contenido èí£îê es un buen discriminador de organismos.� Surge la pregunta natural de que si la diferenciación de genes pertenecientes a arqueas obacterias que muestra el ACP se mantiene si sólo consideramos genes de organismos de unmismo tipo (es decir, sólo bacterias o sólo arqueas).

33

Page 42: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

a

c

tg

aa

acat

ag

ca

cc

ct

cg

ta

tc

tt

tg

ga

gcgt

gg

.

..

.

.

.

.

.

.

.

.

.

.

.

.

.. ..

.. ..

..

.

.

.

..h4 h5

gct

rny

.

.

.

.

..

.

.

.

.

.

.

.

sesgo gc

largo

Factor 1, 36%

Fact

or 2

, 14%

Circulo de correlaciones

Figura 3.5: Círculo de correlaciones

� Además de los ya clásicos bien representados nucleótidos, surgen variables muy bien ex-presadas en este primer círculo de correlación. Son las variables largo, h4 y h5, siendo éstasúltimas el número de palabras de largo 4 y 5 que existe en el gen.� Existe una correlación negativa entre las variables ¯ y è , ê y ì , ï�Á ( ï�Ï ) y largo.� Al igual que en la bacteria biominera, se mantienen las propiedades de correlaciones entrevariables compuestas y sus correspondientes simples.

34

Page 43: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

a

c

t

gaa

ac

at

ag

ca

cc

ct

cg

ta

tc

tt

tg

ga

gc

gt

gg

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

..

.

..

.

.

..

.

.

. ... h4 h5

gct

rny

..

.

.

.

..

.

.

.

..

.

sesgo gc

largo

Factor 1, 36%

Fact

or 3

, 8%

Circulo de correlaciones

Figura 3.6: Círculo de correlaciones

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

a

c

t

gaa

ac

at

ag

ca

cc

ct

cg

ta

tc

tt

tg

ga

gc

gt

gg

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

..

.

..

.

.

..

.

.

. . .. h4h5

gct

rny

..

.

.

.

..

.

.

.

..

.

sesgo gc

largo

Factor 2, 14%

Fact

or 3

, 8%

Circulo de correlaciones

Figura 3.7: Círculo de correlaciones

35

Page 44: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

3.2. ACP para arqueasCon objeto de mejorar la visualización gráfica, se ha elegido hacer el análisis sobre la siguiente

selección:

Denominación Largo Num. genesA0029 æ : Â|Â|Â 448A0030 æ : Â|Â|Â 370A2754 æ : Â|Â~Â ç : À|Â|Â 476A3106 æ : Â|Â~Â ç : ÁcÂ|Â 470

Cuadro 3.3: Selección de arqueas.

−10 −5 0 5 10 15−8

−6

−4

−2

0

2

4

6

8

10

12

Primera componente principal, 20%

Seg

unda

com

pone

nte

prin

cipa

l, 17

%

Arqueas en primer plano principalA0029A0030A2754A3106

Figura 3.8: Genes en el primer plano principal

36

Page 45: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

−10 −5 0 5 10 15−10

−5

0

5

10

15

Primera componente principal, 20%

Terc

era

com

pone

nte

prin

cipa

l, 12

%

Arqueas en plano principalA0029A0030A2754A3106

Figura 3.9: Genes en plano principal

−8 −6 −4 −2 0 2 4 6 8 10 12−10

−5

0

5

10

15

Segunda componente principal, 17%

Terc

era

com

pone

nte

prin

cipa

l, 12

%

Arqueas en plano principalA0029A0030A2754A3106

Figura 3.10: Genes en plano principal

37

Page 46: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

−10−5

05

10−5

0

5

10

−5

0

5

10

Genes en espacio principal

Primera componente principal, 20%

Segunda c.p., 17%

Terc

era

com

pone

nte

prin

cipa

l, 12

%

A0029A0030A2754A3106

Figura 3.11: Genes en espacio principal

� Al igual que en el caso anterior, se observa una clara sectorización de los genes segúnespecie en los dos primeros planos principales. Particularmente hay una división natural endos grupos, uno conteniendo a A0029 y A0030, mientras el otro agrupa el complemento.� Con la ayuda del círculo de correlaciones de más abajo, la separación, al igual que en elcaso anterior, se puede explicar fácilmente por el contenido de èУîê , pues va creciendo deizquierda a derecha en la primera componente principal.� Los grupos a los cuales aludimos coinciden con una gran cercanía de las arqueas que loscomponen en el árbol filogenético, otorgando de esta manera, una validación a nuestroanálisis.

38

Page 47: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

a

c

t

gaa

ac

at

ag

cacc

ct

cg

ta

tc

tt

tg

ga

gcgt

gg

.

.

.

.

..

.

.

.

.

.

.

.

..

..

.

.

.

.

.

. .

.

.

. .

.. h4 h5

gctrny

.

.

.

.

.

..

.

.

.

. .

.

sesgo gc

largo

Factor 1 (20%)

Fact

or 2

(17%

)

Circulo de correlaciones

Figura 3.12: Círculo de correlaciones

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

a

ct

g

aa

ac

at

ag

ca

cc

ct cg

ta

tctt tg

ga

gc

gt

gg

.

.

.

.

.

.

. .

.

.. .

..

..

.

..

....

.

.

.

. .

..h4

h5

gct

rny.

.

.

.

..

.

.

.

.

..

.

sesgo gc

largo

Factor 1 (20%)

Fact

or 3

(12%

)

Circulo de correlaciones

Figura 3.13: Círculo de correlaciones

39

Page 48: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

a

c t

g

aa

ac

at

ag

ca

cc

ctcg

ta

tctttg

ga

gc

gt

gg

.

.

.

.

.

.

..

.

...

..

..

.

. .

..

. ..

.

.

..

..h4h5

gct

rny.

.

.

.

..

.

.

.

.

..

.

sesgo gc

largo

Factor 2 (17%)

Fact

or 3

(12%

)

Circulo de correlaciones

Figura 3.14: Círculo de correlaciones� Los nucleótidos siguen siendo variables muy bien representadas. Aparece también con estapropiedad la variable ‘sesgo gc’, la cual se ubica en una dirección discriminadora, pues amedida que un gen posee mayor ‘sesgo gc’, tiende a ser más probable que pertenezca algrupo formado por A2754 con A3106.� Notemos que se mantiene la propiedad discriminadora de la cantidad èv£'ê , pues a mayorvalor de esta variable, es más probable que pertenezca a A0029 o A0030, siendo mejor dis-criminadora que ‘sesgo gc’, por la dirección en que se produce la dicotomía de los grupos.

3.3. ACP para bacteriasEl análisis se hizo sobre la siguiente selección:

Denominación Largo Num. genesB0031 æ : Â|Â|Â ç : Ï~Â|Â 486B0032 æ : Â~Â|Â 392

Bio(BRL000) æ : Â|Â~Â ç : ÀcÏ~Â 505E. Coli æ : Â|Â|Â ç : X Â|Â 478

Y. Pestis æ : Â|Â|Â ç : X Â|Â 478

Cuadro 3.4: Selección de bacterias.

40

Page 49: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

−15 −10 −5 0 5 10 15−15

−10

−5

0

5

10

Primera componente principal, 27%

Seg

unda

com

pone

nte

prin

cipa

l, 13

%

Genes 5 bacterias en primer plano principal B0031B0032BioEcoliYpestis

Figura 3.15: Genes en el primer plano principal

−15 −10 −5 0 5 10 15−15

−10

−5

0

5

10

Primera componente principal, 27%

Terc

era

com

pone

nte

prin

cipa

l, 9%

Genes 5 bacterias en plano principalB0031B0032BioEcoliYpestis

Figura 3.16: Genes en plano principal

41

Page 50: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

−15 −10 −5 0 5 10−15

−10

−5

0

5

10

Segunda componente principal, 13%

Terc

era

com

pone

nte

prin

cipa

l, 9%

Genes 5 bacterias en plano principalB0031B0032BioEcoliYpestis

Figura 3.17: Genes en plano principal

−15−10

−50

510

−10

−5

0

5

−10

−8

−6

−4

−2

0

2

4

6

8

Primera componente principal, 27%

Genes 5 bacterias en espacio principal

Segunda C.P., 13%

Terc

era

com

pone

nte

prin

cipa

l, 9%

B0031B0032BioEcoliYpestis

Figura 3.18: Genes en espacio principal

42

Page 51: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

� Se visualizan tres categorías de grupos, tanto en el primer plano principal como en el espa-cio principal. Un grupo está compuesto por las bacterias B0031 y B0032, otro por Ecoli eYpestis, mientras que la bacteria BRL000 se encuentra aislada.� Notemos, que al igual que en los casos anteriores, los grupos formados naturalmente por elmétodo, coinciden con una cercanía filogenética entre las bacterias respectivas.� Si bien es cierto que es influyente en la separación el contenido de èv£âê , hay una mezclamayor de variables que permiten distinguir los grupos. Importantes son las que correspon-den al largo y h4, h5, que representan el número de palabras de largo 4 y 5, respectivamente,presentes en la secuencia del gen.

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

a

c

t

g

aa

acat

ag

ca

ccct

cg

ta

tc

tt

tg

ga

gc

gt

gg

.

..

.

.

..

.

.

.

.

.

.

.

.

.

..

.

.. .

.

.

.

.

.

.

..h4

h5

gct

rny

.

.

.

.

.

.

.

..

.

.

.

.

sesgo gc

largo

Factor 1 (27%)

Fact

or 2

(13%

)

Circulo de correlaciones

Figura 3.19: Círculo de correlaciones� Tres variables se destacan: h4, h5 y largo. Se encuentran muy bien representadas, cercanasal círculo unitario. Además se encuentran en direcciones que definen pertenencia a gruposalgo distanciados (uno formado por B0031 y B0032, mientras el otro es el compuesto porEcoli e Ypestis), pues la separación ocurre en la dirección de estas variables.� Otro hecho importante de las tres variables anteriores, es que h4 y h5 están negativamentecorrelacionadas con el largo, siendo que a priori, una gen más largo debería contenermás palabras diferentes. Con el resultado se concluye que los genes largos tienden a sermonótonos, en el sentido de las palabras distintas contenidas en su secuencia.

43

Page 52: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 3. ANÁLISIS DE MÁS ORGANISMOS

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

a

c

t

g

aa

ac

at

agca

cc

ct

cg

ta

tc

tt

tg

ga

gc

gt

gg

.

.

.

..

.

.

.

..

.

.

.

.

.

.

.

.

..

.

.

.

.

.

.

.

.

..h4h5

gct

rny

.

.

.

.

.

..

.

.

.

.

.

.

sesgo gc

largo

Factor 1 (27%)

Fact

or 3

(9%

)

Circulo de correlaciones

Figura 3.20: Círculo de correlaciones

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

a

c

t

g

aa

ac

at

ag ca

cc

ct

cg

ta

tc

tt

tg

ga

gc

gt

gg

.

.

.

..

.

.

.

..

.

.

.

.

.

.

.

.

..

.

.

.

.

.

.

.

.

..h4h5

gct

rny

.

.

.

.

.

..

.

.

.

.

.

.

sesgo gc

largo

Factor 2 (13%)

Fact

or 3

(9%

)

Circulo de correlaciones

Figura 3.21: Círculo de correlaciones

44

Page 53: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

Capítulo 4

Conclusiones

4.1. Para BRL000� El ACP arrojó tendencias claras en la ubicación de los genes en los planos principales,basándose fundamentalmente en las cuatro variables que corresponden a la frecuencia denucleótidos.� El ACP no muestra diferenciaciones en los genes de los diferentes subgrupos funcionales,los cuales exhiben homogeneidad de ubicación en los planos principales.� La diferenciación de los subgrupos fue más expresiva con el análisis discriminante. Den-tro de sus variedades, el método que produjo los mejores resultados fue DiscriminaciónLineal, asignando correctamente la mayoría de los genes a su grupo respectivo. Eso sí, losporcentajes de error en la clasificación eran no menores. Aquello nos podría servir sólocomo referencia para los genes de funciones desconocida, de modo de tener otra forma devalidar el grupo propuesto.� La clasificación sobre la matriz de datos puros mediante K-means diferenció sólo dos gru-pos biológicos: metabolismo y resto. Esto indica que los genes podrían tener alta bifun-cionalidad entre el procesamiento (y almacenamiento) de información con procesos celu-lares y señalización (ambos corresponden al resto).� El método de Clasificación Jerárquica no mostró diferenciación grupal en la población degenes. Sólo separó 19 genes de la gran masa.

4.2. Para más organismos� El ACP mostró una clara separación entre arqueas y bacterias, principalmente en base ala concentración de nucleótidos. La separación se mantenía aún variando notoriamente lacantidad de variables en análisis.� Se podría mejorar aún más la tendencia disociadora de organismos con un análisisdiscriminante.

45

Page 54: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

CAPÍTULO 4. CONCLUSIONES

� La pregunta de que si se mantienen las diferenciaciones entre organismos si sóloconsideramos arqueas o bacterias, tiene respuesta afirmativa. Más aún, de las 4 arqueasen estudio, el ACP arrojó una diferenciación en dos grupos. El respaldo del resultado vienepor parte de la biología, pues las arqueas que mostraron mismo grupo en base a las variablesen estudio, se encontraban muy cercanas en el árbol filogenético. El resultado es similar conbacterias, diferenciando tres gurpos. Cabe notar que la bacteria biominera (BRL000) es ungrupo aislado, lo cual le da un interés especial al análisis de sus genes.� Notemos que el éxito de la separación conlleva a un logro en el objetivo de este proyecto,pues las componentes principales contituyen adecuados ‘índices’ que permiten la clasifi-cación de genes.

4.3. Conclusión finalComo corolario de los análisis de organismos, podemos decir que la clasificación automática

de genes en base a su secuencia produjo resultados útiles y satisfactorios. El tener costo cero enclasificar genes, junto con servir de elemento predictivo y de validación, sumado a la rapidez enla asignación (que es inmediato, digamos), le da un fuerte respaldo a nuestro estudio. Nótese quela ventaja en tiempo y costo de clasificar virtualmente un gen es inmensa con respecto lo que sehace en un laboratorio, vía micro-array. Claro está que la ventaja en costo y rapidez, tiene comopunto en contra la incerteza del resultado.

46

Page 55: UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS F˝SICAS Y …rodtapia/memoria.pdf · RESUMEN DE LA MEMORIA PARA OPTAR AL T˝TULO DE INGENIERO CIVIL MATEM`TICO POR: RODOLFO TAPIA N. FECHA:

Bibliografía

[1] Abe T. et al., Informatics for Unveiling Hidden Genome Signatures. Genome Research,2003, pp. 693-702.

[2] Anderson T. W., An Introduction to Multivariate Statistical Analysis. John Wiley & Sons,2nd edition, 1984.

[3] Clark, D., Russell L., Molecular Biology Made Simple and Fun. Cache River Press, 2ndedition, 2000.

[4] Fine J., Iniciación a los análisis de datos multidimensionales a partir de ejemplos. Institutode Estadística, Universidad de la República, Uruguay, 1996.

[5] Guo F. et al., ZCURVE: a new system for recognizing protein-coding genes in bacterial andarcheal genomes. Nucleic Acid Research, Vol. 31, No. 6, 2003.

[6] Juhl, L. et al., Analysis of two large functionally uncharacterized regions in the Methanopy-rus kandeleri AVI9 genome. BioMed Central, 2003.

[7] Lacourly N., Apuntes de Estadística. Escuela de Ingeniería y Ciencias, Universidad de Chile,1996.

[8] Lacourly N., Métodos Estadísticos Predictivos. Escuela de Ingeniería y Ciencias, Universi-dad de Chile, 2001.

[9] Landgrand C., Métodos de Clasificación. Université des Sciences et Technologies de Lille,Francia, 1996.

[10] Moreira A., Traducción Inversa de Proteínas. Memoria de Título, Ingeniería Matemática,Universidad de Chile, 1999.

[11] Robin, S., Statistical Analysis of Microarray Data. Procceding CIMPA-UNESCO summerschool on Mathematical and Computational Methods in Biology, Valdivia, Chile, 2004.

47