Nuevos Índices Topo-químicos para codificar la estructura ...

105
Facultad de Química-Farmacia Departamento de Licenciatura en Farmacia Nuevos Índices Topo-químicos para codificar la estructura molecular Autora: Elízabeth Hurtado Rodríguez Tutores: Lic. Oscar Martínez Santiago Dr. Yovani Marrero Ponce Curso 2013 – 2014

Transcript of Nuevos Índices Topo-químicos para codificar la estructura ...

Page 1: Nuevos Índices Topo-químicos para codificar la estructura ...

Facultad de Química-Farmacia

Departamento de Licenciatura en Farmacia

Nuevos Índices Topo-químicos para codificar la

estructura molecular

Autora: Elízabeth Hurtado Rodríguez

Tutores: Lic. Oscar Martínez Santiago

Dr. Yovani Marrero Ponce

Curso 2013 – 2014

Page 2: Nuevos Índices Topo-químicos para codificar la estructura ...

PENSAMIENTO

“Las verdades que revela la ciencia superan siempre a los sueños que destruye.”

Ernest Renan

Page 3: Nuevos Índices Topo-químicos para codificar la estructura ...

DEDICATORIA

En la vida de cualquier ser humano existen personas sin las

cuales, ese tránsito extasiado y efímero por el mundo no tiene

sentido. Es por ello que quiero dedicar esta tesis a:

Mis Padres. Mi madre Anabel Rodríguez Pérez.

Gracias por existir y ser fuente de inspiración para todo lo que hago en la vida. Gracias por los sacrificios y desvelos que has tenido para no preocuparme y facilitarme la vida. Espero nunca defraudarte y que siempre estés orgullosa de mi. Gracias por todo…y por haberme formado como mujer.

Mi novio.

Por su dedicada entrega, amor y apoyo en los momentos más difíciles; sin

él hubiera sido imposible la realización de este trabajo y mi trayectoria por

la universidad.

Mis abuelos.

Que hicieron de la niña una joven de bien.

Mis tíos.

Por su apoyo y consejos incondicionales.

Mis primos.

Mi hermana Arianna.

Por todo el amor y cariño, por todo el apoyo que me has brindado. Saber que puedo contar contigo significa mucho para mí.

Mi tutor Oscar.

Por otorgarme su amistad y conocimientos, y orientarme en el camino de hacer aportes a la ciencia.

Mis amigos, y todos aquellos que aportaron un granito de arena en formar en mí una profesional preparada para el futuro….

MUCHAS GRACIAS.

Page 4: Nuevos Índices Topo-químicos para codificar la estructura ...

Agradecimientos

La gratitud es el más legítimo pago al esfuerzo ajeno, es reconocer que todo lo que somos, es la suma del sudor de los demás. Que un hombre solo no vale nada, y que la dependencia humana, además de necesaria, es hermosa.

José Martí. Agradezco a: Mis profesores.

Por el ejemplo y la dedicación con que depositaron en mí los más actuales y refinados conocimientos de la carrera y otras ciencias vitales para desempeñarme como una buena profesional. Mis compañeros de aula.

Por acompañarme en los buenos y malos momentos de mi vida universitaria. Por servir de sostén y contraparte a mis ideas, como yo lo he sido con ellos.

Page 5: Nuevos Índices Topo-químicos para codificar la estructura ...

RESUMEN

Resumen

En el presente trabajo se definió una nueva familia de Índices de Derivada del Grafo

(GDI) utilizando un novedoso procedimiento matemático. Este conjunto de índices

topo-químicos fueron definidos con el fin de describir la estructura química y se basan

en representaciones matriciales de la estructura molecular y posteriormente el cálculo de

las correspondientes derivadas del grafo para derivada de orden superior y derivada

mixta. Estos nuevos Índices Topológicos (ITs) fueron validados realizando un estudio

QSAR con la base de datos de Esteroides de Cramer, donde además se determinaron los

índices atómicos (LOVIs) para agrupaciones de dupla, terna y cuaterna de átomos. La

modelación del logK para estas 31 moléculas mostró un buen desempeño obteniéndose

resultados satisfactorios y estadísticamente superiores a los mostrados en la literatura.

Se realizaron además cálculos para agrupaciones de Duplas, Ternas, y Cuaternas de

átomos basados en representaciones hipermatriciales de todas las moléculas incluidas en

las ocho bases de datos reportadas por Sutherland como adecuadas para validar nuevos

Descriptores Moleculares. Los cálculos fueron realizados utilizando el software

TOMOCOM-CARDD 1.0 en su módulo DIVATI. En este trabajo se realizó además la

modelación de varias actividades biológicas de las bases de datos antes mencionadas y

se utilizó el software MobyDigs para la determinación de los modelos de regresión

lineal y validación de los mismos. Los resultados se comparan satisfactoriamente con

los resultados reportados en la literatura y mostraron que los nuevos índices de Derivada

del Grafo constituyen una poderosa herramienta para el diseño molecular.

Page 6: Nuevos Índices Topo-químicos para codificar la estructura ...

ABSTRACT

Abstract

In the current work was defined a new family of Graph Derivative Indices (GDI)

using a novel mathematical procedure. This set of topo-chemical indices was defined

with the purpose of describing the chemical structure and they are based on the matrix

representation of the molecular structure and the further calculation of the

corresponding ones graph derivatives, for superior order derivative and mixed

derivative. This new Topological Indices (ITs) were validated carrying out a QSAR

study with the Cramer´s Steroids database, where the atomic indices (LOVIs) were also

determined for Duplex, Triple and Quadrupleatoms groupings. The modeling of logK

for these 31 molecules showed a good acting, obtaining satisfactory results and

statistically superiors to those shown in the literature.

In this research were also carried out calculations for Duplex, Triple and

Quadrupleatoms groupings, based on hypermatrix representations of all the molecules

included in eight datasets, reported for Sutherland as appropriate to validate new

Molecular Descriptors. The calculations were carried out using the TOMOCOM-

CARDD 1.0 software in their DIVATI module. In this work was also carried out the

modeling of several biological activities of the datasets before mentioned and the

MobyDigs software was used for the determination of the linear regression models and

validation of the same ones. The results are compared satisfactorily with those reported

in the literature and showed that the new Graph Derivative Indices constitute a powerful

tool for molecular design.

Page 7: Nuevos Índices Topo-químicos para codificar la estructura ...

GLOSARIO

GLOSARIO

µk k-ésimo momento espectral 2D Bidimensional 3D Tridimensional ANOVA ANalysis Of VAriance between groups. Análisis de Varianza AV Análisis de Variabilidad CoMFA Comparative Molecular field Analysis DIVATI Derivative Type Índices. DM Descriptor Molecular F Razón de Fisher experimental GA Genetic Algorithm. Algoritmo Genético GDIs Graph Derivative Índices. Índices de Derivada del Grafo IC50 Concentración Inhibitoria 50 pKi Constante de Inhibición pK Log (1/pK) Constante de Afinidad IMMAN

Information Theory based CheMoMetric Analysis. Análisis de Informática Química basado en la Teoría de información

ITs Índices Topológicos LGO Procedimiento de validación interna cruzada ‘leave-group-out’ LNO Procedimiento de validación interna cruzada ‘leave-n-out’ LOO Procedimiento de validación interna cruzada ‘leave-one-out’ NEM Nueva Entidad Molecular q2 Coeficiente de correlación al cuadrado del procedimiento de validación

cruzada LOO q2

boot Varianza de la validación cruzada “bootstrapping” q2

ext Coeficiente de correlación al cuadrado del procedimiento de validación externa qk(x) k-ésimo Índice cuadrático total de la matriz de adyacencia entre vértices de un

pseudografo molecular QSAR Quantitative Structure Activity Relationships QSPR Quantitative Structure Property Relationships R Coeficiente de correlación R2 Coeficiente de determinación o coeficiente de correlación al cuadrado RLM Regresión Linear Múltiple s Desviación estándar scv Desviación estándar del procedimiento de validación cruzada LOO SE Serie de entrenamiento SP Serie de predicción TOMOCOMD TOpological MOlecular COMputer Design VC Validación cruzada

Page 8: Nuevos Índices Topo-químicos para codificar la estructura ...

ÍNDICE

ÍNDICE

1 INTRODUCCIÓN. ..............................................................................................................................3

2 MARCO TEÓRICO. ...........................................................................................................................9

2.1 ELEMENTOS DE TEORÍA DE GRAFOS. .................................................................................................9

2.1.1 Grafos ponderados y su representación matricial..................................................................9

2.1.2 Diferenciación de Grafos y Mografos. ..................................................................................12 2.1.3 Derivadas de Orden Superior. ...............................................................................................15

2.1.4 Derivadas Mixtas...................................................................................................................15 2.1.5 Derivadas Sobre n-elementos. ...............................................................................................15

2.2 DEFINICIÓN DE SUCESOS. .................................................................................................................16

2.2.1 Caminos terminales. ..............................................................................................................16 2.2.2 Incidencia vértice camino. .....................................................................................................16

2.2.3 Camino de longitud K. ...........................................................................................................17

2.2.4 Quantum. ...............................................................................................................................17 2.2.5 Subgrafos de Sach..................................................................................................................17

2.2.6 Huellas...................................................................................................................................17

2.2.7 Huellas MACCS....................................................................................................................18 2.2.8 Huellas de E-state..................................................................................................................18

2.2.9 Huellas de subestructura. ......................................................................................................18

2.2.10 Refractividad atómica e hidrofobicidad............................................................................18

2.2.11 Multiplicidad.....................................................................................................................18

2.3 DEFINICIÓN DE LOS GDI PARA PARES (DUPLA), TRÍOS (TERNA), Y CUARTETOS (CUATERNA), DE

ÁTOMOS.....................................................................................................................................................18

2.3.1 Derivada para pares de átomos.............................................................................................18

2.3.2 Extensión de los GDI a relaciones atómicas n-dimensionales. .............................................26

2.4 HIPERMATRIZ DE FRECUENCIA DE RELACIONES ...............................................................................27

2.5 ÍNDICES DE DERIVADA DEL GRAFO BASADO EN RELACIONES DE N-ÁTOMOS...................................30

2.6 QUÍMICA GRAFO-TEÓRICA Y TOPOLOGÍA MOLECULAR. ...................................................................33

2.6.1 Introducción a la Química Grafo-Teórica y a la Topología Molecular. ...............................33

2.6.2 Representación topológica de moléculas...............................................................................33

2.6.3 Invariante grafo-teórica. .......................................................................................................34

2.6.4 Índices bidimensionales (2D) basados en la topología molecular ........................................34

2.6.5 Índices topológicos de primera generación...........................................................................35

2.6.6 Índices topológicos de segunda generación. .........................................................................36

2.6.7 Índices topológicos de tercera generación. ...........................................................................39

2.7 PROPIEDADES QUE DEBE POSEER UN NUEVO ÍNDICE TOPOLÓGICO....................................................40

2.8 MÉTODOS QUIMIOMÉTRICOS. ..........................................................................................................42 2.8.1 Quimiometría en la Informática Química..............................................................................42

2.8.2 Regresión lineal múltiple (RLM) ...........................................................................................42

2.8.3 Principio de la parsimonia para seleccionar el número óptimo de variables. ......................42 2.8.4 Análisis de la varianza...........................................................................................................43

2.9 VALIDACIÓN INTERNA Y EXTERNA DE MODELOS.............................................................................44

2.9.1 Validación Interna. ................................................................................................................44 2.9.2 Validación externa.................................................................................................................45

2.10 OUTLIERS. TÉCNICAS PARA LA SELECCIÓN DE LOS MISMOS. .......................................................45

2.11 ALGORITMO GENÉTICO COMO MÉTODO DE SELECCIÓN DE PARÁMETROS. ...................................45 2.12 ANÁLISIS DE VARIABILIDAD (AV). .............................................................................................47

3 MATERIALES Y MÉTODOS..........................................................................................................48

3.1 BASES DE DATOS EMPLEADAS. .........................................................................................................48

3.2 HERRAMIENTAS COMPUTACIONALES. ..............................................................................................50

3.2.1 Programas Informáticos desarrollados en el CAMD-BIR.....................................................50

3.3 IMMAN SOFTWARE. ANÁLISIS DE VARIABILIDAD (AV).................................................................51

3.4 MOBYDIGS SOFTWARE. REGRESIÓN LINEAL MÚLTIPLE (RLM). .....................................................52

4 ANÁLISIS Y DISCUSIÓN DE LOS RESULTADOS. ...................................................................54

4.1 NUEVOS ÍNDICES BASADOS EN CONCEPTOS DE DERIVADA DISCRETA DE UN GRAFO DE ORDEN

SUPERIOR Y DERIVADA MIXTA. TEORÍA Y APLICACIONES. .......................................................................54

4.1.1 Índices de Derivada de Orden Superior. Definición. ............................................................54 4.2 ÍNDICES DE DERIVADA MIXTA DEL GRAFO. DEFINICIÓN. ................................................................59

4.3 ESTUDIO QSAR-COMPARATIVO DE LOS GDI BASADOS EN CONCEPTOS DE DERIVADA DE ORDEN

SUPERIOR Y DERIVADA MIXTA. ................................................................................................................60 4.3.1 Estudio QSAR de la base de datos de esteroides. ..................................................................60

4.4 ESTUDIO QSAR-COMPARATIVO PARA VALIDAR EL DESEMPEÑO DE LAS FAMILIAS DE GDIS. ..........68

4.5 ANÁLISIS DEL DESEMPEÑO DE LAS FAMILIAS DE LOS GDIS BASADAS EN ENFOQUES DE

REPRESENTACIÓN N-DIMENSIONAL DE ESTRUCTURAS QUÍMICAS. ..............................................................76

Page 9: Nuevos Índices Topo-químicos para codificar la estructura ...

ÍNDICE

4.6 UBICACIÓN DE LOS GDIS EN EL RANKING DE LOS MEJORES RESULTADOS REPORTADOS PARA ESTAS

BASES DE DATOS . ......................................................................................................................................79

5 CONCLUSIONES............................................................................................................................. .80

6 RECOMENDACIONES....................................................................................................................81

7 BIBLIOGRAFÍA............................................................................................................................. ...82

8 ANEXOS............................................................................................................................. ...................89

Page 10: Nuevos Índices Topo-químicos para codificar la estructura ...

INTRODUCCIÓN

“El secreto de la creatividad está en dormir bien y abrir la mente a las posibilidades infinitas. ¿Qué

es un hombre sin sueños?”

Albert Einstein

Page 11: Nuevos Índices Topo-químicos para codificar la estructura ...

INTRODUCCIÓN

3

1 INTRODUCCIÓN.

El diseño/descubrimiento de fármacos asistido por computadoras ofrece una

alternativa al mundo real de síntesis y evaluación (1). Este procedimiento engloba todas

las técnicas asistidas por ordenadores usadas en el diseño, descubrimiento y optimización

de compuestos con propiedades deseadas (2) y ha jugado un rol fundamental en el

desarrollo de un número de fármacos que están ahora en el mercado (3). Este tipo de

estudio se basa en el uso de un mundo “virtual” de hipótesis, generadas por computadoras

y probadas en la práctica, estos procedimientos ‘in sílico’ evitan los procesos actuales de

síntesis y bioensayos.

Los elevadísimos costos (más de 800 millones de dólares)(4) que presentan los

métodos tradicionales de ‘prueba y error’ para la obtención de Nuevas Entidades

Moleculares (NEM) y su baja efectividad han dirigido la atención de los investigadores

hacia soluciones mucho más asequibles, rápidas, económicas y efectivas. Muchas de

estas soluciones hacen uso de Invariantes Matemáticas, las cuales cuantifican

información química contenida en la estructura molecular y son de gran aplicación actual

en diversos estudios de:1) similitud/disimilitud molecular, 2) cribado virtual 3) minería

de datos y 4) relación estructura-actividad/propiedad/toxicidad (QSAR/QSPR/QSTR).

Estas invariantes son aparentemente ventajosas respecto a parámetros químico-físicos

que comúnmente se utilizan para describir y entender efectos hidrófobos, estéricos y/o

electrónicos de sustituyentes en las moléculas (como la constante sigma de Hammett) y son

denominados Descriptores Moleculares (DMs).

Los Descriptores Moleculares son el resultado final de un procedimiento lógico y

matemático en el cual se transforma la información química codificada en una

representación simbólica de la molécula en un número de utilidad (5).

La naturaleza de los DMs depende de cuál haya sido el proceder utilizado para la

definición de los mismos. En ese sentido se pude tener en cuenta la fórmula química (0D),

los fragmentos químicos que contiene la estructura química (1D), rasgos topológicos (2D),

geométricos (3D), electrónicos de las moléculas, etc.(6-8).

Los DMs que cuantifican información contenida en la representación estructural de las

moléculas son denominados Índices Topológicos (ITs) y estos a su vez se pueden

distinguir en topo-estructurales (recogen solo información de adyacencia y/o distancia) y

Page 12: Nuevos Índices Topo-químicos para codificar la estructura ...

INTRODUCCIÓN

4

topo-químicos (incluyen también características químico-físicas de átomos y/o fragmentos

presentes) (9).

Otro grupo de descriptores, llamados químico-cuánticos describen rasgos electrónicos de

las moléculas basados en el uso de la función de onda molecular. Los descriptores

geométricos tienen información de los rasgos estructurales 3D de las moléculas en una vía

explícita (10), tales como distancia y ángulos de enlaces o en una vía implícita, en forma de

descriptores topográficos (11).

Es evidente que los DMs jugarán un rol cada vez mayor en el desarrollo científico

futuro, de hecho, la disponibilidad de gran número de fuentes diversas de descriptores

teóricos de información química será útil para comprender mejor las relaciones entre la

estructura molecular y las evidencias experimentales. Todo esto es posible gracias al

aprovechamiento de los métodos poderosos de cómputo, nuevos algoritmos

computacionales y computadoras más rápidas. Sin embargo, aún son herramientas

fundamentales el razonamiento deductivo y de analogía, las hipótesis y teorías arriesgadas,

la determinación y la interpretación (9).

Específicamente, los ITs han comenzado a ocupar un lugar importante dentro del

conjunto de descriptores moleculares utilizados en diversos estudios donde se aplican

métodos de Química-Matemática, siendo probablemente el diseño/descubrimiento de

nuevos compuestos bioactivos, una de las más activas áreas de investigación donde se

aplican estos descriptores a problemas biológicos.

En la Universidad Central "Marta Abreu" de las Villas existen grupos de investigación

que han desempeñado un papel relevante en ese sentido, los cuales dirigen sus

investigaciones al desarrollo de nuevos principios activos para la industria farmacéutica en

las ramas de la medicina veterinaria, humana y la sanidad vegetal.

Perteneciente a la Facultad de Química y Farmacia de la propia universidad, el Grupo

de Descubrimiento Molecular Asistido por Computadora e Investigaciones Bioinformáticas

(CAMD-BIR Unit, por sus siglas en inglés) presenta resultados relevantes en este campo.

Este grupo ha orientado sus investigaciones hacia la utilización de diferentes métodos para

los estudios QSAR, priorizando el desarrollo y aplicación de nuevos descriptores grafo-

teóricos para el diseño molecular de compuestos orgánicos potencialmente bioactivos.

En el CAMD-Bir existe una tradición en la utilización de ITs grafo-teóricos marcada por

la definición de los índices cuadráticos, lineales y bilineales moleculares por el Dr. Yovani

Page 13: Nuevos Índices Topo-químicos para codificar la estructura ...

INTRODUCCIÓN

5

Marrero Ponce y col, estos ITs han sido aplicados con éxito a diversos estudios de relación

estructura-actividad/propiedad (12-15).

Recientemente han sido definidos en este grupo nuevas familias de índices topo-

químicos basados en el uso de la Derivada Discreta de un grafo, conocidos como Índices

de Derivada del Grafo (GDI, Acrónimo de las siglas en inglés de Graph Derivative

Indices) (16, 17). Hasta el momento han sido definido más de 8000 DMs, (9) siendo estos

últimos años los de mayor aporte en este sentido. Sin embargo, la comunidad científica

mantiene un creciente interés en la creación de nuevos DMs que recojan mayor y diferente

contenido de información que lo codificado por los descriptores existentes. Los objetivos

fundamentales de las nuevas formulaciones propuestas para caracterizar la estructura

química deben ir encaminados a lograr mayor versatilidad en los descriptores y

consecuentemente en la información cuantificada, por esa razón la búsqueda de nuevas

estrategias y herramientas para codificar adecuadamente la estructura molecular desde

diversas ópticas sigue siendo un área donde los investigadores de este campo

(fundamentalmente químicos teóricos) dedican grandes esfuerzos.

Aún existen varias limitaciones en los DMs actuales, (18) entre los cuales podemos

destacar:

No existe una única variable (DM) capaz de codificar toda la información química

extrínseca e intrínseca de la estructura molecular.

Muchos de los DMs se definen (o al menos pueden ser representados) empleando el

mismo procedimiento de vector-matriz-vector.

Aún existen muchas propiedades moleculares no adecuadamente descritas por los

DMs existentes.

Varios DMs necesitan redefinirse a formas más simples o generalizadas en aras de

disminuir el costo computacional sin comprometer su calidad, y al mismo tiempo aumentar

su versatilidad.

Varios DMs son definidos globalmente, o sea, no poseen definiciones para

fragmentos o átomos de la estructura molecular.

La mayor parte de los ITs utilizados actualmente han sido definidos de forma global, (5,

18) lo cual significa una gran limitación pues, muchas propiedades/actividades de las

moléculas dependen de regiones específicas (descripción local) o de una combinación de

aspectos locales y totales de la estructura molecular. La definición local de los ITs (para un

determinado fragmento o núcleo base, átomo o grupo de átomos en una molécula) es una

Page 14: Nuevos Índices Topo-químicos para codificar la estructura ...

INTRODUCCIÓN

6

de las 13 propiedades deseadas para un nuevo índice propuesta por Randic (19). Se hace

interesante destacar además, que la mayor parte de los ITs han sido definidos a partir de

matrices de adyacencia y de distancia topológica (5). Estas matrices son cuadradas y

simétricas; propiedades interesantes que han favorecido su uso en la definición de DMs.

Así por ejemplo, los principales ITs definidos hasta el momento hace uso de ellas

(Momentos Espectrales, índices de Randic y de Valencia, el índice del Estado

Electrotopológico, descriptor de Wiener, etc.) o de una combinación de las mismas, como

es el caso de los índices de carga.

En contraste, la matriz de incidencia posee características no deseadas (ej., no cuadrada

y asimétrica) para los químicos matemáticos por lo que ha sido escasamente utilizada como

fuente de ITs. Matrices de Incidencia y Frecuencia serán usadas en este trabajo como base

en la descripción de grafos moleculares y fuente para la generación de nuevos ITs basados

en el uso de la Derivada Discreta de un grafo o mografo que represente la estructura

molecular de sustancias orgánicas.

Analizado la información anteriormente expuesta es perfectamente posible constatar que

los descriptores moleculares existentes en la actualidad no posibilitan siempre una

descripción totalmente adecuada de la estructura molecular y es necesario definir nuevos

DMs bidimensionales (2D), que recojan nuevos contenidos de información y permitan

describir y/o estimar diferentes propiedades químico-físicas y biológicas fundamentalmente

de compuestos orgánicos y así posibiliten el estudio de sistemas químicos con un gasto

mínimo de recursos materiales y tiempo.

Toda la información anterior tributa a que se plantee el siguiente problema científico:

¿Cómo definir nuevos DMs, que recojan mayor y diferente contenido de información de

la estructura molecular, permitiendo así describir y/o estimar diferentes propiedades

biológicas de compuestos químicos?

Como vía para solucionar el problema científico se formula la siguiente hipótesis:

Es posible aplicar conceptos de Derivada Discreta de Orden Superior y Derivada

Mixtas a grafos químicos-matemáticos de estructuras orgánicas para definir nuevas familias

de DMs locales y globales, que codifiquen mayor y diferentes contenidos de información

que los ITs existentes, permitiendo así su uso en el diseño ‘racional’ de nuevas entidades

moleculares.

Para demostrar la anterior hipótesis y dar respuesta al problema científico planteado,

se proponen los siguientes objetivos:

Page 15: Nuevos Índices Topo-químicos para codificar la estructura ...

INTRODUCCIÓN

7

Objetivo general:

Definir una nueva familia de Índices Topo-Químicos moleculares 2D (Totales y Locales

para átomos y grupos de átomos) basados en la aplicación de conceptos de Álgebra Lineal

y Derivada de Grafos de Orden Superior y Mixtas, en Matemática Discreta para la

codificación de información química y que sean ortogonales a los ITs existentes.

Objetivos Específicos:

Desarrollar nuevos Descriptores Topo-químicos basados en el uso del concepto de

Derivada de Orden Superior y Derivada Mixta de un Grafo en Matemática Discreta

sobre pares de átomos que tengan definición local, respecto a 12 sucesos (grafo-teóricos, de

huellas y magnitudes físico-químicas).

Aplicar invariantes (globales y locales sobre agrupaciones atómicas de interés) que

generalicen la “forma tradicional” de obtención de DMs como combinación lineal de

índices atómico (LOVIs).

Validar los nuevos GDI sobre dimensiones superiores desarrollando modelos para la

evaluación de Derivadas sobre n-átomos, empleando representaciones hipermatriciales de

las estructuras.

Evaluar el desempeño de los GDI de Orden Superior y Mixtos propuestos a través

estudios QSAR comparativos.

La novedad científica de este trabajo está fundamentada en la definición de dos nuevas

familias de ITs, basados en el cálculo de Derivadas del grafo molecular respecto a un

suceso prefijado. En la definición de esta invariante grafo-teórica se utilizan, por primera

vez, matrices e hipermatrices de frecuencia de relaciones y ha sido extendida para evaluar

derivadas de orden superior y mixtas, conformando así una nueva familia de ITs capaces de

codificar la estructura química de forma local y global, teniendo en cuenta heteroátomos,

insaturaciones y efectos electrónicos en la estructura molecular.

En esta tesis se realizan los siguientes aportes:

Aporte Teórico: Se definen nuevos Índices Topo-Químicos basados en el

cálculo de las Derivada del Grafo Molecular como invariante grafo-teórica, para lo cual se

definen nuevas representaciones matriciales nunca antes utilizadas en la generación de un

ITs, tales como las matrices e hipermatrices de frecuencia de relaciones. Este DMs ha sido

definido de forma local (para átomos y agrupaciones atómicas) y total (considerando toda

la molécula) introduciéndose el uso de un grupo considerable de Operadores Matemáticos,

Page 16: Nuevos Índices Topo-químicos para codificar la estructura ...

INTRODUCCIÓN

8

colectivamente conocidos como Invariantes y que generalizan la forma tradicional de

obtener descriptores totales y/o locales de agrupaciones atómicas, como combinación lineal

de índices atómicos.

Aporte Práctico: Se desarrolló un programa interactivo en JAVA, conocido

como DIVATI (Acrónimo DIscrete DeriVAtive Type Indices), un nuevo módulo del

programa TOMOCOMD-CARDD 1.0 (acrónimo de TOpological Molecular COMputer

Design Computed-Aided ‘Rational’ Drug Design) con el que se puede calcular de forma

rápida y automatizada los valores GDI de estructuras químicas representadas como grafos

moleculares. Se realizaron aplicaciones en la modelación de propiedades químicas,

químico-físicas y biológicas de compuestos orgánicos demostrándose las potencialidades

de estos índices para estudios QSPR/QSAR y el diseño de fármacos.

Este programa es de libre utilización por la comunidad científica y corre sobre cualquier

plataforma.

Aporte Metodológico: La aplicación de un conjunto de métodos y

procedimientos para evaluar la calidad de los DMs, el estudio de variabilidad y los estudios

QSAR que proporciona un esquema de procedimientos útiles en el análisis de DMs de

forma general. Del mismo modo, el uso de las invariantes (normas, medias, invariantes

estadísticas y algoritmos clásicos) como generalización del uso de la combinación lineal de

las contribuciones atómicas puede usarse para todos los DMs definidos a nivel de local.

Además, la extensión de los GDI definidos para relaciones binarias a dimensiones

superiores (terna y cuaterna) pudiera emplearse para redefinir y así extender y/o generalizar

los DMs definidos hasta el momento que solo usan relaciones bidimensionales (ij).

Page 17: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

"La ciencia es el gran antídoto contra el veneno del entusiasmo y la superstición”.

Adam Smith

Page 18: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

9

2 MARCO TEÓRICO.

2.1 Elementos de Teoría de Grafos.

2.1.1 Grafos ponderados y su representación matricial.

Matemáticamente el concepto de grafo `G´ puede ser definido según: sea V un

conjunto finito de vértices y E un conjunto de aristas que unen pares no ordenados de los

elementos de V, ⟨ ⟩ (20-22). Este concepto puede ser introducido de manera más

rigurosa como sigue: considérese un conjunto no vacío V = [vi / i =1, 2,…, n], un

conjunto E = [ei / i =1, 2,…,m] y una aplicación , la cual asocia a cada elemento de E

con un par no ordenado de elementos de V. Esta aplicación es denominada la aplicación

de incidencia asociada con un grafo y le da singularidad al grafo para un conjunto V

dado. Por tanto, para cada ei existe un par no ordenado [vi, vj] tal que (e) = [vi, vj]. En

este caso los dos conjuntos E y V junto con la aplicación forman un grafo.

Un arco (arista) e unido a un vértice v se denomina incidente al vértice v y este

vértice es llamado coincidente al arco e. Los vértices vi y vj se llaman adyacentes si

existe una arista ek tal que ek= [(vi, vj)/viVvjV], (o sea, si existe una arista que los

une). Dos aristas se denominan adyacentes si ellas tienen un vértice en común. El

número de aristas incidentes a un vértice vi se conoce como grado del vértice i y denota

[(vi)].

Si en G hay aristas múltiples (pares de vértices que están unidos por más de una

arista), el grafo G se llama grafo con aristas múltiples o multigrafo. Las aristas de la

forma (vi, vi), se denominan lazos o bucles y los grafos que las presentan se llaman

grafos con lazos o pseudografos (ver Figura 1).

Figura 1. A) Grafo simple; B) Multigrafo; y C) Pseudografo.

En el trabajo actual solo usaremos pseudografos no orientados, por lo que las

definiciones que a continuación daremos, están relacionadas con la teoría de

pseudografos (se sobrentiende pseudografos no orientados). Estas definiciones de los

Page 19: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

10

términos más utilizados en los grafos moleculares son muy útiles para describir varias

características estructurales de estos.

En un multigrafo, el grado del vértice vi [(vi)] es el número de aristas del multigrafo

que son incidentes al vértice vi. En un pseudografo, el grado del vértice vi es igual al

número total de aristas (que no sean lazos) incidentes a este vértice, más el número de

lazos incidentes a él.

Un camino (P) es una sucesión de aristas con vértices comunes. La longitud (l) de un

camino es el número de aristas del mismo. Así por ejemplo, camino de longitud cero

(P0) es una sucesión de vértices que contiene solo un vértice.

Al extraer vértices de un grafo y sus arcos incidentes se obtiene un subgrafo

⟨ ⟩ del grafo G, donde . Kier y Hall (23) clasifican los subgrafos

según su orden o tipo. Así los subgrafos pueden clasificarse como path (camino, senda)

si todos los vértices tienen grado menor o igual a dos, si todos los vértices poseen grado

superior a dos, entonces se clasifica como cluster (grupo) y si existen vértices que

cumplan con una gama variada de grados (menores y mayores que dos) en el mismo

subgrafo, entonces estamos en presencia de un subgrafo de tipo path-cluster. Si el

subgrafo es cíclico se dice que es de tipo chain. El orden de un subgrafo viene expresado

por el número de aristas que este posea.

Para lograr una descripción más completa de los grafos, asígnese a cada vértice

(V = [vi / i =1, 2,…, n]) del grafo ⟨ ⟩ un peso wi del conjunto de pesos W

= [wi / i =1, 2,…]. Análogamente póngase un peso pi del conjunto de pesos P = [pi / i =1,

2,…] en correspondencia a cada elemento del conjunto E = [ei / i =1, 2,…, m]. Como

resultado obtenemos conjuntos de vértices y arcos ponderados [(vi,wi) / i =1, 2, …, n] y

[(ei,pi) / i =1, 2,…,m] respectivamente, los que en su conjunto definen un Grafo

Ponderado ⟨( ) ( )⟩, el que estrictamente dicho ya no es un grafo sino una

función definida sobre los vértices y los arcos del grafo (22).

Los grafos pueden representarse matricialmente en forma algebraica (24-26). La

descripción numérica de la estructura de los compuestos químicos, es esencial para la

manipulación computacional de las moléculas y para los cálculos de los índices

moleculares que de ella se derivan. Así por ejemplo, la matriz de adyacencia ( )

[ ] del grafo G no ponderado con n vértices, es la matriz cuadrada simétrica nxn y

los elementos se definen de la siguiente forma:

Page 20: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

11

{

Donde E representa el conjunto de las aristas de G. En la matriz de adyacencia A(G)

la fila i y columna i corresponden al vértice vi de G. Como un ejemplo sencillo, en la

Figura 2 se muestra el grafo molecular y la matriz de adyacencia del 1-etil-2-metil-

ciclopropano.

Una propiedad interesante de A(G) viene dada por el hecho de que la matriz Ak(G) da

el número de caminos unitarios de longitud k que unen los vértices vi y vj. Esto permite

interpretar los elementos aij como el número de caminos unitarios, de orden (longitud) k,

entre los vértices vi y vj (ver Figura 2).

100000

010000

001000

000100

000010

000001

6

5

4

3

2

1

654321

0

v

v

v

v

v

v

vvvvvv

A

010000

101000

010110

001010

001101

000010

6

5

4

3

2

1

654321

1

v

v

v

v

v

v

vvvvvv

A

101000

020110

103111

011211

011130

001101

6

5

4

3

2

1

654321

2

v

v

v

v

v

v

vvvvvv

A

Figura 2.Grafo molecular y matrices de adyacencia de la molécula de 1-etil-2-metil-

ciclopropano.

La matriz de adyacencia del grafo molecular G ponderado sería ( ) [ ] (22)

y cada elemento vendrá dado por:

{

( )

La matriz de distancia ( ) [ ]de un grafo G con n vértices, es la matriz

simétrica nxn (cuadrada) y los elementos se definen de la siguiente forma (24, 25):

{

Donde dij es la longitud del camino más corto entre los vértices vi y vj de G. Por

ejemplo, la matriz de distancias topológicas entre vértices del grafo molecular de la

molécula de 1-etil-2-metil-ciclopropano (ver Figura 2) se representa en la Figura 3.

Page 21: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

12

012334

101223

210112

321012

321101

432210

6

5

4

3

2

1

654321

v

v

v

v

v

v

vvvvvv

D

Figura 3. Matriz de distancias topológicas entre vértices de la molécula de 1-etil-2-

metil-ciclopropano.

Para un grafo G, se define la matriz diagonal, DEG =DEG(G), donde la entrada i-

ésima es igual al grado del vértice vi, i y todos los demás elementos son iguales a cero.

La Matriz de incidencia: para un grafo G, con una ordenación de vértices (v1, v2,…vn)

y aristas (e1, e2,… em), entonces la matriz de incidencia del grafo para esa ordenación es

la matriz de m filas y n columnas ijbB

Definida por la condición de que:

ji

ji

ij evsi

evsib

0

1

Como ejemplo podemos citar que siendo:

G=⟨( ) ( ) ( ) ( ) ( ) ( )⟩ (Ver Figura 4) la matriz de

incidencia de G, respecto a la ordenación de sus vértices A, B, C, D, E, F y sus aristas

( ) ( ) ( ) ( ) ( ), es la matriz:

A

B

C

D

FE

100010

010010

001100

000110

000011

BF

BE

CD

BC

AB

FEDCBA

e

e

e

e

e

vvvvvv

D

Figura 4. Grafo y matriz de incidencia que lo representa.

Existe un gran número de matrices que caracterizan estructuralmente a un grafo

molecular y han servido para computar varios ITs. Algunos ejemplos son la matriz

Laplaciana L(w, G), la matriz de Detour, []ij (27), la matriz de Detour-distancia, [-D]ij

(27), la matriz de distancia-valencia [Dval(p, q, w, G)]ij(19), la matriz de resistencia-

distancia [(w)]ij(28), la matriz de conductancia eléctrica [EC(w)]ij (28), la matriz de

Wiener inversa [RW(w, G)]ij (29), la matriz de Szeged [Szu]ij (30), entre otras.

Page 22: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

13

2.1.2 Diferenciación de Grafos y Mografos.

En el Análisis Matemático el concepto de derivada caracteriza el grado de variación

en una función al realizarse una pequeña variación en su argumento, dicho concepto de

derivada se basa en el del límite. En la Matemática Discreta no existe el concepto de

límite y por tanto, es imposible trasladar el concepto de derivada tal como se conoce,

desde la matemática continua a la discreta (22).

Antes de introducir una definición formal de la derivada de un grafo, primeramente se

dejarán claros determinados conceptos importantes para poder entender a cabalidad el

significado de la misma y sus grades posibilidades de aplicación en la química grafo-

teórica.

Primeramente defínase un suceso (S), el cual es verdadero cuando se cumplen

determinadas condiciones al proceso examinado. Cada suceso S determina una matriz

binaria bidimensional nxmijqQ ][ , a cada columna de la cual le corresponde

biunívocamente una condición, comprendida en al menos un suceso verdadero, y a cada

fila, una colección de condiciones, con las cuales el suceso tiene lugar y qij es:

{

En otras palabras, cada suceso determina un modelo con matriz de incidencia Q , las

condiciones que se comprenden en el suceso son letras del modelo y las colecciones de

condiciones para las cuales el suceso es verdadero serían palabras del modelo (22).

Las intensidades de participación de las distintas condiciones (letras) en las

colecciones de condiciones (palabras) para las cuales el suceso es verdadero las

caracterizaremos utilizando las frecuencias de su inclusión. Para ello es necesario

introducir la matriz de frecuencia de relaciones nxnijfF ][ que caracteriza un modelo con

matriz de incidencia nxmijqQ ][)( .

Se denomina matriz de frecuencia de relaciones nxnijfF ][ una matriz, a cada fila y

columna de la cual le corresponde biunívocamente una condición, y un elemento fij es

igual al número de palabras que comprenden las letras i y j, respectivamente, si i ≠ j; si i

= j entonces fi corresponde al número de palabras que incluyen la letra i. Siendo fi la

Page 23: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

14

frecuencia propia de la letra i y fij es la frecuencia recíproca de las letras i y j,

correspondientemente.

De la definición de la matriz de frecuencia de relaciones, se desprende que la misma

es simétrica respecto a la diagonal principal, o sea fij = fji, y la frecuencia propia de cada

letra es mayor que la frecuencia recíproca de esta letra con cualquier otra, fi ≥ fij.

También se puede demostrar que:

xQQF T (2.1)

Siendo TQ la matriz transpuesta de la matriz de incidencia [Q(Ψ)] del modelo Ψ.

Es posible entonces, determinar el grado de heterogeneidad de los componentes del

grafo respecto a un suceso dado y caracterizar esta heterogeneidad por la derivada

SG de un grafo G respecto al suceso S.

Llámese derivada SG de un grafo (G) respecto a un suceso (S), un grafo

ponderado no orientado <V,(U, P)>, cuyo portador coincide con el portador de un

modelo determinado por este suceso y un par de vértices (vi,vj) está ponderado por la

razón de la frecuencia )()( ijjiji ffff de su participación incompatible a la

frecuencia fij de la participación compatible en el suceso S (22):

),( ji vvS

G

=

ij

jiji

f

fff )2( (2.2)

Con la particularidad de que:

(vi , vj) U, si S

G

(vi, vj) = ∞

(vi , vj) U, si S

G

(vi, vj) = una magnitud finita diferente de cero

(vi = vj) si S

G

(vi, vj) = 0

A continuación, ilustremos entonces el concepto de derivada del grafo con un

ejemplo (22).

Ejemplo # 1

Sea el grafo G (ver Figura 5.A.). Se desea determinar la frecuencia de participación

de las diferentes aristas en la formación de esqueletos del grafo. El grafo G contiene 8

Page 24: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

15

esqueletos [subgrafos de orden 3, sin diferenciar tipo (ver Figura 5.B.)]. Se puede

conocer la frecuencia buscada, por ejemplo, conociendo el número de inclusiones de

cada arista en los esqueletos. Por ejemplo, la arista “a” participa 5 veces en la formación

de los esqueletos, la arista “c” 4 veces, etc. La frecuencia buscada puede caracterizarse

mejor, si a la par de los números indicados anteriormente, determinamos números que

caractericen el grado de participación no uniforme de pares de aristas del grafo (derivada

del grafo para parejas de elementos), en la formación de esqueletos del grafo, para ello

debemos obtener las correspondientes matrices de incidencia y de frecuencia para el

modelo determinado por nuestro suceso (formación del esqueleto del grafo por las

diferentes aristas), y de este modo calcular los valores de derivada SG para los pares

de aristas del grafo:

Figura 5.A) Grafo del Modelo. B) Subgrafos según el suceso. C) Derivadas.

Las matrices de incidencia y de frecuencia, para este modelo, son:

11010

10110

01110

11001

10101

01101

10011

01011

Q

52233

25233

22422

33252

33225

xQQF T

Los elementos de la matriz (F) determinan la SG , que es un grafo ponderado, con

portador [a, b, c, d, e] y dos vértices de este grafo son adyacentes, si el valor de la

derivada sobre la arista formada por estos vértices es distinta de cero o infinito. Los

valores de derivada para los pares de aristas del grafo son:

Page 25: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

16

0.3),(...........................................................5.2),(,0.3),(

ed

S

Gca

S

Gba

S

G

Con estos valores puede formarse el grafo SG (Figura 5.C.)

Como puede observarse, para determinar la derivada de un grafo, según un suceso

(S), es necesario:

Construir un modelo determinado por un suceso previamente fijado.

Hallar la matriz de frecuencia de relaciones correspondiente al modelo.

Calcular los valores de derivada SG sobre los pares de elementos (átomos o

enlaces) del grafo (molécula).

2.1.3 Derivadas de Orden Superior.

Denótese derivada K

K

SG

de orden K según el suceso (S), la derivada de la

derivada de orden K-1 según el mismo suceso (22):

1

1

K

K

K

K

S

G

SS

G (2.3)

2.1.4 Derivadas Mixtas.

Llámese derivada Mixta (22) según los sucesos (Sa y Sb), a la derivada respecto a un

suceso (Sa) de la derivada respecto a un suceso (Sb):

baba S

G

SSS

G2

(2.4)

2.1.5 Derivadas Sobre n-elementos.

Hasta este punto ha sido examinanda la intensidad de participación de pares de

elementos en un suceso determinado. Sin embrago, de modo análogo se puede

determinar la uniformidad de participación de tres, cuatros……n elementos en el suceso

generalizando el concepto de derivada. Para ello es necesario introducir el concepto de

hipermatriz de frecuencia de relaciones (22).

Examínese el modelo Ψ = < M, S1, S2,……Sn> y tomemos una matriz N-dimensional

Page 26: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

17

][ ...21 NiiifF , i1, i2,. . ., iN = 1,. . . | M |. Las posiciones según cada dimensión de la

matriz N-dimensional las enumeraremos con números de la serie natural 1, 2, 3,… M .

Póngase en correspondencia biunívoca a cada letra Mm un número de esta serie

natural y colocaremos las letras Mmi por las respectivas posiciones de cada

dimensión de la matriz N-dimensional. Cada elemento Niiif ,...,, 21

de esta matriz es igual al

número de palabras que comprenden letras correspondientes a los números Niii ,...,, 21 .

No se duplican los índices iguales por su escritura. La matriz formada de este modo se

denominara matriz N-dimensional de frecuencias de relaciones o bien hipermatriz de

frecuencia de relaciones, si no interesa la dimensión de esta matriz.

Si entre los índices Niii ,...,, 21 y un elemento Niiif ,...,, 21

existen al menos dos índices de

escritura distinta este elemento se llama frecuencia recíproca de letras correspondientes

y, en caso contrario, frecuencia propia de letras. La frecuencia Niiif ,...,, 21

que tiene k

índices diferentes se denomina frecuencia de orden k.

De esta forma es posible generalizar la fórmula de derivada para n elementos:

21

21

121

21

121

21

212121

121,

,...,...,

,...,,...,,

...

1

...

1

...

21 )1(...)1(...21

),...,(

iiii

iiiiiii

iiiiiii

iii

n

iiiii

i

i

mmm

n

nn

n

n

n

fnffff

mmmS

G

(2.5)

2.2 Definición de sucesos. Ahora definiremos brevemente distintos tipos de sucesos que amplían el espectro de

posibilidades de obtención de estos índices topológicos. Cada suceso determina una

matriz de incidencia y una matriz de frecuencia para duplas, ternas y cuaternas, según

sea el número de vértices analizados en la inclusión de los subgrafos generados por cada

suceso.

2.2.1 Caminos terminales.

Este suceso se define por la formación de los subgrafos i-j de tipo camino (path) en

un grafo G, el cual cumple con la condición de que los vértices (vi y vj) tienen grado de

valencia de vértice (δ) igual a uno.

2.2.2 Incidencia vértice camino.

Este suceso se deriva de la definición propuesta, por Janezic y colaboradores, de la

matriz VP de incidencia de vértices en el conjunto de caminos (31). Se deduce que dado

Page 27: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

18

V un conjunto de vértices {vi} y P un conjunto de caminos, entonces la matriz de

incidencia se define como:

{ ( ) { } { }

Donde n (i,j) es el número de incidencias de vi en el conjunto de caminos p de orden j.

Nótese que para mantener el mismo formato seguido en las definiciones presentadas

hasta ahora, se trabaja con la transpuesta de VP, es decir VPT, representado como VP*,

en el sentido que las entradas de las filas representan el grupo de los subgrafos de un

orden n y las entradas de las columnas el número de veces que se incluyen los vértices

en los grupos de subgrafos anteriores, contrario a la definición de la matriz inicial

propuesta por Janezic y colaboradores.

2.2.3 Camino de longitud K.

Este suceso surge de la exploración de los caminos de longitud k en un grafo G dado.

Estos caminos pueden ser de auto-evasión, esto es, sin repetir ningún vértice (v1 ≠ vk), o

de auto-retorno, esto es, comenzando y terminando en el mismo vértice (v1 = vk). Sin

embargo en un grafo G con muchos vértices, los caminos de este tipo son muy

numerosos y podrían dar lugar a redundancia. De esta forma consideramos necesario

fijar en 10 el orden máximo de subgrafos (kmax=10) de los caminos generados.

2.2.4 Quantum.

El suceso quantum está basado en la eliminación de la aristas que unen a los vértices

vi y vj del grafo G, con reemplazamiento. El uso del término quantum no está

relacionado con la teoría cuántica. Se escogió simplemente en referencia a la

eliminación de unidades discretas (es decir aristas) de G. Los subgrafos resultantes se

usan para construir la matriz de incidencia. Este es un procedimiento sucesivo que puede

ser realizado desde 1 hasta n-1 aristas.

2.2.5 Subgrafos de Sach.

Nuestro interés radica en el uso de los subgrafos generados al tomar como criterio el

teorema de Sach para construir la matriz de incidencia y su correspondiente matriz de

frecuencia. En este criterio, G se divide en subgrafos usando las siguientes

consideraciones (32, 33):

a) Subgrafos aislados constituidos por dos vértices conectados por una arista.

b) Ciclos aislados o componentes de tipo anillo (con multiplicidad m≥ 3).

Page 28: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

19

Usando estas consideraciones, se construyen conjuntos de subgrafos (Sk), donde k

indica el número de vértices que constituyen un subgrafo dado. Estos subgrafos,

construidos con estas consideraciones, solamente aristas y ciclos aislados, se llaman

grafos de Sach.

2.2.6 Huellas.

En términos simples, una huella química es una lista de valores binarios (conocida

como una lista de bits o bit string en inglés, la cual corresponde a una búsqueda en

cuanto a la presencia o no de determinadas características (tipos de átomos o

fragmentos) en la estructura molecular. Existen varias huellas, la mayoría de las cuales

están implementados en librerías de Quimiometría y Bioinformática como CDK (34,

35), Joelib (36).

2.2.7 Huellas MACCS.

Las huellas MACCS uno de los tipos de huellas más populares usados en análisis de

similitud/diversidad. Varias longitudes de listas para huellas MACCS se han reportado

en la literatura (37). Entre estas, la más populares son las de 960 bit y 166 bit de

longitud basadas en descriptores 2D.

2.2.8 Huellas de E-state.

Estas huellas se derivan de un conteo de fragmentos del estado electrotopológico (o

subgrafos), definidos por Kier y Hall sobre la base del estado electrónico y topológico

de átomos(o grupo de átomos) en una molécula (38-41).

2.2.9 Huellas de subestructura.

Las huellas de subestructuras se componen de un conjunto de 307 bits, por el hecho

de que supone estructuras representativas de prácticamente todos los grupos funcionales,

orgánicos e inorgánicos, conocidos en química molecular medicinal, contrario a las

huellas MACCS y E-state. No es sorprendente por tanto que estas huellas son las más

comprensibles e interpretables en términos de química orgánica.

2.2.10 Refractividad atómica e hidrofobicidad.

Este suceso sigue un enfoque único, diferente de todos los anteriores por estar

relacionado con determinadas propiedades químico-físicas atómicas. La estructura

conceptual de este suceso propone una evaluación de la contribución de las entidades

Page 29: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

20

químicas (o grupos) en la vecindad de un vértice en su refractividad molar atómica (MR)

e hidrofobicidad (log p), esta última expresada en términos de valores de coeficiente de

partición.

2.2.11 Multiplicidad.

Este suceso se define a partir de la formación de los subgrafos de tipo camino de

orden 1 del grafo simple derivado de la molécula examinada, o sea, tomando como

colección de condiciones las aristas del grafo. Se observa que la matriz de incidencia

resultante es una matriz de incidencia clásica. Solo que en este caso las entradas de la

matriz no serán valores booleanos sino el valor del número de enlaces que existan entre

los átomos incidentes en la arista correspondiente.

2.3 Definición de los GDI para pares (dupla), tríos (terna), y

cuartetos (cuaterna), de átomos.

2.3.1 Derivada para pares de átomos.

Con el avance del tiempo, el paso de los años, la recopilación de información

experimental y como fruto de la experiencia acumulada ha permitido a los químicos

asegurar que las propiedades químicas, físicas y biológicas de manera general, de

cualquier sustancia se deben fundamentalmente a su estructura química. Desde hace

muchos años atrás los químicos hemos utilizado diferentes forma de representar las

posibles estructuras de las moléculas y las más comunes representaciones desarrolladas

y semidesarrolladas de las moléculas (sobre todo de moléculas orgánicas) no son más

que un grafo químico. Por lo que es lógico pensar en un posible tratamiento matemático

y aplicación de conceptos de la matemática discreta y el álgebra lineal a estos grafos

químicos, surgiendo así toda una disciplina conocida como química grafo-teórica.

Veamos qué ocurre si aplicamos los conceptos y definiciones anteriores a la química

y discutamos más adelante como podemos obtener provecho, de este elegante

tratamiento teórico, y su aplicación directa en la generación de nuevos descriptores

topológicos y el diseño molecular. Pongamos en práctica, a través de un ejemplo, los

aspectos discutidos anteriormente además de algunos nuevos formalismos que serán

introducidos en la medida que sea necesario.

Si tenemos una molécula sencilla como la de metilbutano (ver Figura 6), cuya

estructura química es:

Page 30: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

21

H3C

CH

CH2

CH3

CH3

Figura 6. Estructura molecular del metilbutano.

Obviando los átomos de hidrogeno y consideramos cada átomo de carbono como un

vértice y los enlaces entre ellos, aristas, podemos entonces representar dicha molécula

con el siguiente grafo molecular:

c1

c2 c3

a b

c5

c4

c

d

Figura 7. Grafo Molecular con hidrógenos suprimidos de la molécula de

metilbutano.

Este grafo está en correspondencia con la estructura química anterior. En el mismo,

los átomos de carbono etiquetados con las letras C1, C2, C3, C4 y C5 están representados

como vértices del grafo molecular y a, b, c, y d constituyen aristas que representan los

enlaces químicos establecidos entre dichos átomos.

Definamos entonces, un nuevo suceso a la formación de la estructura molecular a

partir de subestructuras conexas (sub-grafos) de distintos órdenes y tipo, basada en

relaciones atómicas. Aplicando este suceso al grafo antes planteado obtenemos las

siguientes subestructuras, los cuales han sido organizados según su orden:

Orden 0: 54321 ,,,, CCCCC

Orden 1: 52433221 ,,, CCCCCCCC

Orden 2: 432325521321 ,,, CCCCCCCCCCCC

Orden 3: 532143254321 ,, CCCCCCCCCCCC

Page 31: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

22

Orden 4: 54321 CCCCC

El suceso prefijado determina las correspondientes matrices de incidencia y de

frecuencia, las cuales son mostradas a continuación:

Podemos caracterizar la intensidad de participación de los diferentes pares de

elementos (átomos en la molécula o vértices en el grafo) a partir del cálculo de la

derivada para pares de elementos:

6

7

6

12)6(27),( 21

cc

S

G

25.2

4

10)4(27),( 31

cc

S

G

Así, sucesivamente se pueden determinar los valores de los pares de elementos

del grafo, los cuales son mostrados a continuación:

5.4),( 41

CC

S

G

2.1),( 43

CC

S

G

3

8),( 51

CC

S

G

25.2),( 53

CC

S

G

75.0),( 32

CC

S

G

5.4),( 54

CC

S

G

5.2),( 42

CC

S

G 6

7),( 52

CC

S

G

Si denominamos además, al LOVIs como Δi para cada uno de los elementos del grafo

(o sea para cada núcleo atómico), como la sumatoria sobre todos los valores de derivada

),( jiS

G

que incluyen al elemento i (combinación lineal):

11111

11110

10111

01111

01110

10110

10011

00111

01100

10010

00110

00011

10000

01000

00100

00010

00001

Q

72463

26542

451084

648126

32467

F

Page 32: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

23

),(1

jiS

Gn

j

i

( ji ) (2.6)

Obtenemos los valores de LOVIs para cada elemento serían: Δ1 = 10.58, Δ2 = 5.58,

Δ3 = 6.45, Δ4 = 12.7 y Δ5 = 10.58.

Si se observa detenidamente los valores de cada Δi, se puede notar que cada valor para

los cuatro primeros átomos (del 1-4) son diferentes, mientras que para el primero y el

quinto son iguales. Este comportamiento es lógico si tenemos en cuenta la naturaleza

química de cada uno de estos átomos, pues son precisamente los átomos de carbono

denominados 1 y 5 los únicos que poseen un ambiente químico idéntico. Además, los

valores de cada Δi pueden ser organizados en el mismo orden de su ambiente químico

estérico-electrónico. Así por ejemplo, el mayor valor de Δi lo posee el átomo menos

enterrado mientras el valor más pequeño es presentado por el átomo 2, el cual es el más

impedido estéricamente. Esto también coincide con la naturaleza del concepto de

derivada pues este átomo más enterrado es el que contribuye a la formación de la

molécula.

Hasta el momento se ha mostrado como este método recoge información topológica

de la molécula (conectividad entre los átomos en la molécula expresada a través de su

intensidad de participación en la formación de la estructura molecular) en la matriz de

incidencia; sin embargo, es necesario ampliar esta información con el propósito de

diferenciar entre los diferentes heteroátomos e instauraciones. Por tanto, se hace

imprescindible incorporar también esta información química en nuestra metódica de

trabajo, para obtener valores de la derivada LT que permitan caracterizar de forma

adecuada moléculas heteroatómicas. Tomemos como un ejemplo sencillo, la molécula

de 2-metilpropanal (ver Figura 8). Debemos considerar determinados aspectos que serán

discutidos en la medida que sean necesarios introducirlos para dicho tratamiento:

O

isobutyraldehyde

Figura 8. Estructura de la molécula de isobutiraldehído (metilpropanal).

Page 33: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

24

Para esta molécula cuyo grafo molecular es representado a continuación (ver Figura

9) podemos afirmar que la matriz de incidencia Q es idéntica a la desarrollada

anteriormente para la molécula de metilbutano; teniendo en cuenta el suceso antes

descrito.

O

c-1

c-2

c-3

c-4

Figura 9. Representación del grafo con hidrógenos suprimidos correspondiente a la

molécula de metilpropanal.

Podemos percatarnos por simple inspección de la estructura molecular que en esta

nueva molécula hay presencia de heteroátomo y un doble enlace. Introduzcamos

entonces la matriz de ponderación nxnijpP ][ , que es una matriz diagonal, donde filas y

columnas no son más que las distintas condiciones del suceso y cada elemento ip de la

diagonal le corresponde biunívocamente un peso )( i para la condición correspondiente

y cada 0 jiij pp . Los distintos pesos para cada átomo (condición, según este suceso)

pueden ser determinados según la relación

Pi (para este suceso basado en

átomos), donde P representa una propiedad característica de cada átomo (ejemplo: masa

atómica, electronegatividad, etc.) y δ es el grado del vértice. Como se ha planteado

anteriormente el grado de vértice se refiere al número de aristas incidentes al dicho

vértice y químicamente representaría la cantidad de enlaces formados por el átomo en

cuestión con sus vecinos dentro de la molécula, o sea la valencia química.

Para ilustrar este ejemplo usemos como ponderación la electronegatividad (según la

escala de Pauling) de cada átomo (condiciones). Los pesos o etiquetas para los distintos

átomos son:

75.12

5.3)( op

833.0

3

5.2)3( cp

5.21

5.2)1( cp

5.2

1

5.2)4( cp

Page 34: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

25

833.03

5.2)2( cp

Quedando la matriz de ponderación como se indica a continuación:

5.20000

075.1000

00833.000

000833.00

00005.2

P

Multiplicando ahora la matriz de incidencia por la matriz de ponderación, obtenemos

la matriz de incidencia ponderada mxnijPQ ][ , que es muy semejante a Q en su forma

solo que esta nueva matriz recoge información específica de cada átomo en la molécula

además de su conectividad con otros en dicha molécula. De donde se desprende que:

µij = pi, si la j-ésima condición está contenida en la i-ésima colección de

condiciones.

µij = 0, en caso contrario.

Para el caso que nos ocupa podemos encontrar la siguiente matriz de incidencia

ponderada PQ :

5.275.1833.0833.05.2

075.1833.0833.00

5.20833.0833.05.2

075.1833.0833.05.2

075.1833.0833.00

5.20833.0833.00

5.200833.05.2

00833.0833.05.2

075.1833.000

5.200833.00

00833.0833.00

000833.05.2

5.20000

075.1000

00833.000

000833.00

00005.2

PQ

Page 35: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

26

En lo adelante podemos continuar con la metodología antes propuesta para

determinar los valores de derivada sobre los pares de elementos del grafo. O sea,

obtenemos la matriz PQ y su transpuesta T

PQ , posteriormente realizamos la

correspondiente operación de multiplicación como ya se vio en el ejemplo anterior

( PP

T

P FxQQ ). La matriz de frecuencias ponderada PF obtenida recoge información

acerca del número de veces que participa cada elemento en la formación del grafo

molecular (según el suceso prefijado), además de su característica de participación, que

podemos entenderla como su identidad o capacidad relativa (respecto a otros átomos de

la molécula) para formar la estructura molecular.

Los valores de derivada para los pares de elementos del grafo molecular son:

17.2),( 21

CC

S

G

57.2),( 2

OC

S

G

08.4),( 31

CC

S

G

17.2),( 42

CC

S

G

12.5),( 1

OC

S

G

46.1),( 3

OC

S

G

67.2),( 41

CC

S

G

08.4),( 43

CC

S

G

75.0),( 32

CC

S

G

12.5),( 4

CO

S

G

Con estos valores calculados podemos obtener también los índices de cada átomo en

la molécula: ∆c1= 14.07, ∆c2 = 7.63, ∆c3= 10.36, ∆O= 14.30 y ∆c4= 14.07.

Puede entenderse que dado este suceso, serán posibles tantos valores de derivadas LT

como átomos tenga la molécula. Esta situación puede traer algunos inconvenientes

durante el tratamiento estadístico de la data numérica, obtenida para el conjunto de

moléculas en cuestión.

Para solucionar el problema anterior y lograr una homogeneidad en el número de

valores a obtener, podemos determinar una cantidad prefijada de descriptores totales de

la molécula, o locales sobre agrupaciones atómicas de interés (además de algunas

derivadas LT que por su relevancia deban considerarse en el análisis estadístico). Con

Page 36: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

27

este propósito, se propone la utilización de las Normas (1,2,…p) de Minskowski y la

Norma Geométrica, para su uso como descriptores totales de las moléculas y locales

sobre agrupaciones atómicas, las cuales pueden ser presentadas como sigue:

Norma p de Minskowski para cualquier molécula:

p

n

i

p

ipx

1

(2.7)

donde p puede tomar valores enteros positivos partiendo de 1, y la norma Geométrica de

la molécula:

n

n

i

i

1

(2.8)

donde n es el número máximo de derivadas LT (∆i) incluidas.

De esta forma obtenemos igual juego de números para cada molécula sin importar la

cantidad de átomos que posea, además de que también podemos obtener los valores

representativos de los grupos que nos interesen solamente. Estos nuevos índices

constituyen descriptores globales de la molécula si todos los átomos son tomados en

cuenta. Estas normas constituyen descriptores locales cuando solo una porción de los

átomos son tomados en cuenta para su cálculo. Así por ejemplo, para la molécula de

metilpropanal podemos encontrar derivadas de grupos como lo son las derivada sobre

heteroátomos y carbonos alifáticos, etc.

30.14O

E36.60

1

XE

09.40.)(1

alifcXE

74.11E

Estas Normas pueden ser usadas por otros especialistas para definir DMs de forma

global y total. Por ejemplo el índice del Estado Electrotopológico ha sido definido de

forma local y pudiera ser extendido de forma total sobre todos los átomos de la

molécula (o local sobre agrupaciones atómicas determinadas) con el uso de Normas,

como las anteriormente descritas.

2.3.2 Extensión de los GDI a relaciones atómicas n-dimensionales. Esta sección estará dedicada a explicar los aspectos referentes a la teoría que sustenta

la definición de los nuevos descriptores basados en el uso del concepto de Derivada del

Grafo sobre n-átomos.

Primeramente debe recordarse que cada suceso determina un modelo en el cual las

condiciones que se comprenden son letras del modelo y las colecciones de condiciones

Page 37: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

28

con las cuales el suceso es verdadero, son palabras del modelo. La intensidad de

participación de las condiciones se caracterizan utilizando frecuencias de inclusión

propias y simultaneas y estas frecuencias pueden agruparse en una matriz de frecuencia

F. Si solo se evalúan frecuencias simultáneas de participación de pares de elementos la

matriz F será una matriz bidimensional, cuadrada y simétrica respecto a la diagonal

principal. La riqueza de posibilidades en la definición de sucesos sugiere que existe gran

posibilidad donde aparezcan colecciones de condiciones en un modelo determinado con

las que el suceso sea cierto y participen más de dos condiciones por tanto sería posible

evaluar frecuencias de inclusión de tres, cuatro y n-elementos simultáneamente. Para

organizar las frecuencias encontradas en un modelo generado por un suceso que permita

dicha evaluación antes mencionada, tendrán necesariamente que ser matrices n-

dimensionales o hipermatrices.

2.4 Hipermatriz de frecuencia de relaciones Se denomina matriz de frecuencia F = [fij]n×n, aquella en la cual a cada fila y cada a

columna corresponde recíprocamente a una condición, y el elemento fij es igual al

número de palabras (subgrafos) que contienen las letras i y j respectivamente si i≠j. Por

otro lado si i = j entonces fi corresponde al número de palabras que contienen la letra i.

El término fi es conocido como frecuencia propia de la letra i y fij la frecuencia recíproca

de las letras i y j.

Es posible llegar a esta matriz usando un método simple exploratorio y para ilustrarlo

consideremos el siguiente ejemplo: considérese un modelo donde se tengan 16 palabras

en el idioma inglés y ninguna de ellas está repetida:

“In any reaction, enthalpy and entropy change when the reactants are used up to

obtain products.”

Supóngase que se tiene interés en encontrar el número de veces (frecuencia) que las

letras {a, e} participan simultáneamente en la formación de las palabras en la oración

anterior. Así mismo se puede observar que las letras a y e aparecen simultáneamente en

las palabras: reaction, enthalpy, change, reactants. Es decir participan cuatro veces en la

formación de la misma palabra fAE = 4. La frecuencia de participación de todos los

subgrupos de dos componentes de un par de letras i j podría ser similarmente explorada

(fij), así como la frecuencia de participación de cada una de las letras (fi) que constituyen

esas palabras. Las frecuencias son los componentes de la matriz de frecuencia, F.

Page 38: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

29

En este sentido también puede determinarse el número de veces que un subgrupo de

tres o cuatro letras participan juntas en la formación de una palabra en el modelo.

Tómese como ejemplo la participación de las letras {a, e, n} en la formación de

palabras de la oración anteriormente encerrada entre comillas.

Las letras {A, E, N} participan simultáneamente en la formación de las palabras

reaction, changes, enthalpy, es decir participan 3 veces en la formación de palabras y

frecuencia de participación es 3 (fAER= 3). Nótese también que las letras {e, n, t, y}

participan simultáneamente 2 veces en la formación de las palabras enthalpy y entropy,

es decir, la frecuencia de participación es 2. Este tipo de análisis puede ser extendido a la

exploración de subgrupos de 5, 6,7,…n letras que participan en la formación palabra. En

el presente trabajo solo se evalúan las frecuencias de participación de tres y cuatro

elementos simultáneamente.

Estas frecuencias de participación permiten confeccionar matrices de tres, cuatro o n

dimensiones, las cual pueden ser denominadas hipermatrices de frecuencia de

relaciones o matrices n-dimensionales de frecuencia de relaciones. Esta tipo de matrices

contienen frecuencias de participación simultáneas de n letras y las etiquetas de los ejes

son condiciones designadas por letras.

Dada la dificultad en la visualización de todos los elementos en las matrices de tres

dimensiones, estas matrices se separarán en n hojas o capas donde n es el número de

elementos presentes en el grupo universal de letras que constituyen las palabras.

Habiendo introducido estas ideas, se hace posible ilustrar con un ejemplo que puede

ser de gran utilidad en las presentes definiciones. Tómese como suceso S la formación, a

partir de subgrafos conexos, de un grafo molecular dado G, las condiciones (letras en el

modelo) incluidas en el suceso serán los vértices (átomos) presentes en cada colección

de condiciones (subgrafos conexos (palabras del modelo). Los conceptos grafo-teóricos

de subgrafos de orden y tipo, es decir: path (p), cluster (c) and path-cluster (pc) son

empleados como criterio para generar los subgrafos conexos.

Considérese el grafo molecular correspondiente a la molécula del N,N-

dimetilpropionamida representado en la figura 10.

Aplicando el evento anterior se encuentran todos los fragmentos moleculares que se

observan organizados en la tabla I según orden y tipo siguiendo la clasificación de Kier

Hall.

Page 39: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

30

Figura 10. A) Estructura Química y B) Grafo molecular de la N,N-

dimetlpropionamida.

Las frecuencias de participación de los grupos de vértices en la formación de

subgrafos conexos pueden evaluarse por un método simple exploratorio como se detalló

anteriormente. Por ejemplo, el grupo de vértices {C1, N2, C4} participan en la formación

de los subgrafos conexos C1-N2-C3-C4, C1-N2-C3-C4-C5, C1-N2-C3-C4-O7, C1-N2-C3-C4-

C6, C1-N2-C3-C4-C5-C6, C1-N2-C3-C4-C5-O7, C1-N2-C3-C4-C6-O7 y C1-N2-C3-C4-C5-C6-

O7, siendo la frecuencia de participación de este grupo de vértices f1, 2, 4 igual a 2 [ver la

entrada (1, 2, 4) en la matriz triple representada en la figura 11].

Tabla I. Subgrafos Conexos de todos los órdenes y tipos posibles para el Grafo

molecular de la N,N-dimetlpropionamida.

Orden Tipo Sub-grafo Orden Tipo Sub-grafo

Orden 0

paths C1

Orden 3

paths C1-N2-C3-C4

paths N2 paths C1-N2-C3-O7

paths C3 cluster C1-N2-C3-C6

paths C4 paths N2-C3-C4-C5

paths C5 paths N2-C3-C6-O7

paths C6 paths N2-C3-C4-C6

paths O7 cluster N2-C3-C4-O7

Orden 1

paths C1-N2 paths C3-C4-C5-O7

paths N2-C3

Orden 4

paths C1-N2-C3-C4-C5

paths N2-C6 paths-cluster C1-N2-C3-C4-O7

paths C3-C4 paths-cluster C1-N2-C3-C4-C6

paths C3-O7 paths N2-C3-C4-C5-C6

paths C4-C5 paths-cluster N2-C3-C4-C5-O7

Orden 2

paths C1-N2-C3 paths-cluster N2-C3-C4-C6-O7

paths C1-N2-C6 paths-cluster C1-N2-C3-C6-O7

paths N2-C3-C6

Orden 5

paths-cluster C1-N2-C3-C4-C5-C6

paths N2-C3-C4 paths-cluster C1-N2-C3-C4-C5-O7

paths N2-C3-O7 paths-cluster N2-C3-C4-C5-C6-O7

paths C3-C4-C5 paths-cluster C1-N2-C3-C4-C6-O7

paths C3-C4-O7 Orden 6 paths-cluster C1-N2-C3-C4-C5-C6-O7

Page 40: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

31

2.5 Índices de Derivada del Grafo basado en relaciones de n-

átomos Con los elementos de la hipermatriz de frecuencias es posible computar índices de

Derivada Discreta de Grafos para n-elementos según extensiones de la fórmula de

derivada de duplas, propuestas todas por Gorbatov (22). Así mismo la derivada sobre

ternas de átomos puede determinarse según:

(2.9)

Donde fi es la frecuencia propia del elemento i y fij y fijk representan las frecuencias de

participación simultáneas de los elementos ij e ijk respectivamente.

Para cuaternas de elementos la formula extendida de derivada será:

(2.10)

Donde fijkl es la frecuencia recíproca de los elementos i j k y l. En ese sentido es

posible determinar las derivadas para n-elementos de un grafo teniendo en cuenta la

siguiente formulación:

(2.11)

Partiendo de los valores de derivada, es posible, construir una matriz análoga a la

matriz de frecuencia, o sea una matriz D=[dij]nxn en la cual dij es la valor de la derivada

sobre los vértices vi y vj. Esto es generalizable para la derivada sobre ternas (vértices vi,vj

y vk) y cuaternas (vértices vi,vj, vk y vl).

3,2,1 3,2,1,,3,2,1,,

,,3,2,1

321 321

),,(mmmi mmmjiji

mmmkjikjkiji

ijkiji

mmm

ffff

mmmS

G

i

jiji

kjkijikji

lkljkjlikijilkji

ijklijkiji

mmmm

dcba fffff

mmmmS

G

dcba,

,,,,

,,,,,,,,

4321

),,,(

21

21

121

21

121

21

212121

121,

,...,...,

,...,,...,,

...

1

...

1

...

21 )1(...)1(...21

),...,(

iiii

iiiiiii

iiiiiii

iii

n

iiiii

i

i

mmm

n

nn

n

n

n

fnffff

mmmS

G

Page 41: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

32

Figura 11. Hipermatriz de tres dimensiones generada para organizar frecuencias de

participación de elementos del grafo molecular de la N,N-dimetlpropionamida.

Se calcula el índice atómico de la misma forma que se hace para duplas, o sea,

sumando todos los valores de derivada que incluyen al vértice vi o sumando los

elementos de las filas o columnas de la matriz de derivada. Por tanto el índice atómico

constituye una invariante local sobre cada vértice (LOVI), análogo al grado del vértice δ

obtenido a partir de la matriz de adyacencia usado para el cálculo de los índices de

conectividad molecular. Así para el cálculo de los LOVIs a partir de las derivadas sobre

ternas se emplean las siguiente sumatoria:

(2.12)

Para cuaternas:

(2.13)

De este modo obtendremos un vector constituido por los n LOVIs correspondientes a

los n-vértice de la molécula en cuestión.

Si se continúa con la molécula de ejemplo de la figura 10, será posible, siguiendo las

ideas anteriormente expuestas, cuantificar las derivadas sobre ternas de átomos como se

ilustra a continuación:

( )

( ) ( ) ( )

Análogamente para el resto se encuentran los valores:

n

j

n

k

i kjiS

G

1 1

),,(

n

j

n

k

n

l

i lkjiS

G

1 1 1

),,,(

Page 42: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

33

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

( )

Aplicando la ecuación 2.12 se pueden encontrar los valores de LOVIs que

organizados en forma de vector quedaría: VL = (56.704, 28.537, 26.768, 35.350, 65.650,

56.704, 54.752). Es interesante notar que los átomos 1 y 6 poseen idénticos valores de

índices atómicos, lo que coincide con la realidad química de esta estructura pues ambos

átomos son químicamente equivalentes en la estructura molecular y poseen ambientes

químicos muy similares. Así mismo se observa un decrecimiento de los valores de

Page 43: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

34

LOVIs desde los átomos externos o periféricos hacia el los átomos centrales de la

estructura, identificándose así además los átomos más internos y diferenciándoles de los

más externos.

Es posible extender esta definición local sobre átomos individuales a índices totales

y/o locales sobre agrupaciones atómicas de interés mediante la aplicación de operadores

matemáticos, colectivamente llamados invariantes como se definió en la sección

anterior. La codificación de heteroátomos y enlaces múltiples se realizan de igual

manera que para el caso de duplas, como se explicó en la sección anterior.

2.6 Química grafo-teórica y Topología molecular.

2.6.1 Introducción a la Química Grafo-Teórica y a la Topología

Molecular.

La teoría de grafos ha sido ampliamente aplicada a diversos campos de la ciencia. Un

grafo se expresa usualmente como vértices interconectados por aristas. Donde cada

vértice del grafo se representa un objeto y la arista que conecta dos vértices representa la

relación entre estos dos objetos (20, 22). En la química grafo-teórica los objetos del

grafo pueden representar orbitales, átomos (o sus núcleos), enlaces, grupos de átomos,

moléculas, o colecciones de moléculas. Las aristas de un grafo químico simbolizan las

interacciones entre objetos químicos y se usan para definir enlaces químicos, reacciones,

mecanismos de reacciones, modelos cinéticos, u otra relación o transformación de los

objetos químicos. Estas representaciones de los grafos químicos han encontrado

numerosas aplicaciones en la química, como son: 1) los índices topológicos (ITs) y otros

índices estructurales para los estudios QSAR (42-47) 2) el enfoque de orbitales

moleculares de Hückel (48, 49) 3) la enumeración de isómeros, percepción de simetría

estructural y codificación de compuestos químicos (50, 51) 4) grafos cinéticos y de

reacción (52) y 4) el diseño de síntesis asistida por computadora (53).

De todas estas aplicaciones mencionadas, la de mayor interés para el presente trabajo

es aquella relacionada con la obtención de descriptores estructurales para el diseño

molecular. Estos índices codifican información a partir de una determinada

representación simbólica de la estructura molecular.

2.6.2 Representación topológica de moléculas La representación topológica de un objeto es aquella que brinda información sobre el

número de elementos que lo componen y sus conectividades. En ese sentido, se define a

Page 44: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

35

la topología como aquella parte del álgebra que estudia las posiciones e interconexiones

de los elementos dentro de un conjunto. Si la topología es aplicada a las moléculas, da

lugar a la topología molecular (54). Por tanto, puede considerarse que una

representación topológica de la molécula puede ser obtenida utilizando un grafo

molecular.

2.6.3 Invariante grafo-teórica. Los grafos moleculares no son una representación numérica de la estructura química

y aunque las matrices sí constituyen una representación algebraica, tienen como

desventaja que no constituyen invariantes grafo-teóricas, ya que su construcción

depende de la numeración dada a los vértices del grafo.

Una invariante grafo-teórica es aquella propiedad del grafo que no depende del orden

de numeración de los elementos del mismo, las cuales pueden obtenerse por

manipulación algebraica del grafo. Por ejemplo, una simple invariante como el número

de vértices, puede obtenerse a partir de la matriz de adyacencia. Resulta evidente, que

para los estudios QSAR, el diseño de fármacos, el tamizaje virtual, etc. se necesitarían

obtener índices numéricos que caractericen estructuralmente los grafos moleculares y

que estos índices sean inevitablemente invariantes. Estos descriptores invariantes

obtenidos de representaciones grafo-estructurales de las moléculas son los conocidos

como Índice Topológico (ITs) (43-45, 55). Todas las formas de abordar el concepto de

IT son de vital importancia para el desarrollo posterior de este trabajo, como se verá más

adelante.

Hasta el momento han sido definidos y aplicados en diversos estudios teóricos un

número considerable de ITs como se mencionó en la introducción. Para facilitar su

estudio este tipo de descriptores han sido agrupados por generaciones con algunas

diferencias tangibles entre estos grupos, como se detalla en los sub-epígrafes siguientes.

2.6.4 Índices bidimensionales (2D) basados en la topología molecular.

Los índices topológicos (ITs) son descriptores moleculares que se obtienen de una

invariante grafo-teórica (29, 56, 57). Por tanto, los ITs son números calculados a partir

de la representación de una molécula como un grafo, siendo independientes de la

numeración de los vértices y aristas en el grafo molecular. Estos índices codifican

información estructural contenida en la representación bidimensional (2D) de la

molécula. La descripción ‘topológica’ de la molécula debe contener información de la

Page 45: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

36

conectividad entre átomos (o enlaces) en la molécula y codificar la talla, forma,

ramificación, heteroátomos y la presencia de enlaces múltiples (46, 58).

Un resumen completo sobre los ITs se hace muy difícil, debido a la gran cantidad de

estos índices que han sido publicados en la literatura y al número de ellos que cada año

son introducidos. Por tanto, a continuación se relacionan algunos de los ITs que más

ampliamente han sido aplicados a diferentes problemas relacionados con la estructura y

aquellos que son más importantes para los objetivos del presente trabajo. Actualmente

los ITs han sido clasificados acorde a su naturaleza en, primera, segunda y tercera

generación (59), lo cual facilita su estudio.

Un tratamiento abarcador de todos los descriptores moleculares disponibles fue

recientemente publicado por Todeschini y Consonni (9).

2.6.5 Índices topológicos de primera generación.

Los ITs de primera generación son números enteros basados en propiedades del grafo

como un todo, tales como las distancias topológicas. Los índices más representativos de

esta clase son el índice W de Wiener (60), el índice Z de Hosoya (61), y los índices B y

C de Balaban (62). De todos estos ITs solo W ha sido usado extensamente en estudios

QSAR y en el descubrimiento de nuevos fármacos. El índice de Wiener fue definido en

1947 y desde entonces ha constituido una importante fuente de inspiración para el

desarrollo de nuevos ITs.

ij

N

ijj

N

i

GDGW

11

)(2

1)( (2.14)

Los resultados obtenidos con el índice W en la modelación molecular propició la

definición de varios índices relacionados con este. Algunos de estos son el cuasi-Wiener

índice (63), el índice RDSUM (64), y el hiperíndice de Wiener (65, 66), entre otros.

La suma de los grados de cada enlace fue introducido, al mismo tiempo que el índice

de Wiener, por Platt; por lo cual este es conocido como el índice F de Platt (67). Otro de

los ITs de primera generación que también ha sido ampliamente utilizado en estudios

QSAR, es el índice de Zagreb desarrollado en 1975 utilizando las valencias de los

átomos (68).

∑ ( )

(2.15)

( ) ( ) (2.16)

Page 46: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

37

2.6.6 Índices topológicos de segunda generación.

Estos índices son números reales basados en las propiedades del grafo íntegro. La

mayoría de los ITs utilizados en los estudios QSAR y en el diseño/descubrimiento de

fármacos en estos momentos, pertenecen a esta clase. El conjunto de descriptores

moleculares más útiles de esta clase, son los llamados índices de conectividad molecular

(44, 45, 69). Estos índices están basados en una invariante grafo-teórica introducida por

Randic 39 años atrás, para computar un índice de ‘ramificación’ para los alcanos (70).

Estos índices fueron extendidos por Kier y Hall para tener en cuenta la diferenciación

entre heteroátomos y los diferentes subgrafos en la molécula. Los índices de

conectividad molecular de ‘valencia’ son expresados de la siguiente forma (44, 45, 69):

∑ ∏ (

)

(2.17)

Donde, s es el número de subgrafo de tipo t (camino, cluster, camino-cluster y

cadena) con m aristas, n es el número de vértices del subgrafo y jv

es la valencia

atómica computada utilizando la siguiente fórmula (Ec. 2.18):

(2.18)

Donde Ziv es el número de electrones de valencia del átomo i, Zi son todos los

electrones del átomo i y Hi es el número de átomos de hidrógeno unidos a este átomo.

Balaban introdujo en 1982 como modificación de los índices de conectividad el

índice J de Balaban, el cual es un índice de conectividad basado en las distancias

promedios y fue definido de la siguiente forma (71):

2/1

1

bonds

ji vDvDm

J

(2.19)

Donde D(vi) es la suma de todas las distancias topológicas relacionadas con el átomo

i. Es decir, la suma de todas las entradas de las filas o columnas de la matriz de distancia

(D) correspondiente para un átomo i; es el número ciclomático.

Gálvez y colaboradores han introducido una serie de descriptores grafo-teóricos con

el objetivo de completar la información estructural contenida en los índices de

conectividad molecular. Entre estos descriptores, de probada utilidad en el diseño de

fármacos, el índice de carga aparece entre los más interesantes (72). Los ITs de carga Gk

y Jk son definidos de la siguiente forma:

Page 47: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

38

1

1 1

),(n

i

ij

n

ij

ijk dkCTG

(2.20)

)1( nGJ kk (2.21)

Donde CTij = mij– mji, y m son los elementos de la matriz auxiliar M definida como:

M = AxD*. La matriz D

* es la matriz de los inversos de las distancias cuadradas, en la

cual sus entradas en la diagonal se toman como 0 y es la delta de Kronecker.

La mayoría de los ITs analizados hasta ahora describen la estructura de la molécula

como un todo por lo tanto pueden considerarse como descriptores moleculares globales.

Kier y Hall, a comienzos de la década del 90, introdujeron un nuevo IT denominado

índice del estado electrotopológico (E-estado); basado en una invariante grafo-teórica

para cada átomo en la molécula, representando la accesibilidad de electrones de este

átomo. Este índice puede ser considerado como un descriptor molecular local; el mismo

codifica información acerca del ambiente topológico y de las interacciones electrónicas

debidas a todos los demás átomos en la molécula. El índice del E-estado para un átomo i

en una molécula se define como (42, 46, 73,74):

j

ijii IIS

(2.22)

El término de perturbación de un átomo i por cualquier otro átomo j (se toman todos

los átomos diferentes de i) se define de la siguiente forma:

( )

(2.23)

Donde, ijd es la distancia topológica que separa los átomos i y j en el grafo

desprovisto de hidrógenos. Los valores intrínsecos son definidos como:

( )

(2.24)

Donde N es el número cuántico principal para los electrones de valencia del átomo i.

El valor de Si para un átomo i puede ser visto, como una suma de efectos de los

átomos del esqueleto molecular a varias distancias de i sobre este último:

2/4/ ij

j

ji

j

jiii dIIIIIS (2.25)

El primer término es un valor intrínseco definido con anterioridad, el segundo son las

contribuciones de los átomos enlazados y el último representa las contribuciones de los

átomos no enlazados.

Page 48: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

39

Adicionalmente, investigadores de nuestro país han realizado apreciables aportes en

la introducción de nuevos ITs. Desde mediados de los 90 Estrada y col. han definido

varios ITs, entre los que destaca como de mayor interés en estudios quimio-

bioinformáticos los Momentos Espectrales de la matriz de adyacencia entre aristas

[E(G)] de un grafo molecular (58, 75-83). De esta forma el momento espectral de orden

k se define como la traza de la k-ésima potencia de la matriz E y su símbolo esk (79). A

su vez, la traza se define como la suma de los valores de la diagonal principal. Lo

anterior se puede expresar matemáticamente de la siguiente manera:

m

iiiekkETr

k1

)(

(2.26)

Donde, keii son los elementos de la diagonal principal de la matriz E

k. De la definición

dada de E y k, se observa que los momentos espectrales son números enteros positivos.

Para lograr diferenciar las moléculas con heteroátomos a través de los momentos

espectrales, las aristas del grafo molecular son ponderadas con determinados pesos (dij),

lo que aumenta notablemente las posibilidades y versatilidad del método. Mediante los

dij se pueden introducir de manera natural, en la diagonal principal de la matriz,

propiedades medias de los enlaces como son: la distancia, la polarizabilidad, el dipolo

medio de enlace, etc. Además, se han definido los momentos espectrales locales de la

matriz de adyacencia entre enlaces del grafo molecular desprovisto de hidrógeno, (58)

pudiendo estar la matriz ponderada o no, en la diagonal principal.

Carrasco y col. introdujeron recientemente un nuevo índice denominado índice del

estado refractotopológico (i) (84). El mismo es un índice híbrido y se define como el

valor de refractividad intrínseca de un átomo i, más un término de perturbación para un

grafo sin hidrógenos suprimidos. Matemáticamente se define de la siguiente manera:

iii ARAR

(2.27)

Donde ARi el valor de refractividad intrínseca de un átomo i y ARi es un término de

perturbación definido por:

n

j

ijjii rARARAR1

2/)(

(2.28)

Marrero-Ponce y col. desarrollaron un nuevo enfoque basado en una representación

vectorial y otra matricial de la estructura molecular. Estas están a su vez relacionadas

Page 49: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

40

con la representación grafo-teórica por medio de un pseudografo de la estructura

química. Estos nuevos índices se conocen como índices cuadráticos, índices lineales e

índices bilineales por analogía a las formas cuadráticas, lineales y bilineales (15,55,

85,86). Los índices cuadráticos se definen matemáticamente de la siguiente manera (12,

85-89).

n

j

jiij

kn

i

k xxmxq11

)( =[X]tM

k[X] (2.29)

Donde, mij= mji (matriz cuadrada simétrica), n es el número de átomos de la molécula

y x1,…,xn son las coordenadas del vector molecular ( x ) en la base canónica {e1,…,en} de

Rn.

La definición local de estos descriptores se basa en invariantes grafo-teóricas para un

fragmento FR dado, dentro de un pseudografo específico y es la siguiente:

n

j

jiijL

kn

i

kL xxmxq11

)( =[X]tM

kL[X] (2.30)

Donde n es el número de átomos del fragmento de interés y kmijL es el elemento de la

fila “i” y columna “j” de la matriz Mk

L≡ Mk(G, FR) [qkL(x) ≡ qk(x, FR)]. Esta matriz se

extrae de la matriz k-ésima potencia de M y contiene la información referida a los

vértices del fragmento FR de interés y también de su entorno molecular. Todos estos

índices moleculares algebraicos basados en aplicaciones cuadráticas, lineales y formas

bilineales, están siendo utilizados de forma satisfactoria en estudios QSAR/QSPR y el

descubrimiento de nuevos compuestos bioactivos.

2.6.7 Índices topológicos de tercera generación.

Los ITs de tercera generación son números reales basados en propiedades locales del

grafo molecular. Estos índices son de reciente publicación (90-92). Otros de los ITs de

esta clase están basados en la aplicación de la teoría de la información a términos de

sumas de distancias o sobre nuevas matrices no simétricas introducidas en la literatura

(93-98).

En esta tesis se presentan nuevas familias de Índices Topo-químicos basados en la

derivada discreta de un grafo que parten de matrices no simétricas y una descripción

local a nivel atómico, por lo que perfectamente pueden ubicarse en esta última clase.

Page 50: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

41

2.7 Propiedades que debe poseer un nuevo índice topológico. M. Randic propuso una lista de propiedades que deben poseer los nuevos ITs, (99)

consideradas actualmente de muy alto nivel de sofisticación. Estas propiedades son las

siguientes:

1) Interpretación estructural directa

2) Buena correlación con al menos una propiedad

3) Buena discriminación entre isómeros

4) Localmente definidos

5) Generalizables a análogos superiores

6) Linealmente independientes

7) Simplicidad

8) No basados en propiedades físico-químicas

9) No trivialmente relacionados con otros índices

10) Eficiencia de construcción

11) Basados en conceptos estructurales familiares

12) Mostrar una dependencia correcta con el tamaño

13) Tener cambios graduales con cambios graduales en la estructura

Muchos de estos atributos tienen cierto grado de interrelación.

Al emplear los ITs para la caracterización de una molécula intrínsecamente tenemos

cierta pérdida de información, ya que se está tratando de representar un objeto

tridimensional por un número simple. Sin embargo, los ITs pueden contener una

sorprendente cantidad de información estructural sobre las moléculas, lo que los hace de

gran utilidad en los fines prácticos de sus aplicaciones. Existen dos posibilidades de

resolver la pérdida de información de los descriptores grafo-teóricos. La primera,

consiste en la generalización de un descriptor simple a análogos ‘superiores’ y segunda,

la generalización de la invariante grafo-teórica como secuencias de números. La

generalización de los índices es necesaria para salvar situaciones en las que un descriptor

simple no es suficiente y la investigación de una familia de descriptores estructuralmente

relacionados puede resolver el problema.

La independencia lineal u ortogonalidad de los índices es uno de los atributos

deseables numerados anteriormente, pues los descriptores colineales pueden afectar la

‘estabilidad del coeficiente de determinación’ y dificulta la interpretación de los modelos

obtenidos. En este sentido, es importante también que los descriptores sean ortogonales

Page 51: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

42

en relación a los restantes ITs. Esta independencia lineal de los índices significa que los

mismos conduzcan a la correlación con una propiedad que no es satisfactoriamente

explicada por los otros descriptores existentes.

La definición local de los descriptores se refiere al hecho de que estos no sean

obtenidos de forma global para una estructura molecular, sino que puedan ser definidos

sobre determinados fragmentos o átomos individuales de la propia estructura. Un índice

con esta característica aumenta notablemente sus posibilidades en la descripción de la

mayoría de las propiedades/actividades moleculares. Debe tenerse en cuenta que en

muchos casos el valor de la propiedad una sustancia depende en mayor medida de una o

varias regiones específicas de la estructura que de la molécula en su totalidad.

Lograr una interpretación en, al menos, términos estructurales, es otro de los atributos

deseables para un nuevo IT, ya que desde el punto de vista de su aplicación en estudios

QSAR, solo aquellos índices que estén basados en conceptos estructurales simples

ayudarán a interpretar propiedades complejas en términos estructurales y/o químico-

físicos.

2.8 Métodos Quimiométricos.

2.8.1 Quimiometría en la Informática Química.

El término quimiometría surgió en la década del 70 y se define como la disciplina

química que utiliza métodos estadísticos y matemáticos para seleccionar y optimizar los

métodos analíticos y preparativos, así como procedimientos para el análisis e

interpretación de los datos (100). Las técnicas utilizadas para la recopilación, la

elaboración, el análisis y la caracterización de conjuntos de datos, hoy en día, se

interceptan no solo con varios campos de la Matemática y la Estadística clásica sino

también de la Inteligencia Artificial (IA) y otras ramas de la ciencia de la computación

(101, 102). En esta sección serán abordadas solo aquellas herramientas que serán de

interés en el presente trabajo.

2.8.2 Regresión lineal múltiple (RLM)

El análisis de regresión múltiple es una técnica estadística que puede utilizarse para

analizar la relación entre una única variable dependiente (criterio) y varias variables

independientes (predictores) (103). Así mismo, la regresión múltiple remite a la

correlación múltiple, que se representa por R. Sus fundamentos se hallan en la

correlación de Pearson (104). La recta de regresión múltiple tiene la siguiente forma:

Page 52: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

43

(2.31)

Siendo ‘a’ un valor constante, Y la variable dependiente y X1, X2,…Xn variables

predictoras. Como puede observarse, la RLM puede utilizarse en la predicción de los

valores de la variable dependiente, en base a una combinación de variables

independientes y los coeficientes que ponderan las variables independientes en la

ecuación 2.31 son normalmente determinados por el método de mínimos cuadrados.

2.8.3 Principio de la parsimonia para seleccionar el número óptimo de

variables.

La R2 (coeficiente de determinación) aumenta en la medida en que se añaden

variables a la ecuación de regresión, pero a partir de cierto punto el incremento de R2

para cada nueva variable que se añade, es insignificante. Un buen modelo no debe

presentar ni demasiadas variables, ni debe olvidar las que sean verdaderamente

relevantes. Es decir, debe cumplir el principio de parsimonia, según el cual un

fenómeno debe ser descrito con el número mínimo de elementos posibles.

Diversos procedimientos se han propuesto para seleccionar el número óptimo de

variables a incluir en la ecuación, como por ejemplo la ‘forward selection’, ‘backwar

delimination; y ‘stepwise selection’ (105). Este último método es el más utilizado (es

una combinación de los dos anteriores) y sigue un proceso de selección de variables

paso a paso.

2.8.4 Análisis de la varianza.

El ANOVA (ANalysis Of VAriance) sirve para comprobar la hipótesis de que R2 = 0.

La variabilidad total de la variable dependiente se divide entre la parte atribuible a la

regresión y la parte residual. La distancia de un punto cualquiera Yi a la Y se sub-divide

en dos partes (104):

YYYYYY iiii

(2.32)

Siendo iY el valor predicho por la ecuación de predicción. El valor

ii YY ,

denominado residual de la regresión sería cero si la recta pasase exactamente por encima

del punto Yi. El otro valor, YYi corresponde a la distancia explicada por la regresión y

representa el aumento en la estimación de Yi mediante la recta de regresión.

Page 53: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

44

2

2

2 1

yyi

yiyi

q

En el ANOVA, F viene dada por:

residual

regresion

MC

MCF

(2.33)

Esta F sigue una distribución F de Snedecor con grados de libertad v1 = υ, v2 = n- υ -

1; siendo υ el número de variables de la ecuación. La media cuadrática (MC) se obtiene

dividiendo la suma de cuadrados por los grados de libertad. La F sirve para comprobar si

el modelo de regresión se ajusta a los datos y permite evaluar si se rechaza la hipótesis

nula, según la cual, R2 = 0. Es interesante observar, que si el modelo se ajusta a los

datos, el coeficiente de determinación (R2) se puede calcular a partir de las suma de

cuadrados (SC) del ANOVA mediante:

total

residual

SC

SCR 12

(2.34)

2.9 Validación Interna y Externa de modelos.

2.9.1 Validación Interna.

La validación cruzada (VC) opera haciendo un número (X) de reducidas

modificaciones al conjunto de compuestos de la data original y entonces calcula la

precisión de las predicciones de cada uno de los resultados de los modelos (106, 107).

Es decir, se ajusta el modelo a los nuevos datos, dejando la parte omitida fuera, y estos

se evalúan en el modelo para computar las predicciones de los casos que fueron

excluidos. Este procedimiento se repite para cada conjunto de datos modificados. El

poder predictivo del modelo puede expresarse como q2, denominado como la ‘varianza

predictiva’ o la ‘varianza de la validación cruzada’, la cual es igual a (1-PRESS/SSY), o

sea que puede ser calculado acorde a la siguiente fórmula:

(2.35)

Donde, ̂ ̅ es la respuesta observada, estimada y media del i-ésimo caso,

respectivamente. Cuando se utiliza un solo compuesto en cada grupo de VC (lo cual da

N grupos), el procedimiento se conoce como dejar “uno” fuera (LOO, acrónimo de

Leave-One-Out). No obstante, Shao ha mostrado que desde el punto de vista teórico y

práctico, el procedimiento de dejar ‘varios’ fuera(LSO, acrónimo de Leave-Several-Out)

es preferible al LOO (108). En la técnica de re-muestreo (109-111) se seleccionan varias

muestras (miles o cientos de miles) de un conjunto de datos de forma aleatoria con

Page 54: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

45

reemplazo para crear “pseudorréplicas” de la data, y se calculan los estadísticos

relevantes para cada pseudorréplica, de las cuales se construye una distribución de re-

muestreo. El promedio de esta distribución constituye el estimado del re-muestreo. El

método del revuelto es empleado para evaluar la correlación al azar (112, 113). En esta

técnica, se calcula un modelo de regresión lineal para la verdadera variable respuesta (y)

junto con un número de regresiones repetidas (200-300 veces) con las mismas variables,

pero con la variable dependiente aleatoriamente revuelta (ỹ). Luego se calcula para cada

modelo la varianza explicada Q2

LOO, y se evalúa la correlación entre la respuesta

verdadera y la revuelta de la siguiente manera:

( )̃ (2.36)

Donde, la es la varianza explicada para el modelo obtenido con los mismos

predictores teniendo el k-ésimo vector revuelto, es la correlación entre los vectores

para la respuesta verdadera y la k-ésima revuelta. Un valor del intercepto cercano a cero

implica que el modelo no es obtenido al azar mientras que un intercepto grande indica

que los modelos aleatorios poseen el mismo desempeño que el modelo verdadero, por lo

que se pudiera considerar aleatorio.

2.9.2 Validación externa.

La validación externa permite evaluar si los modelos obtenidos son generalizables a

nuevos compuestos químicos y el “verdadero” poder predictivo de los mismos (112).

Para esto se divide la data en 2 conjuntos: la serie de entrenamiento (sirve para construir

el modelo) y la serie de predicción (no utilizada en la selección de variables ni en el

desarrollo del modelo, pero usada exclusivamente para evaluar el modelo tras su

formación).

2.10 Outliers. Técnicas para la selección de los mismos. Los ‘outliers’ son puntos que se desvían significativamente del modelo encontrado

(no se ajustan al modelo) o son pobremente predichos por estos, afectando los

parámetros estadísticos del mismo (114). Generalmente, la identificación de ‘outliers’

busca un mejoramiento cualitativo del modelo. Un buen ejemplo ha sido mostrado por

Cronin y col. en la modelación de la toxicidad de compuestos carbonílicos alifáticos

para T. Pyriformis (115). En este estudio, para un total de 140 compuestos solo se

obtuvo un moderado ajuste estadístico (R2 = 0.753). Sin embargo, al remover cinco

Page 55: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

46

outliers R2

aumentó hasta 0.853 (115). Existen varias técnicas para detectar la presencia

de ‘outliers’, tales como: los análisis de los residuales estandarizados, los residuales

studentizados, el método de Leverage, la estadística DFITS, la distancia de Cook y el

método de dejar “varios” fuera.

2.11 Algoritmo Genético como método de selección de

parámetros. Cuando se habla de algoritmos genéticos, hay que mencionar a John Holland que en

1975 sienta las bases para sus posteriores desarrollos hasta llegar a lo que se conoce hoy

por algoritmos genéticos actuales. Según D. Goldberg los AGs son:

Algoritmos de búsqueda basados en los mecanismos de selección natural y genética

natural. Combinan la supervivencia de los más compatibles entre las estructuras de

cadenas, con una estructura de información ya aleatorizada, intercambiada para construir

un algoritmo de búsqueda con algunas de las capacidades de innovación de la búsqueda

humana (116).

Un AG no es más que un método de búsqueda que imita la teoría de la evolución

biológica de Darwin (1859) para la resolución de problemas. Para ello, se parte de una

población inicial de la cual se seleccionan los individuos más capacitados para luego

reproducirlos y mutarlos, y de esa forma obtener finalmente la siguiente generación de

individuos que estarán más adaptados que la anterior generación.

En la naturaleza todo el proceso de evolución biológica se hace de forma natural pero

para aplicar el AG al campo de la resolución de problemas habrá que seguir una serie de

pasos. Como premisa se debe conseguir que el tamaño de la población sea lo

suficientemente grande para garantizar la diversidad de soluciones. Se aconseja que la

población sea generada de forma aleatoria para obtener dicha diversidad.

Los pasos básicos de un algoritmo genético son:

• Evaluar la puntuación de cada uno de los cromosomas generados.

• Permitir la reproducción de los cromosomas siendo los más aptos los que tengan

más probabilidad de reproducirse.

• Con cierta probabilidad de mutación, mutar un gen del nuevo individuo generado.

• Organizar la nueva población.

Estos pasos se repetirán hasta que se dé una condición de terminación. Se puede fijar

un número máximo de iteraciones antes de finalizar el algoritmo genético o detenerlo

cuando no se produzcan más cambios en la población (convergencia del algoritmo). Esta

Page 56: Nuevos Índices Topo-químicos para codificar la estructura ...

MARCO TEÓRICO

47

última opción suele ser la más habitual. La figura 12 muestra el esquema general de un

algoritmo genético simple.

Figura 12. Esquema general de un AG simple.

2.12 Análisis de Variabilidad (AV).

El método de AV, propuesto por Godden y colaboradores, (60, 117) cuantifica el

contenido de información y, por lo tanto, la variabilidad de los DMs, basado en el

concepto de entropía de Shannon. Para esto se introduce un procedimiento de

discretización empleando los histogramas de distribución de frecuencias. Sea p(x)i la

probabilidad de que el caso c esté en intervalo i, para un número de intervalos N se

construye una función de distribución de probabilidades, P(X), a la cual se le aplica la

ecuación:

(2.37)

De esta forma se obtiene la entropía de cada variable (DMs), siendo elevada para

variables de alta variabilidad y mínima para las de poca variabilidad en la data. De esta

manera, esta técnica permite evaluar la calidad de los DMs como entidades

independientes y se ha utilizado en la literatura para comparar el desempeño de

conjuntos de DMs implementados de diferentes paquetes computacionales, así como en

estudios de diversidad molecular (97,118,119).

Page 57: Nuevos Índices Topo-químicos para codificar la estructura ...

MATERIALES Y MÉTODOS

“La educación es aquello que permanece cuando uno ha olvidado todo lo aprendido en

el colegio.” Albert Einstein

Page 58: Nuevos Índices Topo-químicos para codificar la estructura ...

MATERIALES Y MÉTODOS

48

3 MATERIALES Y MÉTODOS.

3.1 Bases de datos empleadas. En este trabajo se utilizaron 9 bases de datos congenéricas, con compuestos

agrupados y reportados por Sutherland y colaboradores (120), las cuales han sido

ampliamente utilizadas con el fin de validar descriptores moleculares tanto 3D como 2 y

2.5D. Las mismas cuentan con un total de nueve conjuntos de datos de compuestos de

diferentes familias cada una con su actividad reportada pIC50(concentración inhibitoria

media) y pKi (constante de inhibición), agrupadas de la siguiente manera: A) ACE

cuenta con 114 compuestos inhibidores de la enzima convertidora de angiotensina, con

valores de actividad inhibitoria dispersados en un amplio rango, los valores pIC50 van

desde 2,1 hasta 9,9; B) AchE, la misma dispone de 111 compuestos inhibidores de la

acetilcolinesterasa, con valores de pIC50 que van desde 4,3 a 9,5; C) BZR presenta un

conjunto de 163 ligandos del receptor de benzodiacepinas, donde los valores de pIC50 se

encuentran dispersos desde 5,5 a 8,9; D) COX2 la cual cuenta con un total de 322

inhibidores da la enzima ciclooxigenasa-2, los inhibidores de esta familia presentan

valores de pIC50 que van de 4,0 a 9,0; E) DHFR presentando un total de 397

compuestos, todos inhibidores de la enzima dihidrofolato reductasa, la enzima utilizada

para la evaluación de la capacidad inhibitoria de estos compuestos fue extraída del

hígado de rata y muestran valores de pIC50 entre 3,3 y 9,8; F) GPB la misma presenta 66

inhibidores de la glucógeno fosforilasa-b y presentan valores de pKi entre 1,3 y 6,8; G)

THER, la cual dispone de 76 inhibidores de la termolisina , los cuales presentan valores

de pKi entre 0,5 y 10,2; H) THR que presenta 88 inhibidores de la trombina y presentan

valores de pKi que van desde 4,4 a 8,5. En la figura 13 se muestran algunos compuestos

presentes en estas bases de datos.

Page 59: Nuevos Índices Topo-químicos para codificar la estructura ...

MATERIALES Y MÉTODOS

49

Figura 13. Compuestos representativos de las primeras 8 bases de datos: (A)

Enalapril (ACE); (B) E2020 (AchE); (C) Ro14-5974 (BZR); (D) Celecoxib (COX2);

(E) Metrotexato (DHFR); (F) Espirohidantoinaglucopiranosa (GPB); (G) ZPLA

(THER); (H) Nafto-derivado del 4-TAPAP (THR) (120).

Los compuestos en cada base de datos fueron divididos en serie de entrenamiento y

serie de predicción. Alrededor del 33% de los compuestos fueron asignados a la serie de

predicción, mientras que los restantes componen la serie de entrenamiento. El

procedimiento de selección de ambos conjuntos fue desarrollado por Sutherland y

colaboradores (120).

Además fue utilizada la base de datos de esteroides de Cramer, la cual también

pertenece al conjunto de datas reportadas por Sutherland como adecuada para validar

descriptores moleculares; la misma cuenta con 31 compuestos mostrados algunos en la

figura 14 a la cual se le modela la (constante de afinidad) escrita por pK (log1/K). En el

estudio todos los compuestos fueron incluidos en la serie de entrenamiento (121). A

continuación se muestran algunos compuestos representantes de esta data:

Figura 14. Algunos de los compuestos del conjunto de datos de los esteroides de

Cramer.

Page 60: Nuevos Índices Topo-químicos para codificar la estructura ...

MATERIALES Y MÉTODOS

50

3.2 Herramientas computacionales.

3.2.1 Programas Informáticos desarrollados en el CAMD-BIR.

3.2.1.1 DIVATI Software. Cálculo de los nuevos Índices de Derivada del Grafo.

La definición de los nuevos DMs tiene como propósito final su uso como una

herramienta para el diseño molecular y diversos estudios teóricos, es por ello muy

importante facilitar, desde un punto de vista computacional, el cálculo de estos

descriptores para que pueda ser utilizado por cualquier investigador interesado, sin que

el mismo cuente con grandes conocimientos de informática. Con este fin se desarrolló

un programa informático interactivo en el lenguaje de programación JAVA (Figura 15)

denominado DIVATI (Acrónimo DIscrete DeriVAtive TypeIndices), un nuevo módulo

del programa TOMOCOMD-CARDD (122) 1.0 (acrónimo de TOpological Molecular

COMputer Design Computed-Aided ‘Rational’ Drug Design). Este programa carga las

estructuras en ficheros de formato .MDL, .mol y .sdf y permite salvar los descriptores

calculados en ficheros de tipo .txt, .xls, .xlsx y .csv.

Figura 15.Interfaz gráfica del programa TOMOCOMD-CARDD y su módulo

DIVATI.

Este software facilita el cálculo de todas las familias de Nuevos índices basados en la

Derivada Discreta de un Grafo: Derivadas, Derivadas de Orden Superior y Derivadas

Mixtas, sobre pares (duplas), tríos (ternas) y cuartetos (cuaternas) de átomos en

cualquier tipo de estructura química orgánica (excluyendo macromoléculas poliméricas).

Para la diferenciación atómica se dispone de una serie de 21 ponderaciones (etiquetas)

atómicas, agrupadas en tres grandes grupos: Químicas [Número atómico (Z), Volumen

Page 61: Nuevos Índices Topo-químicos para codificar la estructura ...

MATERIALES Y MÉTODOS

51

de Van der Walls (W), Polarizabilidad (P), Masa atómica (A), Radio covalente (R),

Electronegatividad de Pauling (E)], Físicas [Área superficial polar total (T),

Contribución atómica al logP (G), contribución atómica a la refractividad molar (M),

Carga (C)] y Topológicas basadas en diferentes criterios de Grados del Vértice [Grado

de valencia (N), Conectividad excéntrica (Y), Estado Electrotopológico (S), Grado del

vértice de Kupchik (K), Estado Intrínseco (I), Grado del vértice de enlace (B), Grado del

vértice de Li (D), Grado del vértice de Hu-Xu (H), Grado del vértice de Alikhanidi (L),

Grado del vértice deIvanciauc (V), Conteo de distancias (O)]. El programa permite

además realizar cálculos locales atómicos individuales y para grupos de átomos

[Heteroátomos (HT), Halógenos (HL), Aceptores de protones (AH), Donantes de

protones (DH), Carbonos Metilos (MC), Insaturaciones (IS), Grupos a una longitud k

(GL)]. Para los cálculos locales de grupos de átomos se aplican operadores matemáticos.

Si al evaluar estos operadores se tienen en cuenta todos los átomos de la molécula el

resultado será un cálculo global (total) de la molécula. En el software DIVATI estos

operadores han sido denominados colectivamente como invariantes y agrupados en

Normas, Medias, Estadísticos en Algoritmos Clásicos y constituyen una generalización

del uso de la combinación lineal de las contribuciones atómicas para definición global

de la molécula.

3.3 IMMAN Software. Análisis de Variabilidad (AV). La calidad de los nuevos descriptores, que se proponen en este trabajo, puede ser

evaluada y comparada si se emplea la técnica de AV basada en el cálculo de la SE para

estos índices (119, 123). Con esta técnica se estima la cantidad de información

codificada por los diferentes parámetros moleculares, como entidades independientes, y

luego se comparan los valores entrópicos de estos. Es importante en este método definir

el número de intervalos discretos a emplear, el cual es único para todas las variables que

se comparen. Esto permite que los DMs de diferentes unidades y rangos de valores sean

comparables. Adicionalmente, para comparaciones lógicas, es deseable que las datas que

se comparen tengan el mismo número de variables, por lo que en estudios donde se

compararon datas con diferentes números de variables, se aplicaron puntos de corte

teniendo en cuenta la de menor número de variables.

Con motivo de realizar el análisis de variabilidad de los parámetros moleculares

propuestos en el presente trabajo, se ha implementado una herramienta computacional

Page 62: Nuevos Índices Topo-químicos para codificar la estructura ...

MATERIALES Y MÉTODOS

52

fundamentada en los conceptos de la teoría de información la cual se denomina IMMAN

(acrónimo de Information Theory based CheMoMetric ANalysis). Esta aplicación

permite el cálculo de la Entropía de Shannon (SE) a los DMs, además de otros

parámetros derivados de transformaciones matemáticas de la SE, tales como: la entropía

de Shannon estandarizada (sSE), la Negentropía (nSE), el índice de redundancia de

Brillouin (rSE), el índice de Gini (gSE) y el contenido de la energía de información

(iSE). Otros parámetros basados en la teoría de información implementados en este

programa incluyen la entropía diferencial generalizada (DSE) y la información de

Jeffrey (JI). Los formatos de ficheros de entrada para el IMMAN incluyen .txt (tabbed

ASCII files) y .csv (comma-separated value files). En la Figura 16 se muestra la

interfaz gráfica del software (aplicación visual).

Figura 16. Interfaz gráfica del programa IMMAN.

3.4 MobyDigs software. Regresión Lineal Múltiple (RLM). Los modelos de regresión QSAR (acrónimo de Quantitative Structure-Activity

Relationship) se obtuvieron con el programa MOBYDIGS (versión 1.0 – 2004) (124).

Los pesos de cada descriptor en la ecuación de regresión son determinados por el

Page 63: Nuevos Índices Topo-químicos para codificar la estructura ...

MATERIALES Y MÉTODOS

53

método de mínimos cuadrados. Este programa utiliza el Algoritmo Genético como

método de selección de parámetros, lo que le permite evaluar un número elevado de

variables. En este estudio QSAR, se determinó el tamaño (grado de libertad) deseado

para los modelos a generar. Se optimizaron los modelos usando como función objetivo

(función de optimización) del algoritmo genético el estadístico Q2

LOO y se validaron

empleando las técnicas de re-muestreo [bootstrapping (Q2boot)], revuelto [Y-

scrambling:a(R2), a (Q

2)] y validación externa (Q

2ext). La selección del mejor modelo

fue desarrollada en términos del mayor coeficiente de correlación al cuadrado

[Coeficiente de determinación, (R2)] o de la F-test (razón de Fisher a nivel-p [p(F)]) y

la(s) ecuación(es) de la desviación estándar más baja. Se analizaron los parámetros

estadísticos Q2

LOO (validación cruzada “dejando uno afuera”) y el Q2

boot para evaluar la

calidad de los modelos. En la figura 17 podemos ver este software.

Figura 17. Imagen del software MobyDigs utilizado para la obtención de los

modelos de regresión lineal.

Page 64: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS “Lo más hermoso que podemos experimentar es

lo misterioso. Es la fuente de todo arte verdadero y la ciencia.”

Albert Einstein

Page 65: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

54

4 ANÁLISIS Y DISCUSIÓN DE LOS RESULTADOS.

4.1 Nuevos Índices basados en conceptos de Derivada Discreta

de un Grafo de Orden Superior y Derivada Mixta. Teoría y

Aplicaciones.

4.1.1 Índices de Derivada de Orden Superior. Definición.

Para ilustrar la teoría que sustenta los índices de derivada discreta de orden superior

se hará uso de conceptos elementales de derivada discreta, mostrados anteriormente (ver

capítulo 2). Los conceptos y definiciones de este epígrafe serán introducidos a través de

un ejemplo y para ello se utilizará una molécula de estructura sencilla como la de

alanina, cuya estructura química se muestra a continuación (ver figura 18).

Figura 18. Estructura química de la molécula de alanina (ácido α-amino

propanoico.)

Obviando los átomos de hidrogeno y considerando cada átomo de carbono como un

vértice y los enlaces entre ellos, aristas, podemos entonces representar dicha molécula

con el siguiente grafo molecular:

Figura 19. Grafo molecular con hidrógenos suprimidos de la molécula de alanina

(ácido α-amino propanoico.)

Este grafo está en correspondencia con la estructura química anterior y en el mismo,

los átomos (vértices) se encuentran etiquetados con las letras y números: N1, C2, C3, C4,

O5, y O6. A su vez las letras minúsculas: a, b, c, d, y e constituyen aristas que

representan los enlaces químicos establecidos entre dichos átomos. Escójase entonces

uno de los sucesos anteriormente mencionados (capítulo 2): Subgrafos conexos.

Aplicando este suceso al grafo antes planteado se obtienen los siguientes subgrafos:

Page 66: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

55

Orden 0: N1, C2, C3, C4, O5, O6.

Orden 1: N1- C2; C2-C4; C2-C3; C3-O5; C3-O6.

Orden 2: N1-C2-C3; N1-C2-C4; C2-C3-C4; C2-C3-O6; C2-C3-O5; C3-O5-O6.

Orden 3: N1-C2-C3-O5; C2-C3-C4-O5; C2-C3-C4-O6; N1-C2-C3-O6; N1-C2-C3-C4; C2-C3-O5-O6.

Orden 4: N1-C2-C3-O5-O6; N1-C2-C3-C4-O5; N1-C2-C3-C4-O6; C2-C3-C4-O5-O6.

Orden 5: N1-C2-C3-C4-O5-O6.

Estos fragmentos moleculares han sido organizados según su orden correspondiente

sin exclusiones de tipo. Los mismos pueden ser utilizados para construir la matriz de

incidencia Q y/o como base para la construcción de las hipermatrices de frecuencia n-

dimensionales. En este ejemplo se evaluarán solo derivadas de pares y por tanto

mostrará solo la correspondiente matriz de frecuencia de relaciones bidimensional.

Por tanto el suceso prefijado determina las correspondientes matrices de incidencia y

de frecuencia que se muestran a continuación:

Q =

Puede caracterizarse la intensidad de participación de los diferentes pares de elementos

(átomos en la molécula o vértices en el grafo) a partir del cálculo de la derivada para

pares de elementos:

1 1 1 1 0 0

0 1 1 0 1 1

1 1 1 1 1 1

1 0 0 0 0 0

0 1 0 0 0 0

0 0 1 0 0 0

0 0 0 1 0 0

0 0 0 0 1 0

0 0 0 0 0 1

1 1 0 0 0 0

0 1 1 0 0 0

0 1 0 1 0 0

0 0 1 0 1 0

0 0 1 0 0 1

0 0 1 0 1 1

1 1 0 1 0 0

1 1 1 0 0 0

0 1 1 0 1 0

0 1 1 1 0 0

0 1 1 0 0 1

0 1 1 1 1 0

0 1 1 1 0 1

1 1 1 0 0 1

1 1 1 0 1 0

1 1 1 0 1 1

1 1 1 1 1 0

1 1 1 1 0 1

0 1 1 1 1 1

101 25 15 38 41 20

25 14 8 21 23 11

15 8 8 13 21 10

38 21 13 71 35 17

41 23 21 35 130 29

20 11 10 17 29 32

F =

Page 67: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

56

49.2),( 21

CN

S

G

08.5),( 31

CN

S

G

75.3),( 54

OC

S

G

47.2),( 41

CN

S

G

42.4),( 61

ON

S

G

93.3),( 64

OC

S

G

54.3),( 51

ON

S

G

02.2),( 62

OC

S

G

5.3),( 65

OO

S

G

60.0),( 32

CC

S

G

12.4),( 43

CC

S

G

31.4),( 53

OC

S

G

97.1),( 42

CC

S

G 18.4),( 52

OC

S

G

71.1),( 63

OC

S

G

Como se ha visto en epígrafes anteriores con los valores de derivada se puede organizar

la matriz de derivada. En la misma se encuentra etiquetadas tanto las filas como las

columnas con átomos de la estructura molecular que se describe y cada elemento de la

misma le corresponde biunívocamente el valor de la contribución simultánea y no

homogénea un par de átomos en la confección del modelo prefijado por el suceso. Los

elementos de esta matriz servirán de base para continuar el cálculo de la segunda

derivación como se detallará en breve.

La presencia de heteroátomos y enlaces múltiples es codificada siguiendo los mismos

procedimientos matemáticos descritos en los epígrafes anteriores y se desarrollan

siempre durante el primer proceso de derivación. Para este tipo de derivación

igualmente las etiquetas de cada átomo y su ambiente electrónico pueden codificarse en

la matriz de incidencia, en la matriz de derivada y se mantiene además la posibilidad de

no ponderación. En estas derivadas de orden superior no se pondera en el vector de

LOVIs debido a que el primer proceso de derivación solo llega hasta la obtención de la

matriz de derivadas y a partir de ahí se continúa hacia el segundo proceso de derivación.

Si se vuelve a derivar con respecto al mismo suceso antes utilizado (subgrafos

conexos) se obtiene una matriz de incidencia de orden superior [ ]

(s: toma

números enteros positivos partiendo de 2 y denota el orden de la derivada) con los

mismos subgrafos pero ahora en las columnas a diferencia de la matriz anterior se

tienen pares de átomos y cada elemento de esta matriz se corresponde con el valor de la

Page 68: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

57

derivada del par de átomos enlazados, si dicho par está incluido en el subgrafo

correspondiente, o es cero en caso contrario. Como se muestra a continuación:

{

⁄ ( )

La transpuesta de esta matriz, multiplicada por ella misma permite obtener la matriz

de frecuencia. Esta matriz de frecuencia mantiene la característica de ser cuadrada y

simétrica respecto a la diagonal principal, solo que ahora a cada columna y fila

corresponde biunívocamente un par de átomos enlazados según el suceso escogido con

valor de derivada distinto de cero o infinito. Cada elemento de esta matriz cuantifica el

número de veces que se incluyen simultáneamente los dúos de pares de átomos en el

modelo que hace cierto el suceso escogido para fragmentar la estructura molecular, y

esta frecuencia esta ponderada a su vez por las correspondientes intensidades de

participación de dichos pares de pares de átomos en el evento durante la primera

derivación. Para el ejemplo de la molécula de la figura 18 la matriz de frecuencia se

muestra a continuación. Por comodidad para ilustrar esta matriz y con el objetivo de que

no se haga excesivamente grande su imagen, se exponen las frecuencias sin cifras

decimales:

62 101 30 35 44 12 25 41 20 41 43 17 19 20 17

101 206 50 71 89 24 39 85 41 84 88 35 38 40 36

30 50 30 17 21 10 24 20 9 41 21 8 19 19 9

35 71 17 50 31 9 13 59 14 29 61 12 27 14 25

44 89 21 31 78 10 17 36 35 36 38 30 17 35 31

12 24 6 6 10 9 10 20 9 20 21 8 9 10 8

24 39 24 13 17 10 38 32 15 65 34 13 29 31 14

41 85 20 59 36 20 32 139 33 69 144 29 63 33 59

20 41 10 14 35 10 15 33 32 33 35 28 15 32 28

41 83 40 29 36 19 64 69 33 136 71 28 62 65 29

42 87 21 61 38 20 33 144 34 71 185 37 65 34 75

17 34 8 12 30 8 13 28 27 28 37 29 13 27 30

18 38 18 26 16 9 29 62 15 62 65 13 56 29 26

19 39 19 13 34 10 30 32 31 65 34 27 29 62 28

17 35 9 24 30 8 13 58 28 29 75 30 26 28 61

Las derivadas de pares de pares de átomos pueden ser evaluadas a partir de los

elementos de la matriz de frecuencia usando la fórmula 4.1:

[( )( )]

( )( )

( )( ) (4.1)

Fp=

Page 69: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

58

Estas derivadas pueden ser organizadas en forma de matriz de derivadas D, y la

combinación lineal de todos los elementos de filas y columnas permite obtener el vector

de los LOVIs correspondientes a pares de átomos conectados a una distancia de orden k

especificada según el modelo escogido. Para la molécula de alanina mostrada como

ejemplo en la figura 18 y 19, los valores encontrados para los pares de átomos

conectados después de la segunda derivación, usando subgrafos conexos y

electronegatividad de Pauling para ponderar en la matriz de incidencia son:

39.01 47.30 54.21 42.72 44.00 65.07 40.88 40.91 37.04 39.52 52.20 43.55 43.09 43.57 50.25

Los números anteriores son una expresión de descripción local sobre pares de

átomos. Esta derivación abre una puerta claramente visible para la compactación de

información que podría ser utilizada en varias aplicaciones de informática química,

como puede ser la descripción de macromoléculas (ácidos nucleicos, proteínas, etc.) Al

aplicar las invariantes conocidas a todos estos valores de LOVIs se obtienen diferentes

descripciones globales de la molécula (si se tienen en cuenta todos los valores de LOVIs

de pares) o locales sobre tipos de átomos de interés. En el caso de descripciones locales

sobre tipo de átomos específicos, las invariantes involucran solo los valores de pares de

átomos correspondientes a, al menos, un tipo de átomo considerado en la clasificación

previamente escogida [ej. Heteroátomos (HT), Insaturaciones (IS), etc.] La Norma 1 y

la Media Aritmética como descriptores totales de la molécula de alanina serían:

N1 = 683.32 y A = 45.55

Mientras que la Media Geométrica y la varianza encontrada para los heteroátomos

presentes tendrán valores de:

G (HT)= 43.91 y V (HT)= 23.97

4.2 Índices de Derivada Mixta del Grafo. Definición.

La posibilidad de determinar derivadas de orden superior, sugiere la idea de

encontrar derivadas mixtas, si se sigue el mismo procedimiento anterior solo que la

segunda derivada se desarrolla respecto a un evento diferente del usado en la primera

derivación.

Para ilustrar como puede evaluarse la Derivada Mixta de un grafo molecular se

empleará como ejemplo la misma molécula de alanina utilizada en el epígrafe anterior

(figura 18 y 19). La primera derivación se desarrollará a partir de un modelo generado

por el evento multiplicidad y la segunda derivación se hará respecto al evento subgrafos

Page 70: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

59

conexos con matriz generalizada. Para diferenciar los átomos se utilizará la

electronegatividad según la escala de Pauling y se ponderará en la matriz de incidencia.

Las matrices de incidencia y frecuencia de la primera derivación serán:

1 1 0 0 0 0

0 1 1 0 0 0

0 1 0 1 0 0

0 0 1 0 1 0

0 0 2 0 0 2

Con los elementos de la matriz de frecuencia se calculan entonces los valores de

derivada como se ha visto en todos los epígrafes anteriores.

Con todos esos valores de derivada para cada par de átomos, se forma la matriz de

derivada, la cual es simétrica respecto a la diagonal principal y los elementos de la

diagonal son todos iguales a cero. Los elementos de esta matriz sirven de base para la

confección de la matriz de incidencia de la segunda derivación pues solo aparecerán en

las columnas los pares de átomos con valores de derivada distinta de cero o infinito.

El sistema de ponderación es idéntico a como se explicó en la sección anterior,

durante la definición de los GDI de Orden Superior.

La matriz de incidencia en este caso tendría una forma similar a la matriz de orden

superior, según lo expuesto anteriormente, pero los fragmentos moleculares organizados

en las filas ahora son diferentes, pues para la segunda derivación en Derivada Mixta la

molécula se fragmenta según el modelo generado por un suceso diferente del que se usó

en la primera derivación. La afirmación anterior sugiere inmediatamente que (análogo a

como ocurre con la derivada mixta del análisis matemático) el orden de los eventos no

es invariante a la derivación. Una vez construida la matriz de incidencia, se determina la

matriz de frecuencia como se ha venido explicando a lo largo del capítulo. Para la

molécula de alanina que se ha seguido como ejemplo la matriz de frecuencia encontrada

en la segunda derivación, ahora con subgrafos conexos, es:

9 3 0 0 0 0

3 2 1 2 0 0

0 1 2 0 2 4

0 2 0 7 0 0

0 0 2 0 12 0

0 0 4 0 0 12

58 126 24 44 12

126 676 104 234 65

24 104 40 36 10

44 234 36 203 28

12 65 10 28 16

Q= F =

Fp=

Page 71: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

60

Los elementos de esta matriz son la base del cálculo de las derivadas de pares de

átomos utilizando la ecuación 4.1 y cuyos valores pueden ser organizados como matriz

de derivadas de pares de pares y así facilitar el cálculo de los correspondientes LOVIs

de pares de átomos como combinación lineal de los elementos de las filas o columnas

de la matriz de derivada (ver ecuación 4.2)

[( )( )]

( ) ( ) (4.2)

Para la molécula de alanina los valores de LOVIs encontrados son:

8.54 11.75 0.00 8.31 9.95 54.81 0.00 9.42 10.38 0.00 22.54 13.18 0.00 0.00 17.78

Por su parte pueden ser evaluados también índices globales y locales sobre tipos de

átomos de interés de la misma forma que se expuso para la obtención de los mismos en

derivadas de orden superior.

4.3 Estudio QSAR-Comparativo de los GDI basados en

conceptos de Derivada de Orden Superior y Derivada

Mixta.

4.3.1 Estudio QSAR de la base de datos de esteroides.

Después de haber definido los conceptos fundamentales que acotan los nuevos

índices de Derivada de Orden Superior y Derivada Mixta, en esta sección se propone

evaluar la calidad de su desempeño en la descripción de la estructura molecular y

posible utilización en estudios de bioinformática química de manera general. Para ello

se utilizó la base de datos de esteroides de Cramer, que contiene 31 compuestos y a la

cual se le modela la constante de afinidad al sitio activo de la enzima CGB (Globulina

humana) escrita como el pK (log 1/K). Esta data ha sido reportada como una de las más

indicadas a utilizar en validaciones QSAR de nuevos descriptores, y fue utilizada en

primer lugar por Cramer y colaboradores (121,125,126).

Cálculos

Se desarrollaron cálculos de los Índices de Derivada del Grafo (GDI) para pares,

ternas y cuaternas de átomos, además para derivadas sobre pares, de orden superior y

Mixtas respecto a 12 eventos diferentes que generan modelos diversos para describir la

estructura molecular. Los átomos en cada molécula fueron diferenciados usando

diversas ponderaciones químicas, físicas y topológicas basadas en grados del vértice

como: estado intrínseco (I), grado del vértice de Ivaniciuc (V), electronegatividad de

Page 72: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

61

Paulin (E), polarizabilidad (P), volumen de VanderWals (W), carga (C), grado del

vértice de Hu-xu (H), grado del vértice de Enlace (B), grado de valencia (N). Se

cuantificaron además, índices globales y locales sobre insaturaciones (IS), heteroátomos

(HT), aceptores de hidrogeno (AC), donantes de hidrogeno (DH), halógenos (HL) y

carbonos metilos (MC).

Todos los cálculos fueron desarrollados en el programa interactivo DIVATI, nuevo

módulo del programa TOMOCOMD-CARDD, donde están implementadas todas las

familias de índices basadas en el concepto de Derivada Discreta de un Grafo.

Modelos

Se encontraron modelos de regresión lineal múltiple para la actividad (pK) con el

programa MobyDigs 1.0. Este programa usa el algoritmo genético como método de

selección de parámetros y el Q2

Loo como función objetivo para escoger los mejores

modelos. Además el software permite obtener varios parámetros estadísticos para

evaluar la calidad de los modelos. Las mejores ecuaciones de regresión, los parámetros

y sus correspondientes gráficos de regresión y predicción, se muestran a continuación:

( ) ( )[ ( ) ⁄ ( )]

( )[ ( ) ⁄]

( )[ ( )( ) ⁄]

( )[ ( )( ) ⁄]

( )[ ( )( ) ⁄ ]

( )[ ( ) ⁄]

(4.3)

R2=96.69 Q

2=95.02 Q

2boot=93.96 Ysc=0.140 S=0.220 Svc=0.238 F=116.8

Figura 20. Desempeño de los modelos de regresión lineal y predicción para el mejor

modelo dupla de esteroides.

Page 73: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

62

( ) ( )[ ( ) ⁄ ( )]

( )[ ( ) ⁄ ]

( )[ ( )( ) ⁄ ]

( )[ ( )( ) ⁄ ]

( )[ ( ) ⁄ ]

( )[ ( ) ⁄ ]

(4.4)

R2=96.90 Q

2=95.40 Q

2boot=94.28 Ysc=0.149 S=0.213 Svc=0.228 F=125.1

Figura 21. Desempeño de los modelos de regresión lineal y predicción para el mejor

modelo terna de esteroides.

(

) ( ) ( )[ ( ) ⁄

]

( )[ ( ) ⁄]

( )[ ( ) ⁄

]

( )[ ( ) ⁄

]

( )[ ( ) ⁄]

( )[ ( )( ) ⁄]

(4.5)

R2=95.90 Q

2=94.17 Q

2boot=92.85 Ysc=0.130 S=0.245 Svc=0.216 F=93.44

Page 74: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

63

Figura 22. Desempeño de los modelos de regresión lineal y predicción para el mejor

modelo cuaterna de esteroides.

( ) ( )[ ( ) ⁄ ]

( )[ ( ) ⁄ ]

( )[ ( )

⁄ ]

( )[ ( ) ⁄ ]

( )[ ( )( ) ⁄ ]

( )[ ( )( ) ⁄ ]

( )

R2=95.51 Q

2=93.31 Q

2boot=90.89 Ysc=0.144 S=0.256 Svc=0.275 F=85.11

Figura 23. Desempeño de los modelos de regresión lineal y predicción para el mejor

modelo de orden superior de esteroides.

( ) ( )[ ⁄]

( )[ ⁄]

( )[ ⁄

]

( )[ ( ) ⁄]

( )[ ( ) ⁄

]

( )[ ( ) ⁄ ]

(4.7)

Page 75: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

64

R2=97.2 Q

2=96.01 Q

2boot=94.68 Ysc=0.146 S=0.202 Svc=0.213 F=139

Figura 24. Desempeño de los modelos de regresión lineal y predicción para el mejor

modelo de derivada mixta de esteroides.

( ) ( )[ ( ) ⁄ ]

( )[ ( )( ) ⁄ ]

( )[ ( )( ) ⁄

]

( )[ ( ) ⁄]

(

)[ ( ) ⁄ ]

( )[ ( ) ⁄ ]

(4.8)

R2=96.93 Q

2=95.27 Q

2boot=94.37 Ysc=0.139 S=0.212 Svc=0.232 F=196

Figura 25. Desempeño de los modelos de regresión lineal y predicción para el mejor

modelo combinado de esteroides.

En casi todos los modelos antes expuestos se puede observar la presencia de cálculos

locales, fundamentalmente carbonos metilos (MC), heteroátomos (HT) e insaturaciones

(IS). Resulta importante la presencia de estos descriptores pues precisamente la

capacidad de inhibición de cada una de estas moléculas debe estar en estrecha relación

con la posibilidad de interacción de ellas con el receptor.

Page 76: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

65

Las invariantes clásicas son las que aparecen con mayor frecuencia,

fundamentalmente la autocorrelación, la suma total, el gravitacional y el estado

electrotopógico, aunque aparecen también algunas de norma como distancia de

Manhattan (N1), distancia de Euclidean (N2) y fundamentalmente media aritmética (A).

Los parámetros estadísticos de las ecuaciones de regresión obtenidas superan en casi

todos los casos a los modelos reportados en la literatura; destacando que en estas

actividades biológicas influyen un conjunto de factores lo que las hace más complicadas

de modelar adecuadamente. En la tabla II que se muestra a continuación se observa los

resultados obtenidos por los GDIs. Los modelos de 3 y 4 variables son solo superados

por Combined electrostatic and shape similarity matrix pero éste con 6 descriptores.

Mientras que los GDIs con 5 y 6 variables predictivas superan con resultados

satisfactorios a todos los reportados. Es válido resaltar además que la mayoría de las

familias de descriptores reportadas en la tabla II con las que se comparan los resultados

de los GDIs son descriptores 3D esto aumenta el mérito de los nuevos índices 2D

propuestos en esta tesis.

Tabla II. Resultados de los GDI en comparación con lo reportado en la literatura. nD-QSARMétodo PCs/Var. Método estadístico loo Eq./Ref.

31/30 Steroids (All Dataset)

GDI-combinado 6 AG y RLM 0.952 Eq. 3.8

GDI-combinado 5 AG y RLM 0.942

Combined electrostatic and shape

similarity matrix 6 NN Genética 0.941 (127)

GDI-combinado 4 AG y RLM 0.915

GDI-combinado 3 AG y RLM 0.909

Hodking SM 6 NN Genética 0.903 (127)

Fragment QS-SM 4 PLS 0.886 (128)

MEDV-13 5 AG y RLM 0.882 (129)

MiDSASA – “template” 2

“compounds” - 0.88 (130)

SOMa

3 - R20.5 (131)

Tuned-QSAR 6 RLM y PCA 0.842 (132)

Autocorrelation vector 30 - - 0.84 (133)

Page 77: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

66

CoMMA 3 PLS 0.828 (134)

SOMFA/esp+ ALPHA - SOR 0.82 (135)

Combined electrostatic and shape

similarity matrix 6 AG y RLM 0.819 (127)

EEVA 4 PLS 0.81 (136)

SOM-4D-QSAR 4 SOMNeural

Network 0.80 (137)

Charges and Properties from MEPS-

AM1 5 RLM 0.80 (125)

HE State/E-Statea,d

3 - 0.80 (138)

E-Statea,d

3 - 0.79 (138)

CoSA 3 “Bins” PLS 0.78 (139)

QSAR/E-State 3 “atoms” - 0.78 (140)

TQSI 4 RLM 0.775 (132)

EVA 5 PLS 0.77 (141)

CoMSA 1 PLS 0.76 (142)

MQSM 5 RLM y PCA 0.759 (132)

EVA + ALPHA - SOR 0.75 (135)

GRIND - PLS 0.75 (143)

SEAL 3 PLS 0.748 (144)

SOMFA/esp 6 PLS 0.74 (135)

CoSCoSAa

3 - 0.74 (145)

Similarity Indices (ESP MC matrix

30) 1 PLS 0.820 (133)

CoSASA 3 “atoms” PLS 0.73 (139)

E-State and kappa shape index 4 RLM 0.72 (121)

TARIS 2 - 0.71 (146)

MQSM 3 RLM 0.705 (132)

Combined electrostatic and shape

similarity matrix 5 PLS 0.70 (127)

SAMFA-RF - RF 0.69 (147)

Page 78: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

67

SAMFA-PLS 4-5 PLS 0.69 (147)

4D-QSAR 2 PLS 0.69 (137)

CoMMA (ab initio) 6 PLS 0.689 (148)

QSARa

3 - 0.68 (149)

SOM-4D-QSAR 4 SOMNeural

Network 0.68 (137)

Wagener’s (AMSP Method) - k-NN and FNN 0.630 (150)

SAMFA-SVM - SVM 0.60 (147)

ALPHA 2 PLS 0.57 (135)

Con el objetivo de conocer y evaluar el desempeño de las diferentes familias de

GDIs, a continuación se muestra un estudio comparativo con los resultados obtenidos

por los GDIs para pares, tríos, cuartetos, pares de orden superior y pares en mixta con

modelos de 6 variables para la base de datos de esteroides.

Los parámetros estadísticos que permiten establecer comparaciones entre ellos se

muestran en la tabla III. Analizando todos los parámetros estadísticos que se tuvieron en

cuenta para el estudio, se observa que los resultados fueron semejantes, con muy poca

diferencia entre las distintas familias. Notándose que los mejores parámetros fueron

obtenidos para la derivada Mixta (lógico pues se deriva respecto a dos sucesos

diferentes) y no están muy alejados de los resultados expuestos en la tabla II.

Tabla III. Comparación de los resultados de las distintas familias de GDI. GDI para modelos de 6 variables de esteroides.

Dupla Terna Cuaterna Orden Superior Mixta

R2

0.966 0.969 0.959 0.955 0.972

Q2 0.950 0.954 0.941 0.933 0.960

Q2

boot

0.939 0.942 0.928 0.908 0.946

y-sc 0.140 0.149 0.130 0.144 0.146

s 0.220 0.213 0.245 0.256 0.202

svc 0.238 0.228 0.216 0.275 0.213

F 116.8 125.1 93.44 85.11 139

4.4 Estudio QSAR-Comparativo para validar el desempeño de

las familias de GDIs. Como otro acercamiento, al estudio de la utilización práctica de los Índices de Derivada

del Grafo, se modelará la actividad biológica de cada una de las ocho bases de dato de

Sutherland, descritas en el capítulo anterior. Las bases de datos han sido divididas en

serie de entrenamiento y serie de prueba (en algunas bases de datos se clasificaron

Page 79: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

68

algunas moléculas como inactivas, las cuales no entran en la confección ni validación de

los modelos) con el objetivo de validar cabalmente los modelos encontrados y poder

evaluar su verdadera capacidad de predicción. La serie de predicción fue confeccionada

con aproximadamente un 33% de las moléculas presentes en cada base de datos, y el

resto de las moléculas fueron asignadas al conjunto de entrenamiento según el

procedimiento seguido por Sutherland y colaboradores. La tabla IV muestra como

quedó estructurada cada base de datos posterior a su división en series de entrenamiento

y predicción.

Tabla IV. División de las datas químicas en series de entrenamiento y predicción.

ACE AchE BZR COX2 DHFR GPB THER THR

Entrenamiento 76 74 98 188 237 44 51 59

Predicción 38 37 49 94 124 22 25 29

Inactivos 16 40 36

Lo resumido en la tabla IV se puede mostrar en la figura 26 que se observa a

continuación.

Figura 26. Composición de las bases de datos en serie de entrenamiento y serie de

predicción. También se muestra la proporción de compuestos inactivos presentes en las

bases de datos BZR, COX2 y DHFR; los cuales no se tomaron en cuenta para el

desarrollo de los modelos QSAR.

Estas datas han sido propuestas por Sutherland y colaboradores, como muy adecuadas

para usar cuando se desea validar un nuevo índice topológico. Para estos compuestos se

ha determinado con precisión cada uno de los parámetros que serán objeto de análisis,

como son la concentración inhibitoria media y la constante de inhibición, como se

muestra en la tabla V.

0

50

100

150

200

250

300

350

400

450

ACE AchE BZR COX2 DHFR GPB THER THR

Training

Test

Inactivos

Total

Page 80: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

69

Tabla V. Formas de expresar la actividad y rangos.

Todas las moléculas de estas datas son compuestos constituidos a base de carbono,

hidrógeno, y diferentes heteroátomos lo que le da a cada familia su particularidad. Se

han desarrollados cálculos de los Índices de Derivada del Grafo (GDI) para pares, ternas

y cuaternas de átomos respecto a 12 eventos diferentes que generan modelos diversos

para describir la estructura molecular. Los átomos en cada molécula fueron

diferenciados usando diversas ponderaciones químicas, físicas y topológicas basadas en

grados del vértice como estado intrínseco (I), grado del vértice de Ivaniciuc (V),

electronegatividad de Paulin (E), polarizabilidad (P), volumen de VanderWals (W),

carga (C), grado del vértice de Hu-xu (H), grado del vértice de Bond (B), grado de

valencia (N). Se cuantificaron además, índices globales y locales sobre insaturaciones

(IS), heteroátomos (HT), aceptores de hidrogeno (AC), donantes de hidrogeno (DH),

halógenos (HL) y carbonos metilos (MC).

Todos los cálculos fueron desarrollados en el programa interactivo DIVATI, nuevo

módulo del programa TOMOCOMD-CARDD, donde están implementadas todas las

familias de índices basadas en el concepto de Derivada Discreta de un Grafo.

Se desarrollaron modelos de regresión lineal múltiple para cada actividad (pIC50 y

pKi) con el programa MobyDigs 1.0. Este programa usa el método de algoritmo

genético para seleccionar atributos y el Q2

Loo como función objetivo para escoger los

genes mejor adaptados. Además el software permite obtener varios parámetros

estadísticos que permiten evaluar la calidad de los modelos, sobre todo los parámetros

que expresan comportamientos de ajuste (R2, s, F) y de predicción ante las validaciones,

cruzada (Q2

Loo, sCV), por bootraping (Q2

boot), de revuelto (y-sc) y externa (Q2

Ext).

Base de datos Variable biológica Rango de valores Referencia

ACE pIC50 2.1-9.9 (120)

AchE pIC50 4.3-9.5 (120)

BZR pIC50 5.5-8.9 (120)

COX2 pIC50 4.0-9.0 (120)

DHFR pIC50 3.3-9.8 (120)

GPB pKi 1.3-6.8 (120)

THER pKi 0.5-10.2 (120)

THR pKi 4.4-8.5 (120)

Page 81: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

70

Para todas las bases de datos químicas se desarrollaron modelos de regresión lineal

múltiple usando descriptores de duplas, ternas y cuaternas de átomos con el objetivo de

comparar entre las familias de índices de derivada del grafo al ser aplicadas a la

modelación de actividades biológicas. Además se obtuvieron modelos combinados de

los GDIs como familia íntegra, para los mismos se aprecia una mejoría cuantitativa de

los estadísticos fundamentales que validan la calidad de ajuste y predicción de los

modelos.

Las mejores ecuaciones de regresión (modelos combinados) y sus correspondientes

parámetros estadísticos para cada base de datos, se muestran a continuación:

Base de datos ACE de 114 compuestos a la cual se le modela la concentración

inhibitoria media (pIC50) y se le determinaron 2 outliers:

( ) ( ) [ ( ) ⁄

]

( ) [ ( ) ⁄]

( ) [ ( )( ) ⁄]

(4.9)

R2=81.8 Q

2=79.90Q

2boot=79.70 Q

2exter=46.15 Ysc= 0.008 s=1.026 Svc=1.049 F= 107.8

Figura 27. Desempeño de los modelos de regresión lineal y predicción para el mejor

modelo combinado con 2 outliers.

Base de datos AchE de 111 compuestos a la cual se le modela la concentración

inhibitoria media (pIC50), obteniendo el mejor modelo combinado con (1) outlier.

( ) ( ) [ ( ) ⁄

]

( ) [ ( ) ⁄ ]

( ) [ ( ) ⁄]

(4.10)

Page 82: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

71

R2

=65.97 Q2

=62.44 Q2boot =62.11 Q

2exter =47.44 Ysc=0.007 s =0.729 Svc =0.744 F =44.6

Figura 28.Desempeño de los modelos de regresión lineal y predicción para el mejor

modelo combinado con 1 outlier.

Base de datos BZR de 163 compuestos a la cual se le modela la concentración

inhibitoria media (pIC50), obteniendo el mejor modelo combinado con (2) outliers.

( ) ( )[ ( ) ⁄]

( )[ ( )( ) ⁄

]

( )[ ( )( ) ⁄

]

(4.11)

R2=50.80Q

2=48.03 Q

2boot=48.31 Q

2exter=53.34 Ysc=-0.002 s =0.471 Svc= 0.476 F= 49.04

Figura 29. Desempeño de los modelos de regresión lineal y predicción para el mejor

modelo combinado con 2 outliers.

Base de datos COX2 de 322 compuestos a la cual se le modela la concentración

inhibitoria media (pIC50), obteniendo el mejor modelo combinado con (5) outliers.

( ) ( ) [ ( ) ⁄ ( )]

( ) [ ( ) ⁄]

Page 83: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

72

( ) [ ( )( ) ⁄ ]

( ) [ ( )( ) ⁄]

( ) [ ( )( ) ⁄ ]

(4.12)

R2=68.64 Q

2=66.69 Q

2boot=66.28 Q

2exter=48.31 Ysc=-0.001 s=0.579 Svc= 0.587 F= 79.68

Figura 30. Desempeño de los modelos de regresión lineal y predicción para el mejor

modelo combinado con 5 outliers.

Base de datos DHFR de 397 compuestos a la cual se le modela la concentración

inhibitoria media (pIC50), obteniendo el mejor modelo combinado con (6) outliers

( ) ( )[ ( ) ⁄ ( )]

( )[ ( )( )

⁄ ]

( )[ ( ) ⁄]

( )[ ( )( ) ⁄

]

( )[ ( ) ⁄]

( )

R2=72.83 Q

2 =71.15 Q

2boot =70.76 Q

2exter= 65.29 Ysc=-0.004 s=0.659 Svc=0.67 F=122.75

Figura 31. Desempeño de los modelos de regresión lineal y predicción para el mejor

modelo combinado con 6 outliers.

Page 84: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

73

Base de datos GPB de 66 compuestos a la cual se le modela la constante de inhibición

(pKi), obteniendo el mejor modelo combinado con sin outliers.

( ) ( ) [ ⁄ ( )]

( ) [ ( ) ⁄

]

( ) [ ( ) ⁄

]

(4.14)

R2 =81.3 Q

2=77.99Q

2boot= 77.69 Q

2exter= 52.49 Ysc= 0.014 s= 0.484 Svc= 0.5 F= 57.98

Figura 32. Desempeño de los modelos de regresión lineal y predicción para el mejor

modelo combinado sin outliers.

Base de dato THERM de 76 compuestos a la cual se le modela la constante de

inhibición (pKi), obteniéndose el mejor modelo combinado con (1) outliers.

( ) ( ) [ ( )( ) ⁄]

( ) [ ( )( ) ⁄

]

( ) [ ( )( ) ⁄

]

( ) [ ( )( ) ⁄]

(4.15)

R2=88.68 Q

2=85.35 Q

2boot=85.83 Q

2exter=33.23 Ysc= 0.033 s= 0.665 Svc= 0.693 F=90.05

Figura 33. Desempeño de los modelos de regresión lineal y predicción para el mejor

modelo combinado con (1) outliers.

Base de datos THR de 88 compuestos a la cual se le modela la constante de

inhibición (pKi), obteniéndose el mejor modelo combinado con (2) outliers.

Page 85: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

74

( ) ( ) [ ( ) ⁄ ( )]

( ) [ ( ) ⁄]

( ) [ ( )( ) ⁄

]

( ) [ ( ) ⁄]

(4.16)

R2=84.25 Q

2=81.95 Q

2boot= 81.39 Q

2exter= 44.95 Ysc= 0.028 s= 0.394 Svc=0.403 F=72.21

Figura 34. Desempeño de los modelos de regresión lineal y predicción para el mejor

modelocombinado con (2) outliers.

En la mayoría de los modelos se puede apreciar la presencia de cálculos locales,

fundamentalmente aceptores de hidrógeno, heteroátomos e insaturaciones. Es

importante la presencia de estos descriptores pues precisamente la capacidad de

inhibición de cada una de estas moléculas debe estar en estrecha relación con la

posibilidad de interacción de cada una de ellas con el receptor. Las zonas de la

estructura donde aparecen heteroátomos, átomos aceptores de hidrógeno e

insaturaciones son de apreciable riqueza electrónica, por lo que es perfectamente lógico

encontrarse descriptores que enfatizan o recogen información de esas partes

moleculares en ecuaciones que modelan la capacidad de inhibición. Aun así también

están presentes descriptores globales que son igualmente importantes ya que recogen

información de la molécula como un todo y cuantifican talla y dimensiones

estructurales, aspectos estos también muy importantes para entender la capacidad de

inhibición explicada por la facilidad de interacción de estas moléculas y los receptores

correspondientes.

Las invariantes clásicas son las que aparecen con mayor frecuencia,

fundamentalmente la autocorrelación, la suma total, el gravitacional y el estado

electrotopógico.

Los parámetros estadísticos en todos los casos son aceptables en comparación con los

reportados en la literatura; sin embargo hay que destacar que en estas actividades

Page 86: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

75

biológicas influyen un conjunto de muchos factores lo que las hace más complicadas de

modelar adecuadamente.

4.5 Análisis del desempeño de las familias de los GDIs basadas

en enfoques de representación n-dimensional de

estructuras químicas. Con el objetivo de conocer y evaluar el desempeño de las diferentes familias de

GDIs, basadas en representaciones n-dimensionales de estructuras químicas, útiles para

cuantificar las derivadas discretas sobre duplas, ternas y cuaternas de átomos

simultáneamente y capacidad de descripción matemática de la estructura molecular, se

desarrollaron regresiones con cada una de las bases de datos anteriormente mencionadas

y se correlacionó con la capacidad de inhibición. Los estadísticos fundamentales que

muestran el comportamiento de las ecuaciones obtenidas en función de su respectiva

capacidad de ajuste y predicción, son organizados en la tabla VI.

Tabla VI. Comportamiento de los GDI basados en representaciones n-dimensionales.

GDI D-GDI T-GDI Q-GDI

ACE

r2 80,27 81,23 81,79

q2 78,26 79,14 79,9

q2boot 78,18 78,87 79,75

q2ext 48,06 30,68 23,26

AchE

r2 64,35 60,86 55,98

q2 60,3 56,79 51,69

q2boot 59,92 56,39 51,4

q2ext 15,9 47,78 38,36

BZR

r2 37,89 47,08 52,57

q2 35,46 44,3 48,94

q2boot 36 44,64 48,57

q2ext 33,62 20,24 17,59

COX2

r2 64,24 65,08 59,81

q2 61,85 62,89 57,19

q2boot 61,42 62,22 56,61

q2ext 37,2 35,61 22,9

DHFR

r2 69,63 68,09 64,14

q2 68,13 66,33 62,24

q2boot 67,91 65,83 61,86

q2ext 61,04 52,88 59,44

GPB

r2 74,6 69,93 65,12

q2 71,85 65,3 60,1

Page 87: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

76

q2boot 72,39 65,41 59,99

q2ext 51,02 27,85 37,29

THER

r2 44,91 84,28 80,69

q2 40,75 80,75 75,82

q2boot 41,91 79,8 75,07

q2ext 32,26 33,8 25,79

THR

r2 82,44 79,74 80,74

q2 80,09 77,41 76,88

q2boot 79,73 77,28 76,16

q2ext 0 22,51 23,58

Una mejor y más real interpretación de estos datos recogidos en la tabla anterior

pueden ser ilustrados en las figuras 35 y 36. Los gráficos de las figuras 35 y 36

muestran el comportamiento de las ecuaciones obtenidas (4.9-4.16) para cada base de

datos, ante el ajuste y la predicción, tomando como referencia los valores de Q2

ext y R2.

Como se puede observar en el gráfico de Q2

ext (Figura 35) los mejores resultados

corresponden al conjunto de DHFR, y para el resto el comportamiento de terna y

cuaterna es prácticamente el mismo. Por su parte las ecuaciones de dupla muestran

mayor capacidad de predicción a pesar de presentar una caída abrupta en el conjunto

de THR.

Figura 35. Valores de Q

2ext para dupla, terna, y cuaterna de cada una de las bases de

datos.

En el gráfico de R2

que se muestra en la figura 36 el comportamiento es similar para

terna y cuaterna forma general, por su parte dupla muestra un mejor comportamiento en

la mayoría de los casos. Sin embargo el mejor ajuste a los datos experimentales es

0%

20%

40%

60%

80%

100%

ACE AchE BZR COX2 DHFR GPB THER THR

Q2ext

D

T

Q

Page 88: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

77

observado en la base de datos ACE y en este caso cuaterna supera a terna y este a su

vez a dupla.

Figura 36.Valores de R

2 para dupla, terna, y cuaterna de cada una de las bases de

datos.

4.6 Ubicación de los GDIs en el ranking de los mejores

resultados reportados para estas bases de datos.

Se realizó además, un estudio en el que se tomaron en cuenta los resultados obtenidos

con los GDIs y se compararon con lo reportado por Sutherland (120). Como se puede

observar en la tabla VII se hace referencia a descriptores tanto 3D, como descriptores 2D

y 2.5D. Este tipo de estudios comparativos es de importancia crucial en la búsqueda de

nuevos descriptores topológicos que superen los ya existentes y que en alguna medida

cuantifiquen mayor contenido de información sin tener un costo computacional tan

elevado como algunos de los descriptores presentes en la tabla VII (ejemplo: HQSAR).

De analizar los principales parámetros estadísticos (R2train: Coeficiente de determinación

de la regresión con la serie de entrenamiento, strain: desviación estándar de la regresión

en la serie de entrenamiento, q2

ext: Coeficiente de determinación de la validación

externa, q2

ext (out): Coeficiente de determinación de la validación externa separando

outliers) de las ecuaciones encontradas (reunidos en la tabla VII) se puede observar que

los resultados obtenidos por los GDIs superan en un 87.5% los descriptores topológicos

utilizados y reportados por Sutherland 2D y 2.5D ante la validación externa en esta

modelación. Solamente no son superados en la base de datos ACE. Sin embargo para

esta misma base de datos son superados los mejores resultados mostrados para los

HQSAR. A pesar de que los GDIs propuestos en esta tesis parten de representaciones

0%

20%

40%

60%

80%

100%

ACE AchE BZR COX2 DHFR GPB THER THR

R2

D

T

Q

Page 89: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

78

bidimensionales de las estructuras moleculares superan o están a la altura de los mejores

resultados mostrados para los descriptores 3D empleados en este estudio de modelación.

Tabla VII. Resultados de la modelación para las bases de datos de Sutherland por varios tipos de

descriptores.

CoMFA CoMSIAbasic CoMSIAextra EVA HQSAR 2D 2.5D GDI

ACE

r2 train

0.8 0.76 0.73 0.84 0.84 0.76 0.82 0.82

S train 1.04 1.15 1.22 0.93 0.95 1.15 1.00 1.00

q2ext

0.49 0.52 0.49 0.36 0.3 0.47 0.51 0.34

q2ext (out) 0.55(1) 0.58(1) 0.49(0) 0.55(2) 0.45(2) 0.51(1) 0.65(2) 0.46(2)

Ache

r2 train

0.88 0.86 0.86 0.96 0.72 0.4 0.38 0.64

S train 0.41 0.45 0.45 0.23 0.64 0.94 0.95 0.74

q2ext

0.47 0.44 0.44 0.28 0.37 0.16 0.16 0.46

q2ext (out) 0.56(1) 0.60(1) 0.60(1) 0.35(1) 0.48(2) 0.26(1) 0.25(2) 0.47(1)

BZR

r2 train

0.61 0.62 0.62 0.51 0.64 0.51 0.52 0.50

S train 0.41 0.41 0.41 0.47 0.40 0.46 0.46 0.42

q2ext

0 0.08 0.12 0.16 0.17 0.14 0.2 0.37

q2ext (out) 0.18(3) 0.30(3) 0.28(3) 0.35(3) 0.31(2) 0.28(3) 0.38(3) 0.53(2)

COX2

r2 train

0.7 0.69 0.69 0.68 0.7 0.62 0.68 0.67

S train 0.56 0.56 0.57 0.58 0.55 0.63 0.58 0.59

q2ext

0.29 0.03 0.37 0.17 0.27 0.25 0.27 0.40

q2ext (out) 0.37(5) 0.22(5) 0.50(4) 0.39(5) 0.37(5) 0.35(5) 0.39(5) 0.48(5)

DHFR

r2 train

0.79 0.76 0.75 0.81 0.81 0.61 0.65 0.71

S train 0.59 0.62 0.63 0.55 0.55 0.79 0.75 0.69

q2ext

0.59 0.52 0.53 0.57 0.63 0.47 0.49 0.58

q2ext (out) 0.70(6) 0.63(6) 0.60(6) 0.65(6) 0.69(6) 0.56(5) 0.59(6) 0.65(6)

GPB

r2 train

0.84 0.78 0.92 0.89 0.77 0.55 0.7 0.76

S train 0.43 0.50 0.30 0.36 0.52 0.72 0.59 0.54

q2ext

0.42 0.46 0.59 0.49 0.58 -0.06 0.04 0.52

q2ext (out) 0.37(1) 0.34(1) 0.37(1) 0.34(1) 0.34(1) -0.06(0) 0.04(0) 0.52(0)

THER

r2 train

0.85 0.85 0.77 0.86 0.81 0.79 0.85 0.88

S train 0.73 0.73 0.91 0.72 0.82 0.86 0.73 0.66

q2ext

0.54 0.36 0.53 0.36 0.53 0.14 0.07 0.10

q2ext (out) 0.62(1) 0.46(1) 0.62(2) 0.36(0) 0.54(1) 0.24(1) 0.09(1) 0.33(1)

THR

r2 train

0.86 0.88 0.89 0.83 0.87 0.79 0.75 0.84

S train 0.36 0.34 0.32 0.39 0.35 0.43 0.47 0.39

q2ext

0.63 0.55 0.63 0.11 -0.25 0.04 0.28 0.26

q2ext (out) 0.73(1) 0.62(1) 0.69(1) 0.24(1) 0.43(3) 0.21(1) 0.37(1) 0.45(2)

Dentro de los descriptores 3D que son superados por los GDI es válido resaltar en la

base de datos AchE a EVA. En la correlación de la actividad inhibitoria con las

moléculas incluidas en BZR son superados en la validación externa a todas las familias

de descriptores utilizados separando solo dos outliers, mientras que el resto saca en la

mayoría de los casos tres compuestos. Con COX2 también son encontradas regresiones

más robustas ante la validación externa, solamente superados por CoMSIAextra. En

DHFR vuelven a ser superados CoMSIAextra y CoMSIAbasic. Durante la modelación de

Page 90: Nuevos Índices Topo-químicos para codificar la estructura ...

RESULTADOS

79

GPB se superan notablemente todos los descriptores participantes de este estudio

comparativo sin la necesidad de extraer compuestos outliers y en THR son superados

EVA y HQSAR. Estas comparaciones han sido fundamentadas sobre la base del análisis

de los valores de Q2

ext (out).

Page 91: Nuevos Índices Topo-químicos para codificar la estructura ...

CONCLUSIONES “La ciencia humana consiste más en

destruir errores que en descubrir verdades”. Sócrates

Page 92: Nuevos Índices Topo-químicos para codificar la estructura ...

CONCLUSIONES

80

5 CONCLUSIONES.

1. Se definen nuevos ITs basados en el concepto de Derivada de Orden Superior y

Derivada Mixta sobre pares de átomos, respecto a 12 eventos; definidos de forma

local.

2. Se aplican con éxito diversos algoritmos matemáticos que generalizan la forma

tradicional de obtener índices globales y locales para grupos y tipos de átomos.

3. En la mayoría de las modelaciones biológicas realizadas entran descriptores locales

y algunos totales que son resultados del uso de nuevos algoritmos matemáticos para

generalizar la forma clásica de obtención de descriptores globales.

4. El resto de los estudios QSAR comparativos mostró que todas las familias de GDI,

(existentes y propuestas en la tesis) mostraron resultados superiores a las mejores

propuestas de modelación para estas actividades reportadas en la literatura. Lo que

demuestra que los GDI constituyen una poderosa herramienta para estudios de

informática-química.

Page 93: Nuevos Índices Topo-químicos para codificar la estructura ...

RECOMENDACINES “La ciencia se compone de errores, que a su

vez, son los pasos hacia la verdad”. Julio Verne

Page 94: Nuevos Índices Topo-químicos para codificar la estructura ...

RECOMENDACIONES

81

6 RECOMENDACIONES.

1. Ampliar el número de estudios que corroboren la validez de la extensión de la

derivada a Derivada de Orden Superior y Derivada Mixta.

2. Realizar el estudio QSAR de esteroides con la base de datos fragmentada en serie

de entrenamiento y serie de predicción, con su correspondiente validación externa.

Page 95: Nuevos Índices Topo-químicos para codificar la estructura ...

BIBLIOGRAFÍA “La ciencia no ha sido y nunca será un libro

terminado. Cada éxito importante trae nuevas interrogantes”.

Albert Einstein

Page 96: Nuevos Índices Topo-químicos para codificar la estructura ...

BIBLIOGRAFÍA

82

7 BIBLIOGRAFÍA 1. Hann M, Green R. Curr Opin Chem Biol. 1999;3:379. 2. van de Waterbeemd H, Carter RE, Grassy G, Kubinyi H, Martin YC, Tute M, S.,

et al. Annu Rep Med Chem. 1998;33(397). 3. Ooms F. Curr Med Chem. 2000;7:141. 4. Louis JC. Biosilico. 2003;1:115. 5. Todeschini RC, V. Handbook of Molecular Descriptors. Wiley-VCH:

Germany2000. 6. Duca SH, A. J. J Chem Inf Comput Sci. 2001;41:1367. 7. Vedani A, Dobler M. J Med Chem. 2002;45:2139. 8. Vedani A, Dobler M, Lill MA. J Med Chem. 2005;48:3700. 9. TODESCHINI RC, V. Molecular Descriptors for Chemoinformatics: wiley-VCH;

2009. 10. Grover M, Singh B, Bakshi M, Singh S. Pharm Sci Technol Today. 2000;3:28. 11. Schultz TW, Cronin MT, Netzeva TI, Walker JD, Aptula AO. J Mol Struct

(THEOCHEM). 2003;1:622. 12. Marrero-Ponce Y. Total and local (atom and atom type) molecular quadratic

indices: significance interpretation, comparison to other molecular descriptors, and QSPR/QSAR applications. Bioorg Med Chem 2004;12:6351.

13. Marrero-Ponce Y, Torrens F, Alvarado YJ, Rotondo R. J Comput Aided Mol Des. 2006;20:685.

14. Marrero-Ponce Y, Torrens F, García-Domenech R, Ortega-Broche SE, Romero Zaldivar V. J Math Chem. 2008;44:650.

15. Marrero Ponce Y, Martinez-Albelo ER, Casanola-Martin GM, Castillo Garit JA, Echeveria Diaz Y. Mol Divers. 2009:11030.

16. Marrero-Ponce Y, Martínez-Santiago O, López YM, S. J. Barigye FT. Derivatives in discrete mathematics: a novel graph-theoretical invariant for generating new 2/3D molecular descriptors I. Theory and QSPR application. J Comput Aided Mol Des. 2012;26.

17. Martínez-Santiago O, Millán-Cabrera R, Marrero-Ponce Y, Barigye SJ, Martínez-López Y, Torrens F, et al. Discrete Derivatives for Atom-Pairs as a Novel Graph-Theoretical Invariant for Generating New Molecular Descriptors: Orthogonality, Interpretation and QSARs/QSPRs on Benchmark Databases. Molecular Informatics (submitted for publication).

18. Barigye. SJ. Teoría de información en la codificación de la estructura química. Santa Clara.: Universidad Central "Marta Abreu" de Las Villas.; 2013.

19. Randic M. J Chem Inf Comput Sci 1997;37:1063. 20. Harary F. Graph Theory. Addison-Wesley, Reading: MA. 1971. 21. Gutman I, Polansky OE. Mathematical Concepts in Organic Chemistry. Springer-

Verlag: Berlin1986. 22. Gorbátov VA. Fundamentos de la Matemática Discreta. Moscú, URSS: Mir.1988. 23. Hall LH, Kier LB. Issues in representation of molecular structure. The

development of molecular connectivity. Journal of Molecular Graphics and Modelling. 2001;20:4-18.

24. Devillers J, Balaban AT. Topological Indices and Related Descriptors in QSAR and QSPR. Gordon and Breach: Amsterdam, the Netherlands. 1999.

25. Trinajstic N. Chemical Graph Theory. CRC Press: Boca Raton: FL. 1992;Vol. 2nd edition.

Page 97: Nuevos Índices Topo-químicos para codificar la estructura ...

BIBLIOGRAFÍA

83

26. Ivanciuc O. Rev Roum Chim. 2000;45:289. 27. Ivanciuc O, Balaban AT. MATCH (Commun Math Chem). 1994;30:141. 28. Ivanciuc O. ACH – Models Chem. 2000;137:607. 29. Randic M. J Math Chem. 1990;4:157. 30. Diudea MV. J Chem Inf Comput Sci. 1997;37:292. 31. Janezic D, Milicevic A, Nikolic S, Trinajstic N. Graph Theoretical Matrices in

Chemistry. Kragujevac, Serbia: University of Kragujevac; 2007. 32. Sachs H. Beziehungen zwischen den in einem graphen enthaltenen Kreisen und

seinem characteristischen Polynom. Debrecen, Hungary1964. 33. Mallion RB, Schwenk AJ, Trinajstic N. A graphical study of heteroconjugated

molecules. Croat Chem Acta. 1974;46:171. 34. Guha R. The CDK Descriptor Calculator. 0.94 ed. Indiana1991. 35. Steinbeck C, Han YQ, kuhn S, Horlacher O, Luttmann E, Willighagen EL. The

Chemistry Development Kit (CDK): An open-source Java library for chemo- and bioinformatics. Journal of Chemical Information and Computer Sciences. 2003;43:493-500.

36. Guha R, Howard MT, Hutchison GR, Murray-Rust P, Rzepa H, Steinbeck C, et al. The Blue Obelisk-Interoperability in Chemical Informatics. J Chem Inf Model. 2006.

37. Durant JL, Leland BA, Henry DR, Nourse JG. Reoptimization of MDL Keys for Use in Drug Discovery. J Chem Inf Comput Sci. 2002;42:1273-80.

38. Kier LB, Hall LH. Molecular Structure Description. The Electrotopological State. San Diego: Academic Press; 1999.

39. kier LB, Hall LH. Molecular Connectivity and Substructure Analysis. JPharmSci. 1978;67:1743-7.

40. kier LB, Hall LH. An electrotopological-state index for atoms in molecules. Pharm Res. 1990;7:801-7.

41. kier LB, Hall LH. Electrotopological State Indices for Atom Types: A Novel Combination of Electronic, Topological, and Valence State Information. Journal of Chemical Information and Computer Sciences. 1995;35:1039-45.

42. Kier LB, Hall LH. An electrotopological-state index for atoms in molecules. Pharm Res. 1990;7:801.

43. J. Devillers aATB. Topological Indices and Related Descriptors in QSAR and QSPR. The Netherlands. 1999.

44. Kier LB, Hall LH. Molecular Connectivity in Chemistry and Drug Research. Academic Press: New York. 1976.

45. Kier LB, Hall LH. Molecular Connectivity in Structure–Activity Analysis. Research Studies Press: Letchworth, U K. 1986.

46. Kier LB, Hall LH. Molecular Structure Description. The Electrotopological State. Academic Press: San Diego1999.

47. Marrero-Ponce Y, Castillo-Garit JA, Torrens F, Romero-Zaldivar V, Castro E. Molecules. 2004;9:1100.

48. Graovac A, Gutman I, Trinajstic N. Topological Approach to the Chemistry of Conjugated Molecules. Springer: Berlin. 1977.

49. Dias JR. Molecular Orbital Calculations Using Chemical Graph Theory. Springer: Berlin. 1993.

50. Pólya G, Read RC. Combinatorial Enumeration of Groups, Graphs, and Chemical Compounds. Springer: Berlin. 1987.

Page 98: Nuevos Índices Topo-químicos para codificar la estructura ...

BIBLIOGRAFÍA

84

51. Fujita S. Symmetry and Combinatorial Enumeration in Chemistry. Springer: Berlin. 1991.

52. Temkin ON, Zeigarnik AV, Bonchev D. Chemical Reaction Networks. A Graph-Theoretical Approach. CRC Press: Boca Raton. 1996.

53. Koča JK, M., Kvasnička V, Matyska L, Pospýchal J. Synthon Model of Organic Chemistry and Synthesis Design. Springer: Berlin. 1989.

54. Gálvez J, García R. Diseño de fármacos por conectividad molecular. (Monografía). Farmaindustria: Madrid. 1994.

55. Castillo-Garit JA, Martinez-Santiago O, Marrero-Ponce Y, Casañola-Martín GM, Torrens F. Atom-based non-stochastic and stochastic bilinear indices: Application to QSPR/QSAR studies of organic compounds. Chemical Physics Letters. 2008;464:107–12.

56. Randic M. Encyclopedia of Computational Chemistry. John Wiley & Sons: New York1998.

57. Balaban A. From Chemical Topology to Three-Dimensional Geometry. Plenum: New York. 1997.

58. Estrada E, Molina E. Novel Local (Fragment-Based) Topological Molecular Descriptors for QSPR/QSAR and Molecular Design. J Mol Graphics Model. 2001;20:54-64.

59. Balaban AT. J Chem Inf Comput Sci. 1992;32:23. 60. Wiener H. J Am Chem Soc. 1947;69:17. 61. Hosoya H. Bull Chem Soc Japan. 1971;44:2332. 62. Balaban AT. Theor Chim Acta. 1979;5:239. 63. Mohar B, Babic D, Trinajstic N. J Chem Inf Comput Sci. 1993;33:153. 64. Ivanciuc O, Balaban TS, Balaban AT. J Math Chem. 1993;12:309. 65. Diudea MV. J Chem Inf Comput Sci. 1996;36:535. 66. Diudea MV. J Chem Inf Comput Sci. 1996;36:833. 67. Platt JR. J Chem Phys. 1947;15:419. 68. Gutman I, Ruscic B, Trinajstic N, Wilcox CF. J Chem Phys. 1975;62:3399. 69. Kier LB, Hall LH. J Chem Inf Comput Sci 2000;40:792. 70. Randic M. J Am Chem Soc. 1975;97:6609. 71. Balaban AT. Chem Phys Lett. 1982;89:399. 72. Gálvez J, Garcia R, Salabert MT, Soler R. J Chem Inf Comput Sci 1994;34:520. 73. Hall LH, Kier LB. J Chem Inf Comput Sci. 1991;31:76. 74. Hall LH, Kier LB. Quant. Struc.-Act. Relat. . 1991;10:43. 75. Estrada E, Uriarte E. Curr Med Chem. 2001;8:1699. 76. Estrada E, Peña A. Bioorg Med Chem. 2000;8:2755. 77. Estrada E, Peña A, García-Domenech R. J Comp Aided Mol Design.

1998;12:583. 78. Estrada E, Uriarte E, Montero A, Teijeira M, Santana L, De Clercq E. J Med

Chem. 2000;43:1975. 79. Estrada E. Spectral Moments of the Edge Adjacency Matrix in Molecular Graphs.

1. Definition and Applications to the Prediction of Physical Properties of Alkanes. J Chem Inf Comput Sci. 1996;36:844.

80. Estrada E. Spectral Moments of the Edge-Adjacency Matrix of Molecular Graphs. 2. Molecules Containing Heteroatoms and QSAR Applications. J Chem Inf Comput Sci. 1997;37:320.

81. Estrada E. J Chem Inf Comput Sci. 1998;38:23. 82. Estrada E, Vilar S, Uriarte E, Gutierrez Y. J Chem Inf Comput Sci. 2002;42:1194.

Page 99: Nuevos Índices Topo-químicos para codificar la estructura ...

BIBLIOGRAFÍA

85

83. Estrada E, Gonzalez H. J Chem Inf Comput Sci. 2003;43:75. 84. Carrasco R, Padrón JA, Gálvez J. Definition of a novel atomic index for QSAR:

the refractotopological state. J Pharm Pharmaceut Sci. 2004;7:19-26. 85. Marrero-Ponce Y. Total and Local Quadratic Indices of the Molecular

Pseudograph´s Atom Adjacency Matrix: Applications to the Prediction of Physical Properties of Organic Compounds Molecules. 2003;8:687-726.

86. Marrero-Ponce Y. Linear indices of the "molecular pseudograph's atom adjacency matrix": definition, significance-interpretation, and application to QSAR analysis of flavone derivatives as HIV-1 integrase inhibitors. J Chem Inf Comput Sci. 2004;44:2010-26.

87. Marrero Ponce Y, Cabrera Perez MA, Romero Zaldivar V, Gonzalez Diaz H, Torrens F. A new topological descriptors based model for predicting intestinal epithelial transport of drugs in Caco-2 cell culture. J Pharm Pharm Sci 2004;7:186.

88. Marrero-Ponce Y, Cabrera M, A., Romero V, Ofori E, Montero LA. otal and Local Quadratic Indices of the “Molecular Pseudograph’s Atom Adjacency Matrix”. Application to Prediction of Caco-2 Permeability of Drugs. J Mol Sci. 2003;4:512-36.

89. Marrero-Ponce Y, Castillo-Garit JA, Olazabal E, Serrano HS, Morales A, Castanedo N, et al. Atom, atom-type and total molecular linear indices as a promising approach for bioorganic and medicinal chemistry: theoretical and experimental assessment of a novel method for virtual screening and rational design of new lead anthelmintic. Bioorg Med Chem 2005;13:1005-20.

90. Balaban AT, Balaban TS. J Chem Phys 1992;89:1735. 91. Balaban A, T. Croat Chem Acta. 1993;66:447. 92. Balaban A, T. Local versus Global (i.e. Atomic versus Molecular) Numerical

Modeling of Molecular Graphs. J Chem Inf Comput Sci. 1994;34:398. 93. Balaban AT, Balaban TS. J Math Chem. 1991;8:383. 94. Balaban ATD, M. J Chem Inf Comput Sci. 1999;42:3308. 95. Diudea M, Minailiuc O, Balaban AT. J Comput Chem. 1991;12:527. 96. Barigye SJ, Marrero-Ponce Y, Martínez-López Y, Torrens F, Artiles-Martínez

LM, Pino-Urias RW, et al. Relations Frequency Hypermatrices in Mutual, Conditional and Joint Entropy-Based Information Indices. Journal of Computational Chemistry. 2012.

97. Barigye SJ, Marrero-Ponce Y, López YM, Santiago OM, Torrens F, Domenech RG, et al. Event-based criteria in GT-STAF information indices: theory, exploratory diversity analysis and QSPR applications. SAR and QSAR in Environmental Research. 2013;24:3-34.

98. Barigye SJ, Marrero-Ponce Y, Santiago OM, López YM, Pérez-Giménez F, Torrens F. Shannon’s, Mutual, Conditional and Joint Entropy Information Indices: Generalization of Global Indices Defined from Local Vertex Invariants. Current Computer-Aided Drug Design. 2013;9.

99. Randic M. J Math Chem. 1991;7:155. 100. Van de Waterbeemd H. Chemometric Methods in Molecular Design (Methods

and Principles in Medicinal Chemistry). John Wiley & Sons: New York. 1995. 101. Rumelhart DE, Hinton GE, Williams R. J Nature. 1986;323:533. 102. Vapnik V. The Nature of Statistical Learning Theory. Springer: New York, USA.

1995.

Page 100: Nuevos Índices Topo-químicos para codificar la estructura ...

BIBLIOGRAFÍA

86

103. Hair JF, Anderson RE, Tatham RL, Black WC. Análisis Multivariante 5ta Ed. Madrid1999.

104. Alzina RB. Introduccion conceptual al análisis multivariable. Un enfoque informatico con los paquetes SPSS-X, BMDP, LISREL Y SPAD. PPU, SA: Barcelona. 1989.

105. Norusis MJ. Advanced Statistics Guide. SPSS-X. McGraw-Hill: New York. 1985. 106. Wold S. Technometrics. 1978;20:397. 107. Stone M. J Roy Stat Soc. 1974;36:111. 108. Shao J. J Amer Stat Assoc 1993;88:486. 109. J.O. E. Modern Mathematical Statistics. John Wiley and Sons Inc: New York.

1988. 110. Shao J. J Amer Statist Assoc. 1996;91:655. 111. Leger C, Politis DN, Romano JP. Technometrics. 1992;34:378. 112. Tropsha A, Gramatica P, Gombar VK. QSAR Comb Sci. 2003;22:69. 113. Wold S, Erikson L. In Chemometric Methods in Molecular Design. van de

Waterbeemd, H, Ed; VCH Publishers: Weinheim, Germany. 1995. 114. Egan WJ, Morgan SL. Outlier detection in multivariate analytical chemical data.

Anal Chem. 1998;70:2372-9. 115. Cronin MT, Schultz TW. Pitfalls in QSAR. . J Mol Struct (Theochem).

2003;622:39-51. 116. Goldberg D. Genetics Algorithms in Search, Optimization and Machine Learning.

Addison Wesley. 1989. 117. Dehmer M, Emmert-Streib F. Computational Biology and Chemistry.

2008;32:131. 118. Hong H, Xie Q, Ge W, Qian F, Fang H, Shi L, et al. J Chem Inf Comput Sci

2008;48:1337. 119. Godden JW, Stahura FL, Bajorath J. J Chem Inf Comput Sci 2000;40:796. 120. Sutherland J.J, O’Brien L.A, D.F W. A Comparison of Methods for Modeling

Quantitative Structure-Activity Relationships. Journal of Medical Chemistry. 2004;47:5541-54.

121. Maw HH, Hall LH. E-State Modeling of Corticosteroids Binding AffinityValidation of Model for Small Data Set. J Chem Inf Comput Sci. 2001;41:1248-54.

122. Marrero-Ponce Y, Martínez López Y, Martínez Santiago O, Barigye SJ. TOMOCOMD-CARDD-DIVATI. 1.0 ed. Unit of Computer-Aided Molecular “Biosilico” Discovery and Bioinformatic Research (CAMD-BIR Unit): Santa Clara, Cuba2013.

123. Godden JW, Bajorath J. J Chem Inf Comput Sci 2002;42:87. 124. Todeschini R, Ballabio D, Consonni V, Mauri A, Pavan M. MobyDigs. Version

1.0, TALETE srl ed2004. 125. De K, Sengupta C, Roy K. QSAR modeling of globulin binding affinity of

corticosteroids using AM1 calculations. Bioorg Med Chem. 2004;12:3323-32. 126. Hall. HHMaLH. E-State Modeling of Corticosteroids Binding AffinityValidation

of Model for Small Data Set. J Chem Inf Comput Sci. 2001;41:1248-54. 127. So S.S, Karplus M. Three-dimensional quantitative structure-activity relationships

from molecular similarity matrices and genetic neural networks.1 Method and validations. J Med Chem. 1997;40:4347-59.

128. Amat L, Besalu E, Carbo-Dorca R. Identification of Active Molecular Sites Using Quantum-Self-Similarity Measures. J Chem Inf Comput Sci. 2001;41:978-91.

Page 101: Nuevos Índices Topo-químicos para codificar la estructura ...

BIBLIOGRAFÍA

87

129. Shu-Shen L, Chun-Sheng, Lian-Sheng W. Combined MEDV-GA-MLR Method for QSAR of Three Panels of Steroids, Dipeptides, and COX-2 Inhibitors. J Chem Inf Comput Sci. 2002;42:749-56.

130. Beger RD, Harris SH, Xie Q. Models of Steroid Binding Based on the Minimum Deviation of Structurally Assigned 13C NMR Spectra Analysis (MiDSASA). J Chem Inf Comput Sci. 2004;44:1489-96.

131. Polanski J. The receptor-like neural network for modeling corticosteroid and testosterone binding globulins. Journal of Chemical Information and Computer Sciences. 1997:553-61.

132. Robert D, Amat L, Carbo-Dorca R. Three-Dimensional Quantitative-Activity Relationships from Tuned Molecular Quantum Similarity Measures: Prediction of the Corticosteroid-Binding Globulin Binding Affinity for a Steroid Family. J Chem Inf Comput Sci. 1999;39:333-44.

133. Parretti MF, Kroemer RT, Rothman JH, Richards WG. Alignment of Molecules by the Monte Carlo Optimization of Molecular Similarity Indices. J Comput Chem. 1997;18:1344-53.

134. Silverman BD, Platt DE. Comparative molecular moment analysis (CoMMA): 3D-QSAR without molecular superposition. J Med Chem. 1996;39,:2129-40.

135. Tuppurainen K, Viisas M, Peräkylä M, Laatikainen R. Ligand intramolecular motions in ligand-protein interaction: ALPHA, a novel dynamic descriptor and a QSAR study with extended steroid benchmark dataset. J Comp-Aided Mol Design. 2004;18:175-87.

136. Tuppurainen K, Viisas M, Laatikainen R, Perakyla M. Evaluation of a Novel Electronic Eigenvalue (EEVA) Molecular Descriptor for QSAR/QSPR Studies: Validation Using a Benchmark Steroid Data Set. J Chem Inf Comput Sci. 2002;42:607-13.

137. Polanski J, Bak A. Modeling Steric and Electronic Effects in 3D- and 4D-QSAR Schemes: Predicting Benzoic pKa Values and Steroid CBG Binding Affinities. J Chem Inf Comput Sci. 2003;43:2081-92.

138. Kellogg GE, Kier LB, Gaillard P, Hall LH. E-state fields: Applications to 3D QSAR. J Comput-Aided Mol Design. 1996;10:513-20.

139. Beger RD, Wilkes JE. Developing 13C NMR quantitative spectrometric data-activity relationship (QSDAR) models of steroid binding to the corticosteroid binding globulin. J Comp-Aided Mol Design. 2001;15:659-69.

140. Carolina de Gregorio LBK, Hall LH. QSAR modeling with electrotopological state indices: Corticosteroids. Journal of Computer-Aided Molecular Design. 1998;12: 557-61.

141. Turner DB, Willett P, Ferguson AM, Heritage TW, . , , . Evaluation of a novel molecular vibration-based descriptor (EVA) for QSAR studies: 2. Model validation using a benchmark steroid dataset. J Comput Aided Mol Des. 1999;13:271-96.

142. Polanski J, Walczak B. The comparative molecular surface analysis (COMSA): a novel tool for molecular design. Comput Chem. 2000;24:615–25.

143. Pastor M, Cruciani G, McLay I, Pickett P, Clementi S. GRid-INdependent Descriptors (GRIND): A Novel Class of Alignment-Independent Three-Dimensional Molecular Descriptors. J Med Chem. 2000;43:3233-43.

144. Kubinyi H, Hamprecht FA, Mietzner T. Three-Dimensional Quantitative Similarity-Activity Relationships (3D QSiAR) from SEAL Similarity Matrices. J Med Chem. 1998;41:2553-64.

Page 102: Nuevos Índices Topo-químicos para codificar la estructura ...

BIBLIOGRAFÍA

88

145. Beger RD, Buzatu D, Wilkes JG, Lay J, J. O. Developing comparative structural connectivity spectra analysis (CoSCSA) models of steroid binding to the corticosteroid binding globulin. J Chem Inf Comput Sci. 2002;42:1123-31.

146. Marín RM, Aguirre NF, Daza EE. Graph Theoretical Similarity Approach To Compare Molecular Electrostatic Potentials. . J Chem Inf Model. 2008;48:109-18.

147. Manchester J, Czerminski R. SAMFA: Simplifying Molecular Description for 3D-QSAR. J Chem Inf Model. 2008;48:1167-73.

148. Silverman BD, Platt DE, Pitman M, Rigoutsos I. Comparative molecular moment analysis (COMMA). The Netherlands: Kluwer Academic Publishers: Dordrecht; 1998.

149. Andrew C. Good SSS, Richards WG. Structure-activity relationships from molecular similarity matrices. Journal of Medicinal Chemistry. Journal of Medicinal Chemistry. 1993:433-8.

150. Wagener M, Sadowski J, Gasteiger J. Autocorrelation of Molecular Surface Properties for Modeling Corticosteroid Binding Globulin and Cytosolic Ah receptor. J Am Chem Soc. 1995;117:7769-75.

Page 103: Nuevos Índices Topo-químicos para codificar la estructura ...

ANEXOS “En lo tocante a la ciencia, la autoridad de

un millar no es superior al humilde razonamiento de una sola persona”.

Galileo Galilei

Page 104: Nuevos Índices Topo-químicos para codificar la estructura ...

ANEXOS

89

Anexo A

Normas, Medias e Invariantes Estadísticas como Generalizaciones de la Combinación Lineal de

LOVIs como Operador de Descriptores Moleculares Global (o Local), así como los algoritmos

Clásicos los cuales generalizan los primeros tres grupos. No. Grupoa Nombre ID Fórmulab

1

Normas

(Métricas)

Norma de Minkowsky (p = 1) Norma de Manhattan

N1

n

aaL

1N1

2 Norma de Minkowsky (p = 2)

Norma Euclideana N2

n

aaL

1

2N2

3 Norma de Minkowsky (p = 3) N3 3

1

3N3

n

a

aL

4 Tamaño Penrose PN

2

1)(

2

1PN

n

aaL

n

5

Media (primer momento estadístico)

Media Geométrica GM nn

aaL

1G

6 Media Aritmética

(Media de fuerza de grado β = 1)

M

1

n

nL...2L1L

M

7 Media Cuadrática (Media de fuerza de grado β = 2)

P2

8 Media de fuerza de grado β = 3 P3

9 Media Harmónica (Media de fuerza de grado β = -1)

A

10

Estadígrafo (mayor momento estadístico)

Varianza V

1-n

n

1a

2MaL

V

11 Asimetría S

n

aMaLX

DEnn

XnS

1

3)(3

3))(2)(1(

)3(*

M, media aritmética

DE, desviación estándar

12 Curtosis K

n

a

jMaLjX

DEnnn

nXXXnnk

1)(

4))(3)(2)(1(

)1)(2)(2(34)1(

M, media aritmética

DE, desviación estándar

13 Desviación Estándar DE

1

2

DE

n

Ma

L

14 Coeficiente de Variación CV M

DECV

15 Rango R minmaxR LL

16 Porciento 25 Q1

2

1

4 Q1

N

N, La number

17 Porciento 50 Q2

2

1

2 Q2

N

Page 105: Nuevos Índices Topo-químicos para codificar la estructura ...

ANEXOS

90

N, número La

18 Porciento 75 Q3

2

1

4

3 Q3

N

N, número La

19 Rango Inter-cuarto I50 13I50 QQ

20 Valor Máximo MX MX = max La

21 Valor Mínimo MN MN = min La

22

Clásicos

Autocorrelación ACk

7,..2,1

)),((1 1

k

kdLLAC ij

n

i

n

j

jik

23 Gravitacional GIk

7,..2,1

)),(1

1 1

k

kdd

LL

nGI ij

n

i

n

j ij

k

ji

k

24 Suma total a lag k TSk

7,,2,1

)),(1 1

k

kdLTSn

i

n

j

ijijk

25 Conectividad Kier-Hall CNm

k

K

i

n

i

it

mk

wLKH

1 1

),(

donde, K es el número de subgrafos, nk es el número de átomos en un fragmento, λ es

igual a ½, m y t son el tipo y orden del subgrafo, respectivamente

26 Contenido de información media MI o

gA

i o

g

N

N

N

NMI 2

1

log

donde, Ng es el número de átomos con el

mismo valor de LOVI. No es el número de

átomos en una molécula.

27 Contenido total de información TI gNG

ggNNNTI

1 2log02log0

28

Contenido de información Estandarizado

SI

020 log NN

ITSI

29 Estado electrotopológico (E-state index) ES

n

j ij

ji

iiiid

IIIIIS

12)1(

donde, Ii es el estado intrínseco del ith átomo

y ΔIi es el efecto de campo en el ith átomo

calculado como perturbación del Ii de ith átomo por todos los demás átomos en la

molécula, dij es la distancia topológica entre

el ith y el jth átomos, y n es el número de átomos. El exponente k es 2.

30 Índices-Tipo Ivanciuc-Balaban IB

1

1 1

2

12

1

n

i

n

ij

jiijk LLaCn

BnJ

donde, la suma de todos los pares de átomos

pero solo pares de átomos adyacentes son

contados por medias de los elementos aij de

la matriz de adyacencia. n, B, y C son los

números de átomos, enlaces y anillos

(número ciclomático), respectivamente. a

El segundo grupo(invariantes 5-9) pueden ser renombradas como “estadígrafos locales” si percentiles y

máximos (mínimos) son tomados en consideración en este grupo. En este caso, el tercer grupo

(invariantes 10-21 pueden ser renombradas como “estadígrafos de envergadura y forma”.

bLOVIs para “a” átomos en una molécula.