“Relación estructura actividad antioxidante de derivados ...
Transcript of “Relación estructura actividad antioxidante de derivados ...
“Relación estructura – actividad antioxidante de derivados de
cumarinas.ˮ
Autora:
Claudia Daniela Torres Zulueta
Tutores:
Lic. Raúl Tomás Pareja Rodríguez
Dra.C. María Elisa Jorge Rodríguez
2018
Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas,
y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui Gómez Lubian”
subordinada a la Dirección de Información Científico Técnica de la mencionada casa de altos
estudios.
Se autoriza su utilización bajo la licencia siguiente:
Atribución- No Comercial- Compartir Igual
Para cualquier información contacte con:
Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las Villas.
Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830
Teléfonos.: +53 01 42281503-1419
Exergo
“Aprende de ayer, vive hoy, ten esperanza por la mañana. Lo
importante es no parar de cuestionar”
Albert Einstein.
Dedicatoria
A mi familia.
Agradecimientos
AGRADECIMIENTOS Deseo expresar mis sinceros agradecimientos a las personas que hicieron posible la realización de esta
Tesis.
A mis padres, por ayudarme a terminar estos cinco años, con mucho sacrificio y amor, por estar presentes
en mis momentos de felicidad y en los momentos difíciles, en los que existieron nuestras diferencias, pero
a pesar de ello, supieron entenderme y confiar en mí.
A mis tutores, por ayudarme en mis momentos de desesperación. A Rauli por estar siempre conmigo y
ver la parte positiva de todo y a Elisa por el apoyo psicológico que siempre me dio.
Le agradezco a Eli, porque a pesar que se encuentra lejos, su tesis de diploma me sirvió de guía para la
realización de este trabajo. A Vivi porque pude contar con ella cuando tenía alguna duda.
A mis compañeros de aula Mario, Disnel, por ser tan divertidos y en especial a Juli, Arlettis y Bei,
siempre haciéndome reir en los momentos en los que me sentía un poco sola, gracias por estar presentes
en los mejores y peores momentos de mi vida universitaria, los quiero.
A Jose porque su locura contagia a todos, jaja, y por ser un buen amigo.
A los profesores de la carrera, en especial Oscar, Aliuska Ribalta, porque la exigencia que los caracterizó
en sus clases me ayudó a ser mejor cada día como estudiante y como persona. Agradeciemientos a Surey
por ser tan atenta y preocupada más allá de su deber como profesora.
A todos los muchachos del grupo de diseño, que con paciencia y cariño dedicaron tiempo a ayudarme a
solucionar mis dudas y a guiar mis pasos en la investigación. Muchas gracias, especialmente, a Juan
Alberto, porque siempre aceptó con una sonrisa mis pedidos de ayuda. También a Naiví, Yudith, y para
los integrantes del grupo de diseño del CBQ por su colaboración, especialmente para el profe Reinaldo.
A mi querido Nene, que fue el más comprensivo y paciente novio del mundo en mis momentos de crisis
y estrés y por enseñarme a ver el por qué de las cosas e ir más allá.
A mis suegros por tratarme como una hija en los momentos en los que estuve lejos del cariño de la casa.
A la gente del CIGB de Camagüey por ser tan serviciales, dedicados y preocupados, como Néstor,
Rolando, mi amiga Arletys , Litzoe, Laritza.
A todos, sinceramente, muchas gracias!!!
Resumen
RESUMEN
Los agentes antioxidantes tienen la función de secuestrar radicales libres reactivos, lo que retarda la
oxidación de otras moléculas y disminuye los daños celulares. El método más aplicado para medir la
capacidad antioxidante, es el basado en la captación del radical DPPH•. En el presente trabajo se
obtuvieron modelos de regresión lineales y no lineales, que correlacionaron la estructura molecular
con la capacidad secuestradora del radical DPPH• en un conjunto de 115 derivados de cumarinas. Las
estructuras fueron codificadas usando descriptores bidimensionales y tridimensionales del software
DRAGON; se seleccionaron los descriptores de mayor variabilidad utilizando el criterio de la entropía
de Shannon. La división de las series de entrenamiento y predicción se realizó mediante el análisis de
conglomerados con la finalidad de construir y validar los modelos de predicción de la actividad
antiradicálica. Los modelos lineales fueron obtenidos utilizando el software MobyDigs mediante la
aplicación de un algoritmo genético y los modelos no lineales fueron generados por el software
WEKA utilizando máquinas de vectores soporte. El modelo lineal combinado (R2 = 81,04 y Q2 =
77,93) cumple con los parámetros establecidos para la validación interna y externa, por ello se utilizó
para predecir la capacidad secuestradora a 7 patrones de cumarinas. La aplicación de técnicas no
lineales mostró mejores resultados de la capacidad predictiva del modelo (R2 = 88,51 y s = 0,207).
Las variables del mejor modelo de regresión lineal revelaron que existe relación entre su definición y
las propiedades antioxidantes de los derivados de cumarinas.
ABSTRACT
Antioxidant agents have the function of capturing reactive free radicals, which slow down the oxidation
of other molecules and reduces cell damage. The most widely applied method of measuring antioxidant
capacity is based on the uptake of the DPPH• radical. In this work, linear and non-linear regression models
were obtained, which correlated the molecular structure with the sequestering capacity of the radical
DPPH• in a set of 115 coumarin derivatives. The structures were coded using two-dimensional and three-
dimensional descriptors from the DRAGON software, the most variable descriptors were selected using
the Shannon entropy criterion. The division of the training and prediction series was carried out by means
of cluster analysis in order to construct and validate the prediction models of the anti-radical activity. The
linear models were obtained using MobyDigs software by applying a genetic algorithm and the non-linear
models were generated by WEKA software using support vector machines. The combined linear model
(R2 = 81.04 and Q2 = 77.93) meets the parameters established for internal and external validation and was
therefore used to predict the sequestration capacity of 7 coumarins patterns. The application of non-linear
techniques shows better results in the predictive capacity of the model (R2 = 88.51 and s = 0.207). The
variables of the best linear regression model revealed that there is a relationship between their definition
and antioxidant properties of coumarin derivatives.
Índice
ÍNDICE
ÍNDICE
INTRODUCCIÓN ..................................................................................................................... 1 CAPÍTULO I: MARCO TEÓRICO ................................................................................................ 4
1.1 Radicales Libres (RL). Importancia en los sistemas biológicos. ..................................... 4 1.1.1 Generación de Radicales Libres y Especies Reactivas..................................................... 4 1.1.2 Efectos biológicos de los Radicales Libres ...................................................................... 6
1.2 Actividad Antioxidante. Métodos para medir la actividad. .......................................... 8 1.2.1 Método DPPH• ............................................................................................................. 10
1.3 Propiedades Antioxidantes de las Cumarinas y sus derivados. ................................... 12 1.4. Estudios QSAR y Descriptores Moleculares .............................................................. 13
1.4.1. Generalidades de los estudios QSAR ........................................................................... 13 1.4.2 Definición y Clasificación de los Descriptores Moleculares .......................................... 14
1.5. Métodos Quimiométricos ....................................................................................... 15 1.5.1. Análisis de Conglomerados .......................................................................................... 15 1.5.2 Análisis de Regresión Lineal Múltiple ........................................................................... 16 1.5.2 Análisis de Regresión No Lineal .................................................................................... 17 1.3.4- Validación Interna y Externa de modelos .................................................................... 18
CAPÍTULO II: MATERIALES Y MÉTODOS ................................................................................ 39 2.1. Gestión de la Data. ................................................................................................. 39
2.1.1 Herramientas computacionales. ................................................................................... 39 2.1.2 Conformación de la Base de Datos. .............................................................................. 39 2.1.3 Curación de la Data. ...................................................................................................... 39
2.2. Cálculo de los Descriptores Moleculares. ................................................................. 40 2.2.1 Software Dragón. .......................................................................................................... 40
2.3 Selección de variables. Software IMMAN. Análisis de Variabilidad. ........................... 41 2.4 Modelación. ............................................................................................................ 42
2.4.1 Recursos computacionales empleados......................................................................... 42 2.4.2 Identificación de outliers .............................................................................................. 43 2.4.3 Software WEKA. Regresión no-lineal múltiple ............................................................. 43
CAPÍTULO III: RESULTADOS Y DISCUSIÓN ............................................................................. 39 3.1 Obtención de la base de datos. ................................................................................ 39 3.2 Cálculo de los Descriptores Moleculares ................................................................... 39
3.2.1 Selección de los mejores descriptores moleculares para las técnicas de regresión. ... 40 3.3 Separación de la Serie de Entrenamiento y la Serie de Predicción. ............................. 40 3.4 Obtención y evaluación de los modelos de Regresión Lineal Múltiple (RLM). ............. 42
3.4.1. Discusión de los resultados de la RLM. ........................................................................ 49 3.5 Aplicación de técnicas no lineales. ............................................................................ 50
3.5.1 Selección de atributos para la técnica no lineal. .......................................................... 50 3.5.2 Modelo no lineal. ...................................................................................................... 51 3.5.3 Discusión de los resultados de la regresión no lineal. .............................................. 53
3.6 Tendencia actual de los estudios in silico del método DPPH• .................................... 53 CONCLUSIONES ................................................................................................................... 55 RECOMENDACIONES ........................................................................................................... 55 BIBLIOGRAFÍA ..................................................................................................................... 56 ANEXOS .............................................................................................................................. 56
Introducción
INTRODUCCIÓN
1
“Todos somos muy ignorantes. Lo que ocurre es que
no todos ignoramos las mismas cosas. ˮ
Albert Einstein
INTRODUCCIÓN
Los productos naturales, y específicamente, los que se obtienen de las plantas, han constituido desde
tiempos remotos, el origen de un gran número de tratamientos a numerosas enfermedades; muchos de
los medicamentos que hoy en día se comercializan son derivados de organismos vegetales. La gran
diversidad biológica de las plantas ofrece compuestos bioactivos de gran importancia farmacológica,
tanto en forma de mezclas como de moléculas estructuralmente aisladas e identificadas (Kostova et
al., 2011). Estos productos se denominan comúnmente “metabolitos secundarios”, que, en contraste
con los “metabolitos primarios”, no son esenciales para el crecimiento y desarrollo de la planta. Existe
un gran número de investigaciones en las cuales se ha comprobado su eficacia farmacológica, entre
ellas se destaca la actividad antioxidante (Kostova et al., 2011). En el caso específico de esta, la mayor
parte de los compuestos que se estudian, precisamente, por su capacidad secuestradora de radicales
libres, son compuestos fenólicos obtenidos de plantas (Hamdi et al., 2011, Sies, 2007, El-Bahr, 2013).
Un compuesto antioxidante es una molécula capaz de disminuir la velocidad o prevenir la reacción
de oxidación (transferencia de electrones desde la sustancia hacia un agente oxidante)
(Worachartcheewan et al., 2011). Las reacciones de oxidación pueden producir radicales libres,
entidades químicas que tienen electrones desapareados que le confiere una gran reactividad y son
capaces de comenzar reacciones en cadena produciendo importantes daños en las células (Halliwell
and Gutteridge, 2015). El estrés oxidativo, es causado por un desequilibrio entre la producción de
especies radicálicas del oxígeno y la capacidad de un sistema biológico de hacer actuar rápidamente
los reactivos intermedios o reparar el daño resultante (Xi and Liu, 2015, El-Bahr, 2013). Este conjunto
de reacciones, ha sido asociado a la patogénesis de muchas enfermedades, por esta razón la
farmacología estudia de forma intensiva el uso de antioxidantes, sustancias que son ampliamente
utilizadas como ingredientes en suplementos dietéticos o como medicamentos con la esperanza de
mantener la salud y de prevenir enfermedades tales como: el cáncer, Alzheimer, arterosclerosis,
enfermedades de Parkinson, entre otras (Gacche and Jadhav, 2012, Carrasco et al., 2003).
Existen un gran número de métodos experimentales para medir la actividad antioxidante de un
compuesto, de manera general, una clasificación los divide en: métodos in vivo y métodos in vitro
INTRODUCCIÓN
2
(Alam et al., 2012). Dentro de los métodos in vitro el más empleado debido a su rapidez, simplicidad
y bajo costo, en comparación con otros análisis; es el basado en la capacidad secuestradora del radical
DPPH•(Alam et al., 2013b, Valko et al., 2007)(Alam et al., 2013b, Valko et al., 2007)(Alam et al., 2013b, Valko et al., 2007)(Alam et al., 2013b,
Valko et al., 2007)(Alam et al., 2013b, Valko et al., 2007)(Alam et al., 2013b, Valko et al., 2007)(Alam et al., 2013b, Valko et al., 2007)(Alam et
al., 2013b, Valko et al., 2007)(Alam et al., 2013b, Valko et al., 2007)(Alam et al., 2013b, Valko et al., 2007)(Alam et al., 2013b, Valko et al., 2007)
(2,2-difenil-1-picrilhidrazilo). Este método consiste en un seguimiento espectrofotométrico de la
reacción entre el DPPH• y el antioxidante, en la región visible del espectro electromagnético (Bartalis
and Halaweish, 2011, Goya Jorge et al., 2016).
A los compuestos fenólicos en particular, se les ha atribuido la acción antioxidante de las plantas que
los contienen. Un tipo especial de derivados de compuestos fenólicos antioxidantes, lo constituyen las
cumarinas, debido al exceso de electrones, producto de la conjugación existente en el heterociclo
fusionado, núcleo base de estas moléculas, lo cual favorece el secuestro de los electrones libres de los
radicales (Xi and Liu, 2015). Las cumarinas son metabolitos secundarios ampliamente distribuidos en
el reino vegetal, bacterias y hongos. Estos compuestos se encuentran localizados en varias partes de
las plantas, sobre todo en frutos, semillas, raíces y hojas, son productos de defensa ante herbívoros y
patógenos, otros proveen soporte mecánico a la planta, atraen polinizadores o dispersores de frutos,
absorben la radiación ultravioleta y reducen el crecimiento de plantas competidoras que estén cerca.
En la actualidad en muchos países europeos, se han estudiado numerosos derivados de cumarinas
naturales, a través de métodos in vivo, que han evaluado propiedades antioxidantes, antimicrobianas,
antivirales, anticancerígenas, antiinflamatorias (Katsori and Hadjipavlou-Litina, 2014), etc. Estos
estudios experimentales requieren un consumo de grandes cantidades de reactivos, además, de mucho
tiempo entre la caracterización estructural, la síntesis química y los ensayos de laboratorio.
Aunque muchos estudios de antioxidantes de origen natural y sintético están basados en ensayos in
vitro de DPPH• ; son pocos los métodos que han obtenido modelos matemáticos, basados en el empleo
combinado de Descriptores Moleculares y herramientas quimiométricas, que han intentado
aproximarse al mismo como vía para modelar teóricamente el efecto antioxidante de cumarinas
naturales y sintéticas, ya que la mayoría de los estudios reportados en la literatura usan datas muy
congenéricas y con pocas moléculas (Worachartcheewan et al., 2011, Gupta et al., 2006, Ray et al.,
2007, Mladenović et al., 2011) , lo cual impide la cuantificación de una gran parte de la información
estructural que contienen dichas estructuras.
Lo anterior propició que se realizara la presente investigación que presenta el siguiente Problema
científico:
INTRODUCCIÓN
3
¿Cómo desarrollar modelos matemáticos que relacionen la actividad antioxidante de cumarinas con
su estructura molecular?
Para dar solución a dicho problema se plateó como Hipótesis:
Utilizando herramientas combinadas de química-matemática y estadística, es posible obtener modelos
que relacionen cuantitativamente la actividad antioxidante de cumarinas con su estructura.
Objetivo General:
Obtener modelos de relación cuantitativa: estructura- actividad que permitan predecir el poder
antioxidante de cumarinas, a partir de la capacidad secuestradora del radical DPPH•.
Objetivos Específicos:
Conformar una base de datos de cumarinas sintéticas que tengan reportados resultados
experimentales de la capacidad secuestradora del radical DPPH•.
Construir y validar modelos de lineales y no lineales de relación cuantitativa estructura-
actividad secuestradora del radical DPPH• con un amplio dominio de aplicación utilizando las
técnicas de Regresión.
Realizar la interpretación teórica de la información química codificada en los modelos
obtenidos y establecer la relación de la misma con la actividad antioxidante.
Capítulo 1: Marco Teórico
CAPÍTULO I: MARCO TEÓRICO
4
“Lo importante es no dejar de hacerse preguntas ˮ
Albert Einstein
CAPÍTULO I: MARCO TEÓRICO
Actualmente, existe una gran preocupación por llevar un estilo de vida saludable, lo cual se evidencia
diariamente a través de los medios de comunicación, donde se promueve el uso de productos
vegetales, que contengan nutrientes y sustancias fisiológicamente activas, que cumplan al igual que
los nutrientes esenciales, una función beneficiosa en la prevención y tratamiento de ciertas
enfermedades, como las crónicas y degenerativas (cáncer, diabetes, enfermedades cardíacas, entre
otras) (OMS., 2003). Por tal motivo la comunidad científica a nivel mundial se encuentra investigando
sustancias que tengan propiedades antioxidantes, como los compuestos polifenólicos, ácido ascórbico
o vitamina C, los carotenoides, α-tocoferol o vitamina E, entre otros (Zapata et al., 2007)
1.1 Radicales Libres (RL). Importancia en los sistemas biológicos.
Los radicales libres están definidos como entidades químicas (átomos, moléculas, iones) que poseen
uno o más electrones desapareados (octeto incompleto). El hecho de que algún electrón se encuentre
ocupando, por sí solo, un orbital atómico o molecular; le otorga a los radicales características químicas
y físicas muy particulares, como su carácter paramagnético y la posibilidad de ser detectados por
espectrometría de resonancia de spin electrónica. Los radicales libres pueden ser aniónicos, catiónicos
o especies neutras y son muy importantes en el origen de la vida y la evolución de las especies
terrestres. (Halliwell, 2007, Younes, 1999, Carrasco et al., 2003, Halliwell and Gutteridge, 2015,
Uttara et al., 2009, Barja, 1997, Jorge, 2015a).
1.1.1 Generación de Radicales Libres y Especies Reactivas
El cuerpo humano produce radicales libres y especies reactivas de oxígeno como productos de
numerosos procesos bioquímicos y fisiológicos como la respiración aeróbica, propia de los
organismos eucariontes y de algunos tipos de bacterias, este es el tipo de metabolismo energético a
partir del cual estos seres vivos extraen energía y es además el responsable de que todos ellos requieran
oxígeno (Uttara et al., 2009, Yehye et al., 2015).
El oxígeno molecular (O2), es, en su estado natural, un biradical, debido a que sus orbitales
moleculares antienlazantes están ocupados por un electrón (e-) desapareado cada uno con spines
paralelos (“estado de triplete 3O2”). En contraste con el O2, la mayoría de las moléculas orgánicas
CAPÍTULO I: MARCO TEÓRICO
5
tienen un “singlete” en su estado natural; por tanto, sus electrones poseen spines antiparalelos, y las
moléculas en este estado solamente pueden reaccionar con sus semejantes, es decir, cualquier reacción
química requiere la adición de un par de electrones con spines antiparalelos. De todo lo anterior se
puede deducir que el oxígeno molecular no puede reaccionar directamente con las moléculas orgánicas
debido a “el impedimento de spin”, y es, por tanto, en su estado natural, un débil oxidante (Younes,
1999, Briehl, 2015). Para que ocurran las conocidas reacciones oxidativas que han dado explicación
a un sin número de procesos biológicos; resulta necesaria una “activación del oxígeno” (Nohl et al.,
2005), que puede ocurrir por la inversión del spin con la consecuente formación del singlete de
oxígeno(1O2) o de lo contrario, por el proceso incompleto de reducción del O2 (Figura 1.1). Para
reducir una molécula de O2 se precisan 4e- y cuando no se dispone de ellos o la reacción no es total,
se pueden formar derivados del O2 (“oxígeno activado” o reducido) de gran reactividad y toxicidad
sobre las moléculas biológicas; como el caso del radical superóxido ( O2 ), que se forma cuando la
reducción es por 1e-, el peróxido de hidrógeno (H2O2), cuando la reducción es por 2e-, y que, aunque
no es un radical, es capaz de difundir y atravesar membranas dañando estructuras de las células.
Luego, el H2O2 puede ser reducido por 1e- que generalmente es donado por metales con e-
desapareados en el orbital d, y que están presentes en componentes celulares como enzimas u otras
proteínas. Como resultado de la reducción del H2O2 se obtiene el radical hidroxilo (ȮH), que es
considerado el más dañino y reactivo de todos; pero que en presencia de otro e forma H2O con gran
facilidad (Younes, 1999, Sies, 2007).
Figura 1.1 Reducción de oxígeno molecular.
Los RL del O2 y las especies reactivas del oxígeno no radicálicas (Ej: H2O2) (también conocidas como
ROS: especies reactivas del oxígeno) son producidas en muchos procesos biológicos. Desde los
sistemas más simples (Ej: hemoproteínas, flavinas, tioles, catecolaminas) hasta los más complejos (Ej:
células fagocíticas, cadena micro somal transportadora de electrones) y también algunos sistemas
enzimáticos (Ej: xantina oxidasa, prostaglandina sintetasa, galactosa oxidasa); son capaces de activar
CAPÍTULO I: MARCO TEÓRICO
6
moléculas de O2 en sus reacciones de autoxidación. Muchos xenobióticos también pueden ser
causantes de la activación, este es el caso del paraquat, el aloxano y el CCl4; incluso, algunos fármacos
como el paracetamol y la furosemida (Younes, 1999, Halliwell, 2007, Jones, 2008, El-Bahr, 2013).
Los principales factores externos que contribuyen a la generación de los ROS son el consumo de
alcohol, tabaco y cigarro (incluyendo a los fumadores pasivos) y el ejercicio (Jarrett and Boulton,
2012, Halliwell and Gutteridge, 2015, Jorge, 2015a).
A pesar de que el oxígeno y las especies que genera, son las que se mencionan en mayor cuantía en la
bibliografía, resulta importante destacar que en los organismos se generan otras especies radicálicas
y no radicálicas de alta reactividad, con características y propiedades semejantes. Este es el caso de
las especies reactivas del nitrógeno, que en los sistemas biológicos tienen como fuente primaria al
óxido nítrico (NO). A partir de él se forma el peroxinitrito (ONOOH) con la participación del anión
que puede ser donado por enzimas presentes en la célula como la xantina oxidasa (XOD) o por el
propio complejo respiratorio de la mitocondria. Adicionalmente, el NO puede dar lugar a al ion nitrito
(NO2- , que es capaz de causar graves afectaciones a las estructuras subcelulares, especialmente
cuando es convertido por la enzima mieloperoxidasa (MPO) en productos como el hipoclorito (HClO)
(Patel et al., 1999, Jorge, 2015a).
1.1.2 Efectos biológicos de los Radicales Libres
Los RL, a pesar de que, hasta cierto punto, resultan necesarios en el mantenimiento de la homeostasia
celular, han dado explicación a los mecanismos de acción tóxica de una gran cantidad de compuestos.
Debido a la diversidad estructural de los RL que se pueden generar y a sus diferentes propiedades, es
difícil generalizar sus efectos biológicos; ya que los mismos variarán en dependencia del sitio de
formación del radical, del tiempo de vida media del radical y de la naturaleza de la molécula diana
con que interactúe. Las macromoléculas y las membranas celulares son particularmente vulnerables
al daño. A continuación se detallan algunos ejemplos (Younes, 1999, Halliwell, 2007, Sies, 2007,
Sies, 2015) (Marx, 1987, Reilly et al., 1991) (Jarrett and Boulton, 2012):
Polisacáridos: Se ha demostrado la relación entre los RL y la despolimerización del ácido
hialurónico (el mayor constituyente de los fluidos extracelulares); provocando, por tanto, que
el mismo no pueda intervenir lubricando, absorbiendo y transportando los nutrientes básicos
en las células, ni eliminando los residuos generados en éstas.
Proteínas: Al tener los RL alta afinidad por las moléculas nucleofílicas como algunos
aminoácidos (Ej: triptófano, tirosina, histidina, fenilalanina, metionina y cisteína), hacen que
las proteínas que contengan los mismos sean blancos directos; pudiendo llegar a formar, en
CAPÍTULO I: MARCO TEÓRICO
7
algunos casos, enlaces covalentes con proteínas celulares. Igualmente, son capaces de actuar
sobre los enlaces peptídicos. La consecuencia más general de todas estas modificaciones
oxidativas en las proteínas, es la pérdida de la función fisiológica de las mismas.
Ácidos Nucleicos: Algunos RL pueden reaccionar con los ácidos nucleicos, y dañarlos por dos
vías fundamentalmente. Por una parte, algunos radicales como el hidroxilo (OH) pueden
reaccionar con los enlaces azúcar- fosfato, provocando escisiones del ácido nucleico y posibles
rupturas de los cromosomas. Por otro lado, pueden causar modificaciones oxidativas en la
estructura del azúcar o de las diferentes bases nitrogenadas. Todos estos daños oxidativos en
los ácidos nucleicos pueden causar la muerte celular (por lo general a través de apoptosis);
pero también se ha demostrado un vínculo directo con la iniciación de tumoraciones.
Lípidos: Los lípidos se encuentran propensos a las reacciones con RL, debido,
fundamentalmente, a que contienen en su estructura una gran cantidad de dobles enlaces. Por
una parte, los metabolitos de los radicales libres, particularmente los lipofílicos, se pueden unir
covalentemente a otros lípidos y por otra, pueden iniciar una cadena de reacciones oxidativas
conocida con el nombre de peroxidación lipídica. El daño peroxidativo puede afectar la
función de las estructuras subcelulares y de la célula en general, conduciendo, en la mayoría
de los casos, a la muerte de esta última.
En resumen, los radicales libres son responsables de un gran número de enfermedades incluyendo el
cáncer (Kinnula and Crapo, 2004), enfermedades cardiovasculares (Singh and Jialal, 2006),
desórdenes neurológicos (Sas et al., 2007), enfermedad de Alzheimer (Smith et al., 2000), defecto
cognitivo leve (Guidi et al., 2006), enfermedad del hígado inducidas por alcohol (Arteel, 2003), y
arteriosclerosis (Upston et al., 2003), entre otras. La protección contra los radicales libres se puede
mejorar con una amplia ingesta de antioxidantes dietéticos. La evidencia sustancial indica que los
alimentos que contienen antioxidantes y posiblemente, en particular, los nutrientes antioxidantes
pueden ser de gran importancia en la prevención de enfermedades. Sin embargo, existe un consenso
cada vez mayor entre los científicos de que una combinación de antioxidantes, en lugar de entidades
únicas, puede ser más efectiva a largo plazo. Los antioxidantes pueden ser de gran beneficio para
mejorar la calidad de vida, al prevenir o posponer la aparición de enfermedades degenerativas.
Además, tienen un potencial de ahorro sustancial en el costo de la entrega de atención médica
(Alam et al., 2013a, Jorge, 2015a).
CAPÍTULO I: MARCO TEÓRICO
8
1.2 Actividad Antioxidante. Métodos para medir la actividad.
La actividad antioxidante es la capacidad de una sustancia para inhibir la degradación oxidativa (por
ejemplo, la peroxidación lipídica de las membranas celulares), de tal manera que un antioxidante
actúa, principalmente, gracias a su capacidad para reaccionar con radicales libres y, por lo tanto, recibe
el nombre de antioxidante terminador de cadena. Sin embargo, es necesario distinguir también entre
actividad estabilizadora de radicales libres o antiradicalaria (en inglés, scavenger) y actividad
antioxidante. La primera está determinada completamente por la reactividad de un antioxidante frente
a radicales libres, lo cual puede ser caracterizado por la velocidad de esa reacción. Por su parte, la
segunda mide la capacidad para retardar la degradación oxidativa. Por lo tanto, una alta actividad anti-
radicalaria no siempre correlaciona con una alta actividad antioxidante; en particular, algunos
compuestos fenólicos sintéticos presentan alta reactividad frente a radicales libres, pero muestran
moderada actividad antioxidante. No obstante, el poder secuestrador de RL que tenga un compuesto,
influirá en que sea o no capaz de interferir en un gran número de reacciones oxidativas del organismo,
que, como se ha mencionado anteriormente, transcurren por mecanismos radicalarios o de formación
de radicales. Por tanto, aunque no existe una coincidencia o solapamiento total entre ambos términos,
ya que la actividad antioxidante es una propiedad más abarcadora; el poder antiradicálico alto o bajo
de un compuesto ofrece información directa de su capacidad para detener, al menos, algunas
reacciones oxidativas.(Londoño Londoño, 2012) (Matill, 1947) (German, Jacob, 1967, Pisoschi and
Negulescu, 2011, Halliwell and Gutteridge, 2015) (Gunars and Grzegorz, 2010 ).
En las células vivas, existen varias líneas defensivas contra el daño oxidativo de los RL y de las
especies reactivas del oxígeno y del nitrógeno. Dentro de los metabolitos con estas funciones están:
el ácido ascórbico (vitamina C), el glutatión, el ácido lipoico, el ácido úrico, los carotenos y el α-
tocoferol (vitamina E); y existen además enzimas y sistemas enzimáticos como la superóxido
dismutasa, la catalasa, las peroxirredoxinas, el sistema de la tiorredoxina y el del glutatión, que incluye
la glutatión reductasa, la glutatión peroxidasa y la glutatión transferasa (Sies, 1985). Todos ellos, en
condiciones normales, evitan que los RL y las especies reactivas sean formadas, o las eliminan antes
de que puedan dañar los componentes vitales de la célula, siendo entonces antioxidantes “naturales”
o “propios” del organismo. No obstante, en situaciones de estrés oxidativo, el organismo requiere de
una mayor cantidad de agentes antioxidantes de los que puede producir, de ahí la importancia que se
les ha dado a las aproximaciones que pretenden descubrir nuevos compuestos con esta propiedad
biológica (Goya Jorge et al., 2016)
CAPÍTULO I: MARCO TEÓRICO
9
Existen un gran número de ensayos experimentales para determinar la actividad o capacidad
antioxidante de productos naturales o sintéticos. Ningún modelo manifestará, por sí solo, la
“capacidad antioxidante total” de una muestra, puesto que este parámetro tendría que expresar el
efecto de antioxidantes lipófilos e hidrófilos, reflejar los diferentes mecanismos antioxidantes y
evaluar la reactividad del antioxidante frente a las diversas especies reactivas. De manera general
existe una clasificación que los subdivide en: métodos in vivo y métodos in vitro.
Dentro de los métodos in vivo, los más reportados tienen que ver, fundamentalmente, con la
determinación de enzimas como: la catalasa (CAT), la glutatión reductasa (GR), el glutatión reducido
(GSH), la glutatión peroxidasa (GSHPx), la glutatión- S- transferasa (GST) y la superóxido dismutasa
(SOD), pero el de mayor popularidad es el de medición de la capacidad de los compuestos para inhibir
la peroxidación lipídica (LPO) a través de la determinación de metabolitos de esta oxidación como es
el caso del malonildialdehído. Un esquema de la frecuencia del uso de estos métodos se muestra en la
Figura 1.2, extraído de un artículo de revisión publicado en la literatura (Alam et al., 2012).
Los métodos in vitro, por su parte, debido a la mayor simplicidad de las muestras con las que se opera
y a la exclusión del uso de animales de laboratorio (con todas las consecuencias éticas, económicas y
prácticas que esto conlleva); se han popularizado hasta superar en variedad y en cantidad reportada
en la web, a las anteriores. Las más usadas según fuentes documentadas se encuentran igualmente en
la Figura 1.2 en forma de diagrama de frecuencia (Alam et al., 2012) Estas son: Método del Ácido
Linoleico β- caroteno, Capacidad antioxidante reductora del ion cúprico (CUPRAC), Actividad
Secuestradora del Radical DPPH•, Ensayo de Folin-Ciocalteu , Poder antioxidante reductor del ion
férrico (FRAP), Método del Tiocianato Férrico (FTC), Ensayo secuestrador de Peróxido de
Hidrógeno, Actividad secuestradora del Radical Hidroxilo, Actividad Quelante de Metales, Actividad
secuestradora del óxido nítrico (NO), Método de la capacidad de absorbancia del radical oxígeno
(ORAC), Método del poder reducido (RP), Actividad secuestradora del radical superóxido (SOD),
Método del ácido tiobarbitúrico (TBA), Capacidad antioxidante equivalente a Trolox (TEAC),
Antioxidante total, Xantina oxidasa (Alam et al., 2013a, Jorge, 2015a).
CAPÍTULO I: MARCO TEÓRICO
10
Figura 1.2: Diagrama comparativo de la frecuencia con la que los métodos antioxidantes in vivo (derecha) e
in vitro (izquierda), se reportan en la literatura (Tomado de un artículo de revisión del año 2012 publicado por
Md. Nur Alam et al).
Se puede concluir a partir de la Figura 1.2; que de los métodos in vitro, el más reportado con amplia
diferencia, es el método de la Actividad Secuestradora del Radical DPPH•, lo cual justifica la
selección del mismo en el presente trabajo; debido a que es una técnica analítica estandarizada y con
la que se ha comprobado la actividad antioxidante de un gran número de sustancias; tanto sintéticas,
aisladas o en forma de mezclas complejas como es el caso de las que tienen origen natural. A
continuación, se detalla brevemente el mismo(Jorge, 2015a).
1.2.1 Método DPPH•
Figura 1.3: Representación 2D (izquierda) y 3D(derecha) del radical DPPH (Xie and Schaich, 2014)
El radical 1,1-difenil-2-picrilhidracilo (DPPH•), cuya representación bidimensional y tridimensional
se muestra en la Figura 1.3, está caracterizado como un radical libre estable; en virtud de la
deslocalización de un electrón alrededor de la molécula; por lo cual no es capaz de dimerizarse. Esta
deslocalización es también la causante del intenso color oscuro del polvo que normalmente se
comercializa y del profundo color violeta que tiene en solución alcohólica; cuya banda de absorción
en etanol se encuentra centrada en los 517 nm, como se muestra en la Figura 1.4. Cuando una
disolución de DPPH• es mezclada con un sustrato que es capaz de donar átomos de H o electrones,
CAPÍTULO I: MARCO TEÓRICO
11
indistintamente; es decir, que tenga cierta capacidad antiradicálica; entonces el DPPH• pasa a ser una
molécula diamagnética, se convierte en su forma reducida en la cual pierde el color violeta, tornándose
de colores menos intensos cercanos al amarillo. El cambio de coloración se monitorea por el
decrecimiento de la absorbancia a valores de longitud de onda entre 515- 517nm en un
Espectrofotómetro UV–Vis (método analítico más reportado para este ensayo). La actividad anti
radicálica, que permite inferir hasta cierto punto el poder antioxidante del compuesto objeto de
estudio, expresada en su capacidad para secuestrar el radical libre DPPH•, se expresa, generalmente,
como la concentración de antioxidante causante del 50 % de la inhibición de la absorbancia (IC50) y
es calculada usando la curva obtenida por ploteo del porcentaje de inhibición contra la concentración
de muestra. Dentro de las principales ventajas del uso del ensayo del DPPH• están su rapidez,
simplicidad y el bajo costoso en comparación con los demás citados anteriormente (Molyneux, 2004,
Kedare and Singh, 2011, Pyrzynska and Pekal, 2013, Pisoschi and Negulescu, 2011, Foti, 2015, Jorge,
2015a).
Figura 1.4: Espectro de absorción del radical DPPH• en el rango UV–Vis. Se pueden apreciar ambas curvas,
del radical en su forma libre DPPH• (violeta intenso) y del radical en su forma reducida DPPH•–H (amarillo).
Este último se obtiene una vez que el primero se enfrenta a una sustancia antioxidante donadora de protones
hidrógeno o de electrones (AO–H).
El mecanismo de reacción del radical DPPH• con un antioxidante se representa a continuación:
Antioxidante forma reducida del radical
CAPÍTULO I: MARCO TEÓRICO
12
1.3 Propiedades Antioxidantes de las Cumarinas y sus derivados.
OO
Figura 1.5 Estructura general de las cumarinas.
Las cumarinas son metabolitos secundarios ampliamente extendidos en la naturaleza, se encuentran
en bacterias, hongos, plantas verdes, en algunas especies de animales, en frutas, té verde, semillas,
vegetales, nueces, café y vino (Kancheva et al., 2017, Katsori and Hadjipavlou-Litina, 2014).
Conocidas como 1,2-benzopironas estructuralmente están formadas por un anillo de benceno
fusionado a uno de pirilio, han sido ampliamente utilizadas para la prevención y el tratamiento de
infecciones, y especialmente en medicina china, son muy popular (Katsori and Hadjipavlou-Litina,
2014). Las propiedades físico-químicas de las cumarinas parecen definir la extensión de su actividad
biológica. Considerando las características estructurales correlacionadas con la actividad biológica,
las cumarinas sintéticas con una gran variedad de grupos farmacofóricos en las posiciones C-3, C-4 y
C-7, han sido intensamente proyectadas por sus actividades antimicrobiana, antiviral, anticancerígena,
antioxidante, anti-inflamatoria, antifúngica, anti-artritis reumatoide, enfermedades del cerebro, anti-
AGEs y anti-acné. Es por ello que se utilizan como excelentes potenciales farmacéuticos (Katsori and
Hadjipavlou-Litina, 2014, Kostova et al., 2011).
Figura 1.6 Usos terapéuticos potenciales de los derivados de las cumarinas (Katsori and Hadjipavlou-Litina,
2014).
La diversidad estructural encontrada para esta familia de compuestos ha llevado a dividirlas en
diferentes categorías, desde cumarinas simples hasta muchos otros tipos de cumarinas policíclicas,
tales como furocumarinas y piranocumarinas. Las cumarinas simples son conocidas por poseer un
CAPÍTULO I: MARCO TEÓRICO
13
aroma semejante al de la vainilla. Es por esto que la síntesis o preparación artificial de cumarinas ha
sido principalmente en la fabricación de fragancias y esencias (Katsori and Hadjipavlou-Litina, 2014).
1.4. Estudios QSAR y Descriptores Moleculares
Varios descriptores moleculares y técnicas quimiométricas han sido utilizados para estudiar la relación
que existe entre la estructura de los compuestos orgánicos y muchas de sus propiedades físicas,
químicas y biológicas, a través de los llamados estudios QSPR/QSAR. Estos modelos permiten
estimar diferentes parámetros que codifican propiedades moleculares.
1.4.1. Generalidades de los estudios QSAR
Los estudios de relaciones cuantitativas estructura actividad/propiedad conocidos como QSAR/QSPR
(de sus siglas en inglés: Quantitative Structure-Activity Relationships/Quantitative Structure-Property
Relationships) tienen, como su nombre lo indica; la finalidad de encontrar, desde un enfoque
cuantitativo, la relación existente entre la estructura de las moléculas objeto de análisis y la actividad
o propiedad, medida o calculada (Todeschini and Consonni, 2000).Las relaciones cuantitativas
estructura- actividad son el resultado final de un proceso matemático que se inicia con la descripción
de la estructura molecular y termina, con algunas inferencias, hipótesis y predicciones, en el
conocimiento del ambiente biológico y/o fisicoquímico de las moléculas del sistema en análisis. Los
estudios QSAR están basadas en la asunción de que las características geométricas, estéricas y
electrónicas de las moléculas, deben contener la información responsable de sus propiedades físicas,
químicas y biológicas (Todeschini et al., 2009)
Existen 3 elementos fundamentales para la investigación científica de QSAR/QSPR: el concepto de
estructura molecular, la definición de descriptores moleculares (DMs) y la relación con propiedades
experimentales de las moléculas que se logra con herramientas quimioinformáticas. (Consonni and
Todeschini, 2010). Aunque el desarrollo de cualquier estudio QSAR es un ciclo interactivo, existen 7
pasos o principios comunes generales que rigen su metodología: 1) Formulación del problema:
Determinar el objeto de análisis y el nivel de información requerido para el estudio. 2) Parametrización
cuantitativa de la estructura molecular de los compuestos químicos empleando los DMs. 3) Medición
de la propiedad de interés. 4) Selección del tipo de modelo QSAR. 5) Selección de los compuestos
(diseño estadístico de la serie). 6) Análisis matemático de los datos y Validación interna y externa de
los modelos obtenidos. 7) Interpretación teórica y/o mecanicista de los modelos desarrollados y su
aplicación al diseño/descubrimiento de nuevos compuestos líderes, desarrollando procedimientos de
tamizaje virtuales (1995, Jorge, 2015a)
CAPÍTULO I: MARCO TEÓRICO
14
1.4.2 Definición y Clasificación de los Descriptores Moleculares
Los DMs son el mayor aporte de uno de los primeros que postuló la relación de las ciencias químicas
y matemáticas, la Teoría de Crum-Brown; y en la cual se desarrolló un sistema de representación
gráfica de compuestos que es prácticamente idéntico al que se utiliza hoy en día. Posteriormente,
Crum-Brown and Fraser propusieron la existencia de una correlación entre la actividad biológica de
diferentes alcaloides y su constitución molecular; más específicamente, la acción fisiológica de
sustancias en ciertos sistemas biológicos () fue definida como una función de su constitución química
(C), es decir , 𝜙 = 𝑓(𝐶). Así, una alteración en la constitución química (C) puede ser reflejada por
un efecto en su actividad biológica (). Esta ecuación se considera la primera formulación general
de las relaciones cuantitativas estructura- actividad (Crum-Brown, 1867, Crum-Brown and Fraser,
1868).
En la pasada década muchas investigaciones estuvieron enfocadas precisamente en captar y convertir
- por vía teórica- la información contenida en la estructura molecular en uno o más números, para
establecer relaciones cuantitativas entre la estructura y propiedades, actividades biológicas u otras
experimentales. Fue de esta forma que surgió una de la más extendida de las definiciones de DMs,
que plantea: un descriptor molecular es el resultado final de un procedimiento matemático y lógico
que trasforma la información química codificada en la representación simbólica de una molécula, en
un número útil o el resultado de algún experimento estandarizado (Todeschini and Consonni, 2009b,
Todeschini and Consonni, 2000). Los resultados numéricos por ellos expresados pueden ser
relacionados estadísticamente con determinadas propiedades (o actividades) moleculares, por ello
se convierten en una poderosa vía para estudiar la relación entre la estructura molecular y las
propiedades químico-físicas y biológicas de las sustancias.
Los DMs están divididos en dos clases generales; los basados en mediciones experimentales:
Descriptores Experimentales, como es el caso de log P, refractividad molar, momento dipolo,
polarizabilidad, etc; y los derivados de una representación simbólica de las moléculas: Descriptores
Teóricos. La principal diferencia entre los descriptores teóricos y los experimentales radica en que los
primeros no presentan el error estadístico de la medición experimental. (Todeschini and Consonni,
2000, Consonni and Todeschini, 2010).
Los Descriptores Teóricos pueden ser clasificados dependiendo de la representación de las moléculas.
La representación molecular es la manera en la que cada molécula es simbólicamente representada
por un procedimiento formal específico y siguiendo reglas convencionales. La cantidad de
información química que es transferida a la representación simbólica depende del tipo de
CAPÍTULO I: MARCO TEÓRICO
15
representación (Testa and Kier, 1991, Jurs et al., 1995). Existen los descriptores 0D, 1D,2D,3D,4D y
hasta 5D, en el presente trabajo solamente se consideraron para el cálculo y los estudios de regresión
los 2D y los 3D
Descriptores 2D: Están basados en la representación en dos dimensiones de la molécula
considerando la conectividad entre los átomos. La representación de las moléculas en términos
de grafos moleculares es comúnmente conocida como representación topológica, es por esto
que este tipo de descriptores se conocen como aquellos que resultan de la aplicación de
algoritmos a la representación topológica. La propiedad atómica con la que se pesa/pondera al
descriptor considera los átomos presentes en la molécula a través de la electronegatividad,
masa atómica, polarizabilidad atómica, estado electrotopológico, volumen de Van der Waals,
etc.; con lo cual se pueden seleccionar aquellos átomos que dan mayor peso a la variable. Estos
descriptores tienen en cuenta las interacciones inter/intra- moleculares(Consonni and
Todeschini, 2010, Todeschini and Consonni, 2000)
Descriptores 3D: Basados en la representación tridimensional de la molécula, que considera a
ésta como un objeto geométrico rígido en el espacio, y permitiendo así una visión adicional de
la configuración espacial (estereoquímica) de los átomos. Este tipo de descriptores también
son conocidos como Descriptores geométricos. Ejemplo de estos descriptores son los estéricos
y de talla. Para su cálculo se utilizan estructuras moleculares previamente optimizadas con
métodos convenientes (Consonni and Todeschini, 2010).
1.5. Métodos Quimiométricos
Los métodos quimiométricos y quimioinformáticos son las herramientas básicas para descubrir
relaciones matemáticas significativas entre la estructura molecular y las propiedades biológicas,
fisicoquímicas, toxicológicas y medioambientales de las sustancias.
1.5.1. Análisis de Conglomerados
El Análisis de Clúster, Análisis de Conglomerados o Taxonomía Numérica, es una herramienta de
análisis exploratorio de la data, de manera que el grado de asociación entre dos objetos es máxima si
pertenecen al mismo grupo, y mínima si no. Constituye un método estadístico multivariante de
reconocimiento de patrones, y específicamente se cataloga como técnica de aprendizaje no
supervisada en la cual se conforman las “clases” a partir de variables predictivas conocidas sin que
haya un conocimiento previo (maestro o supervisor) sobre la clase a que pertenece cada instancia, a
CAPÍTULO I: MARCO TEÓRICO
16
veces, ni siquiera, sobre el número de clases a considerar (Massart and Kaufman, 1983, Willett, 1987).
El AC no es un análisis estadístico típico, sino una “colección” de diferentes algoritmos que después
de una evaluación previa de todos los pares de objetos del conjunto de datos, agrupan acorde con
reglas de similitud /disimilitud bien definidas (2006)
a) AC de tipo Árbol Jerárquico (Joining o Tree Clustering)
El propósito de este algoritmo es unir objetos en clústeres grandes sucesivos, usando alguna medida
de similitud o distancia. El resultado típico de este tipo de AC es el Árbol Jerárquico, en el cual los
objetos se van agregando, incrementándose paulatinamente los elementos disimilares. Finalmente, en
el último paso, todos los objetos se unen. En el caso del Árbol Jerárquico Horizontal las axisas
horizontales denotan la distancia de acoplamiento. Así, por cada nodo (donde se forma cada clúster)
podemos leer el criterio de la distancia a la cual, cada elemento respectivo fue unido en un nuevo
clúster simple. El resultado de la “estructura de la data” estará dado según los objetos que son
similares, y esta estructura se reflejará en el Árbol Jerárquico como distintas ramas. Para considerar
un análisis exitoso, hay que ser capaz de detectar los clústeres (ramas) e interpretarlas.
Con respecto a las medidas de similitudes o distancias entre los objetos, cada dimensión representa
una regla o condición para agrupar. Existen varias medidas de distancia, cada una es determinada por
vías diferentes. Dentro de las más conocidas están: la Distancia Euclidiana (𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑥, 𝑦) =
{∑ (𝑥𝑖 − 𝑦𝑖)2𝑖 }
12⁄ ), el Cuadrado de la Distancia Euclidiana (𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑥, 𝑦) = ∑ (𝑥𝑖 − 𝑦𝑖)
2𝑖 ), la
conocida como “Manhattan” (𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑥, 𝑦) = ∑ (𝑥𝑖 − 𝑦𝑖)2𝑖 ) y la “ Chebychev”
(𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑥, 𝑦) = 𝑀𝑎𝑥𝑖𝑚𝑢𝑚|𝑥𝑖 − 𝑦𝑖|), aunque existen muchas otras(Jorge, 2015a).
b) AC de k- Medias (k- Means Clustering)
Es una herramienta diseñada para asignar casos a un número fijo de grupos (clústeres o
conglomerados) cuyas características no se conocen aún pero que se basan en un conjunto de variables
especificadas. En general, el método de k- Medias puede producir exactamente k clústeres diferentes
con la mayor distinción posible (2006, Jorge, 2015a).
1.5.2 Análisis de Regresión Lineal Múltiple
El análisis de regresión lineal múltiple (RLM) es una técnica que se utiliza para encontrar relaciones
entre una única variable dependiente (criterio) y varias variables independientes (explicativas,
predictoras) (Hair et al., 1999). Así mismo, la regresión múltiple remite a la correlación múltiple, que
se representa por R. Sus fundamentos se hallan en la correlación de Pearson (Alzina, 1989). La
ecuación (modelo) de regresión múltiple tiene la siguiente forma:
CAPÍTULO I: MARCO TEÓRICO
17
𝑦 = 𝑎 + 𝑏1𝑥1 + 𝑏2𝑥2 + ⋯ + 𝑏𝑛𝑥𝑛 (1.1)
Si “a” es un valor constante, Y la variable dependiente, 𝑥1, 𝑥2, … , 𝑥𝑛 variables predictoras
(independientes) y 𝑏1, 𝑏2, … , 𝑏𝑛 coeficientes estimados para cada variable independiente del modelo.
Como puede observarse, la RLM puede utilizarse en la predicción de los valores de la variable
dependiente, en base a una combinación de variables independientes y los coeficientes que ponderan
las variables independientes en la ecuación 1.1 son mayormente determinados por el método de
mínimos cuadrados (Frank, 1993, Draper and Smith, 1998).
Un buen modelo no debe presentar ni demasiadas variables, ni debe olvidar las que sean
verdaderamente relevantes. Es decir, debe cumplir el principio de la parsimonia y la selección del
número óptimo de variables, según el cual un fenómeno debe ser descrito con el número mínimo de
elementos posibles. El principio de parsimonia tiene aplicaciones de importancia en el análisis
exploratorio de modelos de RLM, pues de un conjunto de variables explicativas que forman parte del
modelo a estudiar, debe seleccionarse la combinación más reducida y simple posible, tener en cuenta
la varianza residual, la capacidad de predicción y la multicolinealidad.
Diversos procedimientos se han propuesto para seleccionar el número óptimo de variables a incluir
en la ecuación. Los métodos más comunes de regresión se basan en la adición o eliminación de una
variable a la vez y siguen un determinado criterio (Draper and Smith, 1998), estos se conocen como:
selección hacia adelante, eliminación hacia atrás; y selección paso a paso (Norusis, 1985). Este último
método es uno de los más utilizados (es una combinación de los dos anteriores) y sigue un proceso de
selección de variables paso a paso (Jorge, 2015a).
Existen también otros métodos modernos que pueden ser aplicados con éxito a la búsqueda de
combinaciones óptimas de las variables, como es el caso de los Algoritmos Genéticos.
1.5.2 Análisis de Regresión No Lineal
La regresión lineal no siempre ofrece resultados satisfactorios cuando se aplica a determinados
problemas, debido a que, en ocasiones, la relación entre Y y X no es lineal, sino que exhibe algún
grado de curvatura. En la estimación directa de los parámetros de funciones no-lineales suelen
utilizarse herramientas que conllevan mayor rigor de cálculo y que, normalmente, exhiben tiempos de
cálculo mayor que en la RLM.
Clasificador Máquinas de Soporte Vectorial
Las Máquinas de Vectores de Soporte (SVM, por su nombre en inglés Support Vector Machine) son
una moderna y efectiva técnica de inteligencia artificial, que ha tenido un formidable desarrollo en los
últimos años. Estas herramientas son sistemas de aprendizaje que usan un espacio de hipótesis de
CAPÍTULO I: MARCO TEÓRICO
18
funciones lineales en un espacio de rasgos de mayor dimensión, entrenadas por un algoritmo
proveniente de la teoría de optimización. De forma general el algoritmo se enfoca en el problema de
aprender a discriminar entre miembros positivos y negativos de vectores n-dimensionales. Mediante
una función matemática denominada kernel, los datos originales se redimensionan para buscar una
separabilidad lineal de los mismos. De manera general, las SVM permiten encontrar un híper plano
óptimo que separe las clases (Chen et al., Hearst MA, 1998).
Funciones Kernel
Las funciones kernel son funciones matemáticas que se emplean en las SVM (Cortes C, 1995). Estas
funciones son las que le permiten convertir lo que sería un problema de regresión no-lineal en el
espacio dimensional original, a un problema más sencillo de regresión lineal en un espacio
dimensional mayor. El tipo de kernel determina la transformación o mapeo que se le realizará a los
datos.
Entre los kernels más empleados por su implementación en diversos programas de modelación como
Weka (Morate, 2001), se encuentran:
El kernel Polinómico:
𝐾(𝑥 · 𝑧) = (𝑥 · 𝑧 + 1)𝑝 (1.2)
El kernel Gaussiano:
𝐾(𝑥 · 𝑧) = 𝑒(
−‖𝑥−𝑧‖
2𝜎2 )
(1.3)
Y el kernel Universal de Pearson:
𝐾(𝑥𝑖, 𝑥𝑗) =1
[1 + (2√21𝜔 − 1√‖𝑥𝑖 − 𝑥𝑗‖
2/𝜎2)]
𝜔 (1.4)
Donde ω y σ controlan la altura y amplitud del pico de la función.
WrapperSubsetEval como método de selección de variables:
Esta técnica evalúa sets de atributos mediante el uso de una serie de entrenamiento. La validación
cruzada se usa para estimar la exactitud de la serie de entrenamiento para un set de atributos
determinado. Es el clasificador más utilizado para estimar la precisión de subconjuntos (Ron Kohavi,
1997).
1.3.4- Validación Interna y Externa de modelos
Una condición necesaria para que sea válido un modelo de regresión es que el coeficiente de
determinación (R2) esté cercano, tanto como sea posible, a uno y que el error estándar estimado (s)
CAPÍTULO I: MARCO TEÓRICO
19
sea pequeño (capacidad de ajuste a los datos); sin embargo la consideración de estos únicos parámetros
estadísticos no es suficiente, pues los valores de los mismos no necesariamente están relacionados con
la capacidad del modelo de realizar buenas predicciones de una data futura (Todeschini and Consonni,
2009a). Las técnicas de validación constituyen herramientas fundamentales a la hora de evaluar la
capacidad predictiva de los modelos obtenidos por métodos multivariados de regresión y clasificación
(Diaconis and Efron, 1983, Cramer et al., 1988, Golbraikh and Tropsha, 2002). A continuación, se
hace referencia con más detalle a las técnicas de validación más usadas y que son de especial interés
para este trabajo.
Validación interna
La validación cruzada (VC) opera mediante la realización de un número de reducidas modificaciones
al conjunto de compuestos de la data original y entonces calcula la precisión de las predicciones de
cada uno de los resultados de los modelos (Wold, 1978, Stone, 1974). Es decir, se ajusta el modelo a
los nuevos datos, se deja la parte omitida fuera, y estos se evalúan en el modelo para computar las
predicciones de los casos que fueron excluidos. Este procedimiento se repite para cada conjunto de
datos modificados. El poder predictivo del modelo puede expresarse como q2, denominado como la
‘varianza predictiva’ o la ‘varianza de la validación cruzada’, la cual es igual a (1-PRESS/SSY), o sea,
que puede ser calculado acorde a la siguiente fórmula:
𝑞2 = 1 −∑(𝑦𝑖 − 𝑦��)
2
∑(𝑦𝑖 − ��)2
(1.5)
donde, 𝑦𝑖 , 𝑦�� 𝑦 𝑦 es la respuesta observada, estimada y media del i-ésimo caso, respectivamente.
Cuando se utiliza un solo compuesto en cada grupo de VC (lo cual da N grupos), el procedimiento se
conoce como dejar “uno” fuera (LOO, acrónimo de Leave-One-Out). No obstante, Shao ha
mostrado que desde el punto de vista teórico y práctico, el procedimiento de dejar ‘varios’ fuera
(LSO, acrónimo de Leave-Several-Out) es preferible al LOO (Shao, 1993).
En la técnica de validación por Bootstrap, la talla original del conjunto de datos (n) es preservada en
la serie de entrenamiento, a partir de la selección de m objetos (𝑛 > 𝑚) que son asignados al conjunto
de evaluación y estos son sustituidos por m objetos repetidos de la serie de entrenamiento (Efron,
1982, Efron, 1987). El modelo es calculado en el conjunto de entrenamiento y las respuestas son
predichas en el conjunto de evaluación. Las diferencias de los cuadrados entre las respuestas ciertas y
las predichas son recogidas en el PRESS. Este procedimiento de elaboración del conjunto de
entrenamiento es repetido miles de veces, los PRESS son sumados y el poder predictivo promedio es
calculado (Efron, 1982, Wehrens et al., 2000).
CAPÍTULO I: MARCO TEÓRICO
20
El método del revuelto [prueba de aleatoriedad (y-sc: y-scrambling)] es empleado para evaluar la
correlación al azar (Tropsha et al., 2003, Wold and Erikson, 1995). En esta técnica, se calcula un
modelo de regresión lineal para la verdadera variable respuesta (y) junto con un número de regresiones
repetidas (200-300 veces) con las mismas variables, pero con la variable dependiente aleatoriamente
revuelta (ỹ). Luego se calcula para cada modelo la varianza explicada q2LOO, y se evalúa la correlación
entre la respuesta verdadera y la revuelta(Clark and Fox, 2004) de la siguiente manera:
𝑞𝑘2 = 𝑎 + 𝑏. 𝑟𝑘(𝑦, 𝑦��) (1.6)
donde, la 𝑞𝑘2 es la varianza explicada para el modelo obtenido con los mismos predictores con el k-
ésimo vector revuelto, 𝑟𝑘 es la correlación entre los vectores para la respuesta verdadera y la k-ésima
revuelta. Un valor del intercepto cercano a cero implica que el modelo no es obtenido al azar mientras
que un intercepto grande indica que los modelos aleatorios poseen el mismo desempeño que el modelo
verdadero, por lo que se pudiera considerar aleatorio (Clark and Fox, 2004, Rücker et al., 2007).
Validación externa
La validación externa permite evaluar si los modelos obtenidos son generalizables a nuevos
compuestos químicos y el “verdadero” poder predictivo de los mismos (Tropsha et al., 2003). Para
esto se divide la data en 2 conjuntos: la serie de entrenamiento (sirve para construir el modelo) y la
serie de predicción (no utilizada en la selección de variables ni en el desarrollo del modelo, pero usada
exclusivamente para evaluar el modelo tras su formación).
Capítulo 2: Materiales y Métodos
CAPÍTULO II: MATERIALES Y MÉTODOS
39
“Somos lo que hacemos repetidamente. La excelencia
entonces, no es un acto, es un hábito. ˮ Aristóteles
CAPÍTULO II: MATERIALES Y MÉTODOS
2.1. Gestión de la Data.
2.1.1 Herramientas computacionales.
Microsoft Excel: Es una aplicación distribuida por Microsoft Office para hojas de cálculo y en
el presente trabajo fue utilizado para la organización y filtración de los datos, así como su
posterior almacenamiento.
ChemAxon: El paquete ChemAxon ha sido desarrollado por la compañía del mismo nombre,
que se dedica a programar interfaces para investigaciones bioinformáticas. Dentro de sus
productos se incluyen herramientas para la visualización y representación de moléculas, y
otras para la estandarización y curación de las estructuras. En este trabajo se utilizó
MarvinSketch para dibujar las estructuras de los compuestos, los cuales fueron guardados en
extensión .sdf.
ChemOffice:
Contiene las siguientes aplicaciones:
-ChemDraw, el cual es usado por su rapidez y efectividad para dibujar moléculas y generar
los correspondientes nombres de cada estructura y predecir sus propiedades y espectros RMN
-Chem3D los químicos utilizan para visualizar sus compuestos en tres dimensiones
2.1.2 Conformación de la Base de Datos.
La base de datos para el presente trabajo se construyó a partir de la revisión de artículos científicos
que contenían estructuras de cumarinas con su respectiva actividad antioxidante, variable respuesta
seleccionada para llevar a cabo el estudio de la relación cuantitativa estructura-actividad, reportada a
través del ensayo DPPH como valores de IC50 (concentración requerida para inhibir el 50% de la
concentración del radical DPPH, expresado en micromolar (µM))
2.1.3 Curación de la Data.
La base de datos final consta de 117 estructuras de cumarinas, las cuales se representaron utilizando
las herramientas del ChemOffice y del ChemAxon; originalmente las estructuras se guardaron en
formato sdf para los cálculos de descriptores 2D, pero luego se convirtieron en .mol (utilizando el
CAPÍTULO II: MATERIALES Y MÉTODOS
40
Chem3D Ultra) para los cálculos de descriptores 3D. Se optimizó la energía de los compuestos para
los cálculos 3D y se añadieron hidrógenos explícitos a las estructuras con las opciones que el Chem3D
Ultra ofrece. Para asegurar que ningún compuesto de la data estuviese repetido las estructuras se
guardaron con su correspondiente nombre IUPAC que el mismo software ChemAxon devolvía.
Se descartaron todos aquellos artículos que no incluían el ensayo de DPPHᵒ y se seleccionaron
solamente los que tenían reportados valores de IC50 del ensayo DPPHᵒ, además se tomaron los valores
de IC50 que estuviesen expresados en µM, o en unidades que se pudiesen fácilmente convertir a µM
como mM o nM.
2.2. Cálculo de los Descriptores Moleculares.
2.2.1 Software Dragón.
Es una aplicación para el cálculo de DMs originalmente desarrollada por Milano Chemometrics and
QSAR Research Group, y que desde su surgimiento en 1997 ha sido actualizada y ampliada en varias
ocasiones. El software proporciona un gran número de DMs divididos en bloques lógicos, cada uno
de ellos con sub-bloques que facilitan la selección de los DMs de interés. El DRAGON acepta los
más comunes formatos de estructuras moleculares, que deben haber sido representados previamente
en otro programa como es el caso del paquete ChemOffice o ChemAxon. Este software no fue
diseñado para el análisis de QSAR, proporciona solamente descriptores moleculares, pero no lleva a
cabo el análisis. Sin embargo, es posible ajustar propiedades definidas para un conjunto de moléculas,
con lo cual brinda un fichero de salida útil en cualquier aplicación de análisis de correlación (2007).
La versión del DRAGON utilizada para el cálculo de DMs fue la 5.5; que tiene implementado un total
de 3224 DMs subdivididos en 22 familias (o bloques lógicos). El programa puede calcular no solo las
propiedades simples como tipo de átomos, grupos funcionales y conteo de fragmentos, sino también
diversos descriptores topológicos y geométricos. Resulta válido aclarar que para hacer un uso
completo y efectivo del DRAGON, se requiere que las estructuras estén optimizadas en 3D con los H
incluidos, condiciones que se habían logrado con las estrategias de Curación de la Data que
anteriormente se abordaron.
CAPÍTULO II: MATERIALES Y MÉTODOS
41
Figura 2.1: Interfaz gráfico del software empleado en el cálculo de los descriptores 2D y 3D. Dragón.
2.3 Selección de variables. Software IMMAN. Análisis de Variabilidad.
Figura 2.2: Interfaz gráfico del software IMANN.
Con la técnica de análisis de variabilidad (AV) basada en el cálculo de la Entropía de Shannon (SE)
(Godden and Bajorath, 2000, Godden and Bajorath, 2002, Barigye et al., 2014), se estima la cantidad
de información codificada por los diferentes parámetros moleculares, como entidades independientes,
y luego se comparan los valores entrópicos de estos. El cálculo de la entropía de los descriptores se
basa en la entropía de Shannon. (Ecuación 2.1)
𝑆 = −𝑘 ∑ 𝑝𝑖𝑙𝑜𝑔2
𝑁
𝑖=1
𝑝𝑖
(2.1)
La misma expresa el contenido “físico” de la información. Esta ecuación permite calcular el
contenido de información promedio. Con motivo de realizar el análisis de variabilidad de los
parámetros moleculares propuestos en el presente trabajo, se ha utilizado una herramienta
computacional fundamentada en los conceptos de la teoría de información la cual se denomina
IMMAN (acrónimo de Information Theory based CheMoMetric ANalysis). Esta aplicación permite
el cálculo de la Entropía de Shannon (SE) a los DMs. En la Figura 2.3 se muestra la interfaz gráfica
del software (aplicación visual), el cual es un Software libre y de fácil uso por usuarios no expertos.
CAPÍTULO II: MATERIALES Y MÉTODOS
42
2.4 Modelación.
2.4.1 Recursos computacionales empleados.
-STATISTICA
Es un paquete estadístico usado en investigación y minería de datos. En este trabajo se empleó para
llevar a cabo el análisis de conglomerados.
Separación de las series de entrenamiento y predicción: La clasificación de la Data obtenida en Serie
de Entrenamiento y Serie de Predicción se hizo aplicando el método de Análisis de Conglomerados,
implementado en el paquete STATISTICA; específicamente sus técnicas de Árbol Jerárquico y k -
Medias. La medida de disimilitud y agente disgregante/aglomerante, fue el Cuadrado de la Distancia
Euclidiana y se empleó el algoritmo de Ward como medida de amalgamiento. Se tomó el 25% de cada
uno de los clústeres para la confección de la SP, mientras que el resto de los compuestos formó parte
de la SE.
-MobyDigs. Regresión Lineal Múltiple (RLM)
Los modelos de regresión QSAR (acrónimo de Quantitative Structure Activity Relationship) se
obtuvieron con el programa MOBYDIGS (versión 1.0 – 2004) (Todeschini et al., 2004). Los pesos
de cada descriptor en la ecuación de regresión son determinados por el método de mínimos cuadrados.
Este programa utiliza un Algoritmo Genético como método de selección de parámetros (El algoritmo
genético está inspirado en los procesos de evolución natural en el cual las especies que tienen mejor
ajuste a ciertas condiciones pueden prevalecer y sobrevivir a la próxima generación. Las mejores
especies se pueden adaptar por cruzamiento o mutación en la búsqueda de mejores individuos), lo
que le permite evaluar un número elevado de variables. Para el estudio QSAR, se determinó el tamaño
(grado de libertad) deseado para los modelos a generar. Se optimizaron los modelos usando como
función objetivo (función de optimización) del algoritmo genético el estadístico q2LOO y se validaron
empleando las técnicas de re-muestreo [bootstrapping (q2boot)], revuelto [Y-scrambling: a(R2), a (q2)]
y validación externa (q2ext).
CAPÍTULO II: MATERIALES Y MÉTODOS
43
Figura 2.3: Interfaz gráfico del software estadístico MobyDigs.
2.4.2 Identificación de outliers
Un paso crucial en la construcción de modelos, resulta la detección de compuestos atípicos
(“outliers”), que se definen como puntos que no se ajustan o son pobremente predichos; afectando así
los parámetros estadísticos. Es decir, la identificación de los outliers busca un mejoramiento
cualitativo del modelo, y, aunque no es necesario justificar la extracción de estos puntos, se
recomienda determinar la razón para su peculiaridad en aquellos casos en que sea posible (Verma and
Hansch, 2005). Existen varias técnicas para detectar la presencia de outliers, tales como: los análisis
de los residuales estandarizados, los residuales studentizados, el método de Leverage, la estadística
DFITS, la distancia de Cook y el método de “dejar varios fuera”.
2.4.3 Software WEKA. Regresión no-lineal múltiple
WEKA por sus siglas en inglés (Waikato Environment for Knowledge Analysis) es una herramienta
que permite la experimentación de análisis de datos mediante la aplicación, análisis y evaluación de
las técnicas más relevantes, principalmente las provenientes del aprendizaje automático, sobre
cualquier conjunto de datos del usuario. Contiene herramientas para realizar transformaciones sobre
los datos, tareas de clasificación, regresión, agrupamiento, asociación y visualización. Weka soporta
varias tareas estándar de minería de datos, especialmente, pre-procesamiento de datos, clustering,
clasificación, regresión, visualización, y selección. El software Weka fue utilizado para obtener los
modelos de regresión no lineal. En este caso se usó como clasificador las Máquinas de Vectores de
Soporte (SVM) con variaciones en los tipos de kernels.
Figura 2.4: Interfaz gráfico del software WEKA
Capítulo 3: Resultados y Discusión
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
39
“No es el resultado de la investigación científica que ennoblece a los seres humanos
y enriquece su naturaleza, sino la lucha por entender
mientras realiza un trabajo intelectual
creativo y de mente abierta. ˮ Albert Einstein
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
3.1 Obtención de la base de datos.
La base de datos de cumarinas se construyó a partir de la revisión de artículos científicos actuales, y
solo se tuvieron en cuenta los que tuvieran reportada la actividad antioxidante experimental de las
cumarinas en IC50 y que el método para determinar dicha actividad fuese el ensayo DPPH•.
Inicialmente se contaban con 121 moléculas en la base de datos, pero se descartaron 12 moléculas del
total. De estas 12 moléculas, 4 no fueron capaces de generar su estructura 3D optimizada en el
Chem3D se identificaron como moléculas repetidas utilizando el método de Análisis de
Conglomerados y las restantes 6 se identificaron como outliers durante la RLM realizada para el
modelo combinado de los descriptores 2D Y 3D. La estructura de estas 10 moléculas se puede
consultar en Figura 3.8.
3.2 Cálculo de los Descriptores Moleculares
El hecho que los descriptores 0D y 1D no sean los que mejor representan la estructura molecular de
un compuesto, pues son representaciones independientes de cualquier conocimiento que involucre
a la estructura molecular y presentan usualmente una alta degeneración (muchas moléculas
presentan los mismos valores) lo que significa que la información que contienen es baja (Consonni
and Todeschini, 2010); hace que se hayan seleccionado para el cálculo solamente los descriptores
moleculares 2D y 3D, ya que con este trabajo se pretende establecer una relación entre la estructura
de cada una de las moléculas de cumarinas de la base de datos con su actividad antioxidante reportada.
Los DMs se calcularon utilizando la versión 5.5 del software DRAGON los cuales devolvieron un
total de 546 Descriptores 2D y 183 descriptores 3D. A continuación, se muestra detalladamente los
grupos de descriptores que se utilizaron en este cálculo (2007).
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
40
Figura 3.1: Familia de descriptores 2D y 3D usados en el cálculo.
3.2.1 Selección de los mejores descriptores moleculares para las técnicas de regresión.
Se realizó una selección de variables utilizando el software IMMAN, empleando el criterio de la
entropía de Shannon (ecuación 2.1), la cual es elevada para variables (DMs) de alta variabilidad y
mínima para las de poca variabilidad en la data, o sea a mayor variabilidad, mayor información
química aportada por los descriptores. Esta técnica permite evaluar la calidad de los DMs como
entidades independientes y se ha utilizado en la literatura para comparar el desempeño de conjuntos
de DMs implementados de diferentes paquetes computacionales, así como en estudios de diversidad
molecular (Godden and Bajorath, 2000, Barigye et al., 2013b, Barigye et al., 2013a, Barigye et al.,
2014).
3.3 Separación de la Serie de Entrenamiento y la Serie de Predicción.
La data se dividió en dos grupos, con el objetivo de evaluar el poder predictivo (validación externa)
de los modelos. El primer grupo constituyó la serie de entrenamiento, el cual contenía 94 Moléculas
y el segundo grupo se declaró como serie de predicción (no se incluyó en la generación de los
modelos), y contaba con 23 moléculas, o sea el 25 % del total de moléculas. Para esto se empleó el
método de Análisis de Conglomerados (AC), el cual dividió la data de forma aleatoria y racional en
clústeres.
Con la técnica de AC “Árbol Jerárquico”, se comprobó que existían en la Data 2 compuestos repetidos
mediante el esquema de amalgación (también conocido como camborano). Se estudió además la
estructuración de los datos; ya que el dendograma (mostrado en la Figura 3.2) obtenido, permite hacer
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
41
un análisis de la diversidad estructural de la Data; con lo que fue posible fijar el total de clústeres. En
el dendograma de la Figura 3.2 se aprecia el corte realizado; que finalmente subdivide la Data en 11
conglomerados, utilizando como medida de distancia (abscisa) el cuadrado de la distancia Euclidiana
y como esquema de agrupamiento (ordenada), el agrupamiento completo. Además, es posible apreciar
que existe un gran número de subconjuntos diferentes; lo cual ratifica la variabilidad molecular de
los compuestos seleccionados en esta base de datos.
Tree Diagram for 117 Cases
Ward`s method
Euclidean distances
0 100 200 300 400 500 600 700 800 900 1000
Linkage Distance
Mol 15
Mol 114
MOl 96
Mol 93
Mol 10
Mol 5
Mol 26
Mol 23
Mol 61
Mol 75
Mol 77
Mol 82
Mol 34
Mol 48
Mol 44
Figura 3.2: Dendograma del AC de Árbol Jerárquico.
Posteriormente se realizó el estudio de k- Medias (Figura 3.3), con el número prefijado de 11
conglomerados; condición necesaria para este tipo de AC. Este análisis facilitó la tarea de agrupar los
compuestos en los diferentes conglomerados y realizar así una adecuada división en SE y SP,
garantizando representatividad química en cada una de ellas.
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
42
Figura 3.3: Dendograma de AC de estudio de k-Medias.
3.4 Obtención y evaluación de los modelos de Regresión Lineal Múltiple (RLM).
En esta sección se expondrán los resultados de la modelación de la actividad antioxidante de los 115
compuestos de cumarinas obtenidos finalmente en la base de datos, utilizando una Regresión Lineal
Múltiple, con el uso del software MobyDigs v1.0. Este programa usa el algoritmo genético como
método de selección de parámetros y el Q2Loo como función objetivo para escoger los mejores
modelos. Además, el software determina varios parámetros estadísticos para evaluar la calidad de los
modelos.
i. RLM con descriptores moleculares 3D.
Los parámetros estadísticos del mejor modelo de regresión lineal obtenido para describir la actividad
antioxidante expresada como log IC50 (nM) de las moléculas de la base de datos de Cumarinas y sus
correspondientes gráficos de regresión y predicción se muestran a continuación, se tomaron 94
moléculas para la serie de entrenamiento y otras 23 para la serie de predicción.
Tabla 3.1: Datos estadísticos del modelo de RLM con descriptores 3D.
Tamaño Variables R2(%) Q2(%) Q2boot(%) R2
adj(%) F s
7 RDF055m Mor28u E3u
E2m H8m HATS3e R3u+
65,03
59,09
56,38
62,18
22,85
0,882
Tree Diagram for 118 Cases
Ward`s method
Euclidean distances
0 2E5 4E5 6E5 8E5 1E6 1.2E6 1.4E6 1.6E6
Linkage Distance
C_15
C_98
C_101
C_17
C_9
C_74
C_68
C_66
C_87
C_63
C_23
C_45
C_92
C_31
C_29
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
43
Donde R2 es el coeficiente de determinación, R el coeficiente de correlación, s la desviación estándar
de la regresión, Q2 es el coeficiente de determinación obtenido a partir del método de validación
cruzada (LOO), Q2 boot es el coeficiente de determinación de la validación cruzada por Bootstrap, s es
la desviación estándar de la validación cruzada y F es el radio de Fisher.
a) b)
Figura 3.4: Gráficos de a) Regresión y b) Predicción, para el modelo de RLM con descriptores 3D,
respectivamente.
Como puede observarse en los gráficos anteriores y en los parámetros estadísticos, este modelo posee
baja capacidad de ajuste a los valores experimentales. Esto puede justificarse debido a que la actividad
antioxidante está estrechamente relacionada con la conjugación presente en los anillos condensados
que forman el núcleo base de estos compuestos. Por lo que debería esperarse que los descriptores
bidimensionales correlacionen mejor con la actividad antioxidante de las cumarinas.
A continuación, se realizó otra RLM bajo las mismas condiciones anteriores, o sea 115 compuestos
de cumarinas, 94 se indicaron como SE y los restantes 23 como SP, pero esta vez con los descriptores
moleculares 2D.
ii. RLM con descriptores moleculares 2D.
Los parámetros estadísticos del mejor modelo de regresión lineal obtenido para describir la actividad
antioxidante expresada como log IC50 (nM) de las moléculas de la base de datos de Cumarinas y sus
correspondientes gráficos de regresión y predicción se muestran a continuación.
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
44
Tabla 3.2: Datos estadísticos del modelo de RLM con descriptores 2D.
Tamaño Variables R2(%) Q2(%) Q2boot(%) R2
adj(%) F s
7 PW5 SIC3 nRCO nArCO
nArOH nImidazoles
F03[C-N]
76,68
71,55
69,99
74,78
40,4
0,724
a) b)
Figura 3.5: Gráficos de a) Regresión y b) Predicción, para el modelo de RLM con descriptores 2D,
respectivamente.
Del modelo anterior se puede deducir que existe mejor capacidad de ajuste y de predicción del modelo,
lo cual concuerda con lo expresado anteriormente sobre la capacidad de los descriptores 2D para
modelar esta propiedad, en comparación con los valores obtenidos para la modelación de la RLM con
los descriptores 3D.
Es por eso que, en busca de mejorar la calidad de los resultados, el siguiente paso fue modelar la
actividad antioxidante de 115 cumarinas combinando los descriptores 2D y 3D en un solo modelo de
RLM con el objetivo de obtener mayor representatividad estructural de cada molécula.
iii. RLM combinando descriptores moleculares 2D y 3D calculados.
Tabla 3.3: Datos estadísticos del modelo de RLM combinando descriptores 2D y 3D
Tamaño Variables R2(%) Q2(%) Q2boot(%) R2
adj(%) F s
7 MATS2m BEHe1
nPyrazoles
C-038 B10[C-N] Mor22p
H8m
76,04
71,39
70,11
74,48
48,52
0,711
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
45
a) b)
Figura 3.6: Gráficos de a) Regresión y b) Predicción, para el modelo de RLM combinando descriptores 2D y
3D, respectivamente.
En comparación con los resultados obtenidos en la RLM con los descriptores 2D, en este caso se
observa un comportamiento bastante cercano entre ambos modelos. Para mejorar los parámetros de la
regresión, se identificaron moléculas outliers las cuales se quitaron para una posterior modelación.
i. Identificación de outliers.
Un paso crucial en la construcción de modelos, resulta la detección de compuestos outliers que se
definen como puntos que no se ajustan o son pobremente predichos y afectan los parámetros
estadísticos. Es decir, la identificación de outliers busca una mejoría cualitativa y cuantitativa del
modelo, y aunque no es necesario justificar la extracción de estos puntos, se recomienda determinar
la razón para su peculiaridad en aquellos casos en que sea posible. Existen varias técnicas para detectar
la presencia de outliers, tales como: los análisis de los residuales estandarizados, los residuales
studentizados, el método de Leverage, la estadística FFITS, la distancia de Cook y el método de “dejar
varios fuera”. En este trabajo se utilizó el método de Leverage, para la identificación de outliers
(Figura 3.7).
Analizando el Gráfico de William se puede apreciar que existían compuestos con un comportamiento
completamente anómalo, que por tanto se encontraban fuera del DA, por lo cual resultaba necesario
su exclusión inmediata. Esta problemática es posible atribuirla a las fuentes de información o
simplemente a que algunos compuestos presentan características estructurales “únicas” o “diferentes”
y por tanto exhiben comportamientos anómalos respecto a la actividad antioxidante.
Según el criterio de descartar solamente aquellos compuestos que se alejaran en gran medida del DA,
y que por tanto exhibieran un comportamiento atípico muy marcado o un elevado leverage; se
seleccionaron un total de 6 compuestos para su posterior exclusión, los cuales se muestran señalados
en el Gráfico de William (a la derecha de la Figura 3.7)
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
46
a) b)
Figura 3.7: Gráfico de William que plotea los valores residuales (Std err (Y pred-Y exp)) respecto al leverage
(Hat Values). A la derecha se muestra el mismo gráfico con los 6 compuestos que se tomaron como outliers.
ii. Análisis de las estructuras consideradas outliers.
Figura 3.8: Estructura Molecular de los outliers.
Mediante un análisis de la estructura de los compuestos outliers se aprecia que la mayoría aparece con
anillos adicionales al esqueleto base de las cumarinas, además tienen pocos grupos hidroxilo y los que
existen están impedidos estéricamente, lo cual afecta la posibilidad de ataque por parte del radical al
antioxidante. Un mecanismo de esta acción se muestra en el siguiente esquema:
23
45
63
68
69 94
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
47
Figura 3.9: Mecanismo de Acción Antiradicálica de un compuesto fenólico.
iii. RLM combinando descriptores moleculares 2D y 3D, sin outliers.
Tabla 3.4: Datos estadísticos del modelo de RLM combinando descriptores 2D y 3D sin outliers
Tamaño Variables R2(%) Q2 (%) Q2boot(%) R2
adj(%) F s
7 D/Dr05 MATS2v
MATS8p Mor24m L2s
HATS3u H8m
81,04
77,93
76,78
79,75
62,9
0,615
a) b)
Figura 3.10: Gráficos de a) Regresión y b) Predicción, para el modelo de RLM combinando descriptores 2D y
3D sin outliers, respectivamente.
Se puede observar la mejoría en los parámetros estadísticos del modelo, luego de identificar y excluir
del modelo las moléculas que se consideraron outliers, el valor de R2 es más cercano a 1, indicando
mejor ajuste, Q2 presenta un valor también alto. El análisis de los parámetros estadísticos del modelo
obtenido demuestra que es robusto debido a la poca diferencia ente Q2loo y Q2
boot la cual no excede 3
unidades.
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
48
Tabla 3.5: Parámetros matemáticos del mejor modelo de la RLM combinando descriptores 2D y 3D sin
outliers.
Variable Coeficientes de Regresión
Errores del Coeficiente de
Regresión
Intercepto 2,3623 0,30601
1 D/Dr05 -0,02052 0,0022
2 MATS2v 4,07653 0,64464
3 MATS8p 1,1484 0,22196
4 Mor24m 1,21054 0,32186
5 L2s -0,3508 0,05423
6 HATS3u -3,39678 0,58645
7 H8m -9,75357 1,53159
A partir de los valores recogidos en la tabla anterior se puede construir la ecuación que describe el
mejor modelo de la RLM para este caso. Las variables independientes son los descriptores 2D
(D/Dr05, MATS2v, MATS8p) y 3D (Mor24m, L2s, HATS3u, H8m), las cuales expresan la mayor
representatividad de las estructuras recogidas en la base de datos de cumarinas, según el programa
MobyDigs v1.0. La variable dependiente (log IC50) es la actividad antioxidante de cada uno de los
compuestos. La ecuación del modelo se presenta a continuación:
𝒍𝒐𝒈 𝑰𝑪𝟓𝟎 = 2.63(±0.31) − 0.02(±0.002)[𝐃/𝐃𝐫𝟎𝟓] + 4.08(±0.64)[𝐌𝐀𝐓𝐒𝟐𝐯]+ 1.15(0.22)[𝐌𝐀𝐓𝐒𝟖𝐩] + 1.21(±0.32)[𝐌𝐨𝐫𝟐𝟒𝐦] − 0.35(±0.054)[𝐋𝟐𝐬]− 3.40(±0.59)[𝐇𝐀𝐓𝐒𝟑𝐮] − 9.75(±1.53)[𝐇𝟖𝐦]
Tabla 3.6: Descriptores obtenidos en el cálculo del mejor modelo matemático.
Descriptor Tipo Descripción
D/Dr05 Descriptores Topológicos Distancia/desvío de anillo de 5 miembros
MATS2v Autocorrelaciones 2D Autocorrelación de Moran –lag 2 / ponderado
por masas atómicas
MATS8p Autocorrelaciones 2D Autocorrelación de Moran - lag 8 / ponderado
por polaridades atómicas
Mor24m Descriptores 3D-MoRSE 3D-MoRSE - señal 24 / ponderado por masas
atómicas
L2s Descriptores WHIM Índice direccional WHIM de tamaño de 2º
componente / ponderado por estados
electrotopológicos atómicos
HATS3u Descriptores GETAWAY Autocorrelación ponderada por leverage de
lag 3 / no ponderado
H8m Descriptores GETAWAY H autocorrelación de lag 8 / ponderado por
masas atómicas
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
49
iv. Validación externa del modelo combinado de descriptores 2D y 3D sin outliers.
La validación externa permite evaluar si los modelos obtenidos son generalizables a nuevos
compuestos químicos y el “verdadero” poder predictivo de los mismos (Tropsha et al., 2003). Para
esto se divide la data en 2 conjuntos: la serie de entrenamiento (sirve para construir el modelo) y la
serie de predicción (no utilizada en la selección de variables ni en el desarrollo del modelo, pero usada
exclusivamente para evaluar el modelo tras su formación).
Para ello, en este trabajo se utilizaron 7 compuestos de la familia de la warfarina (para ver estructura
de las mismas consultar la tabla 3 de los anexos) como serie de predicción y el mejor modelo de la
combinación de los descriptores 2D y 3D (sin outliers) para realizar la validación externa.
Para la serie de predicción (Warfarina y derivados de esta) se calcularon los descriptores 2D y 3D y
se seleccionaron solamente los valores de aquellos descriptores que estaban presentes en el modelo
dicho anteriormente. Se sustituyó cada valor de las variables independientes (descriptores
seleccionados) para cada uno de los 7 compuestos, utilizando para ello, la ecuación del modelo
obtenido, sin incluir para este cálculo los errores de los coeficientes de correlación. Ver resultados en
tabla 3 de anexos.
3.4.1. Discusión de los resultados de la RLM.
Existen diferentes opiniones en relación con la interpretación de los parámetros estadísticos y con el
establecimiento de los valores extremos mínimos que los mismos deben poseer para considerar
“aceptados” o “validados” los modelos objetos de estudio. Con el objetivo de lograr agrupar el criterio
de varios autores se tomó como referencia artículos de revisión muy citados que plantean:
R2: Es el parámetro utilizado por lo general para estimar el ajuste del modelo al comportamiento
estudiado (en este caso RLM). Sus valores, se plantea, deben estar lo más cercanos posibles a 1.0,
pero no debe considerarse a R2 como parámetro único, debido a que existen muchas posibilidades de
sobreajustes arbitrarios (Eriksson L et al., 2003). Son aceptados aquellos resultados en los cuales se
exhiban valores de R2 por encima de 0.6 (Tropsha, 2010).
Q2: Expresa el poder predictivo del modelo. Es imposible obtener altos valores de Q2 sin haber
obtenido altos valores de R2. Generalmente se acepta un Q2 > 0,5 y Q2 >0,9 se considera excelente
(pero estos mínimos dependen de la aplicación del estudio) (Tropsha, 2010).
R2-Q2: La diferencia entre ellos no debe exceder a 0.5. Valores mayores pueden indicar: un sobreajuste
del modelo, la presencia de variables irrelevantes o de outliers en la Data (Tropsha, 2010, Eriksson et
al., 2003).
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
50
El criterio de selección de la RLM, para comenzar el presente trabajo, fue debido, fundamentalmente,
a la simplicidad de esta herramienta. Muchas propiedades biológicas han sido satisfactoriamente
modeladas con el empleo de la RLM; de hecho, es aceptado que representa, en el caso de las relaciones
cuantitativas estructura-actividad; la más empleada de las técnicas de regresión, y la actividad
antioxidante no es la excepción (Jorge, 2015b)
Sin embargo, los resultados poco significativos, pueden deberse a que se modela una actividad
biológica; esta es una práctica muy compleja ya que depende, además de la estructura, de otros
factores no controlables por el experimentador como, por ejemplo, el efecto de la matriz biológica
sobre la capacidad individual de acción de cada una de las moléculas. Sin embargo, se asume que la
estructura química posee el protagonismo en cuanto a influenciar el valor de la propiedad.
Existe una gran diversidad de mecanismos de acción en los organismos vivos, algunos no totalmente
dilucidados y la mayoría con una gran complejidad; por lo cual, no siempre las aproximaciones
lineales, a pesar de la simplicidad y flexibilidad que suelen tener; son capaces de satisfacer el
comportamiento de datos experimentales que simulen reacciones químicas tan complejas y poco
conocidas como es el caso de las que involucran radicales libres.
Podría argumentarse además que la estructura de las moléculas no tenga una relación lineal con la
propiedad evaluada, al menos cuando están descritas con los descriptores moleculares utilizados, esto
influye en la capacidad de ajuste y de predicción del mejor modelo obtenido. Por lo tanto, se deben
desarrollar técnicas no lineales para evaluar el comportamiento de las mismas (Hansch and Fujita,
1964).
3.5 Aplicación de técnicas no lineales.
Una vez encontradas las mejores RLM, se hace además necesario recurrir a la aplicación de técnicas
no lineales debido a que puede que el modelo se ajuste con mayor precisión a una regresión del tipo
no lineal.
3.5.1 Selección de atributos para la técnica no lineal.
Para las técnicas no lineales es necesario también hacer una selección de los mejores atributos, o sea,
los que tengan una mayor capacidad de ajuste al sistema, los más variables y ortogonales entre ellos
y los que más influyen en la construcción del modelo. Una práctica usual en el aprendizaje
automatizado es que el número de parámetros de los que dependa un modelo debe ser inferior al
número de casos empleados en su ajuste, lo cual permite reducir la posibilidad de sobre ajustar el
modelo a los datos de entrada lo que disminuye por consiguiente su capacidad predictiva.
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
51
La técnica no lineal utilizada (SVM) construye un modelo de regresión con todas las variables que le
son introducidas, con el objetivo de aumentar la robustez de los mismos se realizó una selección de
variables mediante la utilización, primeramente, del evaluador “WrapperSubsetEval” (Ron Kohavi,
1997) implementado en el software WEKA acoplado a una búsqueda “BestFirst”. Esta técnica de
selección de parámetros busca el espacio de subconjuntos de atributos por asociación, con una
facilidad de búsqueda de retroceso. Coloca un número consecutivo de nodos y controla el nivel de
búsqueda. “BestFirst” puede comenzar con el conjunto vacío de atributos y búsqueda hacia adelante,
o con el set lleno de atributos y búsqueda hacia atrás, o también en cualquier punto y cualquier
búsqueda en ambas direcciones.
Como segundo paso para la selección de un número óptimo de variables, se utilizó un filtro de
redundancia que empleó un análisis de conglomerados que utiliza el coeficiente de correlación de
Spearman como métrica de similitud. El valor de corte fijado fue 0.9, lo que implica que entre
miembros de conglomerados distintos no exista una correlación igual o superior a este valor. De todos
los clústeres obtenidos se determinó la variable más próxima a su centroide y esta fue elegida como
representante de todos los miembros del clúster
Para lograr un mejor ajuste, como tercer paso en la selección de atributos, se acopló al
``WrapperSubsetEval`` una búsqueda genética (Goldberg, 1989), que identificó los atributos que
mayor exactitud mostraron en la validación cruzada de 10 pliegues. Este procedimiento dejó
finalmente 15 atributos para la construcción del modelo de regresión no lineal.
3.5.2 Modelo no lineal.
i. Regresión no lineal con modelo combinado de descriptores 2D y 3D, sin outliers.
Partiendo de la combinación de las mejores variables del modelo combinado para la RLM se obtuvo
un modelo para describir la actividad antioxidante expresada como IC50 () de las moléculas de la base
de datos de cumarinas.
Se excluyeron los compuestos que se consideraron outliers y se procedió a la aplicación de técnicas
no lineales con la ayuda del software WEKA, el cual está provisto de algoritmos para este tipo de
modelación, para este caso específico se utilizó una Máquina de Vectores de Soporte para la regresión
(SMOreg). Se evaluaron 109 compuestos de cumarinas con su correspondiente actividad antioxidante.
Se encontró un modelo no lineal para la actividad antioxidante con el método de las Máquinas de
Vectores de Soporte para la regresión (SMOreg) implementado en el software WEKA, se empleó una
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
52
complejidad unitaria (C = 1) y la función PoliKernel con exponente 1. Los parámetros estadísticos y
el gráfico de regresión del mejor modelo se muestran a continuación.
ii. Parámetros Estadísticos.
Tabla 3.7: Parámetros estadísticos del mejor modelo de regresión.
R2 R S
Ajuste 0,8851 0,9408 0,2073
Robustez 0,8628 0,9189 0,3140
La robustez del modelo se evalúa con la utilización de la validación cruzada ya que mediante esta se
le introduce cierto grado de perturbación a los datos y se mide el ajuste de los modelos en cada
perturbación según la influencia de las mismas. Para que un modelo se considere robusto no debe
variar en más de un 10 % el coeficiente de correlación entre los resultados del ajuste y de la validación
cruzada.
A continuación, se presenta una gráfica de la actividad antioxidante predicha contra los valores
experimentales (expresadas en IC50). La ecuación resultante de esta puede ser utilizada para estimar
los valores de IC50 de otras moléculas.
Figura 3.11: Gráfico de regresión no lineal.
Las SVM se desarrollaron como una técnica robusta para clasificación y regresión aplicada a grandes
conjuntos de datos complejos con ruido; es decir, con variables inherentes al modelo que para otras
técnicas aumentan la posibilidad de error en los resultados pues resultan difíciles de cuantificar y
observar. Es importante tener claro que, de manera general para clasificación, las máquinas de
vectores soporte buscan encontrar un hiperplano óptimo que separe las clases (Colmenares, 2010).
Las SVM se basan en el principio de Minimización del Riesgo Estructural (SRM), la cual ha mostrado
un buen desempeño, ya que las Máquinas de Vectores de Soporte minimizan el error sobre los datos
log IC50 = 0.8387 log IC50 pred - 0.0992R² = 0.8851
-4
-3
-2
-1
0
1
2
3
-4 -3 -2 -1 0 1 2 3
log
IC5
0
log IC50 pred
Gráfico de Regresión No Lineal
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
53
de entrenamiento (Vapnik, 1995). Por lo cual, no fue necesario hacer una evaluación de la robustez
del modelo mediante la utilización de la técnica de validación cruzada, ya que las SVM minimizan el
error sobre los datos de entrenamiento.
3.5.3 Discusión de los resultados de la regresión no lineal.
La aplicación de técnicas de regresión no-lineal arroja resultados satisfactorios, ya que los modelos
obtenidos en este caso son estadísticamente superiores a los obtenidos con la técnica de RLM para los
mismos atributos.
Al combinar los descriptores 2D y 3D y relacionarlos con las diferentes entropías propias de la teoría
de información se mejoró el desempeño de los modelos de regresión, con un coeficiente de
determinación (R2) más cercano a 1, ya que se abunda en el universo estructural de las moléculas y se
enriquece la codificación de la estructura. Con la extracción de los valores atípicos (compuestos
outliers) se aprecia un modelo de regresión no-lineal con alto poder predictivo, que puede ser utilizado
para próximos estudios de Cribado Virtual.
Tabla 3.8: Comparación entre las técnicas lineales y no lineales.
Técnica Número
de casos
R2 Q2 S
RLM con descriptores 2D 115 0,767 0,715 0,724
RLM con descriptores 3D 115 0,650 0,591 0,882
RLM combinando descriptores 2D y 3D 115 0,760 0,714 0,711
RLM combinando (sin outliers) 109 0,810 0,779 0,615
SVM (combinado y sin outliers) 109 0,885 -- 0,207
3.6 Tendencia actual de los estudios in silico del método DPPH•
El amplio auge en las últimas dos décadas de los estudios QSAR y el empleo de herramientas
bioinformáticas cada vez más sofisticadas, ha hecho que varios autores; no obstante, a la diversidad
de mecanismos que involucra y a la consecuente complejidad que puede presentar; hayan optado por
la modelación del efecto antioxidante debido a la importancia de esta actividad biológica en disímiles
procesos patológicos.
Específicamente los estudios de relación cuantitativa estructura- actividad antiradicálica han estado
basados en la capacidad secuestradora del radical DPPH• principalmente,
CAPÍTULO III: RESULTADOS Y DISCUSIÓN
54
En la mayoría de los casos las predicciones de la capacidad antiradicálica forman parte de
investigaciones que abordan otras funciones biológicas simultáneamente (que pueden o no tener
relación con la actividad antioxidante); y que combinan los resultados para caracterizar un
determinado grupo de compuestos
A continuación, se muestra una tabla con las principales investigaciones in silico de la literatura
internacional que han modelado el poder secuestrador del radical DPPH•.
Tabla 3.9: Principales estudios in silico de la capacidad secuestradora del radical DPPH•
Referencia Compuestos analizados Propiedad modelada Técnicas
estadísticas
Parámetros de la
validación
(Mladenović et
al., 2011)
4-Hidroxicumarinas (16) IC50 RLM R2 = 0,99
Q2 = 0,99
(Martínez-
Martínez et al.,
2012)
Derivados de cumarinas
(8)
% de inhibición del
DPPH•
BP-ANN R2 = 0,92
(Razo-Hernández
et al., 2014)
Derivados de cumarinas
(16)
% secuestrador del
DPPH•
RLM R2 = 0,97
Q2 = 0,93
(Molnar et al.,
2017)
Derivados de cumarinas
(36)
% secuestrador del
DPPH•
RLM R2 = 0,673
Q2 = 0,544
Como se puede observar en la tabla, la mayoría de los modelos construidos para predecir el poder
secuestrador del radical DPPH• en cumarinas, han sido construidos a partir de conjuntos de datos
pequeños. Es importante tener en cuenta el hecho de que el principal objetivo de la construcción de
modelos QSAR, es para su posterior uso en la predicción de las propiedades de nuevos compuestos,
y para profundizar en las características estructurales que favorecen la propiedad/actividad modelada.
Para lograr este objetivo, es importante que los modelos sean construidos a partir de un espacio
químico amplio, por lo tanto, se puede concluir que los modelos construidos hasta el momento para
la predicción de la actividad antiradicálica, tienen una utilidad reducida.
Conclusiones y Recomendaciones
CONCLUSIONES Y RECOMENDACIONES
55
“Estoy entre aquellos que piensan que la ciencia tiene una gran belleza. ˮ Marie Curie
CONCLUSIONES
Se conformó una base de datos de 115 cumarinas sintéticas con reportes de resultados
experimentales de la capacidad secuestradora del radical DPPH•.
El Modelo Lineal más robusto (R2 = 81,04, Q2 =77,93) combinó descriptores 2D y 3D que
tuvieron en cuenta rasgos estructurales significativos de las cumarinas.
Se realizaron las predicciones con el modelo lineal combinado a 7 moléculas patrones de
cumarinas.
Se obtuvo un Modelo No Lineal (R2 = 88,51, s = 0,207) que será utilizado para predecir
teóricamente la actividad antioxidante de cumarinas naturales.
RECOMENDACIONES
Ampliar la Base de Datos construida para aplicar otras familias de Descriptores Moleculares.
Aplicar técnicas avanzadas de Quimiometría para obtener modelos no lineales.
Aplicar el ensayo ¨in vitro¨ que permita comprobar las predicciones teóricas obtenidas en el
presente trabajo.
Bibliografía
BIBLIOGRAFÍA
BIBLIOGRAFÍA
1995. Chemometric Methods in Molecular Design In: VAN DE WATERBEEMD, H. (ed.) Methods
and Principles in Medicinal Chemistry. New York: John Wiley & Sons.
2006. Statistica Tutorial. 8.0 ed.
2007. DRAGON software. 5.5 ed.
ALAM, M. N., BRISTI, N. J. & RAFIQUZZAMAN, M. 2012. Review on in vivo and in vitro
methods evaluation of antioxidant activity. Saudi Pharmaceutical Journal, 21, 143–152.
ALAM, M. N., BRISTI, N. J. & RAFIQUZZAMAN, M. 2013a. Review on in vivo and in vitro
methods evaluation of antioxidant activity. Saudi Pharmaceutical Journal, 21, 143-152.
ALAM, M. N., BRISTI, N. J. & RAFIQUZZAMAN, M. 2013b. Review on in vivo and in vitro
methods evaluation of antioxidant activity. Saudi Pharmaceutical Journal, 21, 143–152.
ALZINA, R. B. 1989. Introduccion conceptual al análisis multivariable. Un enfoque informatico con
los paquetes SPSS-X, BMDP, LISREL Y SPAD. PPU, SA: Barcelona.
ARAGADE, P., VENKATNARAYANAN, R. & PATIL, P. 2013. Synthesis and biological
evaluation of a novel series of pyrazolylcoumarins as anti-inflammatory and antioxidant
agents. Drug research, 63, 28-33.
ARORA, R. K., KAUR, N., BANSAL, Y. & BANSAL, G. 2014. Novel coumarin–benzimidazole
derivatives as antioxidants and safer anti-inflammatory agents. Acta Pharmaceutica Sinica
B, 4, 368-375.
ARTEEL, G. E. 2003. Oxidants and antioxidants in alcohol-induced liver disease. Gastroenterology,
124, 778-790.
BARIGYE, S. J., MARRERO-PONCE, Y., LÓPEZ, Y. M., SANTIAGO, O. M., TORRENS, F.,
DOMENECH, R. G. & GALVEZ, J. 2013a. Event-based criteria in GT-STAF information
indices: theory, exploratory diversity analysis and QSPR applications. SAR and QSAR in
Environmental Research, 24, 3-34.
BARIGYE, S. J., MARRERO-PONCE, Y., MARTÍNEZ-LÓPEZ, Y., ARTILES MARTÍNEZ, L.
M., PINO-URIAS, R. W., MARTÍNEZ-SANTIAGO, O. & TORRENS, F. 2013b. Relations
Frequency Hypermatrices in Mutual, Conditional and Joint Entropy-Based Information
Indices. J Comput. Chem., 34, 259-274.
BARIGYE, S. J., MARRERO-PONCE, Y., PÉREZ-GIMÉNEZ, F. & BONCHEV, D. 2014. Trends
in Information Theory Based Chemical Structure Codification. Mol. Divers., 1-14.
BARJA, G. 1997. Radicales libres y antioxidantes. Monografías de la Real Academia Nacional de
Farmacia.
BARTALIS, J. & HALAWEISH, F. T. 2011. In vitro and QSAR studies of cucurbitacins on HepG2
and HSC-T6 liver cell lines. Bioorganic & medicinal chemistry, 19, 2757-2766.
BRIEHL, M. M. 2015. Oxygen in human health from life to death – an approach to teaching redox
biology and signaling to graduate and medical students. Arizona: Redox Biology.
CARRASCO, B. R., CORDERO, M. E. A. & FERNÁNDEZ, E. B. 2003. Estrés oxidativo y sistema
de defensa antioxidante. Medimay, 9, 42-50.
CHEN, J. H., LU, F., LIM, C. S., KIM, J. Y., AHN, H. J., SUH, I. B., TAKEO, S., TSUBOI, T.,
SATTABONGKOT, J. & HAN, E. T. Detection of Plasmodium vivax infection in the
Republic of Korea by loop-mediated isothermal amplification (LAMP). Acta Trop, 113, 61-
5.
CLARK, R. D. & FOX, P. C. 2004. Statistical variation in progressive scrambling. J. Comput. Aid.
Mol. Des., 18, 563–576.
COLMENARES, G. 2010. Inteligencia artificial. Máquinas de Vectores de Soporte.
CONSONNI, V. & TODESCHINI, R. 2010. Molecular Descriptors. In: PUZYN, T.,
LESZCZYNSKI, J. & CRONIN, M. T. D. (eds.) Recent Advances in QSAR Studies Methods
and Applications. Springer.
CORTES C, V. V. 1995. Support-vector networks. Machine Learning.
CRAMER, R. D. I., BUNCE, J. D., PATTERSON, D. E. & FRANK, I. E. 1988. Crossvalidation,
bootstrapping and partial least squares compared with multiple regression in conventional
QSAR studies. Quant. Struct.-Act. Relat., 7, 18–25.
CRUM-BROWN, A. 1867. On an application of mathematics to chemistry. Proc Roy Soc
(Edinburgh), 73, 89-90.
CRUM-BROWN, A. & FRASER, T. R. 1868. On the connection between chemical constitution and
physiological action. Part 1. On the physiological action of salts of the ammonium bases,
derived from strychnia, brucia, thebia, codeia, morphia and nicotia. Trans Roy Soc
(Edinburgh), 25, 151-203.
DIACONIS, P. & EFRON, B. 1983. Computer intensive methods in statistics. Sci. Am., 248, 96–
108.
DRAPER, N. & SMITH, H. 1998. Applied Regression Analysis, New York, John Wiley & Sons,
Inc., .
EFRON, B. 1982. The Jackknife, the Bootstrap and Other Resampling Planes, Philadelphia, PA,
Society for Industrial and Applied Mathematics.
EFRON, B. 1987. Better bootstrap confidence intervals. J. Am. Stat. Ass., 82, 171–200.
EL-BAHR, S. M. 2013. Biochemistry of Free Radicals and Oxidative Stress. Science International.
ERIKSSON L, JAWORSKA J, WORTH, A., CRONIN, M., MCDOWELL, R. & GRAMATICA, P.
2003. Methods for Reliability and Uncertainty Assessment and for Applicability Evaluations
of Classification- and Regression-Based QSARs. Environmental Health Perspectives, 111,
1361-75.
ERIKSSON, L., JAWORSKA, J., WORTH, A. P., CRONIN, M. T. D., MCDOWELL, R. M. &
GRAMATICA, P. 2003. Methods for Reliability and Uncertainty Assessment and for
Applicability Evaluations of Classification- and Regression-Based QSARs. Environmental
Health Perspectives, 111.
FOTI, M. C. 2015. Use and Abuse of the DPPH• Radical. Journal of agricultural and food
chemistry, 63, 8765-8776.
FRANK, I. E. A. F., J.H. 1993. A statistical view of some chemometrics regression tools.
Technometrics, 35, 109–135.
GACCHE, R. N. & JADHAV, S. G. 2012. Antioxidant activities and cytotoxicity of selected
coumarin derivatives: preliminary results of a structure–activity relationship study using
computational tools. Journal of Experimental & Clinical Medicine, 4, 165-169.
GERMAN, J. Food processing and lipid oxidation. Adv Exp Med Biol, 459, 23-50.
GODDEN, J. W. & BAJORATH, J. 2000. Shannon entropy: a novel concept in molecular descriptor
and diversity analysis. . J. Mol. Graph. Model., 18, 73-76.
GODDEN, J. W. & BAJORATH, J. 2002. Chemical descriptors with distinct levels of information
content and varying sensitivity to differences between selected compound databases
identified by SE-DSE analysis. J. Chem. Inf. Comput. Sci., 42, 87–93.
GOLBRAIKH, A. & TROPSHA, A. 2002. Predictive QSAR modeling based on diversity sampling
of experimental datasets for the training and test set selection. Mol. Div., 5, 231–243.
GOLDBERG, D. E. 1989. Genetic algorithms in search, optimization and machine learning.
Addison-Wesley.
GOYA JORGE, E., RAYAR, A. M., BARIGYE, S. J., JORGE RODRÍGUEZ, M. E. & SYLLA-
IYARRETA VEITÍA, M. 2016. Development of an in Silico Model of DPPH• Free Radical
Scavenging Capacity: Prediction of Antioxidant Activity of Coumarin Type Compounds.
International journal of molecular sciences, 17, 881.
GUIDI, I., GALIMBERTI, D., LONATI, S., NOVEMBRINO, C., BAMONTI, F., TIRITICCO, M.,
FENOGLIO, C., VENTURELLI, E., BARON, P. & BRESOLIN, N. 2006. Oxidative
imbalance in patients with mild cognitive impairment and Alzheimer's disease. Neurobiology
of aging, 27, 262-269.
GUNARS, T. & GRZEGORZ, B. 2010 Determination of antiradical and antioxidant activity: basic
principles and new insights. Acta Biochimca Polonica, 57.
GUPTA, S., MATTHEW, S., ABREU, P. M. & AIRES-DE-SOUSA, J. 2006. QSAR analysis of
phenolic antioxidants using MOLMAP descriptors of local properties. Bioorganic &
medicinal chemistry, 14, 1199-1206.
HAIR, J. F., ANDERSON, R. E., TATHAM, R. L. & BLACK, W. C. 1999. Análisis Multivariante
5ta Ed, Madrid.
HALLIWELL, B. 2007. Free Radicals in Biology and Medicine, London, Oxford University Press.
HALLIWELL, B. & GUTTERIDGE, J. M. 2015. Free radicals in biology and medicine, Oxford
University Press, USA.
HAMDI, N., FISCHMEISTER, C., PUERTA, M. C. & VALERGA, P. 2011. A rapid access to new
coumarinyl chalcone and substituted chromeno [4, 3-c] pyrazol-4 (1H)-ones and their
antibacterial and DPPH radical scavenging activities. Medicinal Chemistry Research, 20,
522-530.
HANSCH, C. & FUJITA, T. 1964. p-σ-π Analysis. A method for the correlation of biological
activity and chemical structure. Journal of the American Chemical Society, 86, 1616-1626.
HEARST MA, D. S., OSMAN E, PLATT J, SCHOLKOPF B 1998. Support vector machines.
Intelligent Systems and their Applications, IEEE. 18-28.
JACOB, R. 1967. Three eras of vitamin C discovery. Subcell Biochem, 25, 1-16.
JARRETT, S. G. & BOULTON, M. E. 2012. Consequences of oxidative stress in age-related
macular degeneration. Molecular aspects of medicine, 33, 399-417.
JONES, D. P. 2008. Radical-free biology of oxidative stress. Am J Physiol Cell Physiol, 295, 849-
68.
JORGE, E. G. 2015a. Modelación in silico de la capacidad secuestradora del radical DPPH* para
la predicción de la actividad antioxidante de compuestos químicos. Tesis de Diploma,
Universidad Central Marta Abreu de Las Villas.
JORGE, E. G. 2015b. Modelación in silico de la capacidad secuestradora del radical DPPH• para la
predicción de la actividad antioxidante de compuestos químicos.
JURS, P. C., DIXON, J. S. & EGOLF, L. M. 1995. Representations of molecules. In: VAN DE
WATERBEEMD, H. (ed.) Chemometrics methods in molecular design. New York: VCH
Publishers.
KANCHEVA, V. D., SLAVOVA-KAZAKOVA, A. K., ANGELOVA, S. E., SINGH, S. K.,
MALHOTRA, S., SINGH, B. K., SASO, L., PRASAD, A. K. & PARMAR, V. S. 2017.
Protective effects of 4-methylcoumarins and related compounds as radical scavengers and
chain-breaking antioxidants. Biochimie, 140, 133-145.
KATSORI, A.-M. & HADJIPAVLOU-LITINA, D. 2014. Coumarin derivatives: an updated patent
review (2012–2014). Expert opinion on therapeutic patents, 24, 1323-1347.
KEDARE, S. B. & SINGH, R. P. 2011. Genesis and development of DPPH method of antioxidant
assay. J Food Sci Technol, 48, J Food Sci Technol.
KINNULA, V. L. & CRAPO, J. D. 2004. Superoxide dismutases in malignant cells and human
tumors. Free Radical Biology and Medicine, 36, 718-744.
KOSTOVA, I., BHATIA, S., GRIGOROV, P., BALKANSKY, S., S PARMAR, V., K PRASAD,
A. & SASO, L. 2011. Coumarins as antioxidants. Current medicinal chemistry, 18, 3929-
3951.
LONDOÑO LONDOÑO, J. 2012. Antioxidantes: importancia biológica y métodos para medir su
actividad. Desarrollo y Transversalidad serie Lasallista Investigación y Ciencia.
Corporación Universitaria Lasallista.
MARTÍNEZ-MARTÍNEZ, F. J., RAZO-HERNÁNDEZ, R. S., PERAZA-CAMPOS, A. L.,
VILLANUEVA-GARCÍA, M., SUMAYA-MARTÍNEZ, M. T., CANO, D. J. & GÓMEZ-
SANDOVAL, Z. 2012. Synthesis and in vitro antioxidant activity evaluation of 3-
carboxycoumarin derivatives and QSAR study of their DPPH• radical scavenging activity.
Molecules, 17, 14882-14898.
MARX, J. L. 1987. Oxygen Free radicals linked to many diseases. Science, 235, 529-531.
MASSART, D. L. & KAUFMAN, D. L. 1983. The Interpretation of Analytical Chemical Data by
the Use of Cluster Analysis, New York, Wiley.
MATILL, H. A. 1947. Antioxidants. Annu Rev Biochem, 16, 177-192.
MITRA, I., SAHA, A. & ROY, K. 2012. Predictive modeling of antioxidant coumarin derivatives
using multiple approaches: descriptor-based QSAR, 3D-pharmacophore mapping, and
HQSAR. Scientia pharmaceutica, 81, 57-80.
MITRA, I., SAHA, A. & ROY, K. 2013. Quantification of contributions of different molecular
fragments for antioxidant activity of coumarin derivatives based on QSAR analyses.
Canadian Journal of Chemistry, 91, 428-441.
MLADENOVIĆ, M., MIHAILOVIĆ, M., BOGOJEVIĆ, D., MATIĆ, S., NIĆIFOROVIĆ, N.,
MIHAILOVIĆ, V., VUKOVIĆ, N., SUKDOLAK, S. & SOLUJIĆ, S. 2011. In vitro
antioxidant activity of selected 4-hydroxy-chromene-2-one derivatives—SAR, QSAR and
DFT studies. International journal of molecular sciences, 12, 2822-2841.
MOLNAR, M., KOMAR, M., BRAHMBHATT, H., BABIĆ, J., JOKIĆ, S. & RASTIJA, V. 2017.
Deep Eutectic Solvents as Convenient Media for Synthesis of Novel Coumarinyl Schiff
Bases and Their QSAR Studies. Molecules, 22, 1482.
MOLYNEUX, P. 2004. The use of the stable free radical diphenylpicrylhydrazyl (DPPH) for
estimating antioxidant activity. J Sci Technol 26, 211-21.
MORATE, D. G. 2001. Manual de Weka.
NOHL, H., GILLE, L. & STANIEK, K. 2005. Intracellular generation of reactive oxygen species by
mitochondria. Biochem. Pharmacol, 69, 719-723.
NORUSIS, M. J. 1985. Advanced Statistics Guide. SPSS-X. McGraw-Hill: New York.
OMS., S. D. I. T. 2003. Dieta, nutrición y prevención de enfermedades crónicas, Ginebra, OMS
(Organizacion Mundial de la Salud).
PATEL, R. P., MCANDREW, J., SELLAK, H., WHITE, C. R., JO, H., FREEMAN, B. A. &
DARLEY-USMAR, V. M. 1999. Biological aspects of reactive nitrogen species. Biochimica
et Biophysica Acta, 1411, 385-400.
PISOSCHI, A. M. & NEGULESCU, G. P. 2011. Methods for total antioxidant activity
determination: a review. Biochemistry and Analytical Biochemistry, 1, 1-10.
PYRZYNSKA, K. & PEKAL, A. 2013. Application of free radical diphenylpicrylhydrazyl (DPPH)
to estimate the antioxidant capacity of food samples. Anal Methods, 5, 4288–4295.
RAY, S., SENGUPTA, C. & ROY, K. 2007. QSAR modeling of antiradical and antioxidant
activities of flavonoids using electrotopological state (E-State) atom parameters. Open
Chemistry, 5, 1094-1113.
RAZO-HERNÁNDEZ, R., PINEDA-URBINA, K., VELAZCO-MEDEL, M., VILLANUEVA-
GARCÍA, M., SUMAYA-MARTÍNEZ, M., MARTÍNEZ-MARTÍNEZ, F. & GÓMEZ-
SANDOVAL, Z. 2014. QSAR study of the DPPH· radical scavenging activity of coumarin
derivatives and xanthine oxidase inhibition by molecular docking. Open Chemistry, 12,
1067-1080.
REILLY, P. M., SCHILLER, H. J. & BULKLEY, G. B. 1991. Pharmacologic approaches to tissue
injury mediated by free radicals and other reactive oxygen metabolites. Am J Surgery, 161,
480-503.
RON KOHAVI, G. H. 1997. Wrappers for feature subset selection. Artificial Intelligence. 273-324.
RÜCKER, C., RÜCKER, G. & MERINGER, M. 2007. y-randomization and its variants in
QSPR/QSAR. J. Chem. Inf. Model., 47, 2345–2357.
SAS, K., ROBOTKA, H., TOLDI, J. & VÉCSEI, L. 2007. Mitochondria, metabolic disturbances,
oxidative stress and the kynurenine system, with focus on neurodegenerative disorders.
Journal of the neurological sciences, 257, 221-239.
SHAO, J. 1993. J. Amer. Stat. Assoc. , 88, 486.
SIES, H. 1985. Oxidative Stress, London, Academic Press.
SIES, H. 2007. Biological redox systems and oxidative stress. Cell Mol Life Sci, 64, 2181-8.
SIES, H. 2015. Oxidative stress:a concept in redox biology and medicine. Redox Biology 4, 180-
183.
SINGH, U. & JIALAL, I. 2006. Oxidative stress and atherosclerosis. Pathophysiology, 13, 129-142.
SMITH, M. A., ROTTKAMP, C. A., NUNOMURA, A., RAINA, A. K. & PERRY, G. 2000.
Oxidative stress in Alzheimer’s disease. Biochimica et Biophysica Acta (BBA)-Molecular
Basis of Disease, 1502, 139-144.
STONE, M. 1974. J. Roy. Stat. Soc., 36, 111.
TESTA, B. & KIER, L. B. 1991. The concept of molecular structure in structure-activity
relationship studies and drug design. Med Res Rev, 11, 35-48.
TODESCHINI, R., BALLABIO, D., CONSONNI, V., MAURI, A. & PAVAN, M. 2004.
MobyDigs. Version 1.0, TALETE srl ed.
TODESCHINI, R. & CONSONNI, V. 2000. Handbook of molecular descriptors, Weinheim:Federal
Republic of Germany, Wiley-VCH.
TODESCHINI, R. & CONSONNI, V. 2009a. Molecular Descriptors for Chemoinformatics, wiley-
VCH.
TODESCHINI, R. & CONSONNI, V. 2009b. Molecular Descriptors for Chemoinformatics,
Weinheim, Wiley-VCH.
TODESCHINI, R., CONSONNI, V. & GRAMATICA, P. 2009. Chemometrics in QSAR. In:
BROWN, S. D., TAULER, R. & WALCZAK, B. (eds.) Comprehensive Chemometrics.
Chemical and Biochemical Data Analysis.: Elsevier.
TROPSHA, A. 2010. Best Practices for QSAR Model Development, Validation, and Exploitation.
Mol Inf, 29, 476−488.
TROPSHA, A., GRAMATICA, P. & GOMBAR, V. K. 2003. QSAR Comb. Sci., 22, 69.
UPSTON, J. M., KRITHARIDES, L. & STOCKER, R. 2003. The role of vitamin E in
atherosclerosis. Progress in Lipid Research, 42, 405-422.
UTTARA, B., SINGH, A. V., ZAMBONI, P. & MAHAJAN, R. 2009. Oxidative stress and
neurodegenerative diseases: a review of upstream and downstream antioxidant therapeutic
options. Current neuropharmacology, 7, 65-74.
VALKO, M., LEIBFRITZ, D., MONCOL, J., CRONIN, M. T. D., MAZUR, M. & TELSER, J.
2007. Free radicals and antioxidants in normal physiological functions and human disease.
The International Journal of Biochemistry & Cell Biology, 39, 44-84.
VAPNIK, V. 1995. The Nature of Statistical Learning Theory. Springer: New York, USA.
VERMA, R. P. & HANSCH, C. 2005. An approach toward the problem of outliers in QSAR.
Bioorganic & Medicinal Chemistry, 13, 4597–4621.
WEHRENS, R., PUTTER, H. & BUYDENS, L. 2000. The bootstrap: a tutorial. Chemom. Intell.
Lab. Syst., 54, 35–52.
WILLETT, P. 1987. Similarity and Clustering in Chemical Information Systems, Letchworth, R S
Press.
WITAICENIS, A., SEITO, L. N., DA SILVEIRA CHAGAS, A., DE ALMEIDA JUNIOR, L. D.,
LUCHINI, A. C., RODRIGUES-ORSI, P., CESTARI, S. H. & DI STASI, L. C. 2014.
Antioxidant and intestinal anti-inflammatory effects of plant-derived coumarin derivatives.
Phytomedicine, 21, 240-246.
WOLD, S. 1978. Technometrics. 20, 397.
WOLD, S. & ERIKSON, L. 1995. In Chemometric Methods in Molecular Design. van de
Waterbeemd, H., Ed.; VCH Publishers: Weinheim, Germany.
WORACHARTCHEEWAN, A., NANTASENAMAT, C., ISARANKURA-NA-AYUDHYA, C.,
PRACHAYASITTIKUL, S. & PRACHAYASITTIKUL, V. 2011. Predicting the free radical
scavenging activity of curcumin derivatives. Chemometrics and Intelligent Laboratory
Systems, 109, 207-216.
XI, G.-L. & LIU, Z.-Q. 2015. Coumarin-Fused Coumarin: Antioxidant Story from N, N-
Dimethylamino and Hydroxyl Groups. Journal of agricultural and food chemistry, 63, 3516-
3523.
XIE, J. & SCHAICH, K. 2014. Re-evaluation of the 2, 2-diphenyl-1-picrylhydrazyl free radical
(DPPH) assay for antioxidant activity. Journal of agricultural and food chemistry, 62, 4251-
4260.
YEHYE, W. A., RAHMAN, N. A., ARIFFIN, A., HAMID, S. B. A., ALHADI, A. A., KADIR, F.
A. & YAEGHOOBI, M. 2015. Understanding the chemistry behind the antioxidant activities
of butylated hydroxytoluene (BHT): A review. European journal of medicinal chemistry,
101, 295-312.
YOUNES, M. 1999. Free Radicals and Reactive Oxygen Species. Toxicology. Academic Press.
ZAPATA, L. M., GERARD, L., DAVIES, C. & SCHVAB, M. D. C. 2007. Estudio de los
componentes antioxidantes y actividad antioxidante en tomates. Ciencia, docencia y
tecnología, 175-193.
ANEXOS
Tabla 1. Estructura de cumarinas y actividad antioxidante
No. Bibliografía Estructura Propiedad
log IC50
(µM)
1 (Hamdi et
al., 2011)
0.3324
2 (Hamdi et
al., 2011)
0.3484
3 (Hamdi et
al., 2011)
0.4487
4 (Hamdi et
al., 2011)
0.3160
5 (Hamdi et
al., 2011)
0.3522
6 (Hamdi et
al., 2011)
0.5065
7 (Hamdi et
al., 2011)
0.3598
8 (Hamdi et
al., 2011)
0.3784
9 (Hamdi et
al., 2011)
0.3784
10 (Mitra et al.,
2012)
0.1100
11 (Mitra et al.,
2012)
-1.2390
12 (Mitra et al.,
2012)
-1.1170
13 (Mitra et al.,
2012)
0.1290
14 (Mitra et al.,
2012)
0.2060
15 (Mitra et al.,
2012)
-1.9780
16 (Mitra et al.,
2012)
-0.0670
17 (Mitra et al.,
2012)
-0.5020
18 (Mitra et al.,
2012)
-1.4360
19 (Mitra et al.,
2012)
-2.1610
20 (Mitra et al.,
2012)
-1.4780
21 (Mitra et al.,
2012)
-1.7900
22 (Mitra et al.,
2012)
0.3820
23 (Mitra et al.,
2012)
1.9880
24 (Mitra et al.,
2012)
1.8880
25 (Mitra et al.,
2012)
1.9310
26 (Mitra et al.,
2012)
1.1400
27 (Mitra et al.,
2012)
1.1670
28 (Mitra et al.,
2012)
0.7680
29 (Mitra et al.,
2012)
0.8720
30 (Mitra et al.,
2012)
0.8560
31 (Mitra et al.,
2012)
0.8440
32 (Mitra et al.,
2012)
0.3800
33 (Mitra et al.,
2012)
-2.0000
34 (Mitra et al.,
2012)
0.3360
35 (Mitra et al.,
2012)
0.5760
36 (Mitra et al.,
2012)
1.8820
37 (Mitra et al.,
2012)
1.8030
38 (Mitra et al.,
2012)
1.1850
39 (Mitra et al.,
2012)
0.0570
40
(Mitra et al.,
2012)
1.3960
41 (Mitra et al.,
2012)
1.5090
42 (Mitra et al.,
2012)
1.6860
43 (Mitra et al.,
2012)
1.5750
44 (Mitra et al.,
2012)
1.4280
45 (Mitra et al.,
2012)
1.3280
46 (Mitra et al.,
2012)
-0.7400
47 (Mitra et al.,
2012)
-0.6970
48 (Mitra et al.,
2012)
-0.6940
49 (Mitra et al.,
2012)
-0.8860
54 (Mitra et al.,
2012)
-0.9060
55 (Mitra et al.,
2013)
-1.5850
56 (Mitra et al.,
2013)
-1.3280
57 (Mitra et al.,
2013)
-1.5530
58 (Mitra et al.,
2013)
-1.6200
59 (Mitra et al.,
2013)
-1.7960
60 (Mitra et al.,
2013)
-1.5230
61 (Mitra et al.,
2013)
-1.0710
62 (Mitra et al.,
2013)
0.2830
63 (Mitra et al.,
2013)
-0.2680
64 (Mitra et al.,
2013)
0.6170
65 (Mitra et al.,
2013)
0.6180
66 (Mitra et al.,
2013)
0.6220
67 (Mitra et al.,
2013)
0.8070
68 (Mitra et al.,
2013)
-2.6840
69 (Mitra et al.,
2013)
-2.4930
70 (Mitra et al.,
2013)
-2.6220
71 (Mitra et al.,
2013)
-0.8870
72 (Mitra et al.,
2013)
-0.3320
73 (Mitra et al.,
2013)
-1.0030
74 (Mitra et al.,
2013)
-0.9730
75 (Mitra et al.,
2013)
-1.6120
76 (Mitra et al.,
2013)
0.4610
77 (Mitra et al.,
2013)
0.3770
78 (Mitra et al.,
2013)
-0.1670
79 (Mitra et al.,
2013)
0.4080
80 (Mitra et al.,
2013)
-0.2600
81 (Mitra et al.,
2013)
0.7270
82 (Mitra et al.,
2013)
0.2520
83 (Mitra et al.,
2013)
0.2940
84 (Mitra et al.,
2013)
-0.7660
85 (Mitra et al.,
2013)
-0.4770
86 (Mitra et al.,
2013)
0.2670
87 (Mitra et al.,
2013)
-0.5390
88 (Mitra et al.,
2013)
-0.1230
89 (Mitra et al.,
2013)
0.1850
90 (Mitra et al.,
2013)
-0.9860
91 (Mitra et al.,
2013)
0.4720
92 (Mitra et al.,
2013)
0.3500
93 (Mitra et al.,
2013)
-2.6400
94 (Mitra et al.,
2013)
-2.6290
95 (Mitra et al.,
2013)
-2.6110
96 (Aragade et
al., 2013)
-2.7520
97 (Aragade et
al., 2013)
-2.8210
98 (Aragade et
al., 2013)
-2.8962
99 (Aragade et
al., 2013)
-2.9872
100 (Aragade et
al., 2013)
-2.9101
101 (Aragade et
al., 2013)
-2.9393
102 (Aragade et
al., 2013)
-2.8633
103 (Aragade et
al., 2013)
-2.7986
104 (Aragade et
al., 2013)
-2.8794
105 (Aragade et
al., 2013)
-2.8182
106 (Aragade et
al., 2013)
-2.9706
107 (Witaicenis
et al., 2014)
-0.2518
108 (Witaicenis
et al., 2014)
-0.7167
109 (Witaicenis
et al., 2014)
-0.6216
110 (Witaicenis
et al., 2014)
-0.8508
111 (Witaicenis
et al., 2014)
-0.5528
112 (Arora et al.,
2014)
1.1903
113 (Arora et al.,
2014)
1.6990
114 (Arora et al.,
2014)
1.2945
115 (Arora et al.,
2014)
1.1436
116 (Arora et al.,
2014)
1.3522
117 (Arora et al.,
2014)
0.0792
118 (Arora et al.,
2014)
1.4548
119 (Arora et al.,
2014)
0.2788
120 (Arora et al.,
2014)
0.6021
121 (Arora et al.,
2014)
0.6990
Tabla 2: Compuestos sin estructura 3D optimizada
No. Bibliografía Estructura Log IC50
50 (Mitra et al.,
2012)
51 (Mitra et al.,
2012)
52 (Mitra et al.,
2012)
53 (Mitra et al.,
2012)
Tabla 3: Validación externa del mejor modelo de RLM del modelo combinado de descriptores 2D y
3D sin outliers
Estructura D/Dr0
5
MATS2
v
MAT
S8p
Mor2
4m
L2s
HATS
3u
H8m
Log IC50
(µM)
187.34
0.064
0.024
0.224
2.531
0.406
0.231
-5.4423
199.325
0.07
-0.179
0.256
3.142
0.35
0.264
-6.2041
237.035
0.085
-0.078
0.338
4.111
0.321
0.27
-7.0015
211.895
0.02 0.705 0.309 3.559
0.322
0.267 -5.6670
199.325
0.007 0.846 0.203 3.5 0.407 0.234 -5.3746
237.035
0.294 -0.395 0.083 4.193 0.344 0.262 -6.8511
224.465
0.098 0.056 0.141 3.959 0.342 0.27 -6.7932