Predicción y Evaluación de la solubilidad de los ...

42
Universidad Central “Marta Abreu” de Las Villas Facultad de Química farmacia Carrera de Ciencia Farmaceuticas TESIS PARA OPTAR POR EL TITULO LICENCIADO EN CIENCIAS FARMCEUTICAS. Predicción y Evaluación de la solubilidad de los compuestos orgánicos de interés farmacéutico. Diplomante : Seangkhin Bun Tutores : Msc .Luis Alberto Torres Gómez Msc . Miguel Angel Alba de Armas 2008-2009

Transcript of Predicción y Evaluación de la solubilidad de los ...

Page 1: Predicción y Evaluación de la solubilidad de los ...

Universidad Central “Marta Abreu” de Las Villas

Facultad de Química farmacia Carrera de Ciencia Farmaceuticas

TESIS PARA OPTAR POR EL TITULO LICENCIADO EN CIENCIAS FARMCEUTICAS.

Predicción y Evaluación de la solubilidad de

los compuestos orgánicos de interés farmacéutico. Diplomante : Seangkhin Bun Tutores : Msc .Luis Alberto Torres Gómez Msc . Miguel Angel Alba de Armas

2008-2009

Page 2: Predicción y Evaluación de la solubilidad de los ...

Dedicatoria A mis abuelos por haberme inspirado a escoger la profesión. A mis padres y hermanos a quienes quiero más que cualquier cosa del mundo. A mi novia que siempre me brinda una buena idea, cariño, amor y siga al futuro. A Revolución Cubana que me ha permitido estudiando en Cuba al tomar profesión.

Page 3: Predicción y Evaluación de la solubilidad de los ...

Agradecimientos A mis abuelos por la presencia de su alma por haberme graduado y sígame al futuro lo más pronto posible. A mis padres y hermanos por brindarme con su gran amor, apoyo, sentimiento y cariño por haberme graduado y síga al futuro . A mi novia que siempre me brinda una buena idea, cariño, amor y siga al futuro. A mis tutores: Msc .Luis A. Torres Gómez - Msc . Miguel Angel Alba de Armas que me han apoyado durante la tesis. A todos los profesores en Facultad de farmacia que siempre me han brindado el conocimiento y su cariño. A todos los amigos que estan en Cuba como en Cambodia que siempre me han compartido algun sentimientos y experiencias. A todas las amistades que tengo en Cuba como en Cambodia y que siempre nos divertimos juntos.

Page 4: Predicción y Evaluación de la solubilidad de los ...

Resumen.

En el trabajo se emplea la metodología de cálculo MODESLAB a la modelación

de la solubilidad de diferentes compuestos orgánicos de interés farmacéutico.

Para esto se realizó el cálculo de los momentos espectrales de la matriz de

adyacencia entre aristas del grafo molecular con hidrógenos suprimidos,

ponderada en la diagonal principal con diferentes parámetros a 216 compuestos

subdivididos en tres categoría; compuestos muy solubles, parcialmente solubles

y pocos solubles. Los descriptores calculados fueron usados en una serie de

entrenamiento y otra de predicción para obtener y evaluar el modelo

respectivamente. Con la serie de entrenamiento se desarrolló una función

discriminante para la predicción de la solubilidad obteniéndose una buena

clasificación total de 81.02 %. El modelo fue validado mediante el uso de una

serie de predicción externa con un total de 66 compuestos, obteniéndose una

buena clasificación total de un 83.33 %. Se corroboró experimentalmente la

solubilidad predicha empleando una técnica de espectroscopia ultravioleta,

determinando la absorbancia para 4 compuestos empleados en la serie de

predicción, a las longitudes de onda de máxima absorción reportadas en la

literatura.

Page 5: Predicción y Evaluación de la solubilidad de los ...

Epígrafe Pag 1 Introducción 1 2 Revisión bibliográfica 3 2.1 Correlaciones Estructura Respuesta. (SRC 3 2.1.1 Estudios QSAR 3 2.1.2 Descriptores Moleculares 4 2.1.3 Descriptores Topológicos 6 2.1.3.1 Representación topológica de moléculas 6 2.1.3.2 Conceptos generales sobre grafos 7 2.1.3.3 Representación matricial de grafos moleculares. 7 2.1.3.4 Invariante grafo-teórica 8 2.1.3.5 Indices Topológicos 2D (ITs 2D). 8 2.1.4 Quimiometría 9 2.1.4.1 Redes neuronales artificiales 9 2.1.4.2 Clasificación 9 2.1.4.3 Análisis de Cluster 11 2.1.4.4 Análisis Por Componentes Principales 11 2.1.4.5 Análisis de regresión 12 2.1.4.6 Algoritmo Genético para la selección de variables (GA) 15 2.1.4.7 Mínimos Cuadrados Parciales (PLS). 16 2.2 Solubilidad de compuestos orgánicos 17 2.2.1 Importancia en el campo de las ciencias farmacéuticas 20 3 MATERIALES Y MÉTODOS 23 3.1 Determinación de la concentración por método Ultravioleta. 23 4 RESULTADOS Y DISCUSIÓN 25 4.1 Determinación experimental de la solubilidad. 27 5 CONCLUSIONES 34 6 RECOMENDACIONES 35 7 REVISION BIBLIOGRAFICA 36

Page 6: Predicción y Evaluación de la solubilidad de los ...

Introducción 1

1 INTRODUCCION: El desarrollo de la Química Orgánica ha permitido hasta nuestros días la

síntesis e identificación de más de diez millones de moléculas diferentes. De

especial interés son aquellas que manifiestan determinadas propiedades útiles

para el hombre, como es el caso de los compuestos de aplicación en la Industria

Farmacéutica.

Especialmente en este tipo de industria, los métodos tradicionales de obtención

de nuevos medicamentos son cada vez más caros, pues el conjunto de pruebas

que debe superar una nueva entidad antes de ser aplicada en el hombre incluye

la definición completa de sus propiedades químico-físicas, estudios de

toxicidad, elaboración de métodos para determinar el estudio de su

comportamiento en el organismo humano y el estudio de propiedades

farmacéuticas generales. El método de prueba y error necesita ensayar sobre 10

mil compuestos de los cuales 10 superan todos los ensayos y solo 1 puede

convertirse en una medicina de prescripción. La pérdida de una molécula en las

etapas finales supone una gran frustración y pérdida de recursos.[1-3]

Debido al alto costo de desarrollo de nuevos excipientes para la Industria

Farmacéutica, en los últimos años se han aplicados los métodos de modelación

molecular. Estos métodos se basan en el estudio de la relación entre la

estructura molecular de las sustancias y las propiedades químico físicas. Entre

las múltiples aproximaciones que existen para estos fines están aquellas que se

basan en el estudio de descriptores moleculares topológicos, los cuales son

calculados a partir de conceptos de la teoría de grafos aplicados a la Química

Orgánica. [1, 4, 5]

La aproximación llamada Modeslab (2) basada en el cálculo de los momentos

espectrales de la matriz de adyacencia entre los enlaces, la emplearemos

como metodología de cálculo para los descriptores que emplearemos en nuestro

trabajo encaminado a la predicción y evaluación de la solubilidad empleando

para esto último la espectroscopia ultravioleta. Por lo cual nos hemos trazado

como problema científico e hipótesis lo referido a continuación.

Problema científico.

Page 7: Predicción y Evaluación de la solubilidad de los ...

Introducción 2

• El desarrollo de excipientes farmacéuticos requiere el estudio de

propiedades químico físicas, tales como la solubilidad, el cual es un

proceso largo y costoso si se realiza por el método de prueba y error.

Hipótesis

• Obtener modelos predictivos mediante el ADL permite conocer la

solubilidad de potenciales excipientes la que al ser corroborada mediante

espectroscopia ultravioleta se convierte en un proceso más corto y

menos costoso.

Por todo lo anteriormente expuesto los objetivos de nuestro trabajo son:

Objetivo general: Modelar y evaluar la solubilidad para una serie de

compuestos orgánicos reportados en la literatura que puedan ser empleados

como excipientes farmacéuticos.

Como objetivos específicos.

* Confeccionar una serie de entrenamiento y una de predicción

representativa y aleatoria.

* Obtener un modelo matemático que prediga la solubilidad de los

compuestos de interés acorde a los grupos de solubilidad escogidos.

* Evaluar empleando una técnica de espectroscopia ultravioleta la solubilidad de compuestos orgánicos de interés farmacéutico, que puedan ser empleados como excipientes.

Page 8: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 3

2 - REVISIÓN BIBLIOGRÁFICA. 2.1- Correlaciones Estructura Respuesta. (SRC) Con este término se engloban bajo una sola clasificación todas las

aproximaciones que tienen como objetivo encontrar una relación entre la

estructura química y una respuesta calculada o medida experimentalmente.

Si estas aproximaciones son cuantitativas (Relaciones Cuantitativas Estructura

Respuesta) el objetivo es obtener estas relaciones representadas por modelos

de regresión y/o clasificación. Así los estudios SRC involucran a la vez los

estudios cuantitativos de correlación y los estudios cuantitativos entre los

Descriptores Moleculares y las Respuestas.

En este sentido surgen como variantes de este tipo de análisis las

aproximaciones:

• Relaciones Cuantitativas Estructura Actividad (QSAR).

• Relaciones Cuantitativas Estructura Propiedad (QSPR).

• Relaciones Cuantitativas Estructura Reactividad (QSRR).

• Relaciones Cuantitativas Estructura Forma (QSSchR).

• Relaciones Cuantitativas Estructura Cromatografía (QSCR).

• Relaciones Cuantitativas Estructura Toxicidad (QSTR).

• Relaciones Cuantitativas Similaridad Actividad (QSiAR).

• Relaciones Cuantitativas Estructura Retención Enantioselectiva (QSERR).

y así sucesivamente. Esta definición engloba en un término más amplio otros

tipos de relaciones como las que involucran relaciones propiedad-propiedad y

similaridad-diversidad, dando lugar a las correlaciones propiedad-propiedad

(QPPR), propiedad-actividad (QPAR) e incluso actividad-actividad (QAAR). [6-8]

2.1.1- Estudios QSAR. Los estudios QSAR engloban las relaciones Cuantitativas entre la estructura

molecular y la actividad Biológica lo cual constituye uno de los paradigmas de la

Química Médica. En dependencia de la metodología empleada y los descriptores

pueden distinguirse varias clasificaciones.

Page 9: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 4

Por el término QSAR Clásico se denota aproximaciones como los análisis de

Hansch, Free-Wilson), las Relaciones Lineales de Energía Libre (LFER), las

Relaciones Lineales de Energía de Solvatación (LSER) [9, 10]

Las aproximaciones basadas en representaciones topológicas de las moléculas

son llamadas 2D-QSAR. O sea los descriptores generados solo tienen en cuenta

la representación de la molécula en dos dimensiones. El término 3D-QSAR

engloba las técnicas que tiene en cuenta descriptores 3D o sea los basados en

la representación geométrica de la molécula en tres dimensiones. Por QSAR

Dinámico (QSAR-4D) se entiende las aproximaciones que toman en cuenta la

variabilidad conformacional de las moléculas. El QSAR Binario presta atención

a modelar variables repuestas binarias como compuestos activos e inactivos

2.1.2- Descriptores Moleculares.

La adecuada representación de la estructura molecular de un compuesto es un

factor de vital importancia para el desarrollo de cualquier estudio de Correlación

Estructura Respuesta.[11-13] Los descriptores moleculares juegan un papel

fundamental en ramas como la Química, Farmacia, Protección Ambiental,

Investigación de Salud entre otras. Se dice que mediante su obtención se

“transforma” parte de la estructura química en números permitiendo el

tratamiento matemático de la información química contenida en la molécula y la

realización de las ya definidas Correlaciones Estructura-Respuesta.

Se puede definir de la siguiente forma:

El descriptor molecular es el resultado final de un procedimiento matemático y

lógico que transforma que transforma la información química codificada en una

representación simbólica de una molécula en un número útil o el resultado de

algún experimento estandarizado.

Los descriptores de acuerdo con la definición dada se pueden clasificar en dos

grandes grupos:

Page 10: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 5

1. Mediciones experimentales: log P, Refractividad Molar, Momento Dipolo,

Polarizabilidad etc. Descriptores Moleculares Teóricos: Se derivan de las

representaciones simbólicas de las moléculas.

Las principales características de un descriptor se representan en una

taxonomía de cuatro niveles. La primera se basa en el tipo de representación:

• Descriptores 0D: Se derivan de la fórmula química de la molécula. Se

puede decir que son independientes de la estructura molecular.

Descriptores 1D: Basados en la representación del tipo lista sub-estructural.

Por ejemplo lista de fragmentos o grupos funcionales en la molécula.

• Descriptores 2D: Basados en la representación en dos dimensiones de la

molécula la cual se basa en el conocimiento de la conectividad entre los

átomos que la forman; por ejemplo los basdos en la Representación

Topológica, los Sistemas de Notación Lineal por ejemplo el sistema de

Wiswesser y la notación SMILES [14]

• Descriptores 3D: Basados en la representación tridimensional de la

molécula como un objeto rígido. Permite la representación de la

conectividad entre los átomos y de la configuración espacial de la molécula.

Ejemplo de estos descriptores son los descriptores geométricos, estéricos y

de tamaño[1]

• Descriptores 4D: Derivadas de la representación tridimensional de la

molécula y su interacción con una sonda que caracteriza el ambiente

(campos de interacción molecular). [15]

• Basados en representación estereodinámica (QSAR dinámico): es una

representación dependiente del tiempo que adiciona propiedades

estructurales a las representaciones 3D como flexibilidad, comportamiento

conformacional, propiedades de transporte.

El segundo nivel tiene que ver con la representación matemática de los

descriptores. Aquí se destacan los descriptores representados en forma de

valor escalar, vector, matrices, tensores o campos escalares.

El tercer nivel caracteriza las propiedades de invarianza de los descriptores.

Esto se define como la habilidad del algoritmo de generación del descriptor para

Page 11: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 6

ser independiente de las características particulares de la representación

molecular (numeración de los átomos, marco de referencia espacial,

conformación molecular, etc.) siendo la primera de estas tres características la

asumida como mínima para cualquier descriptor. Este nivel genera varios niveles

de invarianza:

Invarianza Química: Invariante frente a cambios de átomos o enlaces en la

molécula

Invarianza transnacional y rotacional: Invariante frente a rotaciones o

movimientos de la molécula

Invarianza Conformacional, en dependencia de su variación con la

conformación.

Degeneración de los Descriptores Moleculares: Expresa la habilidad del

descriptor de evitar valores iguales para moléculas diferentes. Se clasifican en

este sentido en Ninguna degeneración (N), Baja (L), Intermedia (I) y alta (H). La

degeneración es considerada una característica no deseable para todos los

descriptores moleculares, sin embargo son útiles para modelar propiedades que

son degeneradas también.[16]

2.1.3- Descriptores Topológicos. 2.1.3.1- Representación topológica de moléculas.

Una representación de un objeto que solo brinda información sobre el número de

elementos que lo componen y sus conectividades, se nombra representación

topológica de dicho objeto. En ese sentido, la topología es aquella parte del

álgebra que estudia las posiciones e interconexiones de los elementos dentro de

un conjunto .[14] Si la topología se aplicada a las moléculas, da lugar a la

topología molecular. [12, 17] Por tanto, una representación topológica de una

molécula puede ser obtenida utilizando un grafo molecular. A continuación se

darán algunas de las principales definiciones en teoría de grafos.

Page 12: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 7

2.1.3.2- Conceptos generales sobre grafos.

Ante todo, comenzaremos por introducir matemáticamente el concepto de grafo.

En términos matemáticos un grafo es representado como G = (V, E), donde V es

el conjunto de vértices y E es el conjunto de aristas. El número de vértices en un

grafo es designado como n y el número de aristas por m. Los vértices vi, vj se

llaman adyacentes si existe una arista ak tal que ak = { vi, vj}∈ V, (o sea, si existe

una arista que los une). Dos aristas se denominan adyacentes si ellas tienen un

vértice en común.[7, 13, 18]

2.1.3.3- Representación matricial de grafos moleculares.

Los grafos moleculares son ampliamente usados para representar la estructura

química de compuestos orgánicos en una forma gráfica y esta convención es

ampliamente usada en los libros y artículos científicos de química. Sin embargo,

los grafos moleculares son una representación no numérica de la estructura

química; y la obtención de los descriptores moleculares para los estudios

bioinformáticos requieren una descripción numérica de los grafos moleculares.

Los grafos pueden ser representados en forma algebraica matricialmente. Esta

descripción numérica de la estructura de los compuestos químicos, es esencial

para la manipulación computarizada de las moléculas y para los cálculos de los

índices moleculares que de ella derivan.

Existe un gran número de matrices que caracterizan estructuralmente a un grafo

molecular y han servido para computar varios ITs. Algunos ejemplos son la

matriz de adyacencia A = A(G), la matriz de distancia D = D(G), la matriz de

Detour, [Δ]ij [19] la matriz de Detour-distancia, [Δ-D]ij, la matriz de distancia-

valencia [Dval(p, q, w, G)]ij, la matriz de resistencia-distancia [Ω(w)]ij, la matriz de

conductancia eléctrica [EC(w)]ij, la matriz ‘reversa’ de Wiener [RW(w, G)]ij la

matriz de Szeged [Szu]ij ,entre otras.

Page 13: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 8

2.1.3.4- Invariante grafo-teórica.

Una invariante grafo-teórica es aquella propiedad del grafo que no depende de

la numeración de los elementos del mismo, las cuales pueden ser obtenidas por

manipulación algebraica del grafo. Como hemos señalado, los grafos

moleculares no son una representación numérica de la estructura química y

aunque las matrices sí constituyen una representación algebraica, tienen como

desventaja que no constituyen invariantes grafo-teóricas, ya que su construcción

depende de la numeración dada a los vértices del grafo. Sin embargo, una

simple invariante como el número de vértices, puede ser obtenido a partir de la

matriz de adyacencia. [8, 13, 16, 20] Es por ello, que para los estudios

QSPR/QSAR, el diseño de fármacos y el ‘screening’ virtual, etc, se necesitan

obtener índices numéricos que caractericen estructuralmente los grafos

moleculares y que estos índices constituyan invariantes. Estos descriptores

invariantes son los llamados Índices Topológicos (ITs).

2.1.3.5- Indices Topológicos 2D (ITs 2D).

Un IT es un resultado numérico de alguna invariante ‘extraída’ del grafo

molecular, es decir los ITs son descriptores moleculares derivados de una

invariante grafo-teórica. Por tanto, los ITs son números calculados a partir de la

representación de una molécula como un grafo, siendo independientes de la

numeración de los vértices y aristas en el grafo molecular. Estos índices

codifican información estructural contenida en la representación en dos

dimensiones (2D) de la molécula. Un resumen completo sobre los ITs es

realmente imposible, debido a la gran cantidad de estos índices que han sido

publicados en la literatura y al número de ellos que cada año son introducidos.

No obstante, en la actualidad los ITs han sido clasificados acorde a su

naturaleza en, primera segunda y tercera generación, lo cual facilita su estudio.

Un tratamiento comprensivo de todos los descriptores moleculares disponibles

fue recientemente publicado por Todeschini y Consonni [21]

Page 14: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 9

2.1.4- Quimiometría.

Es una disciplina que engloba las herramientas matemáticas y estadísticas para

enfrentar datas complejas en el campo de la Química.[22, 23] La principal

característica de estas estrategias es el enfoque multivariado al problema, la

búsqueda de información relevante, la validación de los modelos para generar

modelos con poder predictivo, comparación de los resultados obtenidos por

diferentes métodos, y la definición y el uso de índices capaces de medirla

calidad de la información extraída.

La Quimiometría es la herramienta más usada en los estudios QSAR y QSPR ya

que brinda una sólida base para el análisis y la modelación de datos

proporcionando una batería de diferentes métodos para este fín. Un aspecto

medular de esta rama es la atención que se le presta al poder predictivo del

modelo, su complejidad y calidad. A continuación se resumen algunos de los

métodos más empleados en Quimiometría.

2.1.4.1- Redes neuronales artificiales:

Constituyen una serie métodos matemáticos y algoritmos diseñados para imitar

el proceso de aprendizaje y procesamiento de información por el cerebro

humano. Son muy útiles cuando se trata de tendencias y relaciones no lineales

aplicados al procesamiento de datos, reconocimiento de patrones, modelación

de respuestas continuas y categorizadas, etc. [2]

2.1.4.2- Clasificación.

Consiste en la asignación de un objeto a una a varias clases basado en una

regla de clasificación, estas clases son definidas a priori por grupos de objetos

en la serie de entrenamiento. El objetivo es calcular la regla de clasificación,

posiblemente definir fronteras entre clases, basados en estos objetos de la serie

Page 15: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 10

de entrenamiento y aplicar esta regla en la clasificación de nuevos objetos de

clase desconocida. Estos métodos de Clasificación son muy empleados para la

modelación de varias respuestas como pueden ser activo/inactivo, bajo/medio/altamente tóxico, mutagénico/no mutagénico. Entre los métodos más populares de clasificación se encuentra el Análisis

Discriminante Lineal (LDA). Este es un método muy empleado en estudios

QSAR. En esta técnica se obtiene, en el caso de discriminar entre dos grupos,

una ecuación del tipo:

Grupo = a + b1*x1 + b2*x2 +...+ bm*xm

Donde a es una constante y b1-bm son los coeficientes de la regresión. La

interpretación del modelo es en este caso muy similar al modelo de regresión.

Las variables con mayores coeficientes influirán más en la propiedad analizada.

Cuando existe más de dos grupos se pueden determinar más de una función

discriminante como la presentada anteriormente. Los coeficientes se interpretan

de forma análoga en estas ecuaciones.

El resultado se observa al plotear (para el caso de tres grupos en la Figura 2

(Anexos)) las raices canónicas.

Existen diferentes parámetros que permiten la calidad de un modelo en Análisis

Discriminante La mayoría de la información se extrae de la llamada matriz de confusión donde

las filas representan los casos observados y las columnas los predichos. De esta

matriz se definen parámetros como: Porcentaje de buena clasificación (%NER),

Porcentaje de buena clasificación por grupos y Sensibilidad

Además se pueden mencionar parámetros no extraídos de esta matriz como:

• Distancia de Mahalanobis. Se basa en calcular las distancias entre los

centroides de cada grupo dando esto una medida de la buena

clasificación del modelo.

• Estadígrafo de Wilk (λ): Su valor nos informa acerca de la varianza no

explicada por el modelo. En teoría un valor de 0 nos informa que existe

una perfecta discriminación entre los grupos y un valor de 1 todo lo

contrario.

Page 16: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 11

Esta técnica estadística (LDA) ha sido muy empleada en estudios QSAR en

estudios de clasificación de inhibidores de diferentes proteínas: la Proteína

Fosfatasa 1, la Epóxido Hidrolasa murina y humana, la Dihidrofolato reductasa

Actividad antibacteriana Mutagenicidad por solo mencionar algunas de las

mas recientes.

Además podemos mencionar entre las técnicas más empleadas en los métodos

de clasificación: el Análisis Discriminante Cuadrático (QDA), Análisis

Discriminante Regularizado (RDA), Árboles de Clasificación (CART), Funciones

Potenciales de Clasificación (PCF) entre otros 2.1.4.3- Análisis de Cluster.

Es un caso especial del análisis exploratorio de datos encaminado a agrupar

objetos similares en el mismo cluster y los menos similares en clusters

diferentes, está basado en la evaluación de la similaridad/diversidad de todos los

pares de objetos en la data por diferentes métodos. Se ha reportado

recientemente el empleo de esta técnica en estudios de inhibidores de la

proteasa del HIV integrasa, modelación de propiedades insecticidas,

compuestos antitumorales estrógenos ambientales entre otros.

2.1.4.4- Análisis Por Componentes Principales.

Es, junto con el Análisis de Cluster, la técnica de Análisis Exploratorio de Datos

más empleada. Extrae de una matriz de n objetos y p variables, N componentes

(N<p) que contienen un determinado porcentaje de la varianza de la data

original. Sus principales aplicaciones son:

1. Reducir el número de variables.

2. Detectar una estructura en las relaciones detectadas entre las variables, o

sea clasificar variables.

Por esto este tipo de análisis es aplicado en la reducción de datos y en los

métodos de detección de estructura.

Page 17: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 12

Las principales ventajas de los Componentes principales son:

• Son ortogonales o sea contienen información única sobre los objetos

estudiados.

• Cada componente representa una macrovariable de la data.

Diversas escalas de este tipo han sido diseñadas y empleadas con este

propósito

Esta técnica de reducción ha sido empleada para el estudio de los inhibidores de

la Proteasa del HIV colectores por la flotación de la espuma de uranio formación

de pellet de pectina clasificación estructural de protein-kinasas entre otras. [8, 9,

17, 22, 24, 25]

2.1.4.5- Análisis de regresión.

Una serie de métodos estadísticos utilizan una ecuación matemática para

modelar la relación entre una variable respuesta y una serie de variables

predictivias generalmente por el método de los mínimos cuadrados. Este

acercamiento tiene dos objetivos: modelar y predecir. Esta ecuación matemática

se llama modelo de regresión

Estas técnicas no implican solamente la obtención de este modelo sino también

la determinación de los parámetros que miden la calidad de ajuste y predicción.

Parámetros de regresión

Pueden dividirse en dos grupos los que miden la calidad del ajuste y la calidad de predicción. El primer grupo mide cuan bien el modelo ajusta la data de la serie de

entrenamiento. O sea cómo el modelo explica la varianza de la variable

respuesta.

• Coeficiente de determinación (R2): Es el porcentaje de la varianza total

que es explicada por el modelo de regresión. Se define de la siguiente

manera.

Page 18: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 13

( )

( )2

1

2

12

)()(

)()(1

=

=

−−=

n

ii

n

iii

promyobsy

predyobsyR Ec. 1

Un valor de 1 indica un ajuste perfecto o sea un modelo con un término de error

de 0. Un valor relacionado es el Coeficiente de Correlación Múltiple (R) definido

como la Raíz Cuadrada de del coeficiente de determinación. Mide la asociación

entre la respuesta observada y la emitida.

Una cantidad complementaria de R2 es el coeficiente de no determinación (cdn) 21 Rcdn −= Ec. 2

• Error de desviación estándar en el cálculo (SEC): Es función de la suma

residual de cuadrados .

npredyobsy

SEC ii∑ −=

2)()(( Ec. 3

• La prueba de la relación de Fischer (F-ratio test): Está entre las pruebas

estadísticas más conocidas. Se define como la relación enre la suma

modelo de cuadrados y la suma residual de cuadrados.

El valor obtenido es comparado con el valor crítico (Fcrit) para los

correspondientes grados de libertad del modelo (dfm) y del error (dfe). Es una

comparación entre la varianza explicada del modelo y la varianza residual. A

mayores valores de F se obtendrán modelos más confiables.

Existen además diferentes modelos para poder comparar modelos con

diferentes números de variables (p) y compuestos (n) entre los que se

encuentran la R2 ajustada, FITNESS (Ajuste) y el Estadígrafo de Exner

Calidad de predicción Mide la calidad del modelo para predecir datos futuros o sea cuan bien el

modelo de regresión (o de clasificación) estima las variables respuestas dado

una serie de variables predoctoras. Estos parámetros se obtienen mediante

técnicas de validación y son muy utilizadas como criterios de selección para los

modelos. Los estadígrafos más importantes se muestran a continuación:

• R2 de la validación (R2CV o Q2) es la varianza explicada en la predicción.

Page 19: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 14

( )

( )∑

=

=

−−= n

ii

n

iiii

promyobsy

predyobsyQ

1

2

1

2/

2

)()(

)()(1 Ec. 4

Donde yi/i es la respuesta al i-ésimo objeto estimado utilizando un modelo sin

incluir al i-ésimo objeto. Este procedimiento de validación se llama Validación

Cruzada Leave-One-Out (LOO).

Tecnicas de validación:

Son fundamentales para la evaluación de la validez del modelo obtenido.

Evalúan el poder predictivo

Muchas veces no es suficiente la cercanía de R2 a uno ni la minimización de la s

para la buena predicción de la propiedad en el futuro. El problema de la

validación es cuando se emplea técnicas de selección de variables para la

obtención del modelo . Pudiéndose dar el caso de correlación por azar.

Dentro de los métodos de Validación se encuentran:

1. Validación Cruzada: Es la técnica más usada. Se crean una número de

datas modificadas eliminando uno o varios grupos de objetos de la data

en tal forma cada objeto es eliminado al menos una vez . 2. Para estas datas modificadas se calculan los modelos y las respuestas

de los objetos eliminados se predicen a partir del modelo obtenido y se

calculan los parámetros antes definidos para determinar Calidad de

Predicción.

3. División serie de entrenamiento/serie de predicción: Es una técnica

de Validación basada en dividir la data en dos series una de

entrenamiento y otra de predicción. El modelo es calculado para la serie

de entrenamiento y el poder predictivo es evaluado por la serie de

predicción. La división se realiza seleccionando de manera aleatoria los

objetos que pertenecerán a cada serie. Como los resultados son

dependientes de la selección el proceso se deberá repetir varios cientos

de veces y promediar las capacidades predictivas . Solo se deberá

realizar una vez si la separación se estableció por un criterio bien definido

como el Análisis de Cluster.

Page 20: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 15

4. Bootstrap.

5. Validación externa.

6. Y-Scrambling

7. Validación Lateral.

8. Regla QUICK

Estos métodos de regresión son uno de los métodos más aplicados en la

Quimiometría moderna para mencionar solo algunas referencias recientes, se

han utilizado en la modelación de la inhibición de la Enzima Epóxido Hidrolasa

Actividad anti-HIV de derivados de la timina, propiedades farmacocinéticas y

farmacodinámicas de Corticosteroides en. 2.1.4.6- Algoritmo Genético para la selección de variables (GA)

Este método de selección de variables se basa en la evolución de la población

de modelos. En esta metodología se define un vector Binario I al que se llama

cromosoma. Este vector es p-dimensional donde cada posición (gen) es 0 si la

variable no está incluida y 1 si está incluida. Luego se definen los parámetros a

optimizar, el tamaño de la población (P) y el número máximo de variables

permitidas en el modelo (L) asumiendo siempre que el mínimo es 1. Se define

después un probabilidad de recombinación (Pc) usualmente alta (>0.9) y una

probabilidad de mutación usualmente pequeña (<0.1).

Una vez que todos estos parámetros se definen, la evolución del algoritmo

genético se basa en tres pasos fundamentales: Inicialización Aleatoria de la

Población, Paso de entrecruzamiento, Paso de Mutación y Paso de parada.

Una gran ventaja de este procedimiento es que no se obtiene solamente un

modelo sino una población de modelos aceptables, pudiendo hacer una

evaluación de las relaciones con la variable respuesta desde diferentes puntos

de vista. Como principal desventaja es que el mejor modelo absoluto nunca se

encuentra.

Esta técnica ha sido ampliamente estudiada y comparadas sus ventajas con

respecto a la regresión y los Mínimos Cuadrados Parciales se ha aplicado en la

Page 21: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 16

modelación de propiedades olfatorias esta metodología se puede emplear

acoplada con la Regresión Lineal con redes neuronales para la predicción de

permeabilidad de la cornea, así como con Mínimos Cuadrados Parciales para la

inhibición de enzimas recombinantes entre otras muchas. 2.1.4.7- Mínimos Cuadrados Parciales (PLS).

Es una de las muchas técnicas que producen una ecuación, o un estudio QSAR

para describir o predecir diferentes valores en una o mas variables respuesta a

partir de muchas propiedades o descriptores. Wold fue uno de los pioneros en

aplicar esta técnica a los estudios QSAR. Cuando se realiza el estudio con más

de una variable dependiente se obtiene un modelo QSAR para cada una y

posteriormente los coeficientes son interrelacionados y generalmente difieren de

los modelos originales. Es una extensión de las técnicas de Regresión Múltiple.

La principal diferencia consiste en que en vez de correlacionar directamente con

las variables dependientes se obtienen una serie de componentes que explican

cierta cantidad de la varianza experimental de los datos. El proceso de elección

de del número óptimo de componentes es basado en diversos parámetros

estadísticos. En esta técnica, se emplean la mayoría de los estadígrafos

empleados en la regresión múltiple los que mantienen sus significados. Entre

estos están R2, s, F, q2, PRESS.[6, 10, 11]

La Figura 3 (Anexos) generaliza los procesos de PLS y Regresión. Ambos

procesos tienden a maximizar el solapamiento entre las dos columnas de datos

(dependientes e independientes). La diferencia es que la regresión tiende a

maximizar el solapamiento de variables predictoras individuales para extraer los

coeficientes. El PLS maximiza el solapamiento con la matriz completa de

variables predoctoras.

Otra forma de describir el PLS es pensar en un análisis factorial de las variables

descriptoras cuyo objetivo es maximizar la alineación con la variable a predecir

en lugar de con las coordenadas cartesianas. Por esta razón el PLS es

relacionado con la Regresión por Componentes Principales, una técnica en la

Page 22: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 17

cual los scores del PCA son utilizados para la Regresión Múltiple, pero esto es

una forma menos eficiente de tratar de realizar la misma operación que se

quiere hacer con el PLS.

Son innumerables las referencias encontradas de la aplicación de esta técnica

en estudios QSAR en estudios ADME técnicas CoMSA CoMFA, la predicción de

propiedades de péptidos

2.2 Solubilidad de compuestos orgánicos

Los compuestos orgánicos son complejos y responsables en particular de las

propiedades celulares de “la vida”.

Todos los compuestos orgánicos comparten la característica de poseer un

bioelemento base, llamado "CARBONO" en sus moléculas. Esto se debe a que

el carbono se une muy fácilmente entre sí, desarrollando esqueletos básicos en

todos los compuestos orgánicos. Las soluciones en química orgánica, son

mezclas homogéneas de sustancias en iguales o distintos estados de

agregación. La concentración de estas soluciones constituye una de sus

principales características. Bastantes propiedades de las soluciones dependen

exclusivamente de la concentración.

Son ensayos sencillos para compuestos que generalmente están puros y asociar

el compuesto orgánico con algún grupo funcional presente en su estructura.

ENSAYOS ESPECÍFICOS:

Se realizan pruebas especiales para cada una de las posibles funciones

presentes en la muestra. Por ejemplo muestras oxigenadas, alquenos,

aromáticos etc.

Page 23: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 18

Ensayos específicos de solubilidad:

La solubilidad de una sustancia orgánica en diversos disolventes es un

fundamento del método de análisis cualitativo orgánico desarrollado por Kamm,

este método se basa en que una sustancia es más soluble en un disolvente

cuando sus estructuras están íntimamente relacionadas. Pero dentro de la

solubilidad también existen reglas de peso molecular, ubicación en una serie

homóloga y los disolventes que causan una reacción química como son los

ácidos y las bases, también se incluyen los ácidos orgánicos inertes que forman

sales de oxonio y sulfonio.

Independientemente de las causas de la disolución del compuesto que se

investiga, se considera que hay disolución cuando 0,05g de la sustancia sólida o

0,1 ml de la sustancia líquida forman una fase homogénea a la temperatura

ambiente con 3 ml de solvente.

Solubilidad en agua: En general cuatro tipos de compuestos son solubles en

agua, los electrolitos, los ácidos, las bases y los compuestos polares. En cuanto

a los electrolitos, las especies iónicas se hidratan debido a las interacciones Ion-

dipolo entre las moléculas de agua y los iones. El número

de ácidos y bases que pueden ser ionizados por el agua es limitado, y la

mayoría se disuelve por la formación de puentes de hidrógeno. Las sustancias

no iónicas no se disuelven en agua, a menos que sean capaces de formar

puentes de hidrógeno; esto se logra cuando un átomo de hidrógeno

se encuentra entre dos átomos fuertemente electronegativos, y para propósitos

prácticos sólo el flúor, oxígeno y nitrógeno lo forman. Por consiguiente, los

hidrocarburos, los derivados halogenados y los tioles son muy poco solubles en

agua.

Solubilidad en éter: En general las sustancias no polares y ligeramente polares

se disuelven en éter. El que un compuesto polar sea o no soluble en éter,

Page 24: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 19

depende de la influencia de los grupos polares con respecto a la de los grupos

no polares presentes. En general los compuestos que tengan un solo grupo

polar por molécula se disolverán, a menos que sean altamente polares, como los

ácidos sulfónicos. La solubilidad en éter no es un criterio único para clasificar las

sustancias por solubilidad.

Solubilidad en hidróxido de sodio: Los compuestos que son insolubles en

agua, pero que son capaces de donar un protón a una base diluida, pueden

formar productos solubles en agua. Así se considera como ácido los siguientes

compuestos: aquellos en que el protón es removido de un grupo hidroxilo, como

los ácidos sulfónicos, sulfínicos y carboxílicos; fenoles, oximas, enoles, ácidos

hidroxámicos y las formas “aci” de los nitro compuestos primarios y secundarios.

El protón es removido de un átomo de azufre, como los trío fenoles y los

mercaptanos.

De un átomo de nitrógeno como en las sulfonamidas, N-monoalcohil-

sulfonamida- N monoetilsustituidas y aquellos fenoles que tienen sustituyentes

en la posición orto.

Solubilidad en ácido sulfúrico concentrado: Este ácido es un donador de

protones muy efectivo, y es capaz de protonar hasta la base más débil. Tres

tipos de compuestos son solubles en este ácido, los que contienen oxígeno

excepto los diariléteres y los perfluoro compuestos que contienen oxígeno, los

alquenos y los alquinos, los hidrocarburos aromáticos que son fácilmente

sulfonados, tales como los isómeros meta di sustituidos, los trialcohil-sustituidos

y los que tienen tres o más anillos aromáticos. Un compuesto que reaccione con

el ácido sulfúrico concentrado, se considera soluble aunque el producto de la

reacción sea insoluble.

Page 25: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 20

2.2.1 Importancia en el campo de las ciencias farmacéuticas. La preparación de disoluciones es una de las operaciones mas utilizadas en

Tecnología Farmacéutica. En unos casos, las disoluciones constituyen el

objetivo final, dando lugar a formas farmacéuticas líquidas, como inyectables,

lociones de uso tópico, gotas oculares, elixires y jarabes. En otros casos, la

preparación de una disolución es una fase intermedia en la elaboración de otras

formas farmacéuticas. En algunas técnicas de recubrimiento de formas

farmacéuticas sólidas mediante una delgada película, el material de

recubrimiento se disuelve en un disolvente orgánico que posteriormente se

evapora. En ciertos procedimientos de microencapsulación, el ingrediente

farmacéutico activo (IFA) y el polímero se disuelven conjuntamente en un líquido

que se elimina también posteriormente. [26, 27]

La solubilidad de los componentes de la formulación es uno de los factores

importantes que hay que considerar en la preparación de disoluciones. Además

la solubilidad y la velocidad de disolución son parámetros que influyen en la

absorción, y por tanto en la acción del medicamento, ya que, de un modo

general, solo las moléculas disueltas son capaces de atravesar las membranas

biológicas. El agua, elemento esencial para la vida, es el principal vehículo

líquido para administrar medicamentos, por su ausencia de toxicidad. Cuando

los ingredientes farmacéuticos activos (IFAs) son insolubles en agua a la dosis

terapéutica, pueden plantear problemas tecnológicos de formulación y

problemas biofarmacéuticos.

La teoría de la solubilidad nació en un área teórico-experimental de la química y

ha evolucionado introduciéndose en las ciencias farmacéuticas para ayudar a

resolver problemas que se plantean tanto durante el desarrollo de una

formulación como en relación a la biodisponibilidad de un IFA.[28]

La solubilidad es la concentración de soluto en una disolución saturada,

determinada en presencia de un exceso de soluto sin disolver. Cuando se fijan la

presión y la temperatura, la solubilidad es una constante de equilibrio

Page 26: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 21

característica de una molécula. Es muy importante que haya un ligero exceso de

sólido sin disolver, para que se establezca la condición de equilibrio.

La farmacopea británica establece las expresiones semicuantitativas de la

solubilidad que se presentan en la siguiente tabla:[29]

Tabla. 1 Criterios de solubilidad según reportes de la farmacopea

Término descriptivo Mililitros de disolvente por gramo de

soluto

Muy soluble Menos de 1

Fácilmente soluble Entre 1 y 10

Soluble Entre 10 y 30

Bastante soluble Entre 30 y 100

Poco soluble Entre 100 y 1000

Muy poco soluble Entre 1000 y 10 000

Prácticamente insoluble Más de 10 000

Los factores que influyen en la solubilidad se pueden clasificar como factores

dependientes del medio (temperatura, la constante dieléctrica y el pH de la

disolución), de las propiedades en estado sólido del soluto (grado de

cristalinidad y el polimorfismo) y de las interacciones en disolución (interacción

del soluto y el disolvente), y tienen la capacidad de incrementar o disminuir la

solubilidad. [30]

El agua es el disolvente por excelencia. Posee un momento dipolar permanente

muy elevado (µ= 1.87) y puede formar enlaces dipolo-dipolo, dipolo-dipolo

inducido, dipolo-ion y puentes de hidrógeno. Las moléculas de agua se asocian

entre si mediante puentes de hidrógeno de gran intensidad que le confieren una

estructura muy ordenada y compacta, responsable de dos importantes efectos:

la hidratación hidrofóbica y la interacción hidrofóbica. En disolución acuosa, las

moléculas y grupos no polares (hidrocarburos, grupos alquílicos de IFAs)

inducen un aumento del orden de las moléculas de agua que los rodean,

reforzando los enlaces de hidrógeno del agua en su entorno (“estructura

Page 27: Predicción y Evaluación de la solubilidad de los ...

Revisión bibliográfica 22

iceberg”). Este efecto se conoce como hidratación hidrofóbica y produce una

fuerte disminución de entropía que explica la baja solubilidad de los

hidrocarburos en agua. La interacción hidrofóbica se produce entre moléculas o

grupos no polares que se aproximan y expulsan el agua ordenada (icebergs)

que solvata a sus grupos hidrófobos independientemente. Como resultado, se

produce un aumento de entropía que estabiliza y caracteriza este tipo de

interacción. El agua se utiliza en la elaboración de casi todas las formas

farmacéuticas, ya sea como vehículo principal o como sustancia auxiliar.

Page 28: Predicción y Evaluación de la solubilidad de los ...

Materiales y Métodos 23

3- MATERIALES Y MÉTODOS.

Para la búsqueda de modelos de clasificación se seleccionó una serie de

entrenamiento, formada por tres componentes fundamentales: en primer lugar,

un conjunto de compuestos químicos con una solubles en agua solubles en

agua y uno poco solubles.[19, 30-33]

Para esta serie de entrenamiento se le calculó los momentos espectrales a cada

uno de los compuestos que la componen ponderando los grafos moleculares

con el momento dipolo estándar de enlace, se obtuvo una matriz de datos que

contiene los momentos espectrales desde μ0 hasta μ15 para cada uno de los

compuestos.

Los momentos espectrales empleados en este trabajo fueron calculados, con el

programa Modeslab , el cual genera los datos en ficheros de extensión .txt

compatibles con el Microsoft Office.

El procesamiento de los datos para crear nuevas variables se realizó con el

tabulador electrónico Microsoft Excel versión 7.0 para Windows [34]

Los ficheros generados por Excel fueron procesados con el software

ESTATISTICA 8.0 para Windows . En la que se empleó el análisis discriminante

lineal para buscar los modelos de clasificación [35]

Todos los software fueron corridos sobre una computadora personal IBM

Compatible Pentium IV a 2.8 GHz con 1 GB de memoria RAM .

3.1 Determinación de la concentración por método Ultravioleta.

Se adicionan 0.05 gramos de cada sustancia solida en 50 mL de agua destilada

obteniéndose una solución sobresaturada, se toman 10 mL y se diluyen a 50

mL a la que se realiza un espectro ultravioleta determinando la absorbancia a la

longitud de onda de máxima absorción reportada en la literatura, para el caso del

n-butanol que es una sustancia líquida se mezclan 20 mL del alcohol con 40 mL

de agua hasta la separación en dos fases, después la fase acuosa la cual

Page 29: Predicción y Evaluación de la solubilidad de los ...

Materiales y Métodos 24

constituye una solución saturada se le realiza un espectro ultravioleta de forma

similar al proceder inicial para las demás sustancias empleadas en el estudio.

Equipamiento empleado

• Matráz de 50 mL

• Matráz de 100 mL

• Pipeta de 20 mL

• Balanza digital BOECO Germany

• Espectrógrafo Ultravioleta Genesys 10 uv. usa

Page 30: Predicción y Evaluación de la solubilidad de los ...

Resultados y Discusión 25

4 – RESULTADOS Y DISCUSIÓN El primer paso para encontrar un modelo teórico que permita descubrir nuevas

moléculas y estudiar sus propiedades es diseñar una serie de entrenamiento

representativa y aleatoria. En este trabajo se ha contado con una amplia data de

216 compuestos que comprenden compuestos divididos en dos series, una de

entrenamiento y otra de predicción, a su vez en cada serie los compuestos están

subclasificados siguiendo un criterio de solubilidad reportado en la literatura

en compuestos escasamente solubles, parcialmente soluble y extremadamente

solubles. Esta data fue dividida, como se expuso anteriormente en dos subseries,

una conteniendo 150 compuestos, como serie de entrenamiento y 66 en la serie

de predicción, a los cuales se le ha hecho un análisis de Cluster K-means

(STATISTICA 8.0)

Los modelos de clasificación así como los parámetros estadísticos son mostrados

a continuación:

Muy solubles:

Y= - 1.41 µ[Hyd]1 – 54x10 -4 µ[Hyd]6 + 0.0426 µ[Hyd]5 + 2.8846 µ[Std]1 + 0.2

[Mol]1 – 10 -5 µ[Pol]4 + 0.0989 µ[Dip]3 – 0.554 µ[Dip]2 + 1.3265 µ[Hyd]2 -

3484 µ[Std]2 – 3.56784 . Ec. 5

lambda = 0.36 D2 = 6.33 F = 15.14

Parcialmente solubles:

Y= 0.16422µ[Hyd]1 + 0.00262µ[Hyd]6 + 0.00772µ[Hyd]5 + 3.1425µ[Std]1 +

34099µ[Mol]1 + 0.00025 µ[Pol]3 + 0.03936 µ[Dip]3 – 0.17481 µ[Dip]2 + 1.46318

[Hyd]2 – 1.84018 µ[Std]2 + 4x10-5 µ[Std]8 – 4.41078 . Ec. 6

lambda = 0.36 D2 = 6.33 F = 15.14

Poco solubles:

Y= 0.39631 µ[Hyd]1 + 0.01861 µ[Hyd]5 + 6.0067 µ[Std]1 + 0.3372 µ[Mol]1 +

2769 µ[Dip]3 – 1.4393 µ[Dip]2 + 4.05433 µ[Hyd]2 – 3.5139 µ[Std]2 – 7x10 -4

[Std]7 + 9x10 -5µ[Std]8 – 7.5257 Ec. 7

lambda = 0.36 D2 = 6.33 F = 15.14

Page 31: Predicción y Evaluación de la solubilidad de los ...

Resultados y Discusión 26

Donde λ es la lamda de Wilks’, D2 es la distancia de Mahalanobis y la F es la

razón de Fisher.

La λ de Wilks’ puede tomar valores entre 0 (discriminación perfecta) y 1 (no

discrimina). La selección de los modelos se realizó en base a la calidad

estadística de los mismos, los estadígrafos de comparación multivariada tenidos

en cuenta para este fin fueron, en primer lugar la lambda (λ) de Wilks. De un

conjunto elevado de modelos obtenidos se seleccionaron sólo aquellos cuyo valor

de λ es el más pequeño posible, ya que permite evaluar la hipótesis de que dos o

más grupos provienen de poblaciones con medias significativamente diferentes

para un conjunto de variables. Debido a que valores pequeños de (λ) indican

diferencias entre las medias de grupos, este se considera uno de los mejores

criterios de comparación multivariada. Otro criterio estadístico importante a la hora

de decidir qué modelo se debía seleccionar para realizar clasificaciones de calidad

en el proceso de diseño de fármacos fue el cuadrado de la distancia de

Mahalanobis (D2 ), la cual es una especie de distancia entre los centroides de

cada uno de los supuestos grupos, por lo tanto su valor indicará, de una manera

proporcional, la diferencia entre ambos, para grupos idealmente separados entre

si la D2 como estimador insesgado de la F de Fisher debe ser mayor o igual a esta

para demostrar significación estadística en la prueba de hipótesis, ninguno de los

modelos encontrados cumplió este requisito lo cual indica que no hay una

separación total entre los grupos sino que existe cierta superposición. En

este caso D2 es menor que F, indicando que existe un sobrelapamiento entre los

grupos reales, este hecho puede ser explicado ya que existen moléculas que se

encuentran en el límite de solubilidad de los grupos, y para mayor precisión debía

hacerse un análisis difuso que no es el objetivo de nuestro trabajo .

los resultados de la matriz de clasificación tanto para la serie de entrenamiento

como para la serie de predicción se muestran a continuación

Page 32: Predicción y Evaluación de la solubilidad de los ...

Resultados y Discusión 27

Tabla 2 Matriz de clasificación según la serie de entrenamiento

Por ciento G_1:1 G_2:2 G_3:3

G_1:1 86.27451 60 8 8

G_2:2 72.30769 6 32 5

G_3:3 81.63265 4 5 28

total 81. 01852 70 45 35

Se hizo una valoración de la efectividad del proceso de clasificación. Para ello se

tuvo en cuenta los resultados de la matriz de clasificación, para asegurar la alta

calidad del modelo sólo se tomaron aquéllos en los cuales el porcentaje de casos

bien clasificados no fuera inferior al 70%, en este sentido se tuvo en cuenta que el

porcentaje de casos bien clasificados para los grupos de sustancias en estudio

fuera alto, para evitar la aparición de “falsos activos” a la hora de la predicción, lo

cual muestra la calidad de los modelos ya que evita la mala selección de un

compuesto. Además de esto, se prestó especial atención como criterio final de

selección, a la capacidad predictiva de los modelos, caracterizado por el

porcentaje de buena clasificación en la serie de predicción.

Tabla 3 Matriz de clasificación según la serie de Predicción

Por ciento G_1:1 G_2:2 G_3:3

G_1:1 87.5 28 1 0

G_2:2 78.98 2 15 3

G_3:3 80 2 3 12

total 83.33 32 19 15

4.1 Determinación experimental de la solubilidad.

La solubilidad es la concentración de soluto en una disolución saturada,

determinada en presencia de un exceso de soluto sin disolver. Cuando se fijan la

presión y la temperatura, la solubilidad es una constante de equilibrio

Page 33: Predicción y Evaluación de la solubilidad de los ...

Resultados y Discusión 28

característica de una molécula. Es muy importante que haya un ligero exceso de

sólido sin disolver, para que se establezca la condición de equilibrio.

Para cumplimentar esto en nuestro trabajo partimos de usar las 4 sustancias

referenciadas con antelación, se procedió según la técnica descrita a determinar la

solubilidad de estos compuestos, en el caso de las sustancias en estado sólido se

partió de obtener una solución saturada de cada una, adicionando un exceso del

soluto en un volumen fijo del disolvente, agua en este caso, con posterior

eliminación del residuo solidó, al obtener el espectro ultravioleta para estas

disoluciones en todos los casos no nos permitía identificar el máximo en la

absorbancia, haciéndose necesario realizar una dilución, es de destacar que para

realizar estas determinaciones se escogieron las longitudes de ondas reportadas

en la literatura como máximos de absorción para cada caso y a los cuales se

conoce la absortividad. Una vez realizada la dilución y repetido el espectro se

procede a calcular el porcentaje de cada sustancia disuelta, según el siguiente

procedimiento.

Ley de Lambert

A = єbc

Log E = 2.79

Page 34: Predicción y Evaluación de la solubilidad de los ...

Resultados y Discusión 29

Tabla 6. Compuestos empleados en el estudio de determinación de solubiulidad

Compuestos Estructura química Porcentaje Masa

Ac salicílico O OH

OH

4% 0.0020 g

Ac barbitúrico

2.6% 0.0013 g

colesterol

1.38% 0.0007 g

butanol

89% 2.2000 g

Evaluación de la solubilidad mediante espectroscopia ultravioleta

NH NH

O

OO

CH3 OH

Page 35: Predicción y Evaluación de la solubilidad de los ...

Resultados y Discusión 30

Acido salicílico Aplicando el espectroscopia ultravioleta con una muestra de Acido salicílico se

observaron bajo condición UV a la longitud de onda λ = 302 nm cuyo valor se

correspondiera con la máxima A = 1.938

Figura 1 Espectro Ultravioleta del ácido salicílico

Acido barbitúrico Aplicando el espectroscopia ultravioleta con una muestra de Acido barbitúrico se

observaron bajo condición UV a la longitud de onda λ = 258 nm con la máxima

absorbancia A = 2.687

Figura 2 Espectro Ultravioleta del ácido barbitúrico

Page 36: Predicción y Evaluación de la solubilidad de los ...

Resultados y Discusión 31

Colesterol Aplicando el espectroscopia ultravioleta con una muestra de colesterol se

observaron bajo condición UV a la longitud de onda λ =196 mn con la máxima

absorbancia A = 0.094

Figura 3 Espectro Ultravioleta del colesterol

Page 37: Predicción y Evaluación de la solubilidad de los ...

Resultados y Discusión 32

Butanol Aplicando el espectroscopia ultravioleta con una muestra de butanol se

observaron bajo condición UV a la longitud de onda λ =196 mn con la máxima

absorbancia A = 0.821

Figura 4 Espectro Ultravioleta del butanol

Los resultados obtenido en cuanto a la solubilidad de los compuestos evaluados

se corresponde con los reportes teóricos, en los cuales los compuestos con alto

peso molecular presentan una limitada solubilidad en agua, en nuestro caso el

colesterol es el menos soluble, perfectamente acorde a sus características

estructurales en el que el esqueleto esteroidal le confiere una gran lipofília a la

molécula, un tanto contradictorio pudiera parecer el comportamiento del ácido

barbitúrico que posee mayor cantidad de grupos polares y heteroátomos capaces

de formar puentes de hidrógeno con el agua y solo se solubiliza en un 2.6 %, este

hecho puede estar asociado al alto grado de conjugación que existe en la

molécula y por tanto se limita la posibilidad de establecer dichos enlaces de

hidrógeno con el agua, para el acido salicílico que aunque es un compuesto

aromático su solubilidad en agua es mayor, no solo por el hecho de presentar un

grupo carboxilo y un hidroxilo fenólico sino que dado su carácter ácido acentuado

Page 38: Predicción y Evaluación de la solubilidad de los ...

Resultados y Discusión 33

puede ionizarse en agua y aumentar la cantidad que se disuelve, enmascarando

un tanto el proceso físico de solubilidad. Para el caso del n-butanol si tiene el

comportamiento esperado ya que su cadena hidrocarbonada no es lo suficiente

larga como para compensar el efecto del grupo hidroxilo desde el punto de vista

de formar enlaces de hidrógeno con el solvente en este caso el agua. Por otra

parte el comportamiento en los espectros también está acorde con los reportes

bibliográficos donde tanto el colesterol como el n-butanol al no presentar grupos

cromóforos o insaturaciones conjugadas presentan absorción a longitudes de

ondas inferiores a los 200 nm, correspondientes a las transiciones n ati pide los

grupos hidroxilos, mientras que el colesterol y el ácido barbitúrico presentan

dichos grupos y aparece la absorción a lambdas superiores a los 200 nm, estos

máximos de absorción experimentales se corresponden con los reportados en la

farmacopea.

Page 39: Predicción y Evaluación de la solubilidad de los ...

Conclusiones 34

5 - CONCLUSIONES

• Se confeccionó una serie de entrenamiento y una de predicción

representativa y aleatoria.

• Se obtiene una función discriminante para la predicción de la solubilidad

de compuestos orgánicos con interés farmacéutico con un porcentaje de

buena clasificación, superior al 80%.

• Se corroboró la solubilidad predicha empleando una técnica de

espectroscopía ultravioleta.

• Se demostró la utilidad de la espectroscopía ultravioleta en la

determinación cuantitativa de la solubilidad de compuestos orgánicos.

Page 40: Predicción y Evaluación de la solubilidad de los ...

Recomendaciones 35

6 - RECOMENDACIONES

• Desarrollar modelos predictivos empleando otras metodologías de

cálculo.

• Validar la técnica de espectroscopía ultravioleta como una vía para

determinar la solubilidad de compuestos orgánicos de interés

farmacéutico.

• Aplicar la metodología desarrollada a nuevos compuestos.

Page 41: Predicción y Evaluación de la solubilidad de los ...

Bibliografía 36

7 BIBLIOGRAFÍA

1. E, E., Aplications of Aproximations in adyacence Matrix of edge. J. Chem. Inf. Comput, 1998.

2. Lajiness, M.S., Molecular similarity-Based Methods for Selecting Compounds for Screenig. In Computacional Chemical Graph Theory. 1990, new york.

3. Adler, M., A detailed discussion of the crystal structure of compound 31 bound to fXais described elsewhere. M.Biochemistry, 2002.

4. Estrada, E., Aplication of aproximations Toss Mode. J. Chem. Inf. Comput, 1995. 35.

5. H, Y., QSAR studies of HIV-1 integrase inhibition. Bioorg Med Chem., 2002. 12.

6. Helmut Mack, Orally active thrombin inhibitors .Par t1: Optimization of the P1-moiety. Bioorg Med Chem., 2006.

7. MG, F., QSAR studies of the pyrethroid insecticides. Part 3. A putative pharmacophore derived using methodology based on molecular dynamics and hierarchical cluster analysis. J Mol Graph Model., 2003.

8. Rodríguez, L., Topological Substructure Molecular Design. 1997: Cuba. 9. Satoshi Komoriya, Design ,synthesis ,and biological activity of non-basic

compounds as factor Xa inhibitors :SAR study of S 1 andaryl binding sites. Bioorg Med Chem., 2005.

10. X, J., SARandX-raystructuresofenantiopure1,2-cis-(1R,2S)-cyclopentyldiamineandcyclohexyldiaminederivativesasinhibitorsofcoagulationFactorXa. Biorganic Medicinal Chemestry, 2007.

11. Y, F., Quantitative structure-antitumor activity relationships of camptothecin analogues: cluster analysis and genetic algorithm-based studies. J Med Chem, 2004.

12. T, S., Classification of environmental estrogens by physicochemical properties using principal component analysis and hierarchical cluster analysis. J Chem Inf Comput, 2003. 2.

13. T, N., Structural classification of protein kinases using 3D molecular interaction field analysis of their ligand binding sites: target family landscapes. J Med Chem, 2002.

14. Gálves, J., Diseño de medicamentos. 1995, España. 15. Deng, H., Synthesis, SAR exploration ,and X-raycrystalstructures of factor

XIa inhibitors containing alfa-ketothiazolearginine. Bioorg Med Chem., 2006.

16. MonicaJ., Substitutedthiophene-anthranilamidesaspotentinhibitorsofhumanfactorXaq. Bioorg Med Chem., 2006.

17. RobertJ, Structure and property based desig no ffactor Xa inhibitors :Biarylpyrrolidin-2-one sin corporating basic heterocyclic motifs. Bioorg Med Chem., 2007.

Page 42: Predicción y Evaluación de la solubilidad de los ...

Bibliografía 37

18. I, T., Quantum chemical descriptors in the formulation of pectin pellets produced by extrusion/spheronisation. Eur J Pharm Sci, 2002. 16.

19. I.E, F., The Data Analysis Handbook, E. Amsterdam, Editor. 1990. 20. R, K., A priori molecular descriptors in QSAR: a case of HIV-1 protease

inhibitors. I. The chemometric approach. J Mol Graph Model, 2003. 21. Hansch, C., Muir, R.M., Fujita, T., Maloney, P.P., Geiger, F., Streich, M,

The Correklation of Biological Activity of Plant Growth and Choromycetin Derivatives with Hammet Constants and Partition Coefficients. J. Am. Chem, 2003: p. 2817-2824.

22. J, R., Structure and property based design of facto rX ainhibitors :Pyrrolidin-2-one swith biaryl P4 motifs. Bioorg Med Chem., 2007.

23. Kidera, A., Statistical Analysis of the physical properties of the 20 Naturally Occurring Amino Acids. 2000, NY.

24. JenniferX, 5-Amidinobenzo[b]thiophenesas dual inhibitors of factors IXa and Xa. Bioorg Med Chem., 2004.

25. L, E., Peptide QSAR on substance P analogues, enkephalins and bradykinins containing L- and D-amino acids. Acta Chem Scand., 1990.

26. Foye, W.O., Principios de Química Farmacéutica. 1984, España. 27. Goodman, Bases Farmacológicas de la terapéutica. 2000, Los Angeles. 28. Wade A, W.P., Handbook of pharmaceutical excipients. 1994: Second

edition. London: The Pharmaceutical Press. 29. Brtish Pharmacopeia. 2004. 30. autores, C.d., Hanbook de solubilidad de compuestos orgánicos en agua.

2007. 31. autores, C.d., Merck Index. 2000. 32. Españoles, C.d.F., ed. Base de Datos del Medicamento. 2002: España. 33. Newger, M., Organic compounds and drug synonimons 1989. 34. Microsoft Excel for Windows XP Ver. 7.0 Copyright 1985-2005. 2003. 35. 8.0, S. 2007: England.