Clasificacion Supervisada Y Algoritmos Evolutivos

Post on 18-Jun-2015

3.055 views 3 download

description

como Funcionan y su Introduccion general

Transcript of Clasificacion Supervisada Y Algoritmos Evolutivos

Por: Marvin Agila J.

Las técnicas de clasificación automática se pueden agrupar inicialmente como supervisadas o no supervisadas, aunque en esta sección nos enfocaremos en la segunda.

 Conocida la diferencia entre ambas técnicas es más fácil introducirnos en la descripción de los clasificadores, determinando a qué dominios se aplican en la actualidad, que parámetros lo configuran y que tipo son los más usados

Los Sistemas de Recuperación de Información asumen que el contenido de los documentos de la base de datos y las necesidades de información de cada usuario puede expresarse mediante un conjunto de términos índice, que serán utilizados para comparar los documentos almacenados con la consulta introducida por el usuario.

La mayor dificultad de los Sistemas de Recuperación de la información es predecir qué documentos son los más relevantes.

Según las premisas que se adopten se producirán varios modelos de recuperación:

VectorialBooleanoProbabilisticoBasados en el LenguajeBasados en Redes de InferenciaBasados en Lógica difusaRelevance Feedback

Modelo de recuperación Vectorial.En el modelo vectorial un documento se

enmarca dentro de una colección que tiene unas determinadas características. Así pues, un documento puede considerarse formalmente como un vector que expresa la relación del documento con cada una de sus m características.

La recuperación se basa en obtener aquellos documentos que cumplan la función lógica expresada en la consulta realizada por el usuario. Para ello utiliza los operadores propios del álgebra de Boole (AND, OR y NOT) y ficheros de índices invertidos que contienen en sus entradas los documentos que contienen dicho término.

El modelo probabilístico parte de la presencia o ausencia de los términos de la consulta en los documentos de la colección. Por tanto se trata de un modelo binario. Utiliza índices de los términos descriptores con pesos definidos previamente. De esta manera se consigue que el sistema efectúe la recuperación incidiendo sobre todo en los mejores descriptores de entre los empleados por el usuario en la consulta, minimizando la importancia de los peores.

En la actualidad están en desarrollo modelos basados en el procesamiento del lenguaje natural, en los cuales una base de conocimientos intentaría interpretar documentos textuales y generar listas de descriptores de forma automática.

Se trata de un método de mejora de las consultas. Consiste en reformular la consulta inicial introducida por el usuario en base a documentos que él mismo considere relevantes. De esta forma la consulta ofrece cada vez resultados más precisos y además se recalculan los pesos de los términos relevantes.

El principal defecto del modelo probabilístico es la necesidad de una estimación inicial de los pesos de los términos para estimar el grado de relevancia de un documento. En el modelo de lógica difusa los autores no asignan los grados de pertenencia de los documentos a los términos. Además, la aplicación de modelos borrosos es idónea para solucionar los problemas de incompletitud e imprecisión a la hora de indexar un documento..

El modelo de red de inferencia extiende los modelos probabilísticos basados en redes bayesianas. Se basa en una red en la que se distinguen dos subredes:

Red de documentos: red fija de documentos para cada colección formada por dos tipos de nodos que representan los términos de los documentos y los documentos respectivamente. De un nodo de documento salen arcos hacia los nodos de los términos que han sido indexados.

Red de consulta: red que se crea cuando el usuario consulta al sistema y contiene nodos de consulta y nodos de términos, de manera que de un nodo de término salen arcos hacia los nodos de consulta correspondientes.

La variable aleatoria de la consulta representa que la información requerida por la consulta ha sido satisfecha.

En esta sección de la diapositiva describiré en forma breve una de las líneas de investigación que se están llevando acabo en el Laboratorio de Tecnología Emergentes sobre algoritmos evolutivos y su aplicabilidad en tareas de Minería de Datos.

Los algoritmos evolutivos son meta heurísticas que emplean modelos computacionales del proceso evolutivo. Existen una gran variedad que incluyen: Algoritmos Genéticos, Programación Evolutiva, Estrategias Evolutivas y Programación Genética.

Los algoritmos genéticos y las redes neuronales artificiales, se han usado juntas para entrenar o ayudar en el entrenamiento de las redes para buscar los pesos de la red, para buscar los parámetros de aprendizaje apropiados, para reducir el tamaño del conjunto de entrenamiento seleccionando las característica más pertinentes.

En los algoritmos evolutivos hay 2 maneras de representar conjunto de reglas.

El enfoque de Michigan cada individuo en la población representa una regla de longitud fija , y la población entera representa el objetivo.

El otro enfoque es el de “Pittsburg” en donde cada individuo de tamaño variable representa un conjunto entero de reglas. Las 2 representaciones tienen sus méritos y sus inconvenientes y se han usado con éxito es sistemas clasificadores que son sistemas basados en reglas que combinan esfuerzo de aprendizaje y algoritmos evolutivos.

Otros enfoques se basan en programación genética para generar prototipos en un problema de clasificación, con los cuales se puede determinar el origen de las muestras de un conjunto de datos, se codifica con un multiarbol, es decir un conjunto de arboles, que representa el cromosoma.

Agrupar un conjunto de objetos definidos por variables, en clases donde en cada clase los elementos posean características afines y sean más similares entre si que respecto a elementos pertenecientes a otra clase.

Graficar grupos afines como es el caso de los dendogramas de las taxonomías.

Clasificar, simplemente información abundante i compleja.

Hallar el numero de clases adecuadas.

La clasificación conlleva dos pasos fundamentales: Generación de un conjunto de clases y sus

respuestas espectrales características (generalmente a partir de una muestra de pixeles)

Adjudicación de todos los pixeles a alguna de las clases

Suponiendo que los datos han pasado ya todo tipo de correcciones de tipo geométrico o atmosférico, existen dos métodos complementarios para afrontar el problema de la generación de clases, estos son válidos tanto en imágenes de satélite como en cualquier otro campo.

Generalmente el proceso de clasificación conlleva las siguientes etapas:

Análisis de Componentes Principales para resumir la información contenida en las bandas e incluso eliminar alguna del análisis.

Generación de clases y signaturas espectrales características.Clasificación no supervisada. Se utilizan algoritmos matemáticos de clasificación automática.

Clasificación propiamente dicha. Existen múltiples métodos: No estadísticos (mínima distancia, paralelepípedos)Estadísticos clásicos (máxima probabilidad)Algoritmos basados en inteligencia artificial

(lógica borrosa, redes neuronales)

Evaluación de la precisión de la clasificación

http://modelosrecuperacion.50webs.com/inferencia.htm

http://ficcte.unimoron.edu.ar/wicc/Trabajos/I%20-%20asi/627-wicc_2006_AEs_DM.pdf

http://72.14.205.104/search?q=cache:l8a142XMAVIJ:www.ica.luz.ve/~dfinol/webMEsta/06-Clasificacion%2520no%2520Supervisada.pdf+clasificacion+no+supervisada&hl=es&ct=clnk&cd=2&gl=ec

http://www.um.es/geograf/sig/teledet/clasific.html