1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega...
-
Upload
teobaldo-montez -
Category
Documents
-
view
14 -
download
3
Transcript of 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega...
1
Descubrimiento Automático de Hiperónimos en
Texto no Estructurado
Tomado de
Rosa María Ortega Mendoza, Tesis de Maestría, INAOE
Laboratorio de Tecnologías del Lenguaje
Instituto Nacional de Astrofísica, Óptica y Electrónica
2
Introducción
Relaciones semánticas: Sinonimia, antonimia,
meronimia, hiperonimia, etc.
Hiperónimo: Palabra cuyo
significado incluye el de
otra(s). animal – gato color – azul país – México
Recursos lingüísticos
construcción
Manual Automática
•Ejemplo: WordNet
•Gran esfuerzo
•Tiempo
•General
•Un sólo idioma
•Orientación a un dominio específico.
•Menos esfuerzo
•Menor precisión
3
Introducción
Un paso hacia la construcción automática de ontologías
Independiente del uso de recursos lingüísticos externos
Independencia del idioma Aprovechar información
léxica
fútbol----------
tenis----------
Atletismo
----------
deportes
Ejemplo del uso / Clasificación de textos
4
Estado del ArteTrabajo Propósito Entrada Boot-
strapping
Evaluación
de patrones
Recursos
Externos
(Denicia et al., 2006)
Respuesta a
preguntas de
definición
Semillas No No No
(Pasca, 2004) Relaciones
is-a
Patrones léxico-Sintácticos
Si No Etiquetador
(Ravichandrany Hovi 2002)
Respuesta a
Preguntas
Semillas Si Si No
(Ravichandran et al., 2004)
Relaciones
is-a
Patrones léxico-sintácticos
Si ? Etiquetador
5
Objetivos
Objetivo General: Desarrollar un método para extraer automáticamente hiperónimos a partir de textos no estructurados tomados automáticamente la Web.
Objetivos Específicos: Definir y aplicar un método de minería de texto que permita
obtener patrones léxicos de extracción para la relación de hiperonimia.
Especificar y desarrollar un método incremental para enriquecer el conjunto de patrones de extracción.
Proponer y aplicar un método de selección de tuplas usando algoritmos de ordenamiento basados en grafos.
6
Método propuesto
7
Método propuesto
Paso 1: Extraer patrones léxicos a través de la Web. Paso 2: Aplicar los patrones léxicos para extraer
tuplas asociadas al dominio específico. Paso 3: Pesar los patrones léxicos con base en un
método de recomendación. Paso 4: Pesar las tuplas (idem). Paso 5: Repetir todos los pasos anteriores, eligiendo
las tuplas más confiables como nuevas semillas.
8
Pesado patrones/tuplas
Peso de la tupla: Mientras más patrones extraigan la misma tupla
tenemos más evidencia de que es correcta.
Peso del patrón: Mientras más tuplas correctas extraiga un patrón
tenemos más evidencia de que es relevante.
•Peso del patrón•Número de repeticiones•Número de patrones activados
9
Pesado patrones/tuplas Método de recomendación basado en grafos Ejemplo:
Tuplas(P3) Tuplas(P4)P1
P4
P2
P3
w12
w13
w23
w34
País – Turquía
País – caballo
País – México
…
País – Turquía
País – Francia
…
País – Turquía
País – costa
País – Francia
…
País – Egipto
…
Tuplas(P1) Tuplas(P2)Tuplas(P2) Tuplas(P3)
Tuplas(P1) Tuplas(P3)
10
Evaluación
El catálogo es muy grande por lo que su evaluación manual es prácticamente imposible.
La evaluación será a través de un método estadístico Tomar una muestra aleatoria proporcional al tamaño
del catálogo Con un nivel de confianza definido
Medir la precisión del catálogo No. de instancias correctas/ No. total de instancias
11
1er Intento
Experimento: probar un método semi-supervisado para seleccionar tuplas correctas Minería de texto para obtener patrones léxicos Se utilizó el algoritmo Expectation- Maximization:
Entrena un clasificador usando los datos etiquetados disponibles y probabilísticamente etiqueta los datos no etiquetados.
Colección de noticias EFE de 1994 y 1995 457 mil documentos ( ~1 Gb ).
12
Resultados PreliminaresNo Patrón Léxico No Patrón Léxico
1 <INSTANCIA>. <CLASE> 18 <INSTANCIA>, <CLASE> Para
2 <CLASE>. <INSTANCIA> 19 la <INSTANCIA>, <CLASE>
3 <CLASE> - <INSTANCIA> 20 <INSTANCIA>, <CLASE> del
4 <CLASE> (<INSTANCIA>, 21 <INSTANCIA>, <CLASE> y
5 : <INSTANCIA>, <CLASE> 22 la <CLASE> de <INSTANCIA>
6 <INSTANCIA> y otros <CLASE> 23 <INSTANCIA> ( <CLASE> )
7 - <INSTANCIA> - <CLASE> 24 la <INSTANCIA> como <CLASE>
8 <INSTANCIA> - <CLASE> - 25 <CLASE> GNU / <INSTANCIA>
9 los <CLASE> del <INSTANCIA> 26 el <INSTANCIA> es un <CLASE>
10 <INSTANCIA>: <CLASE> 27 el <INSTANCIA> es el <CLASE>
11 , <INSTANCIA>, <CLASE> 28 <INSTANCIA> es un <CLASE> muy
12 de <INSTANCIA>, <CLASE> 29 <INSTANCIA> es un <CLASE> que
13 <INSTANCIA>, <CLASE> de 30 el <INSTANCIA> es una <CLASE>
14 el <INSTANCIA> - <CLASE> 31 un <INSTANCIA> es una <CLASE>
15 el <INSTANCIA>, <CLASE> 32 , la <INSTANCIA> es una <CLASE>
16 <INSTANCIA> - <CLASE>. 33 la <INSTANCIA> es el tercer <CLASE>
17 <CLASE>: <INSTANCIA> de 34 <INSTANCIA> es una <CLASE> limitada por
A través de un conjunto de 17 semillas se descubrieron 34 patrones léxicos
Instancia Clase
amor sentimiento
girasol planta
oro metal
pino árbol
linux sistema operativo
fútbol deporte
manzana fruta
tierra planeta
agua líquido
: :
13
Resultados Preliminares
Se caracterizaron las tuplas en función de los patrones
Instancia P1 P2 P3 P4 … P33 P34 clase
pais_Japon 0 0 0 2 … 0 0 1
pais_Guinea 1 0 0 0 … 0 0 1
pais_Moscu 0 0 1 0 … 0 0 1...
.
.
.
.
.
.
.
.
.
.
.
.
… ...
.
.
.
.
.
.
14
Resultados Preliminares Entrenamiento: 500 tuplas (218 positivas y 282 negativas)
etiquetadas manualmente Prueba: 16,450 tuplas Después de 8 iteraciones EM convergió.
Concepto Correctas Incorrectas
Animal 2 0
Equipo 76 18
Organismo 27 16
País 84 16
Países 0 0
Presidente 219 25
Total 408 75
Precisión 84.47% 15.53%
Concepto Correctas Incorrectas
Total 626 75
Precisión 89.30% 10.7%
Clasificación EM
Catálogo Completo: Clasificación EM + clasificación manual
15
2do Intento
Experimento: proponer un método basado en el pesado de semillas y patrones Minería de texto para obtener patrones léxicos
Se utilizó la Web para obtener los patrones utilizando semillas
Se utilizó la Web para recuperar tuplas usando los patrones descubiertos
16
Aplicar SFM’s. Recuperar únicamente aquellas secuencias que contengan ambas etiquetas <instancia> y
<concepto> Se obtuvieron 4 conjuntos de SFM´s. El umbral de soporte utilizado para cada conjunto fue: instancia(singular)/concepto(singular): instancia(singular)/concepto(plural): instancia(plural)/concepto(singular): instancia(plural)/concepto(plural):
Reunir los 4 conjuntos de SFM’s en un solo conjunto.
Encontrando patrones léxicos
Pertenecer a varios dominios Incluir semillas en género masculino y
femenino. Contemplar instancias y conceptos en
forma plural y en singular.
Seleccionar Semillas (instancia-concepto)
Reunir Ejemplos
Etiquetar Ejemplos
Aplicar y Filtrar SFM’s
10
10
5
5
Resultado de esta Fase: Una lista compuesta de 184/156 patrones léxicos
1
2
3
4Se observó que las semillas deberían:
Todos los ejemplos son normalizados con etiquetas <instancia> <concepto>
Se utilizó el motor de búsqueda Google. Se bajaron 500 ejemplos de uso
(snippets) para cada semilla.
17
Análisis de los patrones léxicos
# Patrón
1 <concepto>, <instancia>,
2 , <instancia>, <concepto> y
3 la <instancia> es un <concepto>
4 <instancia>, el <concepto> de
5 <concepto> ( <instancia> )
6 : <concepto> : <instancia>• •• •• •
184
las <concepto> de <instancia>
# Patrón
1 las <instancia> son <concepto>
2 los <concepto> de <instancia>
3 del <concepto> de <instancia>
4 de las <instancia> como <concepto>
5 <concepto> de <instancia> y
6 las <instancia> son <concepto>• •• •• •
64 las <concepto> de <instancia>
Análisis de los patrones léxicos obtenidos.
Algunos patrones son muy generales, pues carecen de alguna frontera.
Varios patrones contienen signos de puntuación. Sin embargo, Google no reconoce signos de puntuación en sus búsquedas.
Lo anterior puede tratarse de la sig. forma:1. Filtrar los patrones, eligiendo solo aquellos
que no contienen signos de puntuación.
2. Filtrar los patrones, recuperando aquellos que contienen por lo menos una frontera (izquierda o derecha).
59
18
Aplicación los patrones léxicos.
En esta fase, los patrones son aplicados sobre la Web, con la finalidad de obtener un conjunto de tuplas, asociadas a un dominio específico.
Una tupla se encuentra constituída por: (hipónimo, hiperónimo)
Experimento 1: Mostrar la utilidad de los patrones obtenidos, así como, comprobar que la Web puede ser utilizada como un corpus de texto para extraer hipónimos. Se buscarán conceptos (hiperónimos) para las palabras
(instancias) del vocabulario.
19
Experimento 1Fijar los patrones
Lanzar los patrones fijados a la Web
Casar patrones fijos con la colección
Aplicar y Filtrar SFM’s
1
2
3
4
Todos los patrones son fijados con cada una de las palabras del vocabulario.
El conjunto de snippets recolectados, representa la colección sobre la cual se se aplican los patrones.
El matching se realiza casando 1 sola palabra.
Se bajaron 100 ejemplos de uso (snippets) para cada patrón fijado.
Vocabulariojava
Méxicopetróleo
EuroPatrones p/
javaEl * de javaEl java es un * que
:
Patrones p/Euro
El * deEuro
:
. . .
Patrones p/ java
snippet 1
Patrones p/Euro
snippet1:
. . .
Lista de conceptos
p/javaIsla quelenguaje
:
Lista de conceptos
p/EuroLa moneda...
. . .
Se aplicó SFM’s a caada lista de conceptos (existe una para cada palabra del vocabulario).
Como resultado obtuvimos un catálogo de conceptos para cada instancia (del vocabulario).
..
....
20
Experimento 1
Análisis de resultados del experimento 1 Se obtuvo un catálogo de palabras relacionadas pero no
necesariamente relaciones is-a. Se piensa que con un número mayor de patrones la precisión mejoraría
Palabra del Vocabulario
java México Petróleo Euro
Ejemplo de las primeras SFM’s
islaappletsappletlenguajexml
ciudad
estadogolfopaiseslos
gasbarrilprecioyacimientosbarrilesRecurso
centimosmonedabilletesmonedas
Número de palabras en el catálogo con Soporte >=10
23 palabras 11 palabras 17 palabras 14 palabras
Precisión 21.73%_ 63.63% 11.7% 28.57%
21
Experimento 2 Objetivo: Obtener tuplas con el nombre completo del(a) concepto/instancia
cuando se forman de más de una palabra. 1: Seleccionar un vocabulario y fijarlos como instancias y como conceptos.
2: Lanzar los patrones fijos a la Web. Se recolectaron 100 snippets por cada patrón fijo. Como resultado obtenemos una colección, sobre la cual aplicamos los patrones convertidos en expresiones regulares. El “matching” es realizado de la siguiente forma:
bancodoctordiccionariofelino
novelaprofesiónrocasvino
Vocabulario 46 patrones*8 palabras del vocabulario = 368 patrones fijos para obtener instancias
Matching Ejemplo de Instancia extraída
A: Normal tigre de bengala
B: Una sola palabra tigre
C:Limitado por palabras vacías
tigre
D: Completo El tigre de bengala es un felino que
Patrón: el <instancia> es un felino queSnippet: El tigre de bengala es un felino que siempre le ha fascinado al hombre
Ejemplo:
3: Aplicar SFM’s
22
Resultados Experimento 2
Opción BBuscando conceptos Buscando instancias
Bancoinstitucionbilletespresidentetornillogobernador
cajerodirectoriogerenteprestamotarjeta
pruebasdesarrollomexicosangreespaña
germoplasmacreditoinversionimagenespichincha
Tamaño del Catálogo =31 Tamaño del Catálogo = 15
Precisión= 4/31=12.90% Precisión= 2/15=13.33%● Diccionarioformaataquesproyectoherramientadefinicion
enciclopediaespeciedefinicionesusoobra
lunfardolenguasinonimosterminosdatos
autoridadesfilosofiainglesfisicaescritores
Tamaño del Catálogo =12 Tamaño del Catálogo = 14
Precisión= 1/12=8.33%Precisión=3/14 = 21.42%
Opción ABuscando conceptos Buscando instancias
Banco
billetesbancocuentainstituciónPresidente
tornillosistemacuentasgobernadorcajero
desarrollopruebasmexicoespañasangre
germoplasmacreditoinversiontejidosbancos
Tamaño del Catálogo = 37 Tamaño del Catálogo 47
Precisión= 4/37=10.81% Precisión=5/47=10.63%● Diccionario
definicionesdefinicionayudaespecieherramienta
diccionarioproyectosignificadotextopalabra
terminosdiccionario deinglesautoridadesLa Real Academia Española
filosofiala lengua españolaespañolla RAEPalabras
Tamaño del Catálogo = 33 Tamaño del Catálogo = 21
Precisión:4/33 =12.21% Precisión:4/21= 19.04%
23
Fase 2: Experimento 2
Opción CBuscando conceptos Buscando instancias
Banco
[34] billetes[29] institucion[21] cuenta[20] presidente[19] banco
[14] gobernador[12] cuentas[11] tornillo[11] directorio[11] cajero
[38] pruebas[37] mexico[37] desarrollo[36] sangre[31] germoplasma
[24] inversion[24] credito[19] nacion[19] banco
[18] pichincha
Tamaño del Catálogo = 16 Tamaño del Catálogo = 36
Precisión= 2/16=12.5% Precisión= 4/36=11.11%● Diccionario
[22] especie[22] definicion[20] herramienta[17] forma[16] ataques
[15] ayuda[14] diccionario[14] definiciones[13] seccion[13] proyecto
[55] sinonimos[31] terminos[27] diccionario[27] datos[24] RAE
[20] autoridades[19] filosofia[16] ingles[14] Real Academia Española
Tamaño del Catálogo = 16 Tamaño del Catálogo = 14
Precisión= 3/16=18.75% Precisión= 4/14=28.57%
Opción DBuscando conceptos Buscando instancias
Banco[98] de banco o[89] banco como[74] de banco[48] el banco y las[44] el banco es la[15]cajero
[28] banco,de,desarrollo[21] banco,de,datos.[18] un,banco,de,datos[16] banco,de,mexico[16] banco,de,inversiones
Tamaño del Catálogo = 39 Tamaño del Catálogo = 45
Precisión= 4/39=10.25% Precisión= 15/45=33.33%
● DiccionarioEn forma de diccionarioDel diccionario comoEnciclopediaUna obraConcepto
banco,quebanco,de,inversion
banco,de,españa,yel,banco,del,pichinchael,banco,del,estado
Tamaño del Catálogo = 21 Tamaño del Catálogo = 31
Precisión= 2/21=9.52% Precisión= 14/31=45.16%
24
Fase 4 y 5: Esquema general
el-<instancia>-y-las-<concepto> Fijar
patrones
el-*-es-un-felino-de Pesar
patrones
el-felino-es-un-*-de = 17
Matching
MatchingPesar
las tuplas
Lista de patrones Patrones fijando
<concepto>
enfermedaddiccionario
felinorocas.
Vocabulario
FelinoPantera….16.5Fuego….....0.1Enfemedad
FelinoPanteraFuegoEnfemedad
Snippet1snippet2
... ...
...
... ...
......
NOTA: Repetir el proceso fijando <instancias> para encontrar <conceptos>
Patrones pesadosWeb
25
Fase 4 y 5:Esquema General Fijar los patrones con las palabras del vocabulario buscando que los patrones
resultantes sean completamente cerrados. Ejemplo:
Patrón Fijar cada palabra del vocabulario como:
el <instancia> es una <concepto> → Concepto
<instancia> es un <concepto> muy → Instancia
el <instancia> es un <concepto> que → Ambos
25 patrones fueron fijados con instancias
31 patrones fueron fijados con conceptos
Pesar los patrones: Definir una medida que evalúe la confiabilidad de cada patrón. Realizar el matching de los patrones fijos con la Web
Se bajaron en promedio 600 ejemplos (snippets) por cada uno de los 46 patrones fijados. Matching a la colección de snippets
Los patrones fueron convertidos a expresiones regulares para permitir extraer parejas (hiperónimo-hiponimo)
Pesar las Tluplas: Definir una medida que evalúe la confiabilidad de cada tupla.
26
Peso = Patrón.17/74 = de <instancia> y <concepto> 16/74 = <instancia> y <concepto> de 3/74 = del <concepto> del <instancia> 3/74 = el <instancia> es uno de los <concepto> mas
1/74 = las <instancia> marinas son <concepto>
Parámetros del Experimento
W(p) Inicial W(I)
Hipótesis: Un patrón es más confiable si proviene de varias semillas. Eliminar aquellos patrones cuyo peso <= 1/74 ya que son muy
específicos.
Fase 4 y 5: Experimento 3
• De los 59 patrones se eliminaron 13 por tener pesos <= 1/74.
• Finalmente se trabajó con 46 patrones.
...
Una de las conclusiones es que tenemos mucha información
•Una lista de palabras relacionadas||
||)(
semillaspgeneranquesemillas
pW ii
n
jj
n
jj
i
PW
PW
IW
1
1
)(
)(
)(
Donde
n= |Patrones|
Si Pj no generó
esa tupla
W(Pj)=min[W(Pj)]
27
Parámetros del Experimento
W(p) Inicial W(I)
Fase 4 y 5: Experimento 4 Hipótesis: Un patrón es más confiable si proviene de varias Eliminar
aquellos patrones cuyo peso <= 1 ya que son muy específicos. 13 patrones fueron eliminados, por lo tanto se trabajó con 46.
Únicamente extraer instancias que son generadas por 2 o más patrones.
Si Pj no generó
esa tupla
W(Pj)=min[W(Pj)]
n
jji PWIW
1
)()(Donde
n= |Patrones|
semillasdeTotalpgeneranquesemillasde
pW ii
#)(
28
Fase 4 y 5: Conclusiones de los experimentos 3 y 4 Buscando Conceptos
Experimento 8 Experimento 9 Experimento 8 Experimento9
Banco Rocas
SUCURSAL 1.13E-54 SUCURSAL 1.50E-43 MINERALES 4.37E-55 MINERALES 5.62E-44
CAJERO 5.72E-55 CAJERO 7.49E-44 CAIDA 3.88E-55 CAIDA 5.00E-44
TARJETAS 1.98E-55 TARJETAS 2.50E-44 ACANTILADOS 1.51E-55 ACANTILADOS 1.87E-44
GERENTE 1.80E-55 GERENTE 1.87E-44 SUELOS 1.51E-55 SUELOS 1.87E-44
CUENTAS 1.34E-55 CUENTAS 1.67E-44 SECUENCIAS 1.34E-55 SECUENCIAS 1.67E-44
NUMERO 1.19E-55 NUMERO 1.43E-44 FORMACIONES 1.34E-55 FORMACIONES 1.67E-44
CUENTA 9.38E-56 CUENTA 9.37E-45 MECANICA 1.02E-55 MECANICA 1.25E-44
BILLETE 6.25E-56 BILLETE 6.25E-45 CAIDAS 6.82E-56 CAIDAS 8.33E-45
SERVICIOS 5.21E-56 SUCURSAL 1.50E-43 GRIETAS 6.82E-56 HENDIDURAS 8.33E-45
Enfermedad Diccionario RIESGO 1.64E-53 RIESGO 2.40E-42 DICCIONARIO 2.81E-54 DICCIONARIO 4.00E-43
TRATAMIENTO 4.29E-54 TRATAMIENTO 6.00E-43 INSTRUMENTO 9.62E-56 INSTRUMENTO 1.00E-44
CAUSA 1.01E-54 CAUSA 1.12E-43 DEFINICIONES 6.82E-56 BASE 8.33E-45
PROCESO 5.63E-55 SINTOMA 6.25E-44 BASE 6.82E-56 DEFINICIONES 8.33E-45
SINTOMA 5.63E-55 PROCESO 6.25E-44 PROYECTO 6.25E-56 PROYECTO 6.25E-45
FORMA 2.69E-55 FORMA 2.81E-44 TERMINOS 5.21E-56 TERMINOS 6.25E-45
FENOMENO 7.59E-56 FENOMENO 8.92E-45 RECURSO 4.55E-56 RECURSO 5.35E-45
29
Fase 4 y 5: Conclusiones de los experimentos 3 y 4 Buscando Instancias
Experimento8 Experimento9 Experimento8 Experimento9
Banco Rocas
CREDITO 3.50E-53 CREDITO 3.93E-53 PORFIDOS 1.40E-53 PORFIDOS 1.45E-53
DATOS 8.18E-54 DATOS 8.73E-54 HIELO 4.19E-54 HIELO 4.36E-54
DESARROLLO 6.21E-54 DESARROLLO 6.55E-54 GRANITO 2.46E-54 GRANITO 2.42E-54
BANCOS 4.78E-54 BANCOS 4.85E-54 GRANITOS 1.73E-54 BASALTOS 1.62E-54
OCCIDENTE 2.12E-54 OCCIDENTE 2.18E-54 BASALTOS 1.73E-54 GRANITOS 1.62E-54
COSTA RICA 7.69E-55 COSTA RICA 7.27E-55 ARENISCAS 1.01E-54 ARENISCAS 9.70E-55
GALICIA 7.69E-55 GALICIA 7.27E-55 CALIZA 7.42E-55 CALIZA 6.42E-55
RESERVA 7.42E-55 RESERVA 6.42E-55 ESQUISTOS 6.99E-55 ESQUISTOS 6.23E-55
BBVA 7.10E-55 BBVA 6.23E-55 MINERALES 2.56E-55 ALZHEIMER 5.13E-55
Enfermedad Novela CANCER 7.12E-52 CANCER 8.08E-52 HISTORIA 3.50E-54 HISTORIA 3.12E-54
EPILEPSIA 2.16E-54 GUMBORO 2.18E-54 INTRIGA 2.12E-54 TERROR 2.18E-54
ALCOHOLISMO 2.13E-54 EPILEPSIA 1.87E-54 FICCION 2.12E-54 INTRIGA 2.18E-54
GUMBORO 2.12E-54 ALCOHOLISMO 1.87E-54 TERROR 2.12E-54 FICCION 2.18E-54
TUBERCULOSIS 1.28E-54 TUBERCULOSIS 1.04E-54 AMOR 7.69E-55 AMOR 7.27E-55
CARIES 1.06E-54 ASMA 8.31E-55 NOVELA 7.44E-55 NOVELA 6.23E-55
ASMA 1.01E-54 CARIES 8.31E-55 RELATO 3.72E-55 RELATO 3.12E-55
30
Fase 4 y 5: Resultados de los experimentos 3 y 4
Estadísticas
Vocabulario
Buscando instancias
Exp 3 Exp 4
Precisión No. de tuplas PrecisiónNo. de tuplas
Banco 1/20= 5% 3116 1/20= 5% 178Diccionario 1/20= 5% 1062 1/20= 5% 76Enfermedad 15/20= 75% 3203 15/20= 75% 256256Felino 5/20= 25% 236 4/8=50% 88Profesión 10/20= 50% 2543 10/20=50% 198198Rocas 8/20= 40% 1718 9/20=45% 114114
31
Parámetros del Experimento
W(P) Inicial W(I) W(P) a través de I
Fase 3 y 4: Experimento 10
||)( ii pgeneranquesemillaspW
Hipótesis: Un patrón es más confiable si proviene de varias semillas. El peso de los patrones no esta normalizado con la finalidad de evitar
cantidades muy pequeñas al momento de multiplicarlos. Eliminar aquellos patrones cuyo peso <= 1 ya que son muy
específicos. Únicamente extraer tuplas que son generadas por 2 o más patrones.
Donde
n= |Patrones|
Si Pj no generó
esa tupla
W(Pj)=min[W(Pj)]
nt
IWIgeneranquePatrones
PW
nt
jjj
i
1
)(*
)(
Donde nt= Num. de tuplas que genera un
determinado patrón
n
jji PWIW
1
)()(
32
Fase 3 y 4: Experimento 12 Hipótesis: Un patrón ideal tendría alto recuerdo y alta precisión F-measure da un promedio entre precisión y recuerdo
Únicamente extraer tuplas que son generadas por 2 o más patrones
rppr
F
2
2 )1(
1
||||patrónelporextraídastuplas
extraídassemillasp
Parámetros del Experimento
W(P) Inicial W(I) W(P) a través de I
01.0*)(
)( donde
FMaxF
pW i
n
jji PWIW
1
)()(
Donde
n= |Patrones|
Si Pj no generó esa tupla W(Pj)=min[W(Pj)]
nt
IWIgeneranquePatrones
PW
nt
jjj
i
1
)(*
)(
Donde nt= |tuplas que genera un patrón
específico|
Precisión Recuerdo
||||
semillaspatrónelporextraídassemillas
r
33
Fase 3 y 4:Experimento 14 Información mutua. Pantel y Pennacchiotti (2006) utilizan una medida
basada en Información Mutua (pmi) para evaluar la fuerza de asociación entre una instancia y un patrón.
Ellos estiman la información mutua entre una tupla i y un patron p con:
Parámetros del Experimento
W(P) inicial W(I) W(P) a través de I
01.0*)(
)( donde
FMaxF
pW i
nt
IWIgeneranquePatrones
PW
nt
jjj
i
1
)(*
)(
Donde nt= Num. De tuplas que genera un
Determinado patrón
)(iW
)(iW
34
Fase 3 y 4: Comparación de Resultados
BUSCANDO INSTANCIAS
Exp. 10 Exp 12 Exp14 BANCO CREDITO CREDITO BID BANCO MUNDIAL BID BID DATOS DESARROLLO CUAL BHU BANCO MUNDIAL BANCO MUNDIAL DESARROLLO DATOS CITIBANK BBVA BHU BHU BANCOS BANCOS HSBC RESULTADO CUAL HSBC OCCIDENTE BBVA BBVA FMI NO CITIBANK BANCO DEL ESTADO COSTA RICA ADN BANCO DEL ESTADO BNDES BBVA NACION GALICIA BID BANCO MUNDIAL PROGRAMA BANCO DEL ESTADO CUAL RESERVA OCCIDENTE BHU FNDR HSBC BSCH BBVA RESERVA CREDITO PERU CREDITO BBVA ADN CITIBANK BANCOS BANCO SANTANDER ADN REPUBLICA CEREBROS COSTA RICA NACION BANHVI BANCOS CITIBANK PREVISION SOCIAL GALICIA KFW BANCO KFW FMI NO LOS TRABAJADORES CUAL REPUBLICA BICE NACION BNDES INGLATERRA BANCO MUNDIAL PROGRAMA SISTEMA PROGRAMA RESULTADO CHILE BHU FIDUCIARIO ENTIDAD REPUBLICA ENTIDAD CORNEAS PROGRAMA ADN NACION ARGENTINA BSCH NACION ARGENTINA COMERCIO DEPOSITOS GALICIA FIRA FMI NO KFW INFORMACION PRESTAMO BSCH BANSEFI BNDES ADN
ROCAS
PORFIDOS PORFIDOS PORFIDOS ARENISCAS GRANITO GRANITO HIELO HIELO BASALTOS ARENA MARMOL BASALTOS GRANITO GRANITO GRANITOS PIEDRAS BASALTOS MARMOL BASALTOS BASALTOS MARMOL CHOCOLATE GRANITOS GRANITOS GRANITOS GRANITOS GRANITO YACIMIENTOS PORFIDOS PORFIDOS CUARZO ARENISCAS LAVAS ANDESITA CALIZA CUARZO ARENISCAS ESQUISTOS MINERALES LOS ACANTILADOS LAVAS LAVAS CALIZA CALIZA SEDIMENTOS LOS CERROS CUARZO CALIZA ESQUISTOS CUARZO CALIZA DESMONTE LOS GRANITOIDES LOS GRANITOIDES MINERALES CORALES HIELO ESCOMBROS OCEANO BASALTO SEDIMENTOS MATERIALES CUARZO NIEVE FONDO LAVA ARENA MINERALES CORALES LOS MINERALES PAISAJE ECLOGITAS PIEDRAS SEDIMENTOS MATERIALES PLANTAS BASALTO PIZARRAS MARMOL MARMOL SUELO VEGETACION LAVA LOS GRANITOS ORIGEN VOLCANICO ARENA FONDO COLINAS HIELO TOBAS FALLA PIEDRAS PAISAJE TIERRAS ECLOGITAS OCEANO CORALES LAVAS OCEANO CANTOS RODADOS PIZARRAS FONDO MATERIALES ORIGEN VOLCANICO CORAL TIERRA LOS GRANITOS PAISAJE
1ra Iteración
2da Iteración
35
Fase 3 y 4: Comparación de Resultados
Vocabulario
Buscando instancias
Exp 10 Exp 12 Exp. 14Precisión (20)
Precisión (30)
TuplasPrecisión (20)
(30) TuplasPrecisión (20)
Precisión (30)
Tuplas
Banco 5% 6% 45% 46.6% 55% 46.6%Diccionario 5% 3.3% 15% 10% 15% 10%Enfermedad 75% 8% 95% 96.6% 100%100% 96.6%96.6%Felino 57.1% 57.1% 57.1% 57.1% 57.1%57.1% 57.1%57.1%Profesión 60% 50% 70% 66.66% 60%60% 63.3%63.3%Rocas 40% 30% 35% 36.6% 65%65% 50%50%
Buscando Conceptos
Banco 15% 10% 20% 16.6% 5% 3%Diccionario 20% 16% 30% 20% 20% 23.3%Enfermedad 30% 23% 30% 26% 10% 10%Felino 16.6% 16.6% 18.1% 18.1% 18.1% 18.1%Profesión 15% 10% 15% 10% 10% 10%Rocas 30% 20% 25% 20% 10% 13.3%
36
Fase 3 y 4: Comparación de Resultados
Buscando Instancias
Buscando Conceptos
0%
20%
40%
60%
80%
100%
120%
Banco Diccionario Enfermedad Felino Profesión Rocas
Exp 10
Exp 12
Exp 14
0.00%
5.00%
10.00%
15.00%
20.00%
25.00%
30.00%
35.00%
Banco Diccionario Enfermedad Felino Profesión Rocas
Exp10
Exp12
Exp14
37
Patrones# Patrón # Patrón
1 <concepto>, <instancia>, 22 del <concepto> del <instancia>
2 , <instancia>, <concepto> y 23 <instancia> como <concepto>.
3 la <instancia> es un <concepto> 24 la <instancia> una <concepto>
4 <instancia>, el <concepto> de 25 tecas / <instancia> por 260 euros <concepto>.
5 las <concepto> de <instancia> 26 <instancia> y otros <concepto>,
6 <instancia> de la facultad de <concepto> 27 peces, <instancia>, <concepto>
7 , <instancia>, <concepto>, etc 28 , <instancia> y otros <concepto>
8 de <instancia> y <concepto> 29 <instancia>, <concepto> natural
9 marmol, <instancia>, <concepto> 30 el <instancia>, <concepto> que
10 el <instancia> es el <concepto> que 31 anorexia y <instancia>, <concepto>
11 <instancia>, <concepto> en 32 perros, <instancia>, peces y pequeños <concepto>. 12 <concepto> griego <instancia>
13 las <instancia> marinas son <concepto> 33 ecobosques 12 tecas / <instancia> por 260 euros <concepto> 14 la <instancia> es la <concepto>
15 <concepto> de <instancia> y 34 licenciado en <concepto> de la actividad <instancia> y del deporte 16 los <instancia> y otros <concepto>
17 <instancia>, las <concepto> 35 anorexia y <instancia>, <concepto>
18 <instancia> e historia de las <concepto> 36 en <concepto> de <instancia>
19 <concepto> ( <instancia> ) 37 . <instancia>. <concepto>
20 la <instancia> y otros <concepto> 38 la <instancia> es el <concepto> de
21 el <instancia> es un <concepto> de 39 de las <instancia> como <concepto>
38
Patrones# Patrón # Patrón
40 <instancia> es un <concepto> muy 58 <instancia>, <concepto> o
41 de la <instancia>, <concepto> 59 los <concepto>, las <instancia>
42 <instancia> ; <concepto> 60 <concepto> / <instancia>
43 , <instancia> y <concepto> 61 , pintura, <instancia>, <concepto>
44 <instancia>. los <concepto> 62 <concepto> como la <instancia>
45 el <instancia> es el unico <concepto> 63 de los <concepto> de <instancia>
46 <instancia> y <concepto>. 64 la <instancia> ( <concepto>
47 hojuelas o copos de <instancia> ); <concepto> 65 > <concepto> > <instancia>
66 . el <instancia> es el <concepto>
48 <instancia> es una <concepto>. 67 de <concepto> como <instancia> y
49 <concepto>, la <instancia> 68 la <instancia> como una <concepto>
50 de la <concepto> de <instancia> 69 el <instancia>, un <concepto>
51 el <instancia>, la luna y las <concepto> 70 del <concepto> de <instancia>
52 las <instancia> son <concepto> que 71 el <instancia> es un <concepto> que
53 de los <instancia> y <concepto> 72 <concepto> eran <instancia>
54 <concepto> aplicadas de la <instancia> 73 <instancia>, <concepto> aplicadas
55 de <concepto> ( <instancia> 74 <instancia> es una <concepto> de
56 . <instancia>, materiales para la contruccion, marmoles, <concepto> naturales, natural´marbles, granite and stones
75 de accesorios y alimentacion para perros, <instancia>, aves, reptiles, peces y pequeños <concepto>.
57 : <instancia>, <concepto>
39
Patrones# Patrón # Patrón
76 <instancia> y <concepto>, una <concepto> de <instancia>
77 en <concepto> ( <instancia> de <instancia> ( <concepto>
78 <instancia>. la <concepto> la <instancia>, el <concepto>
79 la <instancia>, <concepto> de de <instancia> o <concepto>
80 : <concepto> : <instancia> de <instancia>, <concepto> y
81 ( <instancia>, <concepto> , <instancia>, <concepto>.
82 lunas, <instancia>, <concepto> los <instancia>, <concepto>
83 de <instancia> como <concepto> de de <instancia> y otros <concepto>
84 <instancia> y <concepto> y la <instancia>. <concepto>
85 en <instancia>, <concepto> el <instancia>, <concepto> de
86 , <concepto> y <instancia> las <instancia> son <concepto>,
87 el <instancia> es la <concepto> <instancia> : <concepto>
88 de <instancia>, <concepto> de <instancia> en estado <concepto>
89 el <instancia> y las <concepto> <instancia>, <concepto> griego
0 los <instancia> son <concepto> el uso de la <instancia> como <concepto>
las <instancia> son una <concepto> de los <instancia> y los <concepto>
las <concepto> son <instancia> <instancia> u otros <concepto>
facultad de <concepto> de la actividad <instancia> y
<instancia>, la <concepto>
aparte de segregar por el abdomen la <instancia> con la que fabrica las <concepto> de araña.el <instancia> es el <concepto> de mayor
longevidad
40
Patrones# Patrón # Patrón
<instancia> - <concepto> de <instancia>. <concepto>
<instancia> y <concepto> naturales la <instancia> es una <concepto> que
que la <instancia> es una <concepto> el <concepto> de la <instancia>
la <instancia> es el unico <concepto> natural <instancia> ( <concepto> de
<instancia>. el <concepto> <instancia> ( <concepto> )
, <instancia>, <concepto> de la <instancia>, <concepto> graficas,
el <instancia>, el <concepto> <concepto>. <instancia>
al <instancia>, <concepto> el <instancia> es el <concepto> interno mas
<instancia> / <concepto> del <instancia>, <concepto>
<concepto> de los <instancia> de la <instancia> como <concepto> de
<concepto> del grupo de las <instancia> 156 <instancia> y <concepto> de
<instancia>, el <concepto> mas
<instancia>, <concepto> caliza
, <instancia>, <concepto> graficas
del <instancia> como <concepto>
de <concepto> de <instancia>.
. <instancia>, <concepto>
<concepto> de la actividad <instancia> y el deporte
<instancia>, <concepto> del