Uima Watson PPT

12

description

Uima Watson PPT

Transcript of Uima Watson PPT

Page 1: Uima Watson PPT
Page 2: Uima Watson PPT

Sistema de control de calidad desarrollado por IBM y colaboradores"La arquitectura basada en la evidencia probabilística masivamente paralelo"El hardware es un sistema IBM de gama alta, la plataforma IBM Power7.10 servidores Power790 servidores4 procesadores / servidor8 núcleos de procesador /Brazo robótico para pulsar el timbre.La entrada es sólo texto, sin el reconocimiento de voz, no visual.

Page 3: Uima Watson PPT

Watson

Software está construido en la cima de UIMA: aplicación de gestión de la información no estructurada. UIMA es una acumulación marco por IBM y como de código abierto.El corpus de información se descargó y offline indexada; sin acceso a la web durante el juego.Corpus fue desarrollado a partir de una gran variedad de fuentes de texto:la línea de base de la wikipedia, el Proyecto Gutenberg, artículos de prensa, tesauros, etc.extender con la recuperación web, extraer texto "pepitas" potencialmente relevantes, anotar para informativa, combinar mejor en corpusCorpus primaria es texto no estructurado, no etiquetados semánticamente o base de conocimiento formal.Alrededor del 2% de Jeopardy! respuestas pueden consultarse directamente.También aprovecha las fuentes semiestructuradas y estructuradas como Wordnet y Yago.

Page 4: Uima Watson PPT

Cerca de 100 diferentes técnicas generales.Adquisición de contenido: corpus, juegos de la muestra. Fuera de línea, antes del juego en sí.preprocesamientoHerramientas de lenguaje naturalRecuperar posibles respuestasscore respuestaszumbido enestrategias de juego

Page 5: Uima Watson PPT

• Determinar categoría pregunta• factoide• descomponible• rompecabezas• Nota: preguntas excluidos con componentes AV y

categorías "Manual de especial"• Determine el tipo de respuesta léxica (LAT)• filmar? la persona? colocar? novela? canción?• alrededor de 2500 en la muestra de 20.000 preguntas.

Alrededor del 12% de las pistas no indican el tipo

Page 6: Uima Watson PPT

Motivation

Question

Question Analysis

Keywords

DocumentRetrieval

Corpus

Docs

AnswerExtraction

Answercandidates

AnswerSelection

Which city in China has the largest number of foreign financial companies?

Keywords: China largest foreign financial company Answer type: location (city)

Answer candidates

Score Document extracted

Beijing 0.7 AP880603-0268

Hong Kong 0.65 WSJ920110-0013

Shanghai 0.64 FBIS3-58

Taiwan 0.5 FT942-2016

Shanghai 0.4 FBIS3-45320

Document ID Rank

FBIS3-58 (relevant) 1

AP880603-0268 2

WSJ920110-0013 3

FBIS3-45320 (relevant) 4

FT942-2016 5

Answer

Shanghai

Typical QA Pipeline

Page 7: Uima Watson PPT

What did we learn from Watson?

• QA systems can be fast enough, accurate enough, and confident enough to perform in the real world

• Key factors:– Scalable, parallel architecture– Agile, open advancement process

• Next big challenge: rapid domain adaptation

Page 8: Uima Watson PPT

Procesamiento del Lenguaje Natural Inicial

• pregunta parse• Semánticamente etiquetar los componentes

de la cuestión• Referencia y correferencia resolución• Reconocimiento de entidades con nombre• detección relación• Descomposición en subconsultas

Page 9: Uima Watson PPT

Recuperar Texto pertinente

• Componente más similar a una búsqueda en la web• El foco está en el recuerdo• Los motores de búsqueda incluyen Indri, Lucene, SPARQL• Para algunos LAT "cerradas" (Todos los Estados Unidos,

presidentes, etc) pueden generar lista de candidatos directamente

• Extraer lo contrario respuesta real• título?• la persona? etc• Varios cientos de hipótesis genera típicamente

Page 10: Uima Watson PPT

score hipótesis• Evaluar respuestas candidatos• filtrado suave. Ligero Fast filtra respuestas podar a aproximadamente

100• recuperación de evidencia. Consultas estructuradas o no estructuradas

adicionales• score respuestas• PORCIONES de algoritmos! - Más de 50 componentes• Rango de la simple palabra cuenta para el razonamiento espacial y

temporal complejo• Crea un perfil pruebas: taxonómica, geo-espacial, temporal,

confiabilidad de la fuente, etc.• Combinar respuestas• Determinar estimación ranking y confianza

Page 11: Uima Watson PPT
Page 12: Uima Watson PPT