Natural language processing

Click here to load reader

  • date post

    30-Jun-2015
  • Category

    Technology

  • view

    1.105
  • download

    2

Embed Size (px)

description

Procesamiento del Lenguaje Natural para la Ingeneria de Requerimientos: Aplicabilidad para documentos largos

Transcript of Natural language processing

  • 1. Procesamiento del LenguajeNatural para la Ingeneria deRequerimientos:Aplicabilidad paradocumentos largos

2. IntroduccinUna clave primordial para que un proyecto desoftware tenga xito, es una especificacinprecisaLas especificaciones formales son ideales parael desarrollador de software.La gran mayora de las especificaciones estnescritas en lenguaje natural, para el lector esmuy importante identificar los conceptos usadospor el escritor de tales especificaciones. 3. 1.1- Trabajo a fin -Relacionado- El fin de la mayora de los usos de el procesamiento natural del lenguaje no es entender el texto, si no extraer conceptos contenidos en el documento. 4. Kevin Ryan.Afirma que el modelo de dominio producido por NLP puedeestar incompleto, ya que cierta informacin que se piensa quees Conocimiento del dominio Comn es omitida en el textode requerimientos, pero eso ya es una tarea de los ingenierosde requerimientos para la deteccin de tales omisiones.-Un modelo incompleto seria un indicador de omisiones detexto- 5. Ben Achor.Clasifica los mtodos de lingstica, ya sea sintctica osemntica.Ej.AbstFinderExtrae los trminos (lxico) que se producen repetidamente enel texto de especificaciones. Este mtodo es bastante robustopor que no se basa en la parte de anlisis de habla.Simplemente considera frases como secuencia de caracteresy busca subsecuencias comunes en diferentes frases. 6. En el enfoque sintctico como Abbott, se analizan todas laspartes del documento (verbos, sustantivos, etc) o busca porsentencias especiales.Abbott, analiza los sustantivos usando parta construir elprograma.Chen, va mas all y produce diagramas E/R (entidad/relacin)como el resultado del anlisis.Chris Rupp, Nattoch Dag and Fabbrini, ellos estnrelacionados en el sentido de que ellos tambin analizandocumentos de requerimientos escritos en lenguaje natural.Su fin no es automatizar la extraccin de informacin de lostextos. 7. Chris Rupp define una serie de reglas de escritura. La plantilla definequeargumentos son necesarios para cada verbo.De las sentencias escritas de acuerdo a la plantilla se pueden extraerfcilmente los actores, acciones y objetos dentro del texto.El fin de este enfoque es unificar la escritura, la cual te permiteproducir mejores documentos de requerimientos, pero no te ofrece laautomatizacin para analizar el texto. 8. 1.2-OBJETIVOS DE NUESTRO TRABAJO1. Aprender a escribir menos ambiguo y con mas precisin.Significa que se utilizan reglas de escritura, hacen el texto menosambiguo y mas preciso en el punto de vista del ser humano.2. Aprender a detectar ambigedades y imprecisionesLeer el documento y eliminar todas las ambigedades e imprecisiones.3. Usar un lenguaje natural restringido, el cual es no es ambiguo y esmas preciso.Gracias al uso correcto de la gramtica podemos extraer la ontologadel dominio del texto. 9. 2- EXTRACCION DE LAONTOLOGIA: ENFOQUELa extraccin del conocimiento del dominio consiste en 3pasos.1. Extraccin de los trminosSujetos y objetos son los trminos que se quieren extraer, lospredicados son usados para clasificar trminos.2. Agrupacin de trminos y la creacin/construccin de lataxonoma.Los trminos extrados son agrupados de acuerdo a sucontexto gramatical. 10. 3. Buscando asociaciones entre los trminos extrados.En este paso se toma la taxonoma generada en el segundopaso como entrada y se enriquece por la asociacin generalentre los trminos extradosLa idea esta tomada desde la minera de datos. El texto seconsidera como una transaccin de una base de datos.Despus del ultimo paso obtenemos una aplicacin inicial delmodelo del dominio, representada como un rbol binariorelacionado entre esos trminos. 11. Reglas que se debenseguir:(1)Utilice siempre el mismo nombre para el mismo concepto.Utilice siempre la forma completa en el caso de nombrescompuestos, es decir, "dejar mensaje o iniciarmensaje "en lugar de" detener o iniciar mensaje ". 12. Reglas que se deben seguir:(2) No utilizar los verbos be" y have. No utilizar las referencias cruzadas de una frase como Mensaje X es enviada a la unidad Y 13. Proceso escalable?? EL proceso tendr la capacidad de ser extendido sin perdercalidad? Esto nos ha permitido identificar los pasos que requierenmucho tiempo que potencialmente no escalan: 14. 1. Preparacin del documento Este paso en textos pequeos es muy fcil y rpido ya que serequiere que el formato de texto contenga una sola frase por lnea. Un da de trabajo manual 15. 2 Anlisis y extraccin deinformacin. Extraer el predicado, el sujeto y los objetos de cada frase.Con esto se obtuvo que haba un problema adicional con eltexto que contiene frases incompletas e incorrectasgramaticalmente:Ejemplo:Si la corriente de alta velocidad-V =5.Es decir, pares de conceptos queaparecieran 5 o ms veces en la mismasentencia. Se redujo a un 25% de lasasociaciones.Tiempo para validar manualmente stasasociaciones : 1Das utilizados hasta esta etapa: 5 22. 4.6 Caso de Estudio tablero demandosSe verifico que si la forma de extraer la ontologa para documentosgrandes todava funcionaba y si se justificaba el tiempo de utilizado. 23. En el esquema anterior se puede observar las ontologas extradas.(kaon:Root) es la mayor, sus subclases y las relaciones entre ellas.Se muestras relaciones ; is a con la lnea de grosor variable.Cajas blancas: denotas conceptos y clases de conceptos.Cajas obscuras: son propiedades/asociaciones 24. Las fechas le dan sentido para formar oraciones.El otro objetivo del instrument cluster case study, era testear laescalabilidad del acercamiento.Se extrajeron los conceptos y las asociaciones; adems se corrigieroninconsistencias. Y los 5 das de trabajo, para un documento de 80hojas estuvo justificado 25. En resumenEl objetivo es definir/extraer de un documento las palabras(ontologa) ms utilizadas por el experto del dominio o el usuariofinal para que el tanto el ste como el desarrollador de softwarepuedan definir un lenguaje en comn entre ambas partes.Un requerimiento mal formado es ambiguo e impreciso. 26. Formar una ontologaLo primero que se debe de hacer es la extraccin de trminos (seetiquetan con las partes del discurso (Parts of Speech) que sumannueve en total, siendo los verbos quienes se utilizan para clasificar alos sujetos y a los objetos), 27. Construir la taxonoma (la herramienta ASIUM pararealizar la clasificacin de los trminos) parafinalmente encontrar las asociacin existente entrelos trminos que fueron extrados (se genera unrbol con los trminos y sus relaciones entre ellos). 28. Reglas del TextoUsar siempre el mismo nombre para el mismo concepto. (Como porejemplo, en nuestro proyecto del auto inteligente, hubo ocasiones quenos referiamos al carro como: carro o automovil, lo cual no esrecomendable).En el caso de nombres compuestos, utilizar de preferencia con unguin mode-normal. (En el idioma ingls, es ms frecuente que en elespaol encontrarse con ste tipo de compound names, es decir sontrminos o cosas que se componen de dos palabras). Siempre utilizarla forma completa de los compound names: detener mensaje o iniciarmensaje en lugar de utilizar detener o iniciar mensaje 29. No utilizar los verbos be and have. Ya que no proveen muchainformacin para lector humano y para la computadora creamuchos conceptos que no se relacionan. Pero s se pueden utilizaren los casos de la forma pasiva o de sentencias en perfect (comoel present perfect, el perfect continuos, past perfect).Lo que sigue en el trabajo de extracin es poner las oraciones deuna por lnea. Y aunque existen herramientas para steprocedimiento, los investigadores dicen que se da mejor resultadoss se hace manualmente.Despus se tiene que sacar las asociaciones y se puedan declararlos trminos con mayor frecuencia para formar el rbol con laontologa extrada y una relacin entre ellos. Para lo cual existeuna nomenclatura que incluyen flecha, cajas blancas , cajasnegras.