Presentation 04 03 08 Nicolas Flavier

16
Les syst` emes de questions-r´ eponses Int´ egration de connaissances Travail ` a venir Int´ egration de connaissances au sein d’un Syst` eme de Questions-R´ eponses en Chimie Organique Nicolas Flavier Laboratoire d’Informatique d’Avignon Universit´ e d’Avignon et des Pays du Vaucluse - Laboratoire de Chimie Organique de Synth` ese Facult´ es Universitaires Notre-Dame de la Paix Namur 4 mars 2008 Nicolas Flavier (LIA - Universit´ e d’Avignon) Connaissances dans un SQR sp´ ecialis´ e en CO 1/16

Transcript of Presentation 04 03 08 Nicolas Flavier

Page 1: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

Integration de connaissances au sein d’un Systemede Questions-Reponses en Chimie Organique

Nicolas Flavier

Laboratoire d’Informatique d’AvignonUniversite d’Avignon et des Pays du Vaucluse

-

Laboratoire de Chimie Organique de Synthese

Facultes Universitaires Notre-Dame de la Paix Namur

4 mars 2008

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 1/16

Page 2: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

Plan

1 Les systemes de questions-reponses

2 Integration de connaissances

3 Travail a venir

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 2/16

Page 3: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

DefinitionPrincipe de fonctionnementEvaluation

Les Systemes de Questions-Reponses

6= moteurs de recherche documentaire

Question precise en langue naturelle

ex. : Quelle est l’equipe qui a marque le plus de buts pendantla coupe du monde ? au lieu de equipe buts coupe monde.

Reponse (ou liste de reponses candidates)

Campagnes d’evaluation

TREC (Question Answering track) 1

EQUER

NTCIR

CLEF

1VOORHEES E. M., « Overview of the TREC-9 Question Answering Track.», TREC, 2000.

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 3/16

Page 4: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

DefinitionPrincipe de fonctionnementEvaluation

Principe d’un systeme de questions-reponses

corpus↓

documents pertinents↓

passages pertinents↓

reponses candidates

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 4/16

Page 5: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

DefinitionPrincipe de fonctionnementEvaluation

Selection de passages

Pour chaque mot de la question trouve dans un document, oncalcule la densite d’elements caracteristiques autour de celui-ci :

autres mots de la question

mots de la question etendue (synonymes, hyperonymes, etc.)

mots de la meme classe que des mots de la question

On choisit ensuite les passages autour d’elements de forte densite.

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 5/16

Page 6: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

DefinitionPrincipe de fonctionnementEvaluation

Extraction de reponses

determiner le type de la question

chercher dans les passages retenus une entite nommeecorrespondant au type de reponse attendu

autour de ces entites, on calcule un score de compacite desmots de la question

On selectionne ensuite les entites qui possedent la plus fortecompacite.

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 6/16

Page 7: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

DefinitionPrincipe de fonctionnementEvaluation

Evaluation

2 principales mesures :

Rappel

R =nb de docs pertinents retournes

nb de docs pertinents

→ s’ameliore en retournant plus de documents (generalisation,extension de la requete, etc.) mais augmente le bruit

Precision

P =nb de docs pertinents retournes

nb de docs retournes

→ amelioration : analyse et traitement de la question plus finsIl faut trouver le meilleur compromis entre les deux.

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 7/16

Page 8: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

Interet et modalitesProblemesBase terminologiqueSelection de passages

1 Les systemes de questions-reponses

2 Integration de connaissancesInteret et modalitesProblemesBase terminologiqueSelection de passages

3 Travail a venir

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 8/16

Page 9: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

Interet et modalitesProblemesBase terminologiqueSelection de passages

Integration de connaissances

principal objectif : ameliorer le rappel ;

extension de la question (ajout de synonymes, d’hyperonymes,etc.) ;

indexation conceptuelle.

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 9/16

Page 10: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

Interet et modalitesProblemesBase terminologiqueSelection de passages

Problemes de cette approche

→ elle necessite des ressources :

ontologie (requiert des experts/linguistes) ;

liste de termes specialise du domaine ;

dictionnaire de synonymes ;

bases de donnees chimiques (formules, reactions, etc.)

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 10/16

Page 11: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

Interet et modalitesProblemesBase terminologiqueSelection de passages

Base terminologique (glossaire)

caracteristiques

å ≈ 6500 termes

å possibilite d’entrer definitions, equivalents, contexte, classessemantiques

å multi-utilisateur, possibilite pour chacun de valider les termes

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 11/16

Page 12: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

Interet et modalitesProblemesBase terminologiqueSelection de passages

Selection de passages : resultats de l’approche generale

å ponderation 6= des mots de chimie

å pas encore de resultats chiffres

å exemple de resultats :

What is the heat of hydrogenation of benzene ?

thus it is possible to calculate such quantities as the heat of combustion or heatof hydrogenation of cyclohexatriene by assuming that it is a compound with nointeraction between the conjugated double bonds for example a very simplecalculation of the heat of hydrogenation for cyclohexatriene would be to multiplythe heat of hydrogenation of cyclohexene by 3 i e 3 x 28 6 = 85 8 kcal/mol

3 x 28 6 = 85 8 kcal/mol the actual heat of hydrogenation of benzene is 49 8

kcal/mol suggesting a total stabilization or delocalization energy of 36 0

kcal/mol there are other more elaborate ways of approximating the

thermodynamic properties of the hypothetical cyclohexatriene

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 12/16

Page 13: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

Interet et modalitesProblemesBase terminologiqueSelection de passages

Approche conceptuelle

extension de questions avec les concepts issus de l’ontologie

indexation conceptuelle

å manque une veritable ontologie

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 13/16

Page 14: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

Travail a venir

implementer l’approche conceptuelle dans la recherche depassages

affiner les ponderations

extraction de reponses

å utilisant aussi des connaissances

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 14/16

Page 15: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

Extraction de reponses

å necessite un corpus annote

å annotation automatique

å apprentissage : grande quantite de texte annoteå regles : lourd a mettre en oeuvre, requiert des experts

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 15/16

Page 16: Presentation 04 03 08 Nicolas Flavier

Les systemes de questions-reponsesIntegration de connaissances

Travail a venir

Et enfin....

Integration au sein d’une ”plate-forme” EnCOrE, couple ausysteme de resume automatique : en fonction de la question poseepar l’utilisateur, un reponse courte lui sera fournie ou un resume luisera propose.

Nicolas Flavier (LIA - Universite d’Avignon) Connaissances dans un SQR specialise en CO 16/16