These: Arnaud Grappy, Validation de reponses dans un systeme de questions reponses
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Fri Oct 28 20:25:38 UTC 2011
Date: Thu, 27 Oct 2011 17:48:38 +0200 (CEST)
From: agrappy at limsi.fr
Message-ID: <c7e979809f3194f2c98dd71bef3148fd.squirrel at webmail.limsi.fr>
Bonjour
C'est avec plaisir que je vous invite à ma soutenance de thèse qui
s'intitule "Validation de réponses dans un système de questions réponses".
Elle aura lieu le mardi 8 novembre à 9 heures 30 au LIMSI-CNRS à
l'université de Paris Sud 11. Vous trouverez en pièce jointe le résumé de
ma thèse.
Cordialement
Arnaud Grappy
------------------------------------------------------------------------
Résumé
Avec l’augmentation des connaissances disponibles sur Internet est
apparue la difficulté d’obtenir une information. Les moteurs de
recherche permettent de retourner des pages Web censés contenir
l’information désirée à partir de mots clés. Toutefois il est encore
nécessaire de trouver la bonne requête et d’examiner les documents
retournés.
Les systèmes de questions réponses ont pour but de renvoyer directement
une réponse concise à partir d’une question posée en langue
naturelle. La réponse est généralement accompagnée d’un passage de texte
censé la justifier. Par exemple, pour la question « Quel est le
réalisateur d’Avatar ? » la réponse « James Cameron »peut être renvoyée
accompagnée de « James Cameron a réalisé Avatar. ».
Cette thèse se focalise sur la validation de réponses qui permet de
déterminer automatiquement si la réponse est valide. Une réponse est
valide si elle est correcte (répond bien à la question) et justifiée par
le passage textuel. Cette validation permet d’améliorer les systèmes de
questions réponses en ne renvoyant à l’utilisateur que les réponses
valides.
Les approches permettant de reconnaître les réponses valides peuvent se
décomposer en deux grandes catégories :
– les approches utilisant un formalisme de représentation particulier de
la question et du passage dans lequel les structures sont comparées ;
– les approches suivant une approche par apprentissage qui combinent
différents critères d’ordres lexicaux ou syntaxiques.
Dans le but d’identifier les différents phénomènes sous tendant la
validation de réponses, nous avons participé à la création d’un corpus
annoté manuellement. Ces phénomènes sont de différentes natures telle
que la paraphrase ou la coréférence. On peut aussi remarquer que les
différentes informations sont réparties sur plusieurs phrases, voire
sont manquantes dans les passages contenant la réponse.
Une deuxième étude de corpus de questions a porté sur les différentes
informations à vérifier afin de détecter qu’une réponse est
valide. Cette étude a montré que les trois phénomènes les plus fréquents
sont la vérification du type de la réponse, la date et le lieu contenus
dans la question. Ces différentes études ont permis de mettre au point
notre système de validation de réponses qui s’appuie sur une combinaison
de critères. Certains critères traitent de la présence dans le passage
des mots de la question ce qui permet de pointer la présence des
informations de la question. Un traitement particulier a été effectué
pour les informations de date en détectant une réponse comme n’étant pas
valide si le passage ne contient pas la date contenue dans la
question. D’autres critères, dont la proximité dans le passage des mots
de la question et de la réponse, portent sur le lien entre les
différents mots de la question dans le passage.
Le second grand type de vérification permet de mesurer la compatibilité
entre la réponse et la question. Un certain nombre de questions
attendent une réponse étant d’un type particulier. La question de
l’exemple précédent attend ainsi un réalisateur en réponse. Si la
réponse n’est pas de ce type alors elle est incorrecte. Comme cette
information peut ne pas se trouver dans le passage justificatif, elle
est recherchée dans des documents autres à l’aide de la structure des
pages Wikipédia, en utilisant des patrons syntaxiques ou grâce à des
fréquences d’apparitions du type et de la réponse dans des documents. La
vérification du type est particulièrement efficace puisqu’elle effectue
80 % de bonnes détections. La vérification de la validité des réponses
est également pertinente puisque lors de la participation à une campagne
d’évaluation, AVE 2008, le système s’est placé parmi les meilleurs
toutes langues confondues.
La dernière contribution a consisté à intégrer le module de validation
dans un système de questions réponses, QAVAL. Dans ce cadre de
nombreuses réponses sont extraites par QAVAL et ordonnées grâce au
module de validation de réponses. Le système n’est plus utilisé afin de
détecter les réponses valides mais pour fournir un score de confiance à
chaque réponse. Le système QAVAL peut ainsi aussi bien être utilisé en
effectuant des recherches dans des articles de journaux que dans des
articles issus du Web. Les résultats sont assez bons puisqu’ils
dépassent ceux obtenus par un simple ordonnancement des réponses de près
de 50 %.
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list