These: Mathieu-Henri Falco, Repondre a des questions a reponses multiples sur le Web

Fri May 30 19:53:22 UTC 2014

Date: Fri, 30 May 2014 16:03:30 +0200
From: Mathieu-Henri Falco <falco at limsi.fr>
Message-ID: <53888FB2.8050403 at limsi.fr>

Bonjour.

   La thèse "Répondre à des questions à réponses multiples sur le Web" a
été soutenue le 22 mai 2014 au LIMSI.

Jury
Mme Véronique Moriceau,  LIMSI-CNRS (co-encadrante)
Mme Anne Vilnat, LIMSI-CNRS (directrice de thèse)
Mme Marie-Francine Moens, Katholieke Universiteit Leuven (rapporteure)
M. Patrice Bellot, LSIS - Aix-Marseille Université (rapporteur)
Mme Sophie Rosset, LIMSI - CNRS (examinatrice)
M. Thierry Baccino, LUTIN - Université Paris 8 (examinateur)

Résumé

Les systèmes de question-réponse renvoient une réponse précise à une
question formulée en langue naturelle. Les systèmes de question-réponse
actuels, ainsi que les campagnes d'évaluation les évaluant, font en
général l'hypothèse qu'une seule réponse est attendue pour une question.
Or nous avons constaté que, souvent, ce n'était pas le cas, surtout
quand on cherche les réponses sur le Web et non dans une collection
finie de documents.

Nous nous sommes donc intéressés au traitement des questions attendant
plusieurs réponses à travers un système de question-réponse sur le Web
en français. Pour cela, nous avons développé le système Citron capable
d'extraire des réponses multiples différentes à des questions factuelles
en domaine ouvert, ainsi que de repérer et d'extraire le critère variant
(date, lieu) source de la multiplicité des réponses. Nous avons montré
grâce à notre étude de différents corpus que les réponses à de telles
questions se trouvaient souvent dans des tableaux ou des listes mais que
ces structures sont difficilement analysables automatiquement sans
prétraitement. C'est pourquoi, nous avons également développé l'outil
Kitten qui permet d'extraire le contenu des documents HTML sous forme de
texte et aussi de repérer, analyser et formater ces structures.

Enfin, nous avons réalisé deux expériences avec des utilisateurs. La 
première expérience évaluait Citron et les êtres humains sur la tâche 
d'extraction de réponse multiples : les résultats ont montré que Citron 
était plus rapide que les êtres humains et que l'écart entre la qualité 
des réponses de Citron et celle des utilisateurs était raisonnable. La 
seconde expérience a évalué la satisfaction des utilisateurs concernant 
la présentation de réponses multiples : les résultats ont montré que les 
utilisateurs préféraient la présentation de Citron agrégeant les 
réponses et y ajoutant un critère variant (lorsqu'il existe) par rapport 
à la présentation utilisée lors des campagnes d'évaluation.

Abstract

Question answering systems find and extract a precise answer to a
question posed in a natural language. Both current question-answering
systems and evaluation campaign often assume that only one single answer
is expected for a question. Our corpus studies show that this is rarely
the case, specially when searching answers from the Web compared to a
frozen collection of documents.

We therefore focus on questions expecting multiple correct answers from
the Web by creating the question-answering system Citron. Citron is
dedicated to extract multiple answers in open domain and identify the
shifting criteria (date, location) which is often the reason of this
answer multiplicity.

Our corpus studies show that the answers of this kind of question are
often used in structures such as tables and lists which cannot be
analysed without a suitable preprocessing. Consequently we created the
Kitten software for extracting text information from HTML documents and
also both identifying and formatting these structures.

We finally evaluate Citron through two experiments involving users. The
first experiment evaluates both Citron and human beings on the multiple
answers extraction: results show that Citron was faster than human and
that the quality difference between answers extracted by Citron and
human was reasonable. The second experiment evaluates user satisfaction
regarding the presentation of multiple answers: results show that users
have a preference for Citron presentation aggregating answers and adding
the shifting criteria (if it exists) over the presentation used by
evaluation campaign.

Cordialement.

Mathieu-Henri Falco - Groupe ILES
LIMSI-CNRS (Orsay)
Téléphone : 01 69 85 80 61
Bâtiment 508 - Bureau 111

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------