These: Nicolas Foucault, Questions-Reponses en domaine ouvert

Fri Nov 29 20:32:20 UTC 2013

Date: Fri, 29 Nov 2013 19:04:48 +0100
From: foucault <foucault at limsi.fr>
Message-ID: <2857b5a678fb66dda08f361daa06a0df at limsi.fr>

Bonjour à toutes et à tous,

J'ai le plaisir de vous inviter à ma soutenance de thèse, menée au
Laboratoire d'Informatique pour la Mécanique et les Sciences de
l'Ingénieur au sein du groupe Traitement du Langage Parlé et intitulée :

"Questions-Réponses en domaine ouvert : sélection pertinente de
 documents en fonction du contexte de la question".

La soutenance se déroulera le lundi 16 décembre 2013 à 14h30 au LIMSI.

Cette soutenance sera suivie du traditionnel pot de thèse, vous
y êtes chaleureusement conviés.

Bien cordialement,
Nicolas Foucault

--------------------
Se rendre au LIMSI :
--------------------

http://www.limsi.fr/Pratique/acces/index.fr.html
http://www.limsi.fr/Pratique/acces/index.en.html

Compter entre 1h00 et 1h15 depuis Châtelet - Les Halles (Paris)
quand tout se déroule sans accroc sur le réseau de la RATP !

=======================
  Composition du jury :
=======================

[rapporteur]   : Pr Pascale SÉBILLOT, PU, IRISA/INSA, Rennes
[rapporteur]   : Pr Patrice BELLOT, PU, LSIS, Université Aix-Marseille
[examinateur]  : Pr Thierry BACCINO, PU, LUTIN, Université Paris 8
[examinatrice] : Pr Brigitte GRAU, PU, LIMSI/CNRS, ENSIIE
[directrice]   : Mme Sophie ROSSET, DR2-CNRS, LIMSI/CNRS
[co-directeur] : M. Gilles ADDA, IRHC-CNRS, LIMSI/CNRS

==========
  Résumé :
==========

Les problématiques abordées dans cette thèse sont de définir une
adaptation unifiée de la sélection des documents et des stratégies de
recherche de la réponse à partir du type des documents et des questions,
intégrer la solution au système de Questions-Réponses (QR) RITEL du
LIMSI et évaluer son apport.

Dans cette thèse, nous développons et étudions une méthode basée sur une
approche de Recherche d'Information pour la sélection de documents en
QR. Celle-ci s'appuie sur un modèle de langue et un modèle de
classification binaire de texte en catégorie pertinent ou non pertinent
d'un point de vue QR. Cette méthode permet filtrer les documents
sélectionnés pour l'extraction de réponses par un système QR.

Nous présentons la méthode et ses modèles, et la testons dans le cadre
QR à l'aide de RITEL. L'évaluation est faite en français en contexte web
sur un corpus de 500 000 pages web et de questions factuelles fournis
par le programme Quaero. Celle-ci est menée soit sur des documents
complets, soit sur des segments de documents. L'hypothèse suivie est que
le contenu informationnel des segments est plus cohérent et facilite
l'extraction de réponses. Dans le premier cas, les gains obtenus sont
faibles comparés aux résultats de référence (sans filtrage). Dans le
second cas, les gains sont plus élevés et confortent l'hypothèse, sans
pour autant être significatifs. Une étude approfondie des liens existant
entre les performances de RITEL et les paramètres de filtrage complète
ces évaluations.

Le système de segmentation créé pour travailler sur des segments est
détaillé et évalué. L'évaluation mesure l'impact de la variabilité
naturelle des pages web (en taille et en contenu) sur la tâche QR, en
lien avec l'hypothèse précédente.

En général, les résultats expérimentaux suggèrent que notre méthode aide
un système QR dans sa tâche. Cependant, de nouvelles évaluations sont à
mener pour rendre ces résultats significatifs, et notamment en utilisant
plus de questions d'entraînement.

------------------------------------------------------------------------

"Open domain question-answering : relevant document selection geared to
 the question"

===========
  Abstract:
===========

This thesis aims at defining a unified adaptation of the document
selection and answer extraction strategies, based on the document and
question types, in a Question-Answering (QA) context. The solution is
integrated in RITEL (a LIMSI QA system) to assess the contribution.

We develop and investigate a method based on an Information Retrieval
approach for the selection of relevant documents in QA.  The method is
based on a language model and a binary model of textual classification
in relevant or irrelevant category. It is used to filter unusable
documents for answer extraction by matching lists of a priori relevant
documents to the question type automatically.

First, we present the method along with its underlying models and we
evaluate it on the QA task with RITEL in French. The evaluation is done
on a corpus of 500,000 unsegmented web pages with factoid questions
provided by the Quaero program (i.e. evaluation at the document level or
D-level). Then, we evaluate the method on segmented web pages
(i.e. evaluation at the segment level or S-level). The idea is that
information content is more consistent with segments, which facilitates
answer extraction. D-filtering brings a small improvement over the
baseline (no filtering).  S-filtering outperforms both the baseline and
D-filtering but not significantly. Finally, we study at the S-level the
links between RITEL's performances and the key parameters of the method.

In order to apply the method on segments, we created a system of web
page segmentation. We present and evaluate it on the QA task with the
same corpora used to evaluate the document selection method. This
evaluation follows the former hypothesis and measures the impact of
natural web page variability (in terms of size and content) on RITEL in
its task.

In general, our experimental results suggest that our IR-based method
helps a QA system in its task, however further investigations should be
conducted -- especially with larger corpora of questions -- to make them
significant.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------