ATALA: journee : recherche d'information

Tue Mar 25 18:20:31 UTC 2003

----------------------------------------------------

JOURNEES de l'ATALA - APPEL A COMMUNICATION
----------------------------------------------------
Samedi 17 mai 2003
ENST, rue Barrault, Paris 13eme

Des requêtes aux questions : nouvelle perspective pour la recherche
d'information ?

Organisée par Brigitte Grau (LIMSI) et Olivier Ferret (CEA-LIST)

Face à une question telle que «Quelle est la voiture la plus chère du
monde ?», les moteurs de recherche traditionnels renvoient l'ensemble
des documents les plus fortement liés aux mots de la question, en
sélectionnant éventuellement un passage, mais laissent à la charge de
l'utilisateur la tâche d'explorer ces documents afin d'y trouver la
réponse.  L'introduction de la tâche «Question Answering» lors de
l'évaluation TREC8 (Text REtrieval Conference), en 1999, est
révélatrice du besoin sans cesse croissant de disposer de systèmes de
recherche d'information allant au delà de la simple recherche
documentaire habituellement proposée. Cette pression a conduit au
développement de systèmes capables d'extraire les parties des
documents les plus pertinentes par rapport à une question posée, en
proposant directement une réponse lorsqu'il s'agit d'une question
factuelle ou un résumé si la requête est de nature thématique. Les
systèmes développés dans le cadre des évaluations TREC de ces
dernières années représentent un premier stade dans la problématique
d'une recherche d'information axée sur la notion de
question/réponse. Cette problématique, esquissée dans un roadmap
récent (cf. http://www-nlpir.nist.gov/projects/duc/roadmapping.html),
met en avant des fonctionnalités nouvelles ou encore assez
embryonnaires dans les systèmes de recherche d'information actuels:
évaluation de l'existence d'une réponse à une question dans une base
de textes, synthèse de réponses multiples intra ou inter-documents,
dialogue d'aide à la formulation de requête ou encore capacités de
compréhension de texte permettant par exemple de reconnaître des
reprises anaphoriques ou de juger de l'éventuelle incompatibilité de
réponses multiples.  Ces nouvelles fonctionnalités imposent aux
systèmes de recherche d'information de mener une analyse plus en
profondeur à la fois des requêtes qui leur sont adressées et des
documents au sein desquels ils doivent chercher les informations
permettant d'y répondre. C'est pourquoi la problématique des systèmes
de question/réponse se situe à l'intersection de plusieurs domaines:
elle possède bien entendu un ancrage originel fort dans le domaine de
la recherche d'information mais elle fait aussi appel de façon
importante au traitement automatique des langues (TAL) ainsi que plus
ponctuellement à des domaines tels que l'apprentissage automatique.

Typiquement, un système de question/réponse s'articule ainsi autour
d'un moteur de recherche traditionnel, enrichi en amont par un module
d'analyse des questions et en aval par des modules robustes d'analyse
des documents assurant l'extraction de passages réponses en mêlant
l'exploitation de traits linguistiques, aussi bien de nature
morphologique, syntaxique ou sémantique, et l'utilisation de critères
numériques, plus classiques en recherche d'information.  De ces
spécificités se dégagent plusieurs axes fort de la problématique
question/réponse telle qu'elle est envisagée actuellement. Le premier
de ces axes est le fait que l'analyse des requêtes est considérée
comme une fonction importante visant à déterminer les intentions de
l'utilisateur, soit le but de sa recherche, et non plus seulement à
produire un ensemble de mots-clés. L'impact de cette analyse sur les
résultats de la recherche a bien entendu pour objectif d'inciter les
utilisateurs à formuler leurs requêtes sous une forme suffisamment
riche, en l'occurrence des questions en langue naturelle, pour
permettre la mise en évidence de l'objet de leur recherche.  Le second
axe concerne la nécessaire robustesse des modules linguistiques
d'analyse des documents. Le problème des systèmes de question/réponse
a été exploré dès les premiers travaux en TAL (Lehnert 1977) mais sur
des domaines limités seulement. Actuellement, même si le cas de figure
des domaines fermés demeure, comme avec les FAQ (Frequently Asked
Questions), l'intérêt se porte majoritairement sur des systèmes de
question/réponse en domaine ouvert répondant à des questions de nature
factuelle ou encyclopédique à partir de très grosses base de textes,
voire du WEB.  Dans ce cadre, il n'est pas possible de poser de
restrictions a priori tant pour ce qui est des domaines abordés que
des types de textes traités. Il s'agit là d'un enjeu important pour le
TAL auquel peut contribuer de façon significative l'apprentissage
automatique.  Un dernier axe de cette nouvelle problématique de la
recherche d'information, en relation étroite avec le précédent,
concerne la capacité des systèmes à auto-évaluer leurs résultats et à
utiliser différents niveaux de traitement. Être confronté à des
documents sans possibilité de contrôle quant à leur nature ou leur
sujet signifie que les modules d'analyse des documents les plus
sophistiqués, donc les plus fragiles, sont parfois mis en défaut et
produisent des résultats moins pertinents que ceux issus de modules
moins élaborés mais plus robustes. La capacité à déterminer lorsqu'un
tel cas de figure se produit et à le gérer est sans doute une des clés
du succès de l'utilisation du TAL en recherche d'information. Son
impact sur l'architecture des systèmes développés est particulièrement
important.

Alors qu'une évaluation des systèmes de question/réponse en Français
est en cours de préparation dans le cadre du récent appel Technolangue
des ministères de la Recherche et l'Industrie, l'objectif de cette
journée de l'ATALA est de faire le point sur l'état actuel des
recherches concernant la problématique question/réponse et de
présenter les travaux déjà réalisés dans ce domaine, en particulier
dans la sphère francophone, ou les travaux y contribuant directement.
Plus spécifiquement, les propositions de communication pourront
présenter des systèmes de question/réponse dans leur ensemble ou bien
des traitements constitutifs de tels systèmes pourvu qu'ils soient
replacés dans la problématique question/réponse. Parmi ces
traitements, on peut notamment citer:

- analyse de questions: typologie de questions, extraction de l'objet
de la question, de son contexte, de contraintes sémantiques

- reconnaissance d'entités nommées:en domaine ouvert, typage fin

- extraction de passages

- similarité de représentations syntaxiques, partielles ou complètes

- outils terminologiques: extraction et reconnaissance de termes et de
leurs variantes

- appariement question - passage de texte fondés sur des traits
linguistiques: traits morphologiques, syntaxiques ou sémantiques

- extraction et justification des réponses: patrons de réponse,
inférences, paraphrase ?

La cible privilégiée de cette journée est constituée par des travaux
portant sur des bases textuelles importantes ou à partir du WEB mais
les systèmes de question/réponse destinés à des domaines restreints ou
couplés à des bases de connaissances ou des bases de données peuvent
également être concernés dans la mesure où certains traitements, tels
que l'analyse de questions par exemple, sont similaires.

Les propositions de communication pourront également aborder des
thèmes
plus transversaux en relation avec les systèmes de question/réponse,
thèmes
parmi lesquels:

- l'apprentissage automatique; que ce soit pour acquérir sur une large
échelle des ressources utilisables par un système de question/réponse
ou plus directement, pour apprendre à sélectionner et extraire la
réponse à une question;

- le multilinguisme: difficulté de passer d'une langue à une autre,
sachant que la plupart des systèmes ont été développés pour l'anglais;
possibilité de poser une question dans une langue et de chercher la
réponse dans des documents écrits dans une autre langue;

- le WEB: utilisation du WEB en tant que source de connaissances ou de
réponses; spécificité de la recherche de réponses sur le WEB;

- le multi-document: fusion et cohérence de réponses multiples.
Soumission: résumé de 2 à 3 pages.

Nous demandons aux auteurs de préciser si leur soumission :
  1) concerne des travaux en cours, ou des prises de position;
  2) des travaux aboutis du point de vue théorique ou appliqué.

Soumission (modalités)

Un résumé de 1 à 2 pages doit être envoyé avant le 22 avril 2003
par courrier électronique en format text, .rtf, .doc ou .pdf à :
Brigitte Grau : Brigitte.Grau at limsi.fr
et
Olivier Ferret: olivier.ferret at cea.fr
Les notifications d'acceptation seront données pour le 5 mai 2003.

Groupe LIR - LIMSI
BP 133, 91403 Orsay Cedex
tel. 01 69 85 80 03, fax 01 69 85 80 88
  et
Institut d'Informatique d'Entreprise (IIE)
18 allée Jean Rostand, 91025 Evry Cedex
tel. 01 69 36 73 44, fax 01 69 36 73 09
-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------