ATALA: JOURNEE du 17/05 : EXTENSION DE DATE LIMITE DE SOUMISSION

alexis.nasr at LINGUIST.JUSSIEU.FR alexis.nasr at LINGUIST.JUSSIEU.FR
Fri Apr 25 08:04:53 UTC 2003


[English version below]

EXTENSION DE DATE LIMITE DE SOUMISSION

----------------------------------------------------

JOURNEES de l'ATALA - APPEL A COMMUNICATION

Des requêtes aux questions : nouvelle perspective
pour la recherche d'information ?

>From queries to questions: new perspective for information
retrieval?

Date limite de soumission prolongée au 28 avril - English version below

-------------------------------------------
Samedi 17 mai 2003
ENST, rue Barrault, Paris 13eme


Organisée par Brigitte Grau (LIMSI) et Olivier Ferret (CEA-LIST)

Face à une question telle que «Quelle est la voiture la plus chère du
monde ?», les moteurs de recherche traditionnels renvoient l?ensemble
des documents les plus fortement liés aux mots de la question, en
sélectionnant éventuellement un passage, mais laissent à la charge de
l?utilisateur la tâche d?explorer ces documents afin d?y trouver la
réponse. L?introduction de la tâche «Question Answering» lors de
l?évaluation TREC8 (Text REtrieval Conference), en 1999, est
révélatrice du besoin sans cesse croissant de disposer de systèmes de
recherche d?information allant au delà de la simple recherche
documentaire habituellement proposée. Cette pression a conduit au
développement de systèmes capables d?extraire les parties des
documents les plus pertinentes par rapport à une question posée, en
proposant directement une réponse lorsqu?il s?agit d?une question
factuelle ou un résumé si la requête est de nature thématique. Les
systèmes développés dans le cadre des évaluations TREC de ces
dernières années représentent un premier stade dans la problématique
d?une recherche d?information axée sur la notion de
question/réponse. Cette problématique, esquissée dans un roadmap
récent (cf. http://www-nlpir.nist.gov/projects/duc/roadmapping.html),
met en avant des fonctionnalités nouvelles ou encore assez
embryonnaires dans les systèmes de recherche d?information actuels:
évaluation de l?existence d?une réponse à une question dans une base
de textes, synthèse de réponses multiples intra ou inter-documents,
dialogue d?aide à la formulation de requête ou encore capacités de
compréhension de texte permettant par exemple de reconnaître des
reprises anaphoriques ou de juger de l?éventuelle incompatibilité de
réponses multiples.

Ces nouvelles fonctionnalités imposent aux systèmes de recherche
d?information de mener une analyse plus en profondeur à la fois des
requêtes qui leur sont adressées et des documents au sein desquels ils
doivent chercher les informations permettant d?y répondre. C?est
pourquoi la problématique des systèmes de question/réponse se situe à
l?intersection de plusieurs domaines: elle possède bien entendu un
ancrage originel fort dans le domaine de la recherche d?information
mais elle fait aussi appel de façon importante au traitement
automatique des langues (TAL) ainsi que plus ponctuellement à des
domaines tels que l?apprentissage automatique.

Typiquement, un système de question/réponse s?articule ainsi autour
d?un moteur de recherche traditionnel, enrichi en amont par un module
d?analyse des questions et en aval par des modules robustes d?analyse
des documents assurant l?extraction de passages réponses en mêlant
l?exploitation de traits linguistiques, aussi bien de nature
morphologique, syntaxique ou sémantique, et l?utilisation de critères
numériques, plus classiques en recherche d?information.

De ces spécificités se dégagent plusieurs axes fort de la
problématique question/réponse telle qu?elle est envisagée
actuellement. Le premier de ces axes est le fait que l?analyse des
requêtes est considérée comme une fonction importante visant à
déterminer les intentions de l?utilisateur, soit le but de sa
recherche, et non plus seulement à produire un ensemble de
mots-clés. L?impact de cette analyse sur les résultats de la recherche
a bien entendu pour objectif d?inciter les utilisateurs à formuler
leurs requêtes sous une forme suffisamment riche, en l?occurrence des
questions en langue naturelle, pour permettre la mise en évidence de
l?objet de leur recherche.

Le second axe concerne la nécessaire robustesse des modules
linguistiques d?analyse des documents. Le problème des systèmes de
question/réponse a été exploré dès les premiers travaux en TAL
(Lehnert 1977) mais sur des domaines limités seulement. Actuellement,
même si le cas de figure des domaines fermés demeure, comme avec les
FAQ (Frequently Asked Questions), l?intérêt se porte majoritairement
sur des systèmes de question/réponse en domaine ouvert répondant à des
questions de nature factuelle ou encyclopédique à partir de très
grosses base de textes, voire du WEB. Dans ce cadre, il n?est pas
possible de poser de restrictions a priori tant pour ce qui est des
domaines abordés que des types de textes traités. Il s?agit là d?un
enjeu important pour le TAL auquel peut contribuer de façon
significative l?apprentissage automatique.

Un dernier axe de cette nouvelle problématique de la recherche
d?information, en relation étroite avec le précédent, concerne la
capacité des systèmes à auto-évaluer leurs résultats et à utiliser
différents niveaux de traitement. Être confronté à des documents sans
possibilité de contrôle quant à leur nature ou leur sujet signifie que
les modules d?analyse des documents les plus sophistiqués, donc les
plus fragiles, sont parfois mis en défaut et produisent des résultats
moins pertinents que ceux issus de modules moins élaborés mais plus
robustes. La capacité à déterminer lorsqu?un tel cas de figure se
produit et à le gérer est sans doute une des clés du succès de
l?utilisation du TAL en recherche d?information. Son impact sur
l?architecture des systèmes développés est particulièrement important.

Alors qu?une évaluation des systèmes de question/réponse en Français
est en cours de préparation dans le cadre du récent appel Technolangue
des ministères de la Recherche et l?Industrie, l?objectif de cette
journée de l?ATALA est de faire le point sur l?état actuel des
recherches concernant la problématique question/réponse et de
présenter les travaux déjà réalisés dans ce domaine, en particulier
dans la sphère francophone, ou les travaux y contribuant directement.

Plus spécifiquement, les propositions de communication pourront
présenter des systèmes de question/réponse dans leur ensemble ou bien
des traitements constitutifs de tels systèmes pourvu qu?ils soient
replacés dans la problématique question/réponse. Parmi ces
traitements, on peut notamment citer:

- analyse de questions: typologie de questions, extraction de l?objet
de la question, de son contexte, de contraintes sémantiques

- reconnaissance d?entités nommées:en domaine ouvert, typage fin

- extraction de passages

- similarité de représentations syntaxiques, partielles ou complètes

- outils terminologiques: extraction et reconnaissance de termes et de
leurs variantes

- appariement question - passage de texte fondés sur des traits
linguistiques: traits morphologiques, syntaxiques ou sémantiques

- extraction et justification des réponses: patrons de réponse,
inférences, paraphrase ?

La cible privilégiée de cette journée est constituée par des travaux
portant sur des bases textuelles importantes ou à partir du WEB mais
les systèmes de question/réponse destinés à des domaines restreints ou
couplés à des bases de connaissances ou des bases de données peuvent
également être concernés dans la mesure où certains traitements, tels
que l?analyse de questions par exemple, sont similaires.

Les propositions de communication pourront également aborder des
thèmes plus transversaux en relation avec les systèmes de
question/réponse, thèmes parmi lesquels:

- l?apprentissage automatique; que ce soit pour acquérir sur une large
échelle des ressources utilisables par un système de question/réponse
ou plus directement, pour apprendre à sélectionner et extraire la
réponse à une question;

- le multilinguisme: difficulté de passer d?une langue à une autre,
sachant que la plupart des systèmes ont été développés pour l?anglais;
possibilité de poser une question dans une langue et de chercher la
réponse dans des documents écrits dans une autre langue;

- le WEB: utilisation du WEB en tant que source de connaissances ou de
réponses; spécificité de la recherche de réponses sur le WEB;

- le multi-document: fusion et cohérence de réponses multiples.

Nous demandons aux auteurs de préciser si leur soumission :
 1) concerne des travaux en cours, ou des prises de position;
 2) des travaux aboutis du point de vue théorique ou appliqué.

Soumission (modalités)

Un résumé de 2 à 3 pages doit être envoyé avant le 28 avril 2003 par
courrier électronique en format text, .rtf, .doc ou .pdf à :

Brigitte Grau : Brigitte.Grau at limsi.fr
et
Olivier Ferret: olivier.ferret at cea.fr

Les notifications d'acceptation seront données pour le 5 mai 2003.

----------------------------------------------------------------------
>From queries to questions: new perspective for information
retrieval?

Facing a question such as «What is the most expensive car in the
world?», classical search engines return the documents that are the
most strongly linked to the words of the question, sometimes extract
the excerpts where these words are the most numerous, but let the user
browse texts to actually find an answer. The creation of the Question
Answering (QA) task in the TREC8 evaluation (Text REtrieval
Conference) in 1999 is the expression of the increasing need to make
information retrieval (IR) systems go further than document
retrieval. This need leads to develop systems that are able to extract
the parts of documents that are the most relevant in relation to a
question, providing either an answer when the question is about a
precise fact or a summary when it is a topical question. The systems
built for the TREC QA evaluations represent a first stage in a more
global view of Information Retrieval that is centered on question
answering. This perspective, which is presented in a recent roadmap
document (see
http://www-nlpir.nist.gov/projects/duc/roadmapping.html), puts forward
new functions or functions that are still in an embryonic state in
current IR systems: evaluating if an answer to a question exists in a
large document collection, using dialog for building a query or text
understanding capabilities for dealing with anaphora or determining if
several answers are coherent.

These new functions can be implemented only if IR systems are able to
analyze both queries and documents more deeply. As a consequence,
question answering is at the crossing of several research fields: of
course, it is grounded in Information Retrieval but it also concerns
Natural Language Processing (NLP) in an important way and to some
extent, fields such as Machine Learning.

Most QA systems are based on a classical search engine that is
enhanced by a question analysis module, a set of modules for
extracting various linguistic features from documents, such as named
entities, terms or syntactic relations, and a module that relies on
all these data for extracting answers by mixing linguistic and
numerical criteria.  Tackling question answering in this way brings to
the fore a set of issues that renew the Information Retrieval
field. The first of these issues is the fact that in the question
answering context, a request is not just a bag of words. Its analysis
is an important function that aims at finding user?s intentions,
i.e. the goal of its search. Performing such an analysis must have an
influence on results in such a way that it leads users to express
their requests by the means of true questions.  A second issue raised
by question answering is the need for robustness for the linguistic
modules that analyze documents. The question answering problem was
already investigated by some early work in the NLP field (Lehnert
1977) but only in restricted domains. At the moment, even if
performing question answering in a restricted domain, for instance to
query FAQ (Frequently Asked Questions), is still interesting, the main
interest focuses on open-domain QA systems that answer to factoïd
questions from very large collections of documents or from the WEB. In
these two cases, it is not possible to set a priori restrictions about
the type of the documents or their topics. As a consequence,
robustness is an important issue for the use of NLP in Information
Retrieval and Machine Learning can significantly contribute to it.

The last aspect of this new viewpoint on information retrieval,
closely linked to the previous one, is the capability for a system to
auto-evaluate its results and to deal with incomplete results. When
the type and the topic of the documents that are processed are not
restricted, the most sophisticated modules that analyze them, which
are also the most brittle ones, sometimes fail or provide worst
results than rougher but more robust modules. The ability to determine
when such a case happens and then to manage it is certainly one of the
key for a successful use of NLP in Information Retrieval. Its impact
on the design of question answering systems is particularly important.

While an evaluation of question answering systems for French is
beginning in the context of the Technolangue project, from the French
ministry of Research and the French ministry of Industry, the aim of
this ATALA workshop is to give an overview of the work done in a
question answering perspective, especially in the Francophone
community.  More precisely, submissions will present a question
answering system as a whole or will focus on one of its processes
provided that it is put in the question answering context. These
processes include but are not limited to:

- question analysis: question typology, extraction of the question
focus, of the question context or more generally, of semantic
constraints

- named entity recognition: fine-grained named entities, unrestricted
domains

- passage extraction

- full or partial similarity of syntactic structures

- terminological tools: extraction et recognition of terms and their
variants

- text excerpt question matching based on linguistic features:
morphological, syntactic or semantic features

- extraction and justification of answers: answer patterns,
inferences, paraphrase ?

This workshop is particularly concerned by papers that focus on QA
systems for large collections of documents or the WEB but papers about
QA systems for restricted domains or dedicated to knowledge bases or
database will also be taken into account as some problems, as question
analysis for instance, are shared by the two kinds of systems.

Submissions can also tackle cross-domain topics in relation to
Question Answering , such as:

- QA and machine learning: use of machine learning for selecting and
extracting answers to a question but also for building on a large
scale resources that are necessary for QA systems;

- multilingual and crosslingual QA: what are the difficulties for
adapting an existing QA system most of them only work for English to
another language; asking a question in a language and searching an
answer in a collection of documents in another language;

- QA and the WEB: using the WEB as a source of knowledge or a source
of answers; what are the specific aspects of searching an answer on
the WEB;

- multi-document QA: fusion and coherence of multiple answers.

Submission: a 2-3 page summary.
We ask authors to indicate if their submission:

- present in-progress work or is a position paper;

- present theoritical or applied completed work.  A 2-3-page summary
must be sent before April 28, 2003 by e-mail in text, .rtf, .doc or
.pdf to:

Brigitte Grau : Brigitte.Grau at limsi.fr
and
Olivier Ferret: olivier.ferret at cea.fr

Acceptance notifications will be sent for 5 May 2003.
-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list