Habilitation: Patrice Bellot, Recherche d'informations et Questions-Reponses

Tue Dec 2 19:59:07 UTC 2008

Date: Sun, 30 Nov 2008 12:16:37 +0100
From: Patrice Bellot <patrice.bellot at univ-avignon.fr>
Message-Id: <1D2046E5-B08E-4B4E-B545-AB398052C48B at univ-avignon.fr>

Bonjour,

j'ai le plaisir de vous inviter à ma soutenance d'HDR en Informatique
intitulée :

"Contributions en faveur d'une meilleure personnalisation de la
recherche d'informations - Applications à la tâche questions-réponses,
à la recherche de documents audio et à l'accessibilité pour des
personnes dyslexiques"

qui aura lieu le jeudi 4 décembre à 14h30 dans l'amphithéâtre Ada
Lovelace du Centre d'Enseignement et de Recherche en Informatique
(LIA/IUP) sur le campus Agroparc de l'Université d'Avignon et des Pays
de Vaucluse,

devant un jury composé de :
- Mme Brigitte Grau, Professeur, ENSIIE / LIMSI-CNRS (Rapporteur)
- M. Mohand Boughanem, Professeur, Université Paul Sabatier, IRIT-CNRS
(Rapporteur)
- M. Jacques Savoy, Professeur, Université de Neuchâtel, Suisse  
(Rapporteur)
- M. Philippe Blache, Directeur de Recherche, Université de Provence,
LPL-CNRS
- M. J.-F. Bonastre, Professeur, Université d'Avignon et des Pays de
Vaucluse, LIA
- M. M. El-Bèze, Professeur, Université d'Avignon et des Pays de
Vaucluse, LIA

Vous êtes bien sûr invités au pot qui suivra.

bien cordialement à toutes et tous,
Patrice Bellot

---------------
Résumé :
---------------

Dans un article récent sur les enjeux de la recherche d'informations,
Belkin (2008) rappelle que la question de la personnalisation est
annoncée comme majeure depuis une vingtaine d'années mais que la
plupart des tentatives vers une étude systématique ont échoué. S'il
n'est pas question de prétendre que les évaluations TREC Interactive
puis TREC Hard et TREC ciQA, pour ne mentionner qu'elles, n'ont abouti
à rien dans ce domaine, force est de constater que l'utilisateur
n'intervient que très peu dans les systèmes de recherche de l'Internet
et qu'aussi bien des paradigmes d'évaluation que des stratégies
efficaces restent encore à trouver.

Dans les différents chapitres qui constituent ce mémoire
d'Habilitation, nous présentons trois directions vers une
personnalisation de la recherche d'informations. La première
correspond à une analyse du besoin en information d'un utilisateur qui
permet de distinguer recherche documentaire et recherche de réponses
précises sachant que celles-ci peuvent être des informations
factuelles, des définitions ou des explications. Cette distinction
correspond à celle entre Recherche d'informations (RI) et questions-
réponses (QR) mais, pour être utilisables, les systèmes correspondants
devront être fusionnés. En outre, il sera utile d'inciter
l'utilisateur à changer ses habitudes pour laisser de côté les
requêtes mots-clés et (re)venir à des requêtes en langue naturelle.
Les solutions logicielles que nous avons développées ont été évaluées
dans le cadre des campagnes TREC, CLEF et EQUER.

La seconde direction que nous avons suivie est celle de l'aide à la
navigation dans de grandes bases documentaires mélangeant fichiers
audio et textes. Elle consiste à définir une interface homme-machine
permettant un survol chronologique, par l'exploitation de méthodes de
reconnaissance de la parole, d'indexation sémantique (LSI), de
segmentation thématique et de résumé automatique (campagne
d'évaluation DUC), des documents de la collection.

La troisième direction consiste à prendre en compte la capacité de
lecture et d'écriture d'un utilisateur dans le calcul du score de
pertinence d'un document vis à vis d'une requête. Les avancées les
plus récentes de la technique et de l'imagerie médicale nous offrent
des modélisations plausibles de nos fonctionnements cognitifs dont
nous pouvons nous inspirer afin de simuler l'humain dans des domaines
tels que le langage et la pensée.  Nous nous sommes plus
particulièrement intéressé aux modèles cognitifs de la lecture et à la
tentative de les exploiter afin de définir des systèmes de recherche
d'informations capables d'estimer l'effort nécessaire à la
compréhension d'un document et d'être suffisamment robustes pour
accepter des requêtes mal orthographiées.  Les modèles de recherche
d'informations usuels permettent d'ordonner des documents en fonction
de la quantité d'informations qu'ils véhiculent vis à vis de ce que
l'utilisateur a exprimé dans sa requête tout en tenant compte, dans le
meilleur des cas, du taux de nouveautés apportées par rapport à
d'autres documents déjà connus. Il s'agit d'une vision purement
informationnelle de la pertinence posant l'hypothèse que plus le
nombre d'informations nouvelles est grand, plus le document est
susceptible d'intéresser l'utilisateur. Cela s'avère exact dans une
certaine mesure mais ne tient pas compte du fait que les besoins sont
différents suivant le niveau d'expertise de l'utilisateur : une
personne novice dans un domaine sera certainement plus intéressée par
un document de vulgarisation que par une étude approfondie, au
vocabulaire et à la structure complexes. Cela est vrai à plus forte
raison pour des personnes ayant des difficultés élevées de lecture
tels les dylsexiques. Il s'agit alors de définir de nouvelles mesures
prenant en compte cet aspect tout en offrant la possibilité de
présenter d'abord les documents les plus "simples", les plus
"lisibles".

La problématique de la personnalisation et de la prise en compte de
l'utilisateur en recherche d'informations renvoie naturellement à
celle, bien plus large, des fondements du traitement automatique des
langues, au croisement de la linguistique et de l'informatique, toutes
deux rejointes par la psycholinguistique et la psychologie cognitive
pour l'étude des comportements individuels, les neurosciences pour
l'étude des racines physiologiques du langage mais aussi par la
sémiologie pour des analyses globales des usages et des
significations. Ce croisement pluridisciplinaire est un enjeu majeur
des années à venir si l'on veut aller au-delà, pour paraphraser K.
Sparck-Jones, de la seule étude permettant d'espérer (et encore ne
s'agit-il que d'un espoir sans même être convaincu de la
significativité des gains) grappiller quelques points de précision en
recherche ad-hoc.

Il va de soi que les recherches présentées correspondent à un travail
d'équipe. Elles sont ainsi l'oeuvre des activités conduites au LIA
depuis septembre 2000, et notamment, en respectant l'ordre
chronologique, celles de Laurent Gillard, Benoît Favre et Laurianne
Sitbon dont j'ai co-encadrées les thèses de Doctorat avec Marc El-Bèze
(Université d'Avignon et des Pays de Vaucluse), Jean-François Bonastre
(Université d'Avignon et des Pays de Vaucluse) et Philippe Blache
(CNRS et Université Aix-Marseille).

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------