Livre: Recherche d'information contextuelle, assistee et personnalisee

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Oct 12 20:29:03 UTC 2012


Date: Wed, 10 Oct 2012 14:47:10 +0200
From: Patrice Bellot <patrice.bellot at gmail.com>
Message-Id: <3E109703-5A05-4DBB-93B2-E86D7B77647F at univ-amu.fr>
X-url: http://www.eyrolles.com/Informatique/Livre/recherche-d-information-contextuelle-assistee-et-personnalisee-9782746225831


Bonjour,

Vous trouverez ci-dessous le sommaire et une partie de l'introduction de
chaque chapitre du livre :

	"Recherche d'information contextuelle, assistée et personnalisée"

paru dans la collection "Recherche d'information et web" chez
Hermès-Lavoisier (302 pages - ISBN13 : 978-2-7462-2583-1)

http://www.eyrolles.com/Informatique/Livre/recherche-d-information-contextuelle-assistee-et-personnalisee-9782746225831

  - Contexte et robustesse
    - Recherche d'information contextuelle : le cas des requêtes
    - Robustesse et analyse syntaxique
    - La recherche d'information face à des corpus et requêtes bruités
    - Questions-réponses sur des documents audio
  - Personnalisation et collaboration
    - Recherche d'information et modélisation usagers
    - Recherche d'information collaborative
    - Difficultés de lecture, dyslexies et recherche d'information
  - Assistance et aide à la navigation
    - Navigation dans les documents audio par le résumé automatique
    - Interaction
    - Prédiction de mots et saisie de requêtes sur interfaces limitées
       : dispositifs mobiles et aide au handicap


bien cordialement,
Patrice Bellot
Aix-Marseille Université (AMU) - LSIS / CNRS

========================================================================
Chapitre 1 : Recherche d'information contextuelle : le cas des requêtes
Josiane MOTHE (IRIT, Toulouse)
========================================================================
Les systèmes de recherche d'information (RI) actuels sont souvent
généralistes : ils mettent en œuvre les mêmes mécanismes et les mêmes
méthodes de traitement de l'information, quels que soient le contexte de
recherche, l'utilisateur, son type de besoin d'information et l'usage
qu'il souhaite faire de l'information retrouvée.

La RI contextuelle vise à modéliser les différents aspects du contexte
et leur variété pour les intégrer dans le processus de
recherche. L'aspect contextuel fait référence à des connaissances
implicites ou explicites concernant les intentions de l'utilisateur,
l'environnement de l'utilisateur et le système lui-même. L'hypothèse est
que rendre explicites certains éléments du contexte de la RI pourrait
améliorer les performances des systèmes de RI.

Dans ce chapitre, nous ne prétendons pas aborder l'ensemble des éléments
associés au contexte ; nous nous focalisons plutôt sur un des aspects de
celui-ci qui concerne les requêtes. Les requêtes correspondent au moyen
par lequel l'utilisateur exprime explicitement son besoin en information
au système. Cet aspect du contexte de la recherche à lui seul revêt de
multiples facettes que nous aborderons par la suite.

========================================================================
Chapitre 2 : Robustesse et analyse syntaxique
Philippe BLACHE et Stephane RAUZY (LPL, Aix-en-Provence)
========================================================================

Pour le traitement automatique des langues, la robustesse d'une
application se mesure à sa capacité à résister aux erreurs. Celles-ci
peuvent provenir soit d'une défaillance du système, soit d'une
difficulté linguistique inhérente au texte ou à l'énoncé traité. Dans un
cas comme dans l'autre, un système robuste devra être capable de
poursuivre son traitement malgré l'erreur.

La question de la robustesse se pose de façon particulière dans le
domaine de la recherche d'information [LEW 96, STR 94]. En effet, bon
nombre de techniques de RI n'exploitent finalement que peu
d'informations linguistiques et ne nécessitent pas véritablement
d'analyse linguistique détaillée. On remarque cependant que les progrès
réalisés dans le domaine du traitement sémantique commencent à utiliser
des analyses dépassant le niveau lexical, nécessitant des techniques
plus sophistiquées permettant d'effectuer des traitements prenant en
compte les unités syntaxiques ainsi que les relations les reliant. La RI
est donc également concernée par cette évolution. De plus, ce domaine
pose des problèmes spécifiques pouvant nécessiter des analyses plus
fines (compréhension de questions, requêtes multimodales, comparaison de
textes, etc.). Nous sommes finalement aujourd'hui confrontés, en RI
comme dans les autres domaines du traitement des langues, à cette
question de la robustesse, nécessitant le traitement de données
disparates, non canoniques, partielles etc.

Nous proposons dans ce chapitre d'aborder cette question en commençant
par décrire plus précisément les situations conduisant les systèmes à
des erreurs. L'étude des besoins spécifiques à la RI nous permettra
d'identifier plus clairement les points à traiter pour proposer un
traitement robuste permettant une analyse linguistique fine. Nous nous
concentrerons sur la question de l'analyse syntaxique, qui constitue une
étape essentielle dans les traitements en profondeur. Ce domaine a
longtemps été laissé de côté dans les systèmes, en partie à cause de son
coût, mais également de son manque de robustesse. Nous présenterons ici
quelques techniques permettant de répondre à ces besoins. Nous décrirons
en particulier une approche basée sur les contraintes offrant l'avantage
d'être à la fois robuste, cohérente d'un point de vue formel, et capable
de répondre aux évolutions futures notamment en termes de traitement de
la multimodalité.

========================================================================
Chapitre 3 : La recherche d'information face à des corpus et requêtes
bruités
Laurianne SITBON (QUT - Brisbane, Australie)
========================================================================

Ce chapitre s'intéresse à la fois aux approches d'évaluation de systèmes
de recherche d'information traitant de corpus ou de requêtes bruitées et
aux techniques proposées dans la littérature pour intégrer le bruit au
sein des modèles d'accès à l'information. En particulier, la transition
entre les systèmes de transcription (de l'audio vers le texte, du
manuscrit vers le texte, du texte erroné vers le texte) et le cœur des
systèmes de recherche d'information doit s'appuyer sur une
interprétation probabiliste des deux systèmes interconnectés. Des
approches adaptées à l'évaluation et à la modélisation robuste des
systèmes de recherche d'information complexes tels que les systèmes de
questions réponses y sont présentées.

Le volume et la variété de l'information accessible est en constante
augmentation. La quantité d'information disponible encourage le
développement d'approches de plus en plus complexes et ciblées pour la
recherche d'information, tels que les systèmes de questions réponses
(chapitre 4), les systèmes de recommandation (chapitre 6) ou encore les
systèmes basés sur la classification. La variété des types d'information
fait diminuer la certitude avec laquelle les données disponibles peuvent
être interprétées par les systèmes, en s'éloignant des formats textuels
standardisés. Cependant la plupart des systèmes se ramènent à du texte
normalisé avant de procéder à l'analyse ou l'indexation des données ou
des requêtes. Lorsque les performances des systèmes évalués en
conditions standardisées chutent en conditions réelles, la part du bruit
dans la baisse de la qualité des résultats n'est pas toujours clairement
établie. En particulier, une question majeure est de connaître quelles
sont les conséquences du bruit dans les corpus ou dans les requêtes sur
les systèmes de recherche d'information. Dans ce cha- pitre, nous nous
proposons d'examiner les évaluations menées ainsi que les solutions
proposées pour des systèmes de recherche d'information ad hoc avant de
proposer des méthodologies d'évaluation et de modélisation adaptées pour
les systèmes d'information complexes. Les systèmes de questions réponses
seront pris à titre d'exemple pour le traitement de requêtes non
standards.

Après une introduction présentant la nature du bruit rencontré par les
systèmes de recherche d'information modernes, diverses analyses de
l'impact du bruit sur l'efficacité des systèmes sont présentées dans la
seconde section. Dans la troisième section, une approche modulaire pour
l'analyse de l'impact de requêtes bruitées sur un système de questions
réponses est proposée. La quatrième section présente les différentes
approches proposées dans la littérature pour la prise en compte de
corrections probabilistes au bruit. La dernière section introduit un
système de correction pour des requêtes bruitées ainsi qu'une approche
probabiliste pour des systèmes de recherche d'information complexes tels
que les systèmes de questions réponses. Une nouvelle approche posant les
conditions de l'évaluation des systèmes de transcription pour une
interprétation incertaine est finalement proposée.

========================================================================
Chapitre 4 : Questions-réponses sur des documents audio
Olivier GALIBERT, Sophie ROSSET et Lori LAMEL (LIMSI, Paris Orsay)
========================================================================

L'objectif de ce chapitre est de dresser un état des lieux concernant la
problématique de la recherche d'information précise dans des documents
audio.

De plus en plus de documents et de données sont orales et
disponibles. Qu'il s'agisse de journaux radio-télédiffusés,
d'enregistrements de séminaires ou de réunions, de podcasts, ils sont
une source d'information importante. Permettre la recherche
d'information dans ce type de données parait de plus en plus
nécessaire. Dans la famille des outils d'aide à l'accès à l'information,
il y a les systèmes de questions-réponses. Dans ce cadre, depuis
quelques années (2007), des travaux sont réalisés pour permettre une
recherche efficace sur ce type de données.  Les systèmes de
questions-réponses peuvent être vus comme une extension des systèmes de
recherche d'information qui permet à un utilisateur d'effectuer une
recherche d'information à partir de mots clefs. En retour, il obtient
une liste de documents, ou de pointeurs vers des documents, qu'il doit
consulter pour trouver l'information précise qu'il recherche. Les
systèmes de questions-réponses ont eux pour objectif de permettre à un
utilisateur de poser sa question en langue, à l'écrit ou à l'oral, de
manière précise et d'obtenir en retour une réponse précise,
éventuellement accompagnée d'un document ou d'un extrait de document qui
justifie ou accompagne la réponse. Cela suppose que les systèmes de
questions-réponses analysent la question, en comprennent le sens,
analysent les documents et en extraient la réponse appropriée.

========================================================================
Chapitre 5 : Recherche d'information et modélisation usagers
Guillaume CABANAC, Max CHEVALIER, Christine JULIEN, Gilles HUBERT,
Chantal SOULE-DUPUY (IRIT, Toulouse) 
& Céline CLAVEL (LIMSI, Paris Orsay)
& Alexandra CIACCIA (PPCC, Paris Nanterre)
& André TRICOT (CLLE, Toulouse)
========================================================================

La genèse de ce chapitre fait suite à une réflexion sur la place de
l'usager dans le développement de systèmes d'information informatisés
menée de façon conjointe par des membres de deux communautés pouvant
apporter des éclairages spécifiques et complémentaires (informatique et
ergonomie cognitive). À la base, pour tous, un usager est une personne
qui, dans un contexte donné (métier, personnel...) a besoin (ou doit se
servir) d'un système informatisé (un logiciel quelconque, ou un système
de recherche d'information en l'occurrence ici) pour réaliser une tâche
avec un objectif spécifique. Concevoir un tel système revient à répondre
au moins aux questions de base suivantes : Qui est l'usager ? Où se
trouve-t-il ? Que veut-il faire ou que cherche-t-il ? Comment et
pourquoi ? Cependant, pour répondre à ces questions et pour caractériser
l'usager, chacune de ces deux communautés appréhende l'usager
différemment.

Ce chapitre correspond à une synthèse de l'état de cette réflexion sur
la modélisation usager, dans le cadre d'une démarche de recherche
d'information (RI). Cette réflexion a été menée conjointement par des
membres des deux communautés. Ce chapitre propose des recommandations
générales relatives à la prise en compte des usagers de systèmes de
recherche d'information (SRI). Dans le même temps, il vise à fournir des
connaissances générales utiles à l'ergonomie, c'est-à-dire des
connaissances utiles pour évaluer les SRI d'un point de vue cognitif
pour les améliorer, voire pour améliorer le processus de conception de
ces outils.

Afin d'illustrer la prise en compte des usagers dans les SRI, la section
2 traite des approches classiques de modélisation de l'usager
développées en informatique (et de la conception de SRI), mais également
des applications de ces modèles. La section 3 présente les résultats des
études menées en ergonomie cognitive sur l'influence des
caractéristiques de la tâche, de l'outil et de l'usager sur
l'utilisation d'un SRI. Comme synthèse des sections 2 et 3, la section 4
discute de la complémentarité des deux approches et des différences de
point de vue. Elle dresse un bilan des limites et des enjeux de la prise
en compte de l'usager dans les processus de RI en se basant sur les
observations tirées des différents points de vue (de l'informatique et
des sciences cognitives).

========================================================================
Chapitre 6 : Recherche d'information collaborative
Nathalie DENOS (LIG, Grenoble)
========================================================================

La recherche d'information présente une dimension sociale très forte. On
envoie à un collègue une référence intéressante ; on choisit de regarder
d'abord la vidéo la plus souvent téléchargée ; devant un besoin
d'information dans un domaine que l'on connait mal, on appelle à l'aide
une personne compétente pour formuler la requête ; on se documente à
plusieurs sur un thème afin de préparer un exposé ; on se réfère aux
recommandations d'un site marchand pour trouver des idées de livres à
acheter. Ce sont autant de manifestations de la nature sociale de la
recherche d'information.

Ce chapitre présente un tour d'horizon des avancées dans le domaine de
la recherche d'information collaborative sous toutes ses formes.

========================================================================
Chapitre 7 : Difficultés de lecture, dyslexies et recherche
d'information
Patrice BELLOT (LSIS, Marseille)
========================================================================

S'il existe de nombreux travaux autour de la prise en compte du contexte
en recherche d'information (voir chapitre 1) et de leur personnalisation
(voir chapitre 5), de grandes lacunes concernent l'adaptation à des
utilisateurs aux capacités de lecture limitées. Il peut s'agir de
personnes atteintes de pathologies langagières (par exemple une dyslexie
rendant la lecture lente et complexe) mais aussi de personnes ne
maîtrisant pas suffisamment la langue d'un document en consultation ou
face à un contenu dont l'expertise nécessaire à sa compréhension est
trop élevée. La personnalisation de la recherche d'information en
parallèle de la prise en compte des performances de lecture
individuelles est l'une des problématiques majeures d'une société où
l'accès à l'information passe de plus en plus par l'Internet, sans
médiation humaine susceptible d'atténuer les différences entre les
individus.

Dans ce chapitre, nous allons tout d'abord nous intéresser aux modèles
cognitifs de la lecture de manière à relever l'ensemble des critères qui
pourraient permettre d'estimer au mieux la notion de
lisibilité. Ensuite, nous ferons référence aux principaux travaux qui
ont abordé le problème de l'estimation automatique de la lisibilité d'un
texte et nous proposerons une manière d'exploiter concrètement la
lisibilité au sein d'un système de recherche d'information. Puis nous
définirons la, ou plutôt les dyslexies comme sujet d'étude. En effet,
s'il existe un continuum évident depuis la personne analphabète ou
illettrée jusqu'au lecteur expert qui peut être reflété par les nombreux
tests de lecture disponibles, nous avons choisi dans ce chapitre de nous
concentrer sur les dyslexies. Elles touchent significativement toutes
les franges de la population et correspondent à un handicap pour lequel
il n'est pas nécessaire de concevoir de dispositifs de remédiation trop
important ni invasif. Les propositions des premières sections du
chapitre serviront de base à la définition d'une mesure de lisibilité
spécifique et qui ouvre des perspectives intéressantes pour une
adaptation de la recherche d'information.

========================================================================
Chapitre 8 : Navigation dans les documents audio par le résumé
automatique
Benoit FAVRE (LIF, Marseille)
========================================================================

Avec la facilité d'enregistrer et de stocker des données audio, il
devient urgent de pouvoir manipuler ces données avec la même facilité
que pour des données textuelles. L'avènement des baladeurs numériques,
par exemple, a fait émerger l'écoute d'émissions de radio-amateurs
(podcasts), et de livres lus, disponibles à la demande sur
Internet. Même si ces documents sont souvent consommés comme des
émissions de radio, leur archivage est généralisé et il n'existe pas de
solution pour les retrouver par leur contenu. Seules des métadonnées
créées par leurs auteurs permettent d'y accéder.

Dans de nombreux domaines, des conversations sont enregistrées et
archivées. Les services client par téléphone, par exemple, étudient a
posteriori le contenu des conversations entre agents et usagés pour
améliorer leur services. Dans les domaines légaux et financiers, de
nombreuses conversations sont enregistrées pour assurer une traçabilité
des décisions. Toute réunion de travail peut être potentiellement
enregistrée pour permettre aux participants de retrouver une information
orale, ou à d'autres de se tenir au courant de l'avancement des sujets
discutés. Bien que l'enregistrement et l'archivage de documents audio
soient très développés, il n'existe que peu de moyens de structurer,
indexer et retrouver l'information qu'ils contiennent.

La navigation dans les documents audio est un problème omniprésent dû à
la nature éphémère du son. En effet, la lecture du son est continue dans
le temps et alors que l'on peut identifier un objet en y jetant un coup
d'œil, il faut écouter un son dans son intégralité pour l'identifier. Il
semble plus difficile de localiser des événements dans le temps que
d'utiliser le retour continu de la vision pour localiser des objets dans
l'espace. Il en résulte une difficulté à développer des interfaces
efficaces pour accéder au contenu de documents audio.

Dans ce chapitre, nous allons tout d'abord lister l'état de l'art de la
navigation et du résumé dans les documents audio, puis nous détaillerons
une expérience prouvant l'utilité du résumé de parole. Deux applications
seront alors explicitées pour illustrer une meilleure capture du besoin
utilisateur à l'aide de mots-clés et une navigation dans des documents
s'étalant sur une grande durée temporelle.

========================================================================
Chapitre 9 : Interaction
Mountaz HASCOET (LIRMM, Montpellier)
========================================================================

L'exploration rapide d'ensembles d'informations inconnues, avec la mise
en évidence de relations, de structures, de similarités, de répétitions
ou de différences au sein de ces informations peut-être abordée par
différents modèles d'interaction. L'interaction rend possible
l'exploitation réelle de vues d'ensembles préalablement calculées car
l'être humain est particulièrement habile à extraire des informations
d'un environnement s'il peut agir dessus, contrairement à un
environnement qu'il ne pourrait qu'observer de manière passive. Selon
l'approche écologique de la perception due au psychologue Gibson [GIB
79], la perception est indissociable de l'action : il faut agir pour
percevoir et il faut percevoir pour agir. On parle de couplage (ou
boucle) action-perception. De plus, la perception de notre environnement
consiste à extraire des flux perçus (comme le flux visuel) des
invariants. Par exemple, lorsque l'on se déplace, la direction du
déplacement est donnée par le seul point immobile dans le flux
visuel. Grâce à l'interaction sur les données, l'utilisateur peut agir
sur ce qu'il perçoit et, par l'extraction d'invariants, mieux comprendre
la nature des données ou de leur processus de représentation.

Nous commencerons par un rapide survol de l'analyse de l'interaction
dans le domaine lié à la recherche et à l'exploitation d'informations et
nous poursuivrons par la présentation des styles d'interaction mis en
œuvre en présentant les approches des plus classiques aux plus
novatrices : interaction à facettes, filtrage dynamique, brossage,
interfaces zoomables, interfaces déformables et enfin interaction
distribuée.

========================================================================
Chapitre 10 : Prédiction de mots et saisie de requêtes sur interfaces
limitées : dispositifs mobiles et aide au handicap
Jean-Yves ANTOINE (LI, Tours)
========================================================================

La révolution Internet est juste derrière nous qu'une nouvelle ère se
profile avec autant de fulgurance : celle de l'informatique mobile et
ubiquitaire. A l'opposé de l'informatique de bureau ou à domicile,
l'informatique ubiquitaire (ou ambiante) met en jeu de multiples
systèmes à tout moment et dans n'importe quel lieu de votre vie
quotidienne. La recherche d'information est directement concernée par
cette évolution. Un des usages les plus répandus des téléphones mobiles
intelligents (au premier titre desquels l'IPhone) est en effet la
recherche d'une information ou d'un service sur la Toile. Si cette
recherche est initiée par une requête à base de mots-clés ou d'un énoncé
en langue naturelle, on se retrouve dans une problématique plus large :
la saisie de texte sur interface limitée. On entend par là que
l'utilisateur ne dispose pas d'un clavier standard du fait des
dimensions réduites du dispositif utilisé : il peut s'agir par exemple
d'un clavier de téléphone à nombre de touches réduites, ou d'un clavier
virtuel affiché sur un écran tactile. Dans tous les cas, la vitesse de
composition des messages est ralentie par le caractère limité du
dispositif d'entrée. On observe également souvent une augmentation des
erreurs de saisie. L'ingénierie des langues peut proposer des outils à
même de compenser ces insuffisances. C'est en particulier le cas de la
prédiction linguistique, qui fait l'objet de ce chapitre : si le système
est capable de prédire correctement les prochaines lettres ou mots que
l'utilisateur souhaite saisir, la sélection des hypothèses
correspondantes va accélérer la composition des messages et éviter
certaines erreurs.

Dans un premier temps, nous allons situer la problématique de l'aide à
la saisie de message en décrivant les différents dispositifs d'entrée
qui peuvent être utilisés dans ces usages mobiles. Cette étude nous
permettra de saisir l'importance de la prédiction linguistique pour
l'aide à la composition de message. Nous présenterons ensuite en détail
différentes modèles de prédiction, en insistant plus particulièrement
sur les techniques les plus avancées en matière d'adaptation
contextuelle de la prédiction. Notre propos s'appuiera sur des résultats
d'évaluation expérimentale afin de situer l'intérêt de chaque technique
étudiée.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list