[ln] Seminaire: CLI, M. Rajman et M. Amar, Recherche documentaire, 15 avril 2005 (Rappel)
Thierry Hamon
thierry.hamon at LIPN.UNIV-PARIS13.FR
Tue Apr 12 07:47:20 UTC 2005
Date: 12 Apr 2005 09:42:05 +0200
From: Thierry Hamon <thierry.hamon at lipn.univ-paris13.fr>
Message-ID: <sjll7o8mr6.fsf at belfast.lipn.univ-paris13.fr>
X-url: http://www-lipn.univ-paris13.fr/
Nous avons le plaisir d'annoncer la tenue du onzième séminaire
'Connaissances, Langue et Informatique'.
Laboratoire d'Informatique de Paris-Nord
Institut Galilée
Les après-midis 'Connaissances, Langue et Informatique'
Séminaires en duo
Martin Rajman * - Muriel Amar **
* Ecole Polytechnique Fédérale de Lausanne, Suisse
** Bibliothèque publique d'information, Centre G. Pompidou, Paris
Les différentes techniques de représentation du contenu des
documents pour la recherche documentaire et autres applications
Vendredi 15 avril 2005, de 14h à 17h.
à l'Université Paris-Nord
Amphi Euler, LIPN, Institut Galilée
Campus de Villetaneuse
L'équipe Représentation de Connaissances et Langage Naturel du
Laboratoire d'Informatique de Paris-Nord propose des séminaires
comportant deux conférences sur une demi journée. Il s'agit de
confronter deux visions différentes sur un même sujet. L'objectif est
que ces présentations donnent lieu à un dialogue non seulement entre
les orateurs, mais également avec l'assistance. Le séminaire est
destiné aussi bien aux chercheurs confirmés qu'aux étudiants
s'initiant au domaine abordé.
Le thème du prochain séminaire sera la présentation des "différentes
techniques de representation du contenu des documents pour la
recherche documentaire et autres applications"
Martin Rajman est le directeur du Center for Global Computing de
l'Ecole Polytechnique Fédérale de Lausanne (EPFL) et chercheur au
Laboratoire d'Intelligence Artificielle de cette même institution. Il
est titulaire du Diplôme de l'Ecole Nationale Supérieure des
Télécommunications de Paris (ENST), d'un Master's of Science de la
New Mexico Universitiy (Las Cruces, USA) et d'une thèse en
informatique linguistique de l'ENST. Avant de rejoindre l'EPFL, il a
été Chargé d'Enseignement et de Recherche à l'ENST, responsable de
l'équipe Traitement du Langage Naturel.
Ses recherches portent sur la sémantique vectorielle, la syntaxe
probabiliste et les techniques de gestion du dialogue. Il s'intéresse
simultanément au développement théorique des ces notions et à leur
mise en oeuvre dans des applications à grande échelle.
Titre de l'exposé : représentations vectorielles du contenu des
documents pour la recherche documentaire
Résumé : L'objectif de cette présentation est de dresser un
panorama des techniques et modèles utilisés dans le domaine de la
représentation vectorielle des documents, en particulier pour des
applications telles que la recherche documentaire.
L'accent sera mis sur :
- l'identification et la caractérisation des différentes étapes
mises en oeuvre dans le processus de représentation du contenu
des documents (pré-traitements linguistiques, pondération des
termes d'indexation, définition d'une mesure de proximité
thématique dans l'espace de représentation, ranking des
documents);
- la justification des différentes formules habituellement
utilisées pour les pondérations (par exemple TF.IDF) et les
mesures de similarité (par exemple la similarité cosinus);
- la discussion de la pertinence des différents choix
axiomatiques faits a propos des modèles de représentations
(par exemple le fait que les dimensions de l'espace de
représention sont souvent les termes d'index) et des
similarités utilisées (par exemple le fait que les termes
d'index sont souvent considérés comme orthogonaux).
L'ensemble des notions présentées seront illustrées par des
exemples concrets tirés du domaine de le recherche documentaire.
Ses publications les plus pertinentes pour le séminaire :
- Besançon R., Rajman M, Chappelier J.-C., "Représentation vectorielle
de connaissances sémantiques pour la recherche d'information", in
"Assistance intelligente à la recherche d'informations", Gaussier E,
Stéfanini M.-H. (Eds), Lavoisier, Hermes Science Publications, Paris,
2003.
- Besançon,Romaric, Rajman and Martin. Filtrages syntaxiques de
co-occurrences pour la représentation vectorielle de documents. Actes
de la 9ème conférence annuelle sur le Traitement Automatique des
Langues Naturelles (TALN'2002), Nancy, Juin, 2002.
- M. Rajman, R. Besançon, J.-C. Chappelier, "Le modèle DSIR : une
approche à base de sémantique distributionnelle pour la recherche
documentaire" in revue Traitement Automatique des Langues (TAL),
41(2), Paris, pp. 549-578, 2001.
- Besançon R., Rozenknop A., Chappelier J.-C., Rajman M. "Intégration
probabiliste de sens dans la représentation de textes", Actes de la
8ème conférence sur le Traitement Automatique des Langues Naturelles
(TALN'2001), Vol 1, pp. 83-91, juillet, 2001.
- Besançon R., Chappelier J.-C., Rajman M., Rozenknop A. "Improving
Text representations through Probabilistic Integration of Synonymy
Relations", Proceedings of the Xth International Symposium on Applied
Stochastic Models and Data Analysis (ASMDA'2001), Vol 1, pp. 200-205,
June, 2001.
- L. Lebart and M. Rajman. Computing Similarity. In Handbook of
Natural Language Processing. R. Dale, H. Moisl, H. Somers (eds),
Marcel Dekker Inc., New York, 2000, pp. 477-505
Muriel Amar est Maître de conférences en Sciences de l'information et
de la communication. Elle a d'abord orienté ses recherches sur la
théorie de l'indexation. Actuellement en détachement au service Etudes
et recherche de la Bibliothèque publique d'information (Centre
G. Pompidou, Paris), elle s'intéresse à des études d'usage d'Internet
en bibliothèque et à l'évaluation d'outils d'exploration et de
représentation du web.
Titre de l'exposé : Quelques éléments pour une (re)définition de
l'indexation
Résumé :
La première partie de cet exposé s'attache à fonder l'opposition
entre indexation lexicale et indexation discursive en reprenant
l'opposition linguistique entre lexique et discours, du double point
de vue de la référence et de la thématisation.
Dans la deuxième partie, l'indexation lexicale est évaluée en fonction du type
de contexte documentaire dans lequel elle est pratiquée. L'indexation lexicale est
pertinente dans le cas de contextes documentaires doublement médiatisés : d'abord par
le professionnel de l'information, dont la connaissance des langages documentaires
permet la construction des objets d'information recherchés ; ensuite par une référence
bibliographique dont la formule d'indexation indique la liste des thèmes retenus dans
un document. Dès lors que l'utilisateur a directement accès au « texte intégral » des
documents, les deux « médiateurs », humain et textuel, disparaissent et l'indexation
lexicale n'est plus adéquate.
La troisième partie de cet exposé est consacrée à la définition d'un
type d'indexation qui permet un accès direct au « texte intégral » des
documents, en s'attachant à résoudre le double problème précédemment
identifié : le travail d'indexation doit permettre une construction
référentielle directe et une thématisation non contrainte des
documents.
Ce type d'indexation, que l'on nomme « indexation discursive »,
présente deux caractéristiques :
- elle est une opération de « mise en contexte » des textes ;
- elle repose sur l'extraction automatisée de synapsies [David 1993] :
ces unités présentent des caractéristiques linguistiques leur
permettant de jouer le rôle de relais à travers textes.
Ses publications les plus pertinentes pour le séminaire :
2004 L'indexation aujourd'hui. Dossiers de l'ingénierie éducative,
n°49, décembre 2004, pp. 61--65
2003 Documentation et philosophie II. A propos de l'indexation
discursive Sous la direction de Benoît Hufschmitt, Jean-Pierre Cotten,
Marie-Madeleine Varet. Besançon : Annales littéraires de l'Université
de Franche-Comté : Presses universitaires franc-comtoises. 130p.
2000 Enjeux des collections numériques en bibliothèque. Les Cahiers du
numérique, n°6 consacré à la Publication en ligne sous la direction
de Peter Stockinger. Décembre 2000, p. 193-208.
2000 Les Fondements théoriques de l'indexation : une approche
linguistique. Préface de Michel Le Guern ; avant-propos de Martine
Poulain. Paris : ADBS Éditions (Sciences de l'information ; série
Recherches et documents). 355 p.
Des précisions sont disponibles sur http://www-lipn.univ-paris13.fr/,
rubrique "manifestations".
Accès : Voir rubrique 'comment venir' sur
http://www-lipn.univ-paris13.fr/
L'Institut Galilée correspond au bâtiment '2' sur le plan du campus.
Il est possible de se garer sur le parking P3 près du bâtiment '2',
pourvu d'être muni de cette annonce imprimée.
Merci de signaler votre venue auprès des organisateurs
Thierry.Hamon at lipn.univ-paris13.fr,
Francois.Levy at lipn.univ-paris13.fr.
-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version : http://www.biomath.jussieu.fr/LN/LN/
Archives : http://listserv.linguistlist.org/archives/ln.html
La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list