[ln] Seminaire: CLI, M. Rajman et M. Amar, Recherche documentaire, 15 avril 2005 (Rappel)

Tue Apr 12 07:47:20 UTC 2005

Date: 12 Apr 2005 09:42:05 +0200
From: Thierry Hamon <thierry.hamon at lipn.univ-paris13.fr>
Message-ID: <sjll7o8mr6.fsf at belfast.lipn.univ-paris13.fr>
X-url: http://www-lipn.univ-paris13.fr/

Nous avons le plaisir d'annoncer la tenue du onzième séminaire
'Connaissances, Langue et Informatique'.

               Laboratoire d'Informatique de Paris-Nord
                             Institut Galilée

        Les après-midis 'Connaissances, Langue et Informatique'
                             Séminaires en duo

            Martin Rajman *   -   Muriel Amar **

  * Ecole Polytechnique Fédérale de Lausanne, Suisse
 ** Bibliothèque publique d'information, Centre G. Pompidou, Paris

     Les différentes techniques de représentation du contenu des
   documents pour la recherche documentaire et autres applications

		Vendredi 15 avril 2005, de 14h à 17h.

		      à l'Université Paris-Nord
		     Amphi Euler, LIPN, Institut Galilée
			Campus de Villetaneuse

 L'équipe Représentation de Connaissances et Langage Naturel du
 Laboratoire d'Informatique de Paris-Nord propose des séminaires
 comportant deux conférences sur une demi journée. Il s'agit de
 confronter deux visions différentes sur un même sujet. L'objectif est
 que ces présentations donnent lieu à un dialogue non seulement entre
 les orateurs, mais également avec l'assistance.  Le séminaire est
 destiné aussi bien aux chercheurs confirmés qu'aux étudiants
 s'initiant au domaine abordé.

 Le thème du prochain séminaire sera la présentation des "différentes
 techniques de representation du contenu des documents pour la
 recherche documentaire et autres applications"

 Martin Rajman est le directeur du Center for Global Computing de
 l'Ecole Polytechnique Fédérale de Lausanne (EPFL) et chercheur au
 Laboratoire d'Intelligence Artificielle de cette même institution. Il
 est titulaire du Diplôme de l'Ecole Nationale Supérieure des
 Télécommunications de Paris (ENST), d'un Master's of Science de la
 New Mexico Universitiy (Las Cruces, USA) et d'une thèse en
 informatique linguistique de l'ENST. Avant de rejoindre l'EPFL, il a
 été Chargé d'Enseignement et de Recherche à l'ENST, responsable de
 l'équipe Traitement du Langage Naturel.
 Ses recherches portent sur la sémantique vectorielle, la syntaxe
 probabiliste et les techniques de gestion du dialogue. Il s'intéresse
 simultanément au développement théorique des ces notions et à leur
 mise en oeuvre dans des applications à grande échelle.

     Titre de l'exposé : représentations vectorielles du contenu des
     documents pour la recherche documentaire

     Résumé : L'objectif de cette présentation est de dresser un
     panorama des techniques et modèles utilisés dans le domaine de la
     représentation vectorielle des documents, en particulier pour des
     applications telles que la recherche documentaire.
     L'accent sera mis sur :
     - l'identification et la caractérisation des différentes étapes
	mises en oeuvre dans le processus de représentation du contenu
	des documents (pré-traitements linguistiques, pondération des
	termes d'indexation, définition d'une mesure de proximité
	thématique dans l'espace de représentation, ranking des
	documents);
     - la justification des différentes formules habituellement
	utilisées pour les pondérations (par exemple TF.IDF) et les
	mesures de similarité (par exemple la similarité cosinus);

     - la discussion de la pertinence des différents choix
	axiomatiques faits a propos des modèles de représentations
	(par exemple le fait que les dimensions de l'espace de
	représention sont souvent les termes d'index) et des
	similarités utilisées (par exemple le fait que les termes
	d'index sont souvent considérés comme orthogonaux).

     L'ensemble des notions présentées seront illustrées par des
exemples concrets tirés du domaine de le recherche documentaire.

     Ses publications les plus pertinentes pour le séminaire :

- Besançon R., Rajman M, Chappelier J.-C., "Représentation vectorielle
de connaissances sémantiques pour la recherche d'information", in
"Assistance intelligente à la recherche d'informations", Gaussier E,
Stéfanini M.-H. (Eds), Lavoisier, Hermes Science Publications, Paris,
2003.

- Besançon,Romaric, Rajman and Martin. Filtrages syntaxiques de
co-occurrences pour la représentation vectorielle de documents. Actes
de la 9ème conférence annuelle sur le Traitement Automatique des
Langues Naturelles (TALN'2002), Nancy, Juin, 2002.

- M. Rajman, R. Besançon, J.-C. Chappelier, "Le modèle DSIR : une
approche à base de sémantique distributionnelle pour la recherche
documentaire" in revue Traitement Automatique des Langues (TAL),
41(2), Paris, pp. 549-578, 2001.

- Besançon R., Rozenknop A., Chappelier J.-C., Rajman M. "Intégration
probabiliste de sens dans la représentation de textes", Actes de la
8ème conférence sur le Traitement Automatique des Langues Naturelles
(TALN'2001), Vol 1, pp. 83-91, juillet, 2001.

- Besançon R., Chappelier J.-C., Rajman M., Rozenknop A. "Improving
Text representations through Probabilistic Integration of Synonymy
Relations", Proceedings of the Xth International Symposium on Applied
Stochastic Models and Data Analysis (ASMDA'2001), Vol 1, pp. 200-205,
June, 2001.

- L. Lebart and M. Rajman. Computing Similarity. In Handbook of
Natural Language Processing. R. Dale, H. Moisl, H. Somers (eds),
Marcel Dekker Inc., New York, 2000, pp. 477-505

 Muriel Amar est Maître de conférences en Sciences de l'information et
de la communication.  Elle a d'abord orienté ses recherches sur la
théorie de l'indexation. Actuellement en détachement au service Etudes
et recherche de la Bibliothèque publique d'information (Centre
G. Pompidou, Paris), elle s'intéresse à des études d'usage d'Internet
en bibliothèque et à l'évaluation d'outils d'exploration et de
représentation du web.

     Titre de l'exposé : Quelques éléments pour une (re)définition de
     l'indexation

     Résumé :
     La première partie de cet exposé s'attache à fonder l'opposition
entre indexation lexicale et indexation discursive en reprenant
l'opposition linguistique entre lexique et discours, du double point
de vue de la référence et de la thématisation.

Dans la deuxième partie, l'indexation lexicale est évaluée en fonction du type
de contexte documentaire dans lequel elle est pratiquée. L'indexation lexicale est
pertinente dans le cas de contextes documentaires doublement médiatisés : d'abord par
le professionnel de l'information, dont la connaissance des langages documentaires
permet la construction des objets d'information recherchés ; ensuite par une référence
bibliographique dont la formule d'indexation indique la liste des thèmes retenus dans
un document. Dès lors que l'utilisateur a directement accès au « texte intégral » des
documents, les deux « médiateurs », humain et textuel, disparaissent et l'indexation
lexicale n'est plus adéquate.

La troisième partie de cet exposé est consacrée à la définition d'un
type d'indexation qui permet un accès direct au « texte intégral » des
documents, en s'attachant à résoudre le double problème précédemment
identifié : le travail d'indexation doit permettre une construction
référentielle directe et une thématisation non contrainte des
documents.

Ce type d'indexation, que l'on nomme « indexation discursive »,
présente deux caractéristiques :

- elle est une opération de « mise en contexte » des textes ;

- elle repose sur l'extraction automatisée de synapsies [David 1993] :
  ces unités présentent des caractéristiques linguistiques leur
  permettant de jouer le rôle de relais à travers textes.

Ses publications les plus pertinentes pour le séminaire :

2004 L'indexation aujourd'hui. Dossiers de l'ingénierie éducative,
n°49, décembre 2004, pp. 61--65

2003 Documentation et philosophie II. A propos de l'indexation
discursive Sous la direction de Benoît Hufschmitt, Jean-Pierre Cotten,
Marie-Madeleine Varet. Besançon : Annales littéraires de l'Université
de Franche-Comté : Presses universitaires franc-comtoises. 130p.

2000 Enjeux des collections numériques en bibliothèque. Les Cahiers du
numérique, n°6 consacré à la Publication en ligne sous la direction
de Peter Stockinger. Décembre 2000, p. 193-208.

2000 Les Fondements théoriques de l'indexation : une approche
linguistique. Préface de Michel Le Guern ; avant-propos de Martine
Poulain. Paris : ADBS Éditions (Sciences de l'information ; série
Recherches et documents). 355 p.

 Des précisions sont disponibles sur http://www-lipn.univ-paris13.fr/,
 rubrique "manifestations".

 Accès : Voir rubrique 'comment venir' sur
 http://www-lipn.univ-paris13.fr/

L'Institut Galilée correspond au bâtiment '2' sur le plan du campus.
Il est possible de se garer sur le parking P3 près du bâtiment '2',
pourvu d'être muni de cette annonce imprimée.

 Merci de signaler votre venue auprès des organisateurs
 Thierry.Hamon at lipn.univ-paris13.fr,
 Francois.Levy at lipn.univ-paris13.fr.

-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------