These: Christian Mauceri, Indexation et isotopie

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Tue Dec 11 16:29:32 UTC 2007


Date: Tue, 11 Dec 2007 12:36:23 +0100
From: Christian Mauceri <mauceri at fr.ibm.com>
Message-ID: <OF2814E13A.52E49079-ONC12573AE.003E3E65-C12573AE.003FC1BF at fr.ibm.com>

Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée «
Indexation et isotopie : vers une analyse interprétative des données
textuelles » ainsi qu'au pot qui suivra.

La soutenance se déroulera le vendredi 14 décembre 2007 à 10H dans la
salle Ile de France de la Tour Descartes (Tour IBM) 2, avenue
Gambetta, Paris La Défense. Essayez de m'envoyez un mail de
confirmation 2 jours à l'avance de façon à ce que je puisse faire le
nécessaire auprès du service de sécurité d'IBM pour que vos badges
soient disponibles, il vous faudra aussi vous munir d'une pièce
d'identité.

Composition du Jury
- Rapporteurs  :   François RASTIER, Directeur de recherche, CNRS
                   Monique SLODZIAN, Professeur, INALCO
- Examinateurs :  Diem HO, IBM Academy of Technology, IBM Europe
                  Ioannis KANELLOS, Professeur, ENST Bretagne
                  Philippe LENCA, Maître de conférence, ENST Bretagne
                  Pierre-François MARTEAU, Directeur du VALORIA,
                  Université de Bretagne Sud


Résumé :

L'immense succès des moteurs de recherche sur le Web est loin
d'épuiser la problématique de l'indexation sujet surtout lorsque les
textes à indexer ne sont pas déjà mis en relation par des liens
hypertextuels. La nature intrinsèquement interprétative de
l'indexation sujet se prête mal, a priori, à l'automatisation. Nous
montrerons qu'une approche interprétative de la classification
automatique s'appuyant sur les acquis théoriques de la sémantique
interprétative ouvre des voies nouvelles à l'indexation sujet en
particulier et, en général, à l'herméneutique matérielle dont
l'ambition est de réunifier l'herméneutique et la philologie.

Nous proposons dans un premier temps une pratique renouvelée de la
classification automatique basée d'une part sur un nouvel algorithme
de classification utilisant la densité de fonctions noyau et d'autre
part sur une méthode d'utilisation de cet algorithme qui se fonde sur
le cercle herméneutique de la détermination du local par le global et
du global par le local.

Dans un second temps nous proposons deux améliorations de la technique
d'indexation par sémantique latente. La première utilise le filtrage
d'une matrice de cooccurrences par le test exact de Fisher appliqué à
des tableaux de contingence à vaste marge. Ce filtrage est rendu
aujourd'hui possible par l'algorithme de Lanczos approximant
efficacement la fonction Gamma. La seconde utilise une approximation
d'analyse en composantes principales permettant de représenter les
facteurs principaux d'une matrice de cooccurrences par les mots
caractéristiques du graphe de cooccurrences.  Nous montrerons enfin
qu'il est dès lors possible de soumettre à l'appréciation d'un
interprète des classes de passages de textes décrits par des facteurs
lui permettant de mettre rapidement en évidence des molécules sémiques
caractéristiques d'un corpus comme de rejeter des regroupements
artificiels. Les facteurs qualifiés au sein de ces molécules sémiques
rendent compte de formes sémantiques se détachant sur un fond
isotopique offrant par là même une indexation rapide, régulière et de
qualité de vastes corpus.

Cordialement

Christian Mauceri
 mauceri at fr.ibm.com


-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list