Habilitation: Juan Manuel Torres-Moreno, Du textuel au numerique : apprentissage et classification automatiques

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Fri Dec 7 16:46:44 UTC 2007


Date: Fri, 07 Dec 2007 16:48:08 +0100
From: Juan Manuel Torres Moreno <juan-manuel.torres at univ-avignon.fr>
Message-ID: <47596B38.3080404 at univ-avignon.fr>
X-url: http://www.crir.univ-avignon.fr/doc-multicast/vlc-sherpaa.html#lect



J'ai le plaisir de vous annoncer la soutenance de mon Habilitation à
Diriger des Recherches, intitulée :
"Du textuel au numérique : apprentissage et classification
automatiques"

Elle aura lieu le mercredi 12 décembre 2007 à 14h00, dans
l'amphithéâtre Blaise Pascal de l'IUP Informatique de l'Université
d'Avignon.

La soutenance sera diffusée en direct (multicast). L'adresse est
233.6.180.24 Port = 12345 - sap UAPV-HDR-TORRES (plus de détails sur
la diffusion multicast sur :
http://www.crir.univ-avignon.fr/doc-multicast/vlc-sherpaa.html#lect )

===================================================
Titre : Du textuel au numérique : apprentissage et classification
automatiques

Jury :
- Rapporteurs :
M. Frédéric Alexandre - Directeur de Recherches LORIA/INRIA Nancy,France
M. Joan Cabestany - Professeur à l'Universitat Politècnica de Catalunya, 
España
M. Jean-Paul Haton - Professeur à l'Université Henri Poincaré, Nancy, 
France
M. Guy Lapalme - Professeur à l'Université de Montréal, Canada

- Examinateurs :
Mme. Mirta Gordon - Directeur de Recherches, IMAG/CNRS, Grenoble, France
Mme. Violaine Prince - LIRMM, Professeur à l'Université de Montpellier 
II, France
M. Jean Guy Meunier - LANCI, Professeur à l'Université du Québec à Montréal
M. Eitan Altman - Directeur de Recherches, INRIA Sophia Antipolis, France
M. Marc El-Bèze - LIA, Professeur à l'Université d'Avignon

Résumé :

La présentation en vue de l'obtention de l'Habilitation à Diriger des
Recherches est une synthèse de mes travaux de recherche menés depuis
la fin de ma thèse de doctorat (réseaux de neurones incrémentaux,
soutenue fin 1997). Elle couvre l'année de stage postdoctoral au LANCI
au Canada, les 3 années comme professeur à l'UQAC et à l'Ecole
Polytechnique (Montréal, Canada) ainsi que les 3 années consécutives à
mon recrutement au sein de l'Université d'Avignon, puis comme
responsable de la Thématique TALNE du LIA.
Mes travaux sont à l'intersection de trois domaines: l'apprentissage
automatique, le Traitement Automatique de la Langue Naturelle écrite
(TAL) et les méthodes probabilistes. Les modèles utilisés sont pour la
plupart des modèles d'apprentissage automatique qui essaient de
capturer les connaissances cachées dans les corpus documentaires.
Cela n'est pas incompatible avec ma formation doctorale, car nous
avons posé par exemple, un problème de classification d'opinions comme
un problème de classification où tout le cadre formel de
l'apprentissage et généralisation par des réseaux de neurones ou SVM
peut être appliqué avec succès.
L'hypothèse de base de mes travaux en TAL est qu'il n'y a rien de plus
concret que les textes : c'est à dire le contenu des corpora dont on
dispose.
Ainsi, mes travaux se sont concentrés sur la classification et la
catégorisation de textes, le résumé automatique de documents, la
compression automatique de phrases et la génération automatique de
texte, toujours appliqués sur des grandes masses de texte. Ces
méthodes ont été validées en utilisant une approche pragmatique : les
campagnes d'évaluation nationales et internationales. J'ai participé à
plusieurs campagnes d'évaluation (DEFT en détection d'opinions et
identification d'auteur, DUC en résumé orienté par une thématique) et
dans ces campagnes, les performances des méthodes numériques
surpassent ou égalent celles des méthodes symboliques sans utiliser de
lourdes ressources linguistiques.
Pendant ces années de recherche, plusieurs fois je me suis posé la
question de savoir si la linguistique pouvait encore jouer un rôle
dans le traitement de la langue naturelle.

Peut on aller vers le tout numérique ?

Au-delà des promesses théoriques d'indépendance, l'approche numérique
est fortement dépendante des corpora annotés (souvent à la main).  Les
corpora sont parfois insuffisants face aux tâches complexes et alors
les unités, telles que les n-grammes, deviennent des évènements très
rares. On peut, certes, pallier leur manque par des algorithmes de
lissage (Good-Turing, Backoff, Katz) mais ces derniers induisent
parfois des biais non évidents.
Enfin, le modèle de sac de mots est une simplification exagérée qui
néglige la structure de la phrase, ce qui implique une perte
importante d'information.
Cette approche a donc ses limites. Les approches linguistiques et les
méthodes numériques peuvent-elles jouer un partenariat dans les tâches
du TAL?
La réponse positive a cette question ouvre une voie intéressante aux
recherches que je compte entreprendre : la conception de systèmes TAL
hybrides, notamment pour la génération automatique de texte et pour la
compression de phrases. On peut difficilement envisager de dépasser le
plafond auquel les méthodes numériques se heurtent sans faire appel à
la finesse des approches linguistiques, mais sans négliger pour autant
de les valider et de les tester sur des corpora. Les méthodes
d'apprentissage son capables de traiter des grandes masses de
documents à un certain niveau de granularité mais l'analyse
linguistique est plus fine et cela a ses avantages. J'ai montré à
travers de mes travaux, en particulier ceux consacrés au résumé
automatique et au raffinement de requêtes, qu'un système hybride
combinant des approches numériques à la base et une analyse
linguistique au sommet, donne de meilleures performances que les
systèmes pris de façon isolé.

Enfin cette HDR se conclut par la présentation d'une approche
lointaine au TAL et aux méthodes numériques : celle de la Physique
statistique. A partir de notions intuitives de phénomènes de
magnétisation, nous avons utilisé le formalisme des systèmes de spin
et les réseaux de neurones pour introduire le concept d'énergie
textuelle d'un document. Cette nouvelle mesure de similarité qui peut
être interprété comme une espèce de TF.IDF des phrases, a été
appliquée avec succès aux tâches de Résumé générique et guidé par une
thématique, ainsi qu'à celui de la segmentation thématique de
documents. D'autres travaux en cours devraient confirmer d'autres
applications de cette nouvelle notion de similarité.

================================================

-- 
Juan Manuel TORRES-MORENO
Responsable de la thématique TALNE LIA/Université d'Avignon  
Laboratoire Informatique d'Avignon 
BP 1228, 84911 Avignon Cedex 9, FRANCE
Tél: (+33) 04 90 84 35 68
fax: (+33) 04 90 84 35 01


-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list