Habilitation: Mathieu Roche, Fouille de Textes

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Nov 25 14:27:21 UTC 2011


Date: Thu, 24 Nov 2011 17:56:07 +0100
From: Mathieu Roche <Mathieu.Roche at lirmm.fr>
Message-ID: <6227a1537a081f48548b991a77000dbd at lirmm.fr>
X-url: http://liste.cines.fr//ticket/53636346742010
X-url: http://liste.cines.fr//help/admin#moderate


 //////////////////////////////////
 //////////////////////////
 /////////////////////        Soutenance HDR
 ////////////////
 ///////////            Mathieu Roche
 ////////
 /////           Fouille de Textes :
 ///        De l'extraction des descripteurs linguistiques à leur 
 ///        induction
 ///
 //      le 09 décembre 2011 à 10h30
 //      LIRMM, salle des Séminaires, Montpellier
 //
 //////////////////////////////////
 
 RESUME :

 Les masses de données textuelles aujourd'hui disponibles engendrent un
 problème difficile lié à leur traitement automatique. Dans ce cadre,
 des méthodes de Fouille de Textes (FT) et de Traitement Automatique du
 Langage (TAL) peuvent, en partie, répondre à une telle problématique.
 Elles consistent à modéliser puis mettre en œuvre des méthodologies
 appliquées aux données textuelles afin d'en déterminer le sens et/ou
 découvrir des connaissances nouvelles. Dans ce processus, le
 descripteur linguistique constitue un élément pivot.

 Après une présentation des méthodes de traitement des descripteurs en
 eux-mêmes, ces derniers seront étudiés en contexte, c'est-à-dire en
 corpus. L'identification des descripteurs est souvent difficile à
 partir de corpus bruités et à faible contenu textuel sur lesquels nous
 concentrons nos efforts (par exemple, corpus issus du Web 2.0 ou du
 traitement OCR). Outre les mots considérés comme des descripteurs
 linguistiques pertinents en FT, nous nous sommes également intéressés à
 l'étude des syntagmes complexes à partir de corpus classiques puis
 d'une terminologie classique à partir de corpus complexes (par exemple,
 données logs ou corpus en français médiéval).

 Dans la suite, les syntagmes étudiés ne se situent plus à proprement
 parler dans les textes mais ils seront induits à partir des mots issus
 des corpus. Les méthodes proposées permettent de mettre en relief des
 syntagmes originaux tout à fait utiles pour l'identification d'Entités
 Nommées, le titrage automatique ou la construction de classes
 conceptuelles. Contrairement au raisonnement déductif, le raisonnement
 inductif est dit hypothétique. Dans ce cadre, l'utilisation de méthodes
 de validation automatique des relations induites par le biais
 d'approches de Fouille du Web se révèle déterminant.

 Les perspectives à ce travail se concentreront sur l'extraction de
 nouveaux descripteurs. Ces derniers seront associés à de nouvelles
 représentations sous forme d'entrepôts de données textuelles. Enfin,
 les travaux que nous souhaitons développer se focaliseront sur
 l’analyse des textes dans un contexte plus vaste lié au multimédia que
 le paradigme du Web 2.0 a mis en exergue ces dernières années.

 //////////////////////////////////
 //
 //   JURY :
 //
 //   Éric GAUSSIER, Professeur, Université de Grenoble [rapporteur]
 //   Guy LAPALME, Professeur, Université de Montreal, Canada
 //   [rapporteur]
 //   Stan MATWIN, Professeur, Université d'Otawa, Canada [rapporteur]
 //   Nathalie AUSSENAC-GILLES, Directrice de Recherche CNRS
 //   Patrick GALLINARI, Professeur, Université Paris 6
 //   Yves KODRATOFF, Directeur de Recherche (en retraite) CNRS
 //   Violaine PRINCE, Professeur, Université Montpellier 2
 //   Maguelonne TEISSEIRE, Directrice de Recherche Cemagref
 //
 //////////////////////////////////
 
 C'est avec grand plaisir que je vous inviterai au pot qui suivra cette
 soutenance...

 Mathieu

 Mathieu Roche
 LIRMM - UMR 5506                    web: www.lirmm.fr/~mroche
 Université Montpellier 2                 tel: 04 67 41 85 11
 34095 Montpellier Cedex 5 - France

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list