Habilitation: Mathieu Roche, Fouille de Textes
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Fri Nov 25 14:27:21 UTC 2011
Date: Thu, 24 Nov 2011 17:56:07 +0100
From: Mathieu Roche <Mathieu.Roche at lirmm.fr>
Message-ID: <6227a1537a081f48548b991a77000dbd at lirmm.fr>
X-url: http://liste.cines.fr//ticket/53636346742010
X-url: http://liste.cines.fr//help/admin#moderate
//////////////////////////////////
//////////////////////////
///////////////////// Soutenance HDR
////////////////
/////////// Mathieu Roche
////////
///// Fouille de Textes :
/// De l'extraction des descripteurs linguistiques à leur
/// induction
///
// le 09 décembre 2011 à 10h30
// LIRMM, salle des Séminaires, Montpellier
//
//////////////////////////////////
RESUME :
Les masses de données textuelles aujourd'hui disponibles engendrent un
problème difficile lié à leur traitement automatique. Dans ce cadre,
des méthodes de Fouille de Textes (FT) et de Traitement Automatique du
Langage (TAL) peuvent, en partie, répondre à une telle problématique.
Elles consistent à modéliser puis mettre en œuvre des méthodologies
appliquées aux données textuelles afin d'en déterminer le sens et/ou
découvrir des connaissances nouvelles. Dans ce processus, le
descripteur linguistique constitue un élément pivot.
Après une présentation des méthodes de traitement des descripteurs en
eux-mêmes, ces derniers seront étudiés en contexte, c'est-à-dire en
corpus. L'identification des descripteurs est souvent difficile à
partir de corpus bruités et à faible contenu textuel sur lesquels nous
concentrons nos efforts (par exemple, corpus issus du Web 2.0 ou du
traitement OCR). Outre les mots considérés comme des descripteurs
linguistiques pertinents en FT, nous nous sommes également intéressés à
l'étude des syntagmes complexes à partir de corpus classiques puis
d'une terminologie classique à partir de corpus complexes (par exemple,
données logs ou corpus en français médiéval).
Dans la suite, les syntagmes étudiés ne se situent plus à proprement
parler dans les textes mais ils seront induits à partir des mots issus
des corpus. Les méthodes proposées permettent de mettre en relief des
syntagmes originaux tout à fait utiles pour l'identification d'Entités
Nommées, le titrage automatique ou la construction de classes
conceptuelles. Contrairement au raisonnement déductif, le raisonnement
inductif est dit hypothétique. Dans ce cadre, l'utilisation de méthodes
de validation automatique des relations induites par le biais
d'approches de Fouille du Web se révèle déterminant.
Les perspectives à ce travail se concentreront sur l'extraction de
nouveaux descripteurs. Ces derniers seront associés à de nouvelles
représentations sous forme d'entrepôts de données textuelles. Enfin,
les travaux que nous souhaitons développer se focaliseront sur
l’analyse des textes dans un contexte plus vaste lié au multimédia que
le paradigme du Web 2.0 a mis en exergue ces dernières années.
//////////////////////////////////
//
// JURY :
//
// Éric GAUSSIER, Professeur, Université de Grenoble [rapporteur]
// Guy LAPALME, Professeur, Université de Montreal, Canada
// [rapporteur]
// Stan MATWIN, Professeur, Université d'Otawa, Canada [rapporteur]
// Nathalie AUSSENAC-GILLES, Directrice de Recherche CNRS
// Patrick GALLINARI, Professeur, Université Paris 6
// Yves KODRATOFF, Directeur de Recherche (en retraite) CNRS
// Violaine PRINCE, Professeur, Université Montpellier 2
// Maguelonne TEISSEIRE, Directrice de Recherche Cemagref
//
//////////////////////////////////
C'est avec grand plaisir que je vous inviterai au pot qui suivra cette
soutenance...
Mathieu
Mathieu Roche
LIRMM - UMR 5506 web: www.lirmm.fr/~mroche
Université Montpellier 2 tel: 04 67 41 85 11
34095 Montpellier Cedex 5 - France
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list