These: Nicolas Bechet, Descripteurs morpho-syntaxiques pour la Fouille de Textes
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Fri Nov 27 21:40:02 UTC 2009
Date: Thu, 26 Nov 2009 09:35:32 +0100
From: Nicolas Béchet <Nicolas.Bechet at lirmm.fr>
Message-ID: <4B0E3DD4.3020904 at lirmm.fr>
X-url: http://www.lirmm.fr/~bechet
Bonjour,
J'ai le plaisir de vous inviter à ma soutenance de thèse qui aura lieu
mardi 08 décembre à 14h00, dans la salle de séminaire du LIRMM
(Laboratoire d'Informatique, de Robotique et de Microélectronique de
Montpellier), ainsi qu'au pot de thèse qui s'en suivra.
L'intitulé de la thèse est :
"/Extraction et regroupement de descripteurs morpho-syntaxiques pour
des processus de Fouille de Textes/"
Elle sera soutenue devant le jury constitué de :
- *Catherine Berrut*, Professeur, Université Joseph Fourier,
Rapportrice
- *Christophe Roche*, Professeur, Université de Savoie, Rapporteur
- *Violaine Prince*, Professeur, Université Montpellier 2,
Examinatrice
- *Anne Vilnat*, Professeur, Université Paris-Sud, Examinatrice
- *Jacques Chauché*, Professeur, Université Montpellier 2, Directeur
de thèse
- *Mathieu Roche*, Maître de conférences, Université Montpellier 2,
Co-directeur de thèse
_Résumé de la thèse_ :
Les mots constituent l'un des fondements des langues naturelles de
type indo-européenne. Des corpus rédigés avec ces langues sont alors
naturellement décrits avec des mots. Cependant, l'information qu'ils
véhiculent seuls est assez réduite d'un point de vue sémantique. Il
est en effet primordial de prendre en compte la complexité de ces
langues comme par exemple leurs propriétés syntaxiques, lexicales et
sémantiques. Nous proposons dans cette thèse de prendre en
considération ces propriétés en décrivant un corpus par le biais
d'informations syntaxiques permettant de découvrir des connaissances
sémantiques.
Nous présentons dans un premier temps un modèle de sélection de
descripteurs SELDE Ce dernier se fonde sur les objets issus des
relations syntaxiques d'un corpus. Le modèle SELDE a été évalué pour
des tâches de classification de données textuelles. Pour cela, nous
présentons une approche d'expansion de corpus, nommée ExpLSA dont
l'objectif est de combiner les informations syntaxiques fournies par
SELDE et la méthode numérique LSA.
Le modèle SELDE, bien que fournissant des descripteurs de bonne
qualité, ne peut être appliqué avec tous types de données
textuelles. Ainsi, nous décrivons dans cette thèse un ensemble
d'approches adaptées aux données textuelles dites /complexes./ Nous
étudions la qualité de ces méthodes avec des données syntaxiquement
mal formulées et orthographiées, des données bruitées ou incomplètes
et finalement des données dépourvues de syntaxe.
Finalement un autre modèle de sélection de descripteurs, nommé SELDEF,
est proposé. Ce dernier permet de /valider/ de manière automatique des
relations syntaxiques dites ``induites''. Notre approche consiste à
combiner deux méthodes. Une première approche fondée sur des vecteurs
/sémantiques/ utilise les ressources d'un thésaurus. Une seconde
s'appuie sur les connaissances du Web et des mesures statistiques afin
de valider les relations syntaxiques. Nous avons expérimenté SELDEF,
pour une tâche de construction et d'enrichissement de classes
conceptuelles. Les résultats expérimentaux montrent la qualité des
approches de validation et reflètent ainsi la qualité des classes
conceptuelles construites.
Cordialement,
Nicolas Béchet
Nicolas Béchet
Doctorant (PhD student)
http://www.lirmm.fr/~bechet
LIRMM, Univ. Montpellier 2, CNRS
161 rue Ada, 34392 Montpellier, France
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list