These: Anthony Sigogne, Integration de ressources lexicales riches dans un analyseur syntaxique (dans le cadre du Seminaire INFOLINGU, Universite Paris-Est)

Wed Nov 14 18:22:16 UTC 2012

Date: Wed, 14 Nov 2012 09:33:14 +0100
From: Myriam RAKHO <rakho at univ-mlv.fr>
Message-ID: <CAOY-Mws5HXDzbQOM9PM6eZhHQjUzhZY9xmTcuqf7qfLFikov+Q at mail.gmail.com>

************************************************************************
INFOLINGU
Le séminaire de l'équipe Informatique Linguistique
du Laboratoire d'Informatique de l'Institut Gaspard Monge (LIGM)
Université Paris-Est Marne-la-Vallée

Date :* Le lundi 3 décembre 2012 à 11h*

Lieu : Université Paris-Est Marne-la-Vallée
Bâtiment Copernic, 4ème étage, salle de séminaires 4B08R

Toute personne intéressée est la bienvenue
************************************************************************

*** INTERVENANT ***

*Anthony SIGOGNE, Université Paris-Est Marne-la-Vallée*

*** TITRE ***

Intégration de ressources lexicales riches dans un analyseur syntaxique
(soutenance de thèse)

*** JURY ***

Directeur de thèse : Éric Laporte, Professeur, Université Marne-la-Vallée
Rapporteur : Alexis Nasr, Professeur, Université Aix-Marseille 2
Rapporteur : Thierry Poibeau, Directeur de Recherche, ENS Paris
Examinateur : Matthieu Constant, Maître de Conférences, Université Marne-la-Vallée
Examinateur : Djamé Seddah, Maâtre de Conférences, Université Paris 4
Examinateur : Isabelle Tellier, Professeur, Université Paris 3

*** RÉSUMÉ ***

Cette thèse porte sur l'intégration de ressources lexicales et
syntaxiques du français dans deux tâches fondamentales du Traitement
Automatique des Langues (TAL) que sont l'étiquetage morpho-syntaxique
probabiliste et l'analyse syntaxique probabiliste. Dans le cadre du
français, nous disposons d'une multitude de données lexicales et
syntaxiques créées par des processus automatiques ou par des
linguistes. De plus, un certain nombre d'expériences ont montré
l'intérêt d'utiliser de telles ressources dans les processus
probabilistes comme l'étiquetage ou l'analyse, car elles sont capables
d'améliorer significativement les performances des systèmes. Dans ce
mémoire, nous utilisons ces ressources afin de donner une réponse à deux
problématiques que nous décrivons succintement ci-dessous : la
dispersion des données et la segmentation automatique des textes.

Grâce à des algorithmes d'analyse syntaxique de plus en plus évolués,
les performances actuelles des analyseurs sont de plus en plus élevées,
et ce pour de nombreuses langues dont le français. Cependant, il existe
plusieurs problèmes inhérents aux formalismes mathématiques permettant
de modéliser statistiquement cette tâche (grammaire, modèles
discriminants, ...). La dispersion des données est l'un de ces
problèmes, et est causée principalement par la faible taille des corpus
annotés disponibles pour la langue. La dispersion représente la
difficulté d'estimer la probabilité de phénomènes syntaxiques
apparaissant dans les textes à analyser mais qui sont rares ou absents
du corpus ayant servi à l'apprentissage des analyseurs.  De plus, il est
prouvé que la dispersion est en partie un problème lexical, car plus la
flexion d'une langue est importante, moins les phénomènes lexicaux sont
représentés dans les corpus annotés.

Notre première problématique repose donc sur l'aténuation de l'effet
négatif de la dispersion lexicale des données sur les performances des
analyseurs. Dans cette optique, nous nous sommes intéressé à uen
méthhode appelée regroupement lexical, et qui consiste à regrouper les
mots du corpus et des textes en classes. Ces classes réduisent le nombre
de mots inconnus et donc le nombre de phénomènes syntaxiques rares ou
inconnus, liés au lexique, des textes à analyser. Notre objectif est
donc de proposer des regroupements lexicaux à partir d'informations
tirées des lexiques syntaxiques du français, et d'observer leur impact
sur les performances d'analyseurs syntaxiques.

************************************************************************

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------