Seminaire: INFOLINGU, Anthony Sigogne, 16 janvier 2012, Universite Marne-la-Vallee

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Jan 10 20:28:45 UTC 2012


Date: Tue, 10 Jan 2012 15:29:31 +0100
From: Myriam RAKHO <rakho.myriam at gmail.com>
Message-ID: <CAOY-MwtMWEa3rB7y3Wg5OOLVoFA=vcMEV5Xy=G4S8F3UsyEs=g at mail.gmail.com>

************************************************************************
INFOLINGU
Le séminaire de l'équipe Informatique Linguistique
du Laboratoire d'Informatique Gaspard Monge (LIGM)
Université Paris-Est Marne-la-Vallée
************************************************************************

Date : *Le Lundi 16 janvier 2012 à 10h30*

Lieu : Université Paris-Est Marne-la-Vallée
Bâtiment Copernic, 4ème étage, salle de séminaires 4B08R

Toute personne intéressée est la bienvenue.

************************************************************************

------------------------------------------------------------------------
Intervenant :
------------------------------------------------------------------------

  *Anthony SIGOGNE* (LIGM, Université Marne-la-Vallée)

------------------------------------------------------------------------
Titre de la présentation :
------------------------------------------------------------------------

* Exploitation des cadres de sous-catégorisation des lexiques du
  français dans l'optique d'améliorer un analyseur syntaxique
  probabiliste*

------------------------------------------------------------------------
Résumé :
------------------------------------------------------------------------

Les grammaires hors contexte probabilistes [PCFG], fréquemment utilisées
dans le cadre de l'analyse syntaxique, subissent l'effet d'un problème
appelé dispersion des données qui représente la difficulté d'estimer les
probabilités des règles rares extraites du corpus. Ce problème est
également un problème lexical.  Plus la morphologie d’une langue est
riche, plus les lexiques extraits de corpus arborés pour cette langue
seront de grande taille. Néanmoins, l’effet de dispersion lexicale des
données peut être réduit en utilisant les techniques de regroupement
lexical.

Suivant une idée développée dans (Koo et al., 2008), (Candito et al.,
2009; Candito et al., 2010) ont proposé une méthode consistant à
regrouper les mots du corpus en classes lexicales obtenues
automatiquement par un algorithme statistique non-supervisé (Brown et
al., 1992) à partir d’un corpus brut.  Ils ont également proposé deux
autres méthodes. La première consiste à supprimer les marques
morphologiques dites peu importantes pour déterminer les projections
syntaxiques en constituants. La deuxième consiste à remplacer chaque mot
du corpus par la combinaison de l’étiquette morpho-syntaxique et du
lemme. Ces trois méthodes améliorent significativement les performances.
Plus récemment, (Sigogne et al., 2011) ont décrit une méthode basée sur
des données extraites d'un lexique syntaxique du français, le
Lexique-Grammaire (Gross, 1994). Cela consiste à remplacer une forme
verbale du corpus par la combinaison de son étiquette et de ses
identifiants de tables. Les gains obtenus par cette méthode en utilisant
uniquement les tables de verbes sont significatifs.

Nous proposons une approche de regroupement lexical à partir
d’informations extraites des principaux lexiques syntaxiques du
français. Un mot du corpus est remplacé par la combinaison de son
étiquette morpho-syntaxique et de sa classe lexicale. Ces classes sont
obtenues en regroupant les formes distinctes des lexiques selon leur
cadre de sous-catégorisation. Nous avons distingué deux ensembles de
lexiques d’après leur format de données. Pour le premier groupe, composé
de Dicovalence (Mertens, 2010), du Lefff (Sagot, 2010) et du
Lglex-Lefff, la représentation du cadre de sous-catégorisation a été
réduite au vecteur des fonctions syntaxiques liées aux arguments
possibles des entrées.  Pour le deuxième groupe, composé du seul Lglex
(Constant et al., 2010), la représentation du cadre de
sous-catégorisation a été réduite au vecteur des prépositions
introduisant les arguments indirects des entrées. Nous montrons qu'en
appliquant ces méthodes uniquement sur les verbes du corpus, nous sommes
capable d'améliorer significativement les performances d'un analyseur
PCFG sur le français.

Références bibliographiques :

P. F. Brown, V. J. Della, P. V. Desouza, J. C. Lai, and
R. L. Mercer. 1992.  Class-based n-gram models of natural language. In
Computational linguistics, 18(4), pages 467–479.
M. Candito and B. Crabbe. 2009. Improving generative statistical parsing
with semi-supervised word clustering. In Proceedings of IWPT’09, pages
138–141.
M. Candito and D. Seddah. 2010. Parsing word clusters. In Proceedings of
the first NAACL HLT Workshop on Morphologically-Rich Languages
(SPRML2010), p.  76–84, Los Angeles, California.
M. Constant and E. Tolone. 2010. A generic tool to generate a lexicon
for NLP from Lexicon-Grammar tables. In Michele De Gioia, editor, Actes
du 27e Colloque international sur le lexique et la grammaire (L’Aquila,
10-13 septembre 2008).
M. Gross. 1994. Constructing Lexicon-grammars. In Atkins and Zampolli,
editors, Computational Approaches to the Lexicon, pages 213–263.
T. Koo, X. Carreras, and M. Collins. 2008. Simple semi-supervised
dependency parsing. In Proceedings of ACL-08.
P. Mertens. 2010. Restrictions de selection et realisations
syntagmatiques dans DICOVALENCE. Conversion vers un format utilisable en
TAL. In TALN 2010.
B. Sagot. 2010. The Lefff, a freely available and large-coverage
morphological and syntactic lexicon for French. In Proceedings of
LREC’10.
A. Sigogne, M. Constant, and E. Laporte. 2011. French parsing enhanced
with a word clustering method based on a syntactic lexicon. In
Proceedings of SPMRL’11, pages 22–27, Dublin, Ireland.

------------------------------------------------------------------------

Anthony SIGOGNE, Myriam RAKHO

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list