Seminaire: INFOLINGU, Djame SEDDAH (ISHA/Paris 4 Sorbonne), 4 juillet 2011, 10h30
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Sat Jul 2 08:27:54 UTC 2011
Date: Fri, 1 Jul 2011 11:02:02 +0200
From: Myriam RAKHO <rakho.myriam at gmail.com>
Message-ID: <BANLkTi=Js9KXnOOMhmYB1N=z3g1=sjgCQw at mail.gmail.com>
************************************************************************
INFOLINGU
Le séminaire de l'équipe Informatique Linguistique
de l'Institut Gaspard Monge (LIGM)
************************************************************************
Date : Le Lundi 4 juillet 2011 à 10h30
Lieu : Université Paris-Est Marne-la-Vallée
Bâtiment Copernic, 4ème étage, salle 4B08R
Toute personne intéressée est la bienvenue.
************************************************************************
------------------------------------------------------------------------
Intervenant :
------------------------------------------------------------------------
Djamé SEDDAH
------------------------------------------------------------------------
Titre de la présentation :
------------------------------------------------------------------------
Lemmatisation et analyse syntaxique probabiliste du français
Djamé Seddah, projet Inria Alpage & Université Paris-Sorbonne
------------------------------------------------------------------------
Résumé :
------------------------------------------------------------------------
L'analyse syntaxique probabiliste des langues à morphologie riche
(MRLs) a longtemps été sous-représentée dans la littérature, cependant
la récente disponibilité de corpus arborés pour des langues comme
l'allemand, l'arabe, l'hébreu ou le français, a permis de faire
émerger des problématiques communes aux MRLs. Ainsi, on note que la
taille réduite des données annotées associés à des langues à la
flexion plus ou moins riches conduit à une dispersion des données
lexicales préjudiciables aux performances des analyseurs. La
variabilité de l'ordre des mots de certaines MRLs voire les
idiosyncrasies de certains schémas d'annotations sont d'autres
paramètres permettant d'expliquer pourquoi les performances des
modèles d'analyses, ayant le plus souvent été conçus pour l'anglais
particulier des sections Wall Street Journal du Penn Treebank,
proposent des performances sous optimales quand ceux-ci sont adaptés
sur d'autres langues.
Pour certains, le français peut difficilement être vu comme une langue
à morphologie riche, surtout comparé à l'arabe ou
l'allemand. Cependant, les caractéristiques de sa morphologie en font
un bon candidat pour explorer différentes techniques d'optimisation du
lexique propres aux MRLs.
Dans ce séminaire, basé sur des travaux réalisés conjointement avec
Marie Candito, Ozlem Cetinoglu, Grzegorz Chrupala et Josef van
Genabith, nous étudierons l'impact de la lemmatisation automatique du
français sur le modèle d'analyse syntaxique d'E.Charniak. Nous
montrerons que le "clustering" morphologique induit par la
lemmatisation accroît les performances du modèle mais que ses effets
sont atténués par l'augmentation mécanique du taux de mots
inconnus. Nous présenterons aussi les résultats d'une étude
contrastive consacrée aux performances des modèles
lexicalisés et non lexicalisés avec annotation latente entraînés sur
différentes instances de schémas d'annotation du corpus arboré de
Paris 7.
------------------------------------------------------------------------
Anthony SIGOGNE, Myriam RAKHO
Équipe Linguistique Informatique
Laboratoire d'Informatique de l'Institut Gaspard Monge (LIGM)
Université Paris-Est Marne-la-Vallée
Tél. : 06 23 05 66 06
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list