These: Enrique Henestroza Anguiano, Efficient Large-Context Dependency Parsing and Correction with Distributional Lexical Resources

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Sun Jun 23 10:23:44 UTC 2013


Date: Thu, 20 Jun 2013 10:27:11 -0700
From: Enrique Henestroza Anguiano <ehenestroza at gmail.com>
Message-ID: <CAMmBiv+5mNcHKky3OznpbsQNYUPB5rkkxN4NwOxORpXJJxPCvQ at mail.gmail.com>

Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse, qui s'intitule :
"Efficient Large-Context Dependency Parsing and Correction with
Distributional Lexical Resources".

La soutenance aura lieu le jeudi 27 juin, à 15h,
en salle 147 (1er étage) du bâtiment Olympe de Gouges
8 rue Albert Einstein, 75013 Paris
de l'Université Paris Diderot.

Vous êtes également cordialement invités au pot qui suivra.

Bien cordialement,

Enrique Henestroza Anguiano

-----

Composition du jury :

Bernd Bohnet, University of Birmingham (examinateur)
Marie Candito, Université Paris Diderot (co-directrice de thèse)
Matthieu Constant, Université Paris-Est (rapporteur)
Laurence Danlos, Université Paris Diderot (directrice de thèse)
Alexis Nasr, Université Aix Marseille (co-directeur de thèse)
Joakim Nivre, Uppsala University (rapporteur)

-----

Résumé :

Cette thèse présente des méthodes pour améliorer l'analyse syntaxique
probabiliste en dépendances. Nous employons l'analyse à base de
transitions avec une modélisation effectuée par des machines à vecteurs
supports (Cortes and Vapnik, 1995), et nos expériences sont réalisées
sur le français. L'analyse a base de transitions est rapide, de par la
faible complexité des algorithmes sous-jacents, eux mêmes fondés sur une
optimisation locale des décisions d'attachement. Ainsi notre premier fil
directeur est d'élargir le contexte syntaxique utilisé. Partant du
système de transitions arc-eager (Nivre, 2008), nous proposons une
variante qui considère simultanément plusieurs gouverneurs candidats
pour les attachements à droite. Nous testons aussi la correction des
analyses, inspirée par Hall and Novák (2005), qui révise chaque
attachement en choisissant parmi plusieurs gouverneurs alternatifs dans
le voisinage syntaxique. Nos approches améliorent légèrement la
précision globale ainsi que celles de l'attachement des groupes
prépositionnels et de la coordination. Notre deuxième fil explore des
approches semi-supervisées.  Nous testons l'auto-entrainement avec un
analyseur en deux étapes, basé sur McClosky et al. (2006), pour le
domaine journalistique ainsi que pour l'adaptation au domaine
médical. Nous passons ensuite à la modélisation lexicale à base de
corpus, avec des classes lexicales généralisées pour réduire la
dispersion des données, et des préférences lexicales de l'attachement
des groupes prépositionnels pour aider à la désambiguïsation.  Nos
approches améliorent dans certains cas la précision et la couverture de
l'analyseur, sans augmenter sa complexité théorique.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list