These: Adrien Lardilleux, Contribution des basses frequences a l'alignement sous-phrastique multilingue

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Sep 8 19:12:42 UTC 2010


Date: Mon, 06 Sep 2010 19:01:38 +0200
From: Adrien Lardilleux <adrien.lardilleux at info.unicaen.fr>
Message-ID: <4C851E72.8080901 at info.unicaen.fr>


J'ai le plaisir de vous inviter à ma soutenance de thèse qui aura lieu
le mardi 14 septembre à 14 h 00 à l'université de Caen, bâtiment
Sciences 3, salle des thèses (campus 2, S3-102, 1er étage). Elle sera
suivie du traditionnel pot de thèse.


Membres du jury :

M. Christian Boitet, professeur, université de Grenoble (rapporteur)
M. Philippe Langlais, professeur agrégé, université de Montréal (rapporteur)
M. François Yvon, professeur, université Paris-Sud XI (rapporteur)
Mme Béatrice Daille, professeure, université de Nantes
M. Jacques Vergne, professeur, université de Caen
M. Andy Way, professeur associé, Dublin City University
M. Yves Lepage, professeur, université de Caen / université Waseda (directeur)


==================================================================

Titre de la thèse : « Contribution des basses fréquences à
l'alignement sous-phrastique multilingue : une approche différentielle »

Résumé :
L'objectif de cette thèse est de montrer que, contrairement aux idées
reçues, les mots de basses fréquences peuvent être mis à profit de
façon efficace en traitement automatique des langues. Nous les mettons
à contribution en alignement sous-phrastique, tâche qui constitue la
première étape de la plupart des systèmes de traduction automatique
fondée sur les données (traduction probabiliste ou par
l'exemple). Nous montrons que les mots rares peuvent servir de
fondement même dans la conception d'une méthode d'alignement
sous-phrastique multilingue, à l'aide de techniques différentielles
proches de celles utilisées en traduction automatique par
l'exemple. Cette méthode est réellement multilingue, en ce sens
qu'elle permet le traitement simultané d'un nombre quelconque de
langues. Elle est de surcroît très simple, anytime, et permet un
passage à l'échelle naturel. Nous comparons notre implémentation,
Anymalign, à deux ténors statistiques du domaine sur des tâches
bilingues. Bien qu'à l'heure actuelle ses résultats sont en moyenne
légèrement en retrait par rapport à l'état de l'art en traduction
automatique probabiliste par segments, nous montrons que la qualité
propre des lexiques produits par notre méthode est en fait supérieure
à celle de l'état de l'art.

==================================================================

Title: "The contribution of low frequencies to multilingual
sub-sentential alignment: a differential approach"
Summary:

The goal of this thesis dissertation is to show that, contrary to
preconceived ideas, one can efficiently take advantage of low
frequency words in natural language processing. We put them to use in
sub-sentential alignment, which constitutes the first step of most
data-driven machine translation systems (statistical or example-based
machine translation). We show that rare words can be used as a
foundation in the design of a multilingual sub-sentential alignment
method, using differential techniques similar to those found in
example-based machine translation. This method is truly multilingual,
in that it allows the simultaneous processing of any number of
languages.  Moreover, it is very simple, anytime, and scales up
naturally. We compare our implementation, Anymalign, to two
statistical tools proven in the domain. Although its current results
are in average slightly behind those of state of the art methods in
phrase-based statistical machine translation, we show that the
intrinsic quality of our lexicons is actually superior to that of
lexicons produced by state of the art methods.


Adrien Lardilleux
GREYC - Université de Caen Basse-Normandie
adrien.lardilleux at info.unicaen.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list