These: Nadi Tomeh, Modeles discriminants d'alignement pour la traduction automatique statistique

Tue Jun 26 20:31:05 UTC 2012

Date: Mon, 25 Jun 2012 15:09:04 +0200
From: Nadi Tomeh <nadi.tomeh at limsi.fr>
Message-ID: <d9ebdd267bfc2b620e0dba1415f4bf2a at limsi.fr>

<#mml
Bonjour,

J'ai le plaisir de vous inviter à la soutenance de ma thèse intitulée :
"modèles discriminants d'alignement pour la traduction automatique
statistique". La soutenance aura lieu le mercredi 27 juin à 14h au
LIMSI-CNRS (salle de conférences). Vous êtes également conviés au pot
qui suivra.

Se rendre au LIMSI:
http://www.limsi.fr/Pratique/acces/
http://goo.gl/maps/imyY

Jury:
-----
Eric Gaussier, rapporteur, Université Joseph Fourier
Philippe Langlais, rapporteur, Université de Montréal
Anne Vilnat, examinatrice, Université Paris-Sud
Hermann Ney, examinateur, Universtié RWTH Aachen
Nasredine Semmar, invité, LIST CEA
François Yvon, directeur, Université Paris-Sud
Alexandre Allauzen, co-directeur, Université Paris-Sud

Résumé:
-------
La tâche d'alignement d'un texte dans une langue source avec sa
traduction en langue cible est souvent nommée alignement de
bi-textes. Elle a pour but de faire émerger les relations de traduction
qui peuvent s'exprimer à différents niveaux de granularité entre les
deux faces du bi-texte. De nombreuses applications de traitement
automatique des langues naturelles s'appuient sur cette étape afin
d'accéder à des connaissances linguistiques de plus haut niveau.  Parmi
ces applications, nous pouvons citer bien sûr la traduction automatique,
mais également l'extraction de lexiques et de terminologies bilingues,
la désambigüisation sémantique ou l'apprentissage des langues assisté
par ordinateur.

La complexité de la tâche d'alignement de bi-textes s'explique par les
différences linguistiques entre les langues. Ces différences peuvent
être d'ordre sémantique, syntaxique, ou morphologique.  Dans le cadre
des approches probabilistes, l'alignement de bi-textes est modélisé par
un ensemble de variables aléatoires cachés. Afin de réduire la
complexité du problème, le processus aléatoire sous-jacent fait
l'hypothèse simplificatrice qu'un mot en langue source est lié à au plus
un mot en langue cible, ce qui induit une relation de traduction
asymétrique.  Néanmoins, cette hypothèse est simpliste, puisque les
alignements peuvent de manière générale impliquer des groupes de mots
dans chacune des langues. Afin de rétablir cette symétrie, chaque langue
est considérée tour à tour comme la langue source et les deux
alignements asymétriques résultants sont combinés à l'aide d'une
heuristique. Cette étape de symétrisation revêt une importance
particulière dans l’approche standard en traduction automatique,
puisqu'elle précède l'extraction des unités de traduction, à savoir les
paires de segments.

L'objectif de cette thèse est de proposer de nouvelles approches pour
d'une part l'alignement de bi-texte, et d'autre part l'extraction des
unités de traduction.  La spécificité de notre approche consiste à
remplacer les heuristiques utilisées par des modèles d'apprentissage
discriminant.  Nous présentons un modèle "maximum d'entropie" (ou
MaxEnt) pour l'alignement de mot, pour lequel chaque lien d'alignement
est prédit de manière indépendante.  L'interaction entre les liens
d'alignement est alors prise en compte par l'empilement (``stacking'')
d'un second modèle prenant en compte la structure à prédire sans pour
autant augmenter la complexité globale.  Cette formulation peut être vue
comme une manière d'apprendre la combinaison de différentes méthodes
d'alignement: le modèle considère ainsi l'union des alignements
d'entrées pour en sélectionner les liens jugés fiables. Le modèle MaxEnt
proposé permet d'améliorer les performances d'un système état de l'art
de traduction automatique en considérant le jeu de données de la tâche
NIST'09, Arabe vers Anglais.  Ces améliorations sont mesurées en terme
de taux d'erreur sur les alignements et aussi en terme de qualité de
traduction via la métrique automatique BLEU.

Nous proposons également un modèle permettant à la fois de sélectionner
et d'évaluer les unités de traduction extraites d'un bi texte
aligné. Ces deux étapes sont reformulées dans le cadre de
l'apprentissage supervisé, afin de modéliser la décision de garder ou
pas une paire de segments comme une unité fiable de traduction. Ce cadre
permet l'utilisation de caractéristiques riches et nombreuses favorisant
ainsi une décision robuste. Nous proposons une méthode simple et
efficace pour annoter les paires de segments utiles pour la
traduction. Le problème d'apprentissage automatique qui se pose alors
est particulier, puisque nous disposons que d'exemples positifs. Nous
proposons donc d'utiliser l'approche SVM à une classe afin de modéliser
la sélection des unités de traduction.  Grâce à cette approche, nous
obtenons des améliorations significatives en terme de score BLEU pour un
système entrainé avec un petit ensemble de données.

Nadi Tomeh
Univ. Paris XI, LIMSI-CNRS
LIMSI-CNRS Bât 508, Bureau 118
BP 133 F-91403 ORSAY CEDEX
Tél : +33/0 1 69 85 80 43
nadi.tomeh at limsi.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------