These: Haithem Afli, La traduction automatique statistique dans un contexte multimodal

Thierry Hamon hamon at LIMSI.FR
Fri Jun 27 20:18:48 UTC 2014


Date: Wed, 25 Jun 2014 18:14:22 +0200
From: Haithem Afli <haithem.afli at lium.univ-lemans.fr>
Message-Id: <E8E0B37E-7519-4A4B-99E1-F5539C9EDC8C at lium.univ-lemans.fr>
X-url: http://www-lium.univ-lemans.fr/~afli


Bonjour à tous, 


j'ai le plaisir de vous convier à la soutenance de ma thèse intitulée «
La traduction automatique statistique dans un contexte multimodal ».
Celle-ci se tiendra le lundi 7 juillet à 14 heures au Laboratoire
d'Informatique de l'Université du Maine (amphithéâtre du bâtiment IC2),
Avenue Laënnec 72085 LE MANS.

Elle sera suivie d'un pot auquel vous êtes chaleureusement conviés.

Le jury sera composé de :

Rapporteurs : 

- M. Kamel Smaïli       Professeur à l'Université du Lorraine (LORIA)
- M. Philippe Langlais  Professeur à l'Université de Montréal (RALI)

Examinateurs :

- M. Alexandre Allauzen Maître de Conférences HDR à l'Université de
                        Paris Sud (LIMSI-CNRS)

- M. Emmanuel Morin     Professeur à l'Université de Nantes (LINA)

Directeur:
- M. Holger Shwenk      Professeur à l'Université du Maine (LIUM)
Co-directeur:
- M. Loïc Barrault      Maître de Conférences à l'Université du Maine
                        (LIUM)

Résumé:

Les performances des systèmes de traduction automatique statistique
dépendent de la disponibilité de textes parallèles bilingues, appelés
aussi bitextes.  Cependant, les textes parallèles librement disponibles
sont aussi des ressources rares~: la taille est souvent limitée, la
couverture linguistique insuffisante ou le domaine des textes n'est pas
approprié.  Il y a relativement peu de paires de langues pour lesquelles
des corpus parallèles de tailles raisonnables sont disponibles pour
certains domaines.  L'une des façons pour pallier au manque de données
parallèles est d'exploiter les corpus comparables qui sont plus
abondants.

Les travaux précédents dans ce domaine n'ont été appliqués que pour la
modalité texte.  La question que nous nous sommes posée durant cette
thèse est de savoir si un corpus comparable multimodal permet d’apporter
des solutions au manque de données parallèles dans le domaine de la
traduction automatique.

Dans cette thèse, nous avons étudié comment utiliser des ressources
provenant de différentes modalités (texte ou parole) pour le
développement d'un système de traduction automatique statistique.  Une
première partie des contributions consiste à proposer une technique pour
l’extraction des données parallèles à partir d’un corpus comparable
multimodal (audio et texte).  Les enregistrements sont transcrits avec
un système de reconnaissance automatique de la parole et traduits avec
un système de traduction automatique.  Ces traductions sont ensuite
utilisées comme requêtes d’un système de recherche d’information pour
sélectionner des phrases parallèles sans erreur et générer un bitexte.

Dans la deuxième partie des contributions, nous visons l'amélioration de
notre méthode en exploitant les entités sous-phrastiques créant ainsi
une extension à notre système en vue de générer des segments
parallèles. Nous améliorons aussi le module de filtrage. Enfin, nous
présentons plusieurs manières d'aborder l'adaptation des systèmes de
traduction avec les données extraites.

Nos expériences ont été menées sur les données des sites web TED et
Euronews qui montrent la faisabilité de nos approches.

Mots-clés :
Traduction automatique statistique, corpus multimodal bilingue,
extraction de données parallèles.

Cordialement,

========================================================
Haithem AFLI 
Laboratoire Informatique de l'Université du Maine (LIUM)
Institut Claude Chappe - 72085 Le Mans Cedex 9, France
Tel : 02 43 83 38 52
web : http://www-lium.univ-lemans.fr/~afli
Mail : haithem.afli at lium.univ-lemans.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------



More information about the Ln mailing list