Job: Stage au CEA LIST - LVIC, Traduction automatique a l'aide de la recherche d'information interlingue

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Feb 3 20:23:07 UTC 2012


Date: Fri, 3 Feb 2012 16:51:06 +0000
From: SEMMAR Nasredine 202247 <nasredine.semmar at cea.fr>
Message-ID: <50CC12289F0C854FBFF134F270030CD701DD6CDD at EXDAG0-B2.intra.cea.fr>


Stage Bac+5 : Utilisation d'un moteur de recherche interlingue et d'un
modèle statistique pour la langue cible en traduction automatique

Lieu du stage : CEA Saclay Nano-INNOV, Laboratoire Vision et Ingénierie
des Contenus (LVIC), 91191 Gif sur Yvette

Sujet :

Il existe principalement deux types d'approches pour la traduction
automatique: celles à base de règles et celles s'appuyant sur des
corpus. La combinaison de ces approches a permis le développement de
solutions hybrides. Les approches à base de règles utilisent des
ressources linguistiques monolingues et bilingues coûteuses car
généralement construites à la main. Les approches à base de corpus
utilisent des méthodes statistiques appliquées sur des textes parallèles
pour apprendre les modèles de traduction et de langue. Ces approches
nécessitent de gros volumes de corpus parallèles qui n'existent pas pour
toutes les langues.

Le stage s'appuiera sur le prototype de traduction automatique développé
au CEA-LIST dans le cadre du projet ANR WebCrossling. Ce prototype
utilise une nouvelle approche fondée sur un moteur de recherche
interlingue et un modèle statistique de la langue cible. Cette approche
consiste à générer une base de données textuelle composée de la totalité
des phrases issues des textes accessibles sur le web dans la langue
cible et considérer la phrase à traduire comme une requête au moteur de
recherche interlingue.

L'objectif du stage consiste, d'une part, à constituer un corpus de
référence en langue arabe (langue cible) pour la génération du modèle de
langue, et d'autre part, à adapter ce prototype de traduction au couple
de langues anglais-arabe et à évaluer ses résultats de traduction par
rapport à Moses, un outil de traduction statistique sous licence libre.

Ce stage comportera les étapes suivantes:

- Appropriation des moteurs de traduction WebCrossling et Moses.

- Intégration du lexique bilingue anglais-arabe construit à l'aide
  d'outils d'alignement de mots du CEA-LIST dans les moteurs de
  traduction WebCrossling et Moses.

- Mise en place d'outils d'évaluation des moteurs de traduction
  WebCrossling et Moses.

- Développement d'une interface graphique pour le moteur de traduction
  WebCrossling destinée aux traducteurs professionnels.

Profil recherché :

Bac+5, stage de fin d'étude dans le domaine du Traitement Automatique de
la Langue (TAL)

Compétences en informatique et en TAL

Programmation : C++, Perl ou équivalent

Langues : Maîtrise de l'anglais et du français, la connaissance de la
langue arabe est un plus

Contact  et envoi des candidatures :

Nasredine SEMMAR, 01 69 08 01 46, nasredine.semmar at cea.fr

Durée : environ 6 mois

Nasredine SEMMAR
CEA Saclay Nano-INNOV
Institut CARNOT CEA LIST
Laboratoire Vision et Ingénierie des Contenus (LVIC)
Point courrier n°173
91 191 Gif sur Yvette CEDEX
Tel: +33 (0)1 69 08 01 46
Fax: +33 (0)1 69 08 01 15
Email: nasredine.semmar at cea.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list