Job: Stage au CEA LIST - LVIC, Construction et mise a jour de dictionnaires multilingues

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Apr 25 07:47:03 UTC 2012


Date: Mon, 23 Apr 2012 16:09:40 +0000
From: SEMMAR Nasredine 202247 <nasredine.semmar at cea.fr>
Message-ID: <50CC12289F0C854FBFF134F270030CD70476A2E3 at EXDAG0-B2.intra.cea.fr>


Stage Bac+5 : Alignement de mots à partir de corpus de textes parallèles
pour la construction et la mise à jour de dictionnaires multilingues


Lieu du stage : CEA Saclay Nano-INNOV, Laboratoire Vision et Ingénierie
des Contenus (LVIC), 91191 Gif-sur-Yvette

Sujet :

Les dictionnaires bilingues constituent les principaux composants des
systèmes de traduction automatique et de recherche d'information
interlingue. La masse de travail nécessaire pour créer manuellement les
dictionnaires bilingues est importante. C'est la raison pour laquelle
depuis quelques années de nombreuses approches de construction
automatique de ces dictionnaires ont été proposées.

Le stage consistera, d'une part, à constituer un corpus de référence de
textes parallèles et d'autre part, à évaluer les principaux composants
du module de construction et de mise à jour de dictionnaires bilingues
développé au CEA-LIST. Cette évaluation se fera selon deux approches
différentes :

- Une évaluation manuelle comparant les résultats du module d'alignement
  de mots simples, de mots composés et d'expressions par rapport à un
  alignement de référence ;

- Une évaluation automatique en intégrant les résultats du module
  d'alignement de mots dans la table de traduction du système de
  traduction statistique open source Moses.

Ce stage comportera les étapes suivantes:

- Appropriation des principaux composants du module de construction et
  de mise à jour de dictionnaires bilingues.

- Constitution d'un corpus de référence composé de textes parallèles
  multilingues.

- Mise en place d'outils d'évaluation du module d'alignement de mots
  simples, de mots composés et d'expressions.

- Spécification et implémentation du module de nettoyage des
  dictionnaires bilingues construits ou mis à jour automatiquement.

- Développement d'une interface graphique pour la gestion de la
  construction et de la mise à jour de dictionnaires bilingues.

Profil recherché :

Bac+5, stage de fin d'étude dans le domaine du Traitement Automatique de
la Langue (TAL).

Compétences en informatique et en TAL

Programmation : C++, Perl ou équivalent

Langues : Maîtrise de l'anglais et du français, la connaissance de la
langue arabe est un plus

Contact  et envoi des candidatures :

Nasredine SEMMAR, 01 69 08 01 46,
nasredine.semmar at cea.fr

Durée : 4 à 6 mois

Nasredine SEMMAR

CEA Saclay Nano-INNOV
Institut CARNOT CEA LIST
Laboratoire Vision et Ingénierie des Contenus (LVIC)
Point courrier n°173
91191 Gif-sur-Yvette CEDEX
Tel: +33 (0)1 69 08 01 46
Fax: +33 (0)1 69 08 01 15
Email: nasredine.semmar at cea.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list