Job: Stage au CEA LIST - LVIC, Construction et mise a jour de dictionnaires multilingues
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Wed Apr 25 07:47:03 UTC 2012
Date: Mon, 23 Apr 2012 16:09:40 +0000
From: SEMMAR Nasredine 202247 <nasredine.semmar at cea.fr>
Message-ID: <50CC12289F0C854FBFF134F270030CD70476A2E3 at EXDAG0-B2.intra.cea.fr>
Stage Bac+5 : Alignement de mots à partir de corpus de textes parallèles
pour la construction et la mise à jour de dictionnaires multilingues
Lieu du stage : CEA Saclay Nano-INNOV, Laboratoire Vision et Ingénierie
des Contenus (LVIC), 91191 Gif-sur-Yvette
Sujet :
Les dictionnaires bilingues constituent les principaux composants des
systèmes de traduction automatique et de recherche d'information
interlingue. La masse de travail nécessaire pour créer manuellement les
dictionnaires bilingues est importante. C'est la raison pour laquelle
depuis quelques années de nombreuses approches de construction
automatique de ces dictionnaires ont été proposées.
Le stage consistera, d'une part, à constituer un corpus de référence de
textes parallèles et d'autre part, à évaluer les principaux composants
du module de construction et de mise à jour de dictionnaires bilingues
développé au CEA-LIST. Cette évaluation se fera selon deux approches
différentes :
- Une évaluation manuelle comparant les résultats du module d'alignement
de mots simples, de mots composés et d'expressions par rapport à un
alignement de référence ;
- Une évaluation automatique en intégrant les résultats du module
d'alignement de mots dans la table de traduction du système de
traduction statistique open source Moses.
Ce stage comportera les étapes suivantes:
- Appropriation des principaux composants du module de construction et
de mise à jour de dictionnaires bilingues.
- Constitution d'un corpus de référence composé de textes parallèles
multilingues.
- Mise en place d'outils d'évaluation du module d'alignement de mots
simples, de mots composés et d'expressions.
- Spécification et implémentation du module de nettoyage des
dictionnaires bilingues construits ou mis à jour automatiquement.
- Développement d'une interface graphique pour la gestion de la
construction et de la mise à jour de dictionnaires bilingues.
Profil recherché :
Bac+5, stage de fin d'étude dans le domaine du Traitement Automatique de
la Langue (TAL).
Compétences en informatique et en TAL
Programmation : C++, Perl ou équivalent
Langues : Maîtrise de l'anglais et du français, la connaissance de la
langue arabe est un plus
Contact et envoi des candidatures :
Nasredine SEMMAR, 01 69 08 01 46,
nasredine.semmar at cea.fr
Durée : 4 à 6 mois
Nasredine SEMMAR
CEA Saclay Nano-INNOV
Institut CARNOT CEA LIST
Laboratoire Vision et Ingénierie des Contenus (LVIC)
Point courrier n°173
91191 Gif-sur-Yvette CEDEX
Tel: +33 (0)1 69 08 01 46
Fax: +33 (0)1 69 08 01 15
Email: nasredine.semmar at cea.fr
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list