Job: Postdoctoral position, France Telecom R&D

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Thu Apr 13 19:59:45 UTC 2006


Date: Thu, 13 Apr 2006 19:12:05 +0200
From: "BOUALEM Malek RD-TECH-LAN" <malek.boualem at francetelecom.com>
Message-ID: <6CF039C5B32037498B02251E11CDE6B003BD4EF0 at ftrdmel3.rd.francetelecom.fr>



 
Postdoctoral position at France Telecom R&D :
- "Transfert sémantique par apprentissage sur un corpus pour la
traduction automatique"

- "Corpus-based learning for semantic transfer in machine translation"

=========== FRENCH VERSION ===========
(English version is below)

L'unité de R&D "Langues Naturelles" de France Télécom recherche un
candidat pour un post-doctorat à Lannion (Bretagne, France) sur le
sujet suivant, à commencer dès que possible :

Transfert sémantique par apprentissage sur un corpus pour la traduction automatique
-----------------------------------------------------------------------------------

La traduction automatique basée sur un pivot sémantique a pour
ambition d'exprimer correctement dans la langue cible ce qui a été dit
dans la langue source. Il se produit cependant un certain nombre de
phénomènes qui sortent de ce cadre :

dans les mêmes circonstances  on ne dit pas exactement la même chose
d'une langue à l'autre :


- soit parce que les usages, les formules de politesse, les habitudes
  diffèrent (je voudrais de l'aspirine, il me faut de l'aspirine,
  auriez-vous de l'aspirine, puis-je avoir de l'aspirine). 

- soit parce que les structures linguistiques de base, notamment
  concernant la détermination, le temps et l'aspect, obéissent à des
  structures différentes (je voudrais de l'aspirine, je voudrais une
  boîte d'aspirine, j'aurais voulu de l'aspirine, je veux des
  aspirines).


Qu'elles soient dues à des habitudes pragmatiques ou à des différences
profondes de structures linguistiques, ces divergences sont très
difficiles à modéliser sémantiquement et à décrire sous forme de
règles. En revanche, on doit pouvoir les observer sur un corpus
aligné, et si les niveaux morphologiques, syntaxiques et sémantiques
de la traduction sont pris en charge par des méthodes linguistiques
dans une architecture à pivot, on peut espérer que l'apprentissage de
cette dimension pragmatique nécessitera alors un volume de corpus
moins considérable que pour les méthodes de traduction purement
statistiques qui essaient d'apprendre en bloc l'ensemble des niveaux
de représentation.


Le sujet du postdoctorat est donc l'étude des diverses méthodes
d'apprentissage automatique s'appliquant en traduction à des
représentations structurées de types arbres ou graphes, et la
réalisation, à partir d'un corpus de phrases alignées que l'on
transformera en corpus de graphes alignés, d'un système permettant de
passer des graphes de la langue source aux graphes de la langue cible
pour obtenir une traduction prenant en compte les idiomatismes propres
au corpus.


Compétences nécessaires : 

* représentations sémantiques en TALN (sémantique lexicale et
  sémantique des textes)

* traduction automatique : approches linguistiques, statistiques,
  mixtes

* apprentissage, en particulier sur des représentations structurées
  (arbres, graphes)

* alignement de corpus

* C++, Unix

* maîtrise du français ou de l'anglais, si possible les deux

* connaissance de langues typologiquement différentes 

Diplôme nécessaire : 

* Doctorat (thèse déjà soutenue ou date de soutenance connue)

Merci d'adresser une lettre de motivation et un CV à : 
jerome(point)vinesse(à)francetelecom(point)com 


=========== ENGLISH VERSION ===========

The "Natural Languages" R&D unit in France Telecom offers a
post-doctoral position in Lannion (Brittany, France) to be started as
soon as possible on the following subject:

Corpus-based learning for semantic transfer in machine translation
------------------------------------------------------------------

Machine translation based on an Interlingua aims at expressing
accurately in the target language what has been said in the source
language. However, a number of phenomena occur out of this framework:
under the same circumstances, one wouldn't say exactly the same thing
in different languages:

- either because usage, forms of address, or habits differ (I would
  like some aspirin, I need some aspirin, have you got some aspirin,
  may I have some aspirin, may I bother you with some aspirin). 

- or because basic linguistic structures, especially for
  determination, time and aspect, follow different schemes (I would
  like some aspirin, I would like a box of aspirin, I would have liked
  some aspirin, I want aspirins) 


Semantic modelling or rule-based description of such differences is
hardly feasible. However these gaps may be observed on aligned
corpora. And as morphologic, syntactic and semantic levels are already
addressed by linguistic methods in an Interlingua architecture,
machine learning at the pragmatic level may hopefully require less
huge corpora than purely statistical translation methods where all the
levels need to be globally learned.


The postdoctoral successful candidate will investigate machine
learning methods which may be applied to structured representations
(trees and graphs) for machine translation, transform a corpus of
aligned sentences into a corpus of aligned semantic graphs, and
implement a system to transform the graphs from the source language
into graphs expected in the target language according to the corpus.


Required skills: 

* semantic representations in NLP (lexical semantics and textual
  semantics)

* machine translation: linguistic, statistical and combined methods

* machine learning, especially on structured representations (trees,
  graphs)

* corpus alignment

* C++, Unix

* languages: fluent French or English, both is preferred

* knowledge of typologically different languages 

Required diploma: 

* PhD (already defended or scheduled)

Please send application letter and resume to : 
jerome(dot)vinesse(at)francetelecom(dot)com

===================

------------------------------------------------------
Malek Boualem
France Telecom, Division R&D
2, avenue Pierre Marzin - 22307 Lannion - France
Tel: (33)(0)2.96.05.29.83
Fax: (33)(0)2.96.05.32.86
Email: malek.boualem at francetelecom.com
------------------------------------------------------


-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version          : 
Archives                 : http://listes.cines.fr/wws/arc/ln
                           http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list