[Corpora-List] Postdoctoral position at France Telecom R&D

BOUALEM Malek RD-TECH-LAN malek.boualem at francetelecom.com
Thu Apr 13 17:12:05 UTC 2006


 
Postdoctoral position at France Telecom R&D :
- "Transfert sémantique par apprentissage sur un corpus pour la traduction automatique"
- "Corpus-based learning for semantic transfer in machine translation"

=========== FRENCH VERSION ===========
(English version is below)

L'unité de R&D "Langues Naturelles" de France Télécom recherche un candidat pour un post-doctorat à Lannion (Bretagne, France) sur le sujet suivant, à commencer dès que possible :

Transfert sémantique par apprentissage sur un corpus pour la traduction automatique
-----------------------------------------------------------------------------------

La traduction automatique basée sur un pivot sémantique a pour ambition d'exprimer correctement dans la langue cible ce qui a été dit dans la langue source. Il se produit cependant un certain nombre de phénomènes qui sortent de ce cadre :
dans les mêmes circonstances  on ne dit pas exactement la même chose d'une langue à l'autre :

- soit parce que les usages, les formules de politesse, les habitudes diffèrent (je voudrais de l'aspirine, il me faut de l'aspirine, auriez-vous de l'aspirine, puis-je avoir de l'aspirine). 
- soit parce que les structures linguistiques de base, notamment concernant la détermination, le temps et l'aspect, obéissent à des structures différentes (je voudrais de l'aspirine, je voudrais une boîte d'aspirine, j'aurais voulu de l'aspirine, je veux des aspirines).

Qu'elles soient dues à des habitudes pragmatiques ou à des différences profondes de structures linguistiques, ces divergences sont très difficiles à modéliser sémantiquement et à décrire sous forme de règles. En revanche, on doit pouvoir les observer sur un corpus aligné, et si les niveaux morphologiques, syntaxiques et sémantiques de la traduction sont pris en charge par des méthodes linguistiques dans une architecture à pivot, on peut espérer que l'apprentissage de cette dimension pragmatique nécessitera alors un volume de corpus moins considérable que pour les méthodes de traduction purement statistiques qui essaient d'apprendre en bloc l'ensemble des niveaux de représentation.

Le sujet du postdoctorat est donc l'étude des diverses méthodes d'apprentissage automatique s'appliquant en traduction à des représentations structurées de types arbres ou graphes, et la réalisation, à partir d'un corpus de phrases alignées que l'on transformera en corpus de graphes alignés, d'un système permettant de passer des graphes de la langue source aux graphes de la langue cible pour obtenir une traduction prenant en compte les idiomatismes propres au corpus.

Compétences nécessaires : 

* représentations sémantiques en TALN (sémantique lexicale et sémantique des textes)
* traduction automatique : approches linguistiques, statistiques, mixtes
* apprentissage, en particulier sur des représentations structurées (arbres, graphes)
* alignement de corpus
* C++, Unix
* maîtrise du français ou de l'anglais, si possible les deux
* connaissance de langues typologiquement différentes 

Diplôme nécessaire : 

* Doctorat (thèse déjà soutenue ou date de soutenance connue)

Merci d'adresser une lettre de motivation et un CV à : 
jerome(point)vinesse(à)francetelecom(point)com 


=========== ENGLISH VERSION ===========

The "Natural Languages" R&D unit in France Telecom offers a post-doctoral position in Lannion (Brittany, France) to be started as soon as possible on the following subject:

Corpus-based learning for semantic transfer in machine translation
------------------------------------------------------------------

Machine translation based on an Interlingua aims at expressing accurately in the target language what has been said in the source language. However, a number of phenomena occur out of this
framework: under the same circumstances, one wouldn't say exactly the same thing in different languages:

- either because usage, forms of address, or habits differ (I would like some aspirin, I need some aspirin, have you got some aspirin, may I have some aspirin, may I bother you with some aspirin). 
- or because basic linguistic structures, especially for determination, time and aspect, follow different schemes (I would like some aspirin, I would like a box of aspirin, I would have liked some aspirin, I want aspirins) 

Semantic modelling or rule-based description of such differences is hardly feasible. However these gaps may be observed on aligned corpora. And as morphologic, syntactic and semantic levels are already addressed by linguistic methods in an Interlingua architecture, machine learning at the pragmatic level may hopefully require less huge corpora than purely statistical translation methods where all the levels need to be globally learned.

The postdoctoral successful candidate will investigate machine learning methods which may be applied to structured representations (trees and graphs) for machine translation, transform a corpus of aligned sentences into a corpus of aligned semantic graphs, and implement a system to transform the graphs from the source language into graphs expected in the target language according to the corpus.

Required skills: 

* semantic representations in NLP (lexical semantics and textual semantics)
* machine translation: linguistic, statistical and combined methods
* machine learning, especially on structured representations (trees, graphs)
* corpus alignment
* C++, Unix
* languages: fluent French or English, both is preferred
* knowledge of typologically different languages 

Required diploma: 

* PhD (already defended or scheduled)

Please send application letter and resume to : 
jerome(dot)vinesse(at)francetelecom(dot)com

===================

------------------------------------------------------
Malek Boualem
France Telecom, Division R&D
2, avenue Pierre Marzin - 22307 Lannion - France
Tel: (33)(0)2.96.05.29.83
Fax: (33)(0)2.96.05.32.86
Email: malek.boualem at francetelecom.com
------------------------------------------------------



More information about the Corpora mailing list