Job: Postdoc, France Telecom Orange Labs sur le CLIR

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Mon Jan 9 09:41:29 UTC 2012


Date: Fri, 6 Jan 2012 18:48:03 +0100
From: <malek.boualem at orange.com>
Message-ID: <08BA2C59E081884DB2AAE4A0BE9D6DC102C172A6 at ftrdmel0.rd.francetelecom.fr>


Bonjour,
 
Offre de postdoc à France Telecom Orange Labs dans le domaine de la
recherche d'information cross-lingue (CLIR).
 
Lieu : France Telecom Orange Labs à Lannion (Bretagne).
Date : dès que possible.
Durée : 12 mois.
 
Sujet du postdoc :
Approches hybrides de traitement des requêtes pour la recherche
d'information cross-lingue
 
Contexte de recherche :
Certains choix techniques ou méthodologiques en recherche d'information
multilingue n'ont pas encore atteint un niveau de consensus. Par
exemple, il n'est pas trivial d'opter pour la traduction des requêtes ou
la traduction des contenus. Toutefois, il nous semble d'ores et déjà
acceptable que la traduction des contenus est plus optimale lorsque la
quantité d'informations à indexer ainsi que le nombre de langues
concernées ne sont pas très élevés. Dans le cas contraire, la traduction
préalable de tous les contenus indexés dans toutes les langues peut
poser de réels problèmes d'économie.  En effet, une petite partie
seulement des informations traduites pourrait être réellement exploitée.
 
Activité du postdoc :

Cette activité s'inscrit dans le cadre d'un projet de R&D dans le
domaine de la recherche d'information multimédia et multilingue. Il est
proposé d'explorer, mettre en oeuvre et évaluer une ou des méthodes
hybrides pour le traitement des requêtes en vue d'une recherche
cross-lingue.

Contrairement à une traduction brute de la requête, qui peut échouer
compte tenu de sa pauvreté syntaxique et contextuelle, ce travail
consiste à explorer différentes approches dont la combinaison
permettrait d'effectuer des pré-traitements ou des post-traitements
moins systématiques et mieux réfléchis sur les requêtes :

- Identification dans le requête des composants invariants,
  traduisibles, translitérables, etc.

- Prise en compte de scores de confiance et post-édition de la
  traduction automatique.

- Exploitation de ressources linguistiques : Wikipédia, entités nommées,
  lexiques multilingues, thésaurus, etc.

- Utilisation de l'expansion de requêtes pour la compensation de la
  couverture lexicale issue de la traduction.

- Choix et usage de techniques appropriées de traduction pour les
  différents composants de la requête.

- Etc.

Profil recherché :
- Doctorat en informatique ou en linguistique, ayant été soutenu depuis
  moins d'un an.

- Bonnes connaissances en TALN et des différentes approches en
  traduction automatique.

- Connaissances en recherche d'information et en CLIR.

- Maîtrise de Linux, Python ou Java, langage de script (bash), C++
  serait un plus.

- Langues : français et anglais (la connaissance d'autres langues serait
  la bienvenue).

- Motivation pour la R&D dans un milieu industriel.

Contact :
Malek Boualem
France Telecom Orange Labs
Tél. 02 96 05 29 83
Email. malek.boualem[at]orange.com

Merci de mettre comme objet du message : candidature au postdoc CLIR

Malek Boualem
Chef de projet R&D
France Telecom Orange Labs
Site de Lannion
Tél. 02 96 05 29 83
Mobile. 06 85 71 40 63
malek.boualem[at]orange.com

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list