Job: Stage de Master 2 Recherche au LIMSI, transfert blingue de roles semantiques

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Apr 18 16:50:45 UTC 2012


Date: Sun, 15 Apr 2012 17:42:38 +0200
From: Pierre Zweigenbaum <pz at limsi.fr>
Message-Id: <201204151742.39201.pz at limsi.fr>


Proposition de stage M1 ou M2 au LIMSI-CNRS
dans le cadre de l'Action Incitative
'Transfert de connaissances linguistiques d'une langue à l'autre'


Responsables du stage : 
Pierre Zweigenbaum (groupe ILES) 
Marianna Apidianaki (groupe TLP)


Titre : Transfert de rôles sémantiques d'une langue à l'autre

Les ressources linguistiques comme les corpus annotés sont actuellement
disponibles dans peu de langues, notamment en anglais. Cependant, des
ressources de ce type sont requises pour le développement d'outils pour
de nombreuses applications du traitement automatique des langues. De ce
fait, plusieurs travaux se sont récemment intéressés au transfert
automatique de connaissances de langues riches en ressources vers
d'autres langues. Le stage proposé rejoint cette problématique.

Le transfert de connaissances linguistiques d'une langue à l'autre a
généralement lieu au sein de corpus parallèles et se base sur
l'alignement des textes. L'idée sur laquelle reposent les méthodes
proposées est que si l'on dispose de corpus annotés et de leur
traduction dans une autre langue, on peut chercher à transférer les
annotations dans cette autre langue. Par ce processus, des ressources
sont créées qui permettent d'entraîner des outils d'analyse à différents
niveaux dans les nouvelles langues (Yarowsky et Ngai, 2001; Lopez et
al. 2002).

Ce stage est plus particulièrement centré sur le transfert
d'informations de rôles sémantiques de l'anglais vers le français. Les
méthodes d'étiquetage de rôles sémantiques nécessitent des connaissances
linguistiques importantes ou de grands corpus annotés. En anglais, ces
ressources et les outils dérivés existent (Gildea et Jurafsky, 2002;
Palmer et al., 2005). Pour le français, des travaux sont en cours pour
construire de telles ressources et outils, y compris en exploitant des
corpus parallèles (Padó et Pitel, 2007; Van der Plas et al., 2011) afin
de bénéficier des outils ou annotations disponibles pour l'anglais.

L'objectif de ce stage est de mener une étude sur le processus de
transfert de rôles sémantiques de l'anglais vers le français. Plus
précisément, nous souhaitons explorer les cas où le transfert ne peut
pas être effectué. Cela peut être dû à la structure spécifique aux
langues particulières ; à des erreurs d'alignement ; ou à des
divergences de traduction observées au sein de corpus parallèles.  Les
résultats du processus de transfert proposé par Van der Plas et
al. (2011) seront analysés en comparaison avec un étiquetage de
référence (gold standard) contenant les résultats corrects. Le/la
stagiaire aura donc à étudier les cas où l'analyseur ne fournit pas les
résultats souhaités, à procéder à une analyse des erreurs, étudier
l'impact de ces sources d'erreur sur le transfert et envisager des
solutions pouvant améliorer la performance de la méthode.

Le corpus qui sera utilisé pour cette étude est la partie
anglais-français du corpus Europarl (Koehn, 2005).

Profil : le/la stagiaire devra avoir un profil linguistique multilingue
et un intérêt pour les problématiques du traitement de la langue. Des
compétences en informatique seront appréciées mais ne sont pas
indispensables.

Durée : 4 mois
Date de début : dès disponibilité
Niveau : Master 1 ou 2
Lieu : LIMSI-CNRS, Groupe ILES
rue John von Neumann,
Université Paris Sud
91403 Orsay Cedex

Salaire: le/la stagiaire recevra la gratification CNRS standard
(de l'ordre de 436 €/mois).

Contacts : 
Pierre Zweigenbaum (pz at limsi.fr)
Marianna Apidianaki (marianna at limsi.fr)

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list