Sujet de these: CEA LIST, Fontenay-aux-Roses

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Apr 16 20:50:05 UTC 2010


Date: Fri, 16 Apr 2010 14:59:39 +0200
From: "SEMMAR Nasredine 202247" <nasredine.semmar at cea.fr>
Message-ID: <457C3CAAA0CD2D40A64E4D03419B57AAC4912D at LaBeaujoire.intra.cea.fr>


Le CEA LIST propose une allocation doctorale de recherche pour la
rentrée universitaire 2010.

Le sujet de thèse porte sur l'utilisation de corpus parallèles ou
comparables pour la construction de ressources linguistiques
multilingues.

Description du sujet :

Les applications des corpus de textes parallèles ou comparables sont
diverses : constitution de dictionnaires et de listes terminologiques
bilingues pour la recherche d'information multilingue et la traduction
automatique, construction de mémoires de traduction, désambiguïsation
sémantique, etc. Les techniques d'alignement constituent un préalable
à l'exploitation de ces corpus : qu'il s'agisse d'aligner au niveau
des paragraphes, des phrases ou d'apparier des unités lexicales, la
plupart des applications reposent sur la possibilité d'extraire des
correspondances précises entre les textes source et cible.

La compagne d'évaluation ARCADE II a montré que l'alignement
phrastique à partir de corpus parallèles est une tâche désormais bien
maîtrisée pour les langues à écriture latine. En revanche,
l'appariement au niveau lexical demeure une opération complexe et les
résultats des aligneurs actuels, qui sont limités à l'extraction de
mots simples ou de groupes nominaux, sont modestes. La rareté des
corpus alignés, en particulier dans des domaines de spécialité,
conduit en outre à orienter les recherches sur l'extraction de
lexiques bilingues vers l'utilisation de corpus comparables. Dans ce
cas, les travaux s'inscrivent généralement dans le cadre de la
sémantique distributionnelle. Les meilleurs résultats d'alignement de
mots, que ce soit pour des corpus parallèles ou comparables, sont
obtenus en utilisant un dictionnaire ou un lexique bilingue
pré-existant.

Dans la perspective d'automatiser le processus de construction de
dictionnaires multilingues à partir de corpus de textes parallèles ou
comparables spécialisés ou du domaine général, le sujet de thèse
proposé a pour but l'exploration et l'expérimentation de nouvelles
approches pour l'alignement de mots simples et complexes, l'objectif
étant l'amélioration de la qualité des résultats de l'alignement tout
en limitant la contrainte de l'existence au préalable du lexique
bilingue ou de sa couverture. La thèse examinera en particulier
l'intérêt de la prise en compte des dimensions sémantique et
thématique dans l'exploitation de corpus comparables en s'appuyant sur
des processus automatiques de structuration thématique de lexiques et
de découverte de sens de mots à partir de corpus.

Environnement :

La thèse se fera au sein du CEA LIST à Fontenay-aux-Roses dans le
Laboratoire Vision et Ingénierie des Contenus (LVIC) spécialisé en
extraction automatique de méta-données depuis les flux multimédia et
en indexation et recherche d'information multimédia et multilingue.

Conditions sur les candidatures :

- avoir moins de 26 ans
- avoir un diplôme de Master Recherche ou équivalent en informatique


Expérience souhaitée :

- Compétences en traitement automatique de la langue et en statistique
  souhaitées

Modalité de dépôt de candidature :

Les candidatures (CV + Lettre de motivation + Lettres de
recommandation + Relevé de notes depuis le Bac) sont à envoyer le plus
rapidement possible à Nasredine Semmar (nasredine.semmar at cea.fr)

Contacts pour plus d'information :

Nasredine Semmar, Email: nasredine.semmar at cea.fr, Tél: 01 46 54 80 15

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list