Sujet de these: Corpus paralleles ou comparables pour la construction de ressources linguistiques bilingues

Fri Sep 19 14:24:08 UTC 2008

Date: Wed, 17 Sep 2008 17:06:08 +0200
From: "SEMMAR Nasredine 202247" <nasredine.semmar at cea.fr>
Message-ID: <28C81D1080B38F4890D5E9D34F03521907D4D716 at LaBeaujoire.intra.cea.fr>
X-url: http://www.capdigital.com/xwiki/bin/view/Projet/ProjectWEBCROSSLING

Dans le cadre d'une collaboration entre le CEA LIST et la société
Softissimo, une allocation doctorale de recherche de type CIFRE sera
proposée pour la rentrée universitaire 2008 en liaison avec le projet
ANR WEBCROSSLING
(http://www.capdigital.com/xwiki/bin/view/Projet/ProjectWEBCROSSLING).

Les étudiants de Master Recherche avec des compétences en
informatique, linguistique et en statistiques qui sont intéressés par
ce financement sont invités à soumettre un dossier.

Les candidatures (CV + Lettre de motivation) sont à envoyer le plus
rapidement possible, à Nasredine Semmar (nasredine.semmar at cea.fr) ou à
Théo Hoffenberg (theo at softissimo.com).

Titre:

«Utilisation de corpus parallèles ou comparables pour la construction
de ressources linguistiques bilingues»

Description du sujet:

Les applications des corpus de textes parallèles ou comparables sont
diverses: constitution de dictionnaires et de listes terminologiques
bilingues pour la recherche d'information multilingue et la traduction
automatique, construction de mémoires de traduction, désambiguïsation
sémantique, etc. Les techniques d'alignement constituent un préalable
à l'exploitation de ces corpus: qu'il s'agisse d'aligner au niveau des
paragraphes, des phrases ou d'apparier des unités lexicales, la
plupart des applications reposent sur la possibilité d'extraire des
correspondances précises entre les textes source et cible.

La compagne d'évaluation ARCADE II a montré que l'alignement
phrastique à partir de corpus parallèles est une tâche désormais bien
maîtrisée pour les langues à écriture latine. En revanche,
l'appariement au niveau lexical demeure une opération complexe et les
résultats des aligneurs actuels, qui sont limités à l'extraction de
mots simples ou de groupes nominaux, sont modestes. La rareté des
corpus alignés, en particulier dans des domaines de spécialité,
conduit en outre à orienter les recherches sur l'extraction de
lexiques bilingues vers l'utilisation de corpus comparables. Dans ce
cas, les travaux s'inscrivent généralement dans le cadre de la
sémantique distributionnelle. Les meilleurs résultats d'alignement de
mots, que ce soit pour des corpus parallèles ou comparables, sont
obtenus en utilisant un dictionnaire ou un lexique bilingue
pré-existant.

Dans la perspective d'automatiser le processus de construction de
dictionnaires bilingues à partir de corpus de textes parallèles ou
comparables spécialisés ou du domaine général, le sujet de thèse
proposé a pour but l'exploration et l'expérimentation de nouvelles
approches pour l'alignement de mots simples et complexes, l'objectif
étant l'amélioration de la qualité des résultats de l'alignement tout
en limitant la contrainte de l'existence au préalable du lexique
bilingue ou de sa couverture.. La thèse examinera en particulier
l'intérêt de la prise en compte des dimensions sémantique et
thématique dans l'exploitation de corpus comparables en s'appuyant sur
des processus automatiques de structuration thématique de lexiques et
de découverte de sens de mots à partir de corpus.

Environnement:

Le doctorant sera intégré dans le laboratoire LIC2M (Laboratoire
d'Ingénierie de la Connaissance Multimédia Multilingue) et participera
aux activités de recherche et développement de la société Softissimo
et du projet WEBCROSSLING.

Contacts pour plus d'information:

Nasredine Semmar, Email: nasredine.semmar at cea.fr, Tél: 01 46 54 80 15

Théo Hoffenberg, Email: theo at softissimo.com, Tél: 01 41 43 10 43

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------