These: Dhouha Bouamor, Constitution de ressources linguistiques multilingues

Tue Feb 18 21:30:17 UTC 2014

Date: Sun, 16 Feb 2014 13:54:56 +0000
From: SEMMAR Nasredine 202247 <nasredine.semmar at cea.fr>
Message-ID: <50CC12289F0C854FBFF134F270030CD71C49B57B at EXDAG0-B2.intra.cea.fr>

Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse réalisée au
sein du Laboratoire Vision et Ingénierie des Contenus (LVIC) et le
Laboratoire d'Informatique pour la Mécanique et les Sciences de
l'Ingénieur (LIMSI) intitulée : "Constitution de ressources
linguistiques multilingues à partir de corpus de textes parallèles et
comparables".

La soutenance aura lieu le vendredi 21 février 2014 à 14h00 au
LIMSI. Vous êtes également conviés au pot de thèse qui suivra.

Bien cordialement,

Dhouha Bouamor

************************************************************************
Le jury de soutenance sera composé de :

M. Reinhard Rapp, Professeur à l'Université de Mainz, Rapporteur
M. Eric Gaussier, Professeur à l'Université Joseph Fourier, Rapporteur
M. Philippe Langlais, Professeur à l'Université de Montréal, Examinateur
M. François Yvon, Professeur à l'Université Paris-Sud, Examinateur
M. Pierre Zweigenbaum, Directeur de recherche au LIMSI-CNRS, Directeur de thèse
M. Nasredine Semmar, Chercheur au LVIC - CEA LIST, Encadrant

************************************************************************

Résumé :

Les lexiques bilingues sont des ressources particulièrement utiles pour
la Traduction Automatique et la Recherche d’Information
Interlingue. Leur construction manuelle nécessite une expertise forte
dans les deux langues concernées et est un processus coûteux. Plusieurs
méthodes automatiques ont été proposées comme une alternative, mais
elles ne sont disponibles que dans un nombre limité de langues et leurs
performances sont encore loin derrière la qualité des traductions
manuelles. Notre travail porte sur l'extraction de ces lexiques
bilingues à partir de corpus de textes parallèles et comparables.

En nous basant sur des corpus parallèles, nous présentons une approche
qui porte sur le traitement d’expressions polylexicales, allant de leur
acquisition automatique à leur intégration dans un système de traduction
automatique statistique.

Pour les corpus comparables, nous proposons deux nouvelles approches
dont le but est d’extraire des lexiques bilingues spécialisés dans les
domaines de la finance des entreprises, du cancer du sein, de l’énergie
éolienne et de la technologie mobile. La première approche étend
l’approche distributionnelle par un processus de désambiguïsation
lexicale. La deuxième approche repose sur Wikipédia et l’analyse
explicite sémantique. L’originalité de cette approche réside dans le
fait que, au lieu de considérer l’espace des mots d’un corpus pour la
représentation des mots que l’on souhaite traduire, ces derniers sont
représentés dans l’espace des titres des articles de Wikipédia. Ces deux
approches se comparent favorablement aux méthodes existantes dans la
plupart des configurations.

Mots clés : extraction de lexique bilingue, corpus parallèle, corpus
comparable, alignement, traduction automatique statistique.

************************************************************************

Abstract:

Bilingual lexicons are central components of machine translation and
cross-lingual information retrieval systems. Their manual construction
requires extensive expertise in both languages involved and it is a
costly process. Several automatic methods were proposed as an
alternative but they often rely of resources available in a limited
number of languages and their performances are still far behind the
quality of manual translations. Our work concerns bilingual lexicon
extraction from multilingual parallel and comparable corpora.

Based on parallel corpora, we present an approach that focuses on
processing multiword expressions, ranging from their automatic
acquisition to their integration into a statistical machine translation
system.

For comparable corpora, we propose two new approaches that aim at
extracting bilingual lexicons specialized in the corporate finance,
breast cancer, wind energy and mobile technology domains. The first
approach augments the distributional approach by proposing a word sense
disambiguation process that keeps only the words that are more likely to
give the best representation of a word to be translated. Our second
approach is based on Wikipedia and its explicit semantic analysis. The
main originality of this approach is in the way words are represented:
instead of representing the words in a corpus words space, they are
represented in Wikipedia titles’ space. The newly introduced approaches
compare favorably to existing methods in almost configurations.

Keywords: bilingual lexicon extraction, parallel corpus, comparable
corpus, alignment, statistical machine translation.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------