These: Rima Harastani, Alignement lexical en corpus comparables

Sat Feb 8 11:03:30 UTC 2014

Date: Thu, 6 Feb 2014 12:40:10 +0100
From: Rima Harastani <rima.harastani at gmail.com>
Message-ID: <CADUKFTm-HtuuyWQdR0PZj-4MFPXT4D4V5JawyqDxq55kTcn93A at mail.gmail.com>

Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse réalisée au
sein du Laboratoire d'Informatique de Nantes Atlantique (LINA) et
intitulée : "Alignement lexical en corpus comparables : le cas des
composés savants et des adjectifs relationnels".

La soutenance aura lieu le lundi 10 février 2014 à 14h00 en salle 3 au
LINA (bâtiment 11, Faculté des Sciences et des Techniques). Vous êtes
également convié-e-s au pot de thèse qui suivra.

Bien cordialement,
Rima Harastani

***************************
Le jury  de soutenance sera composé de :

M. Hervé BLANCHON, Maître des conférences, Université Pierre Mendès -
   Rapporteur
M. Ulrich HEID, Professeur des universités, Université de Stuttgart -
   Rapporteur
M. Vincent CLAVEAU, Chargé de recherche, CNRS-IRISA Rennes - Examinateur
M. Holger SCHWENK, Professeur des universités, Université du Maine -
   Examinateur
Mme. Béatrice DAILLE, Professeur des universités, Université de Nantes -
   co-encadrante de thèse
M. Emmanuel MORIN, Professeur des universités, Université de Nantes -
   directeur de thèse

***************************
Résumé :

Notre travail concerne l'extraction automatique d'une liste de termes
alignés avec leurs traductions (c'est-à-dire un lexique bilingue
spécialisé) à partir d'un corpus comparable dans un domaine de
spécialité.  Un corpus comparable comprend des textes écrits dans deux
langues différentes sans aucune relation de traduction entre eux mais
dont les textes appartiennent à un même domaine. Les contributions de
cette thèse portent sur l'amélioration de la qualité d'un lexique
bilingue spécialisé extrait à partir d'un corpus comparable. Nous
proposons des méthodes consacrées à la traduction de deux types de
termes, qui ont des caractéristiques en commun entre plusieurs langues
ou qui posent par leur nature des problèmes pour la traduction : les
composés savants (termes contenant au moins une racine empruntée au grec
ou latin) et les termes composés d'un nom et un adjectif
relationnel. Nous développons également une méthode, qui exploite des
contextes riches en termes spécifiques au domaine du corpus, pour
réordonner dans un lexique bilingue spécialisé des traductions
candidates fournies pour un terme. Les expériences sont réalisées en
utilisant deux corpus comparables spécialisés, le premier dans le
domaine du cancer du sein et le deuxième dans le domaine des énergies
renouvelables, sur les langues français, anglais, allemand et espagnol.

Mots clés : corpus comparables, langue de spécialité, alignement
multilingue, composés savants, adjectifs relationnels.

***************************

Abstract:

Our work concerns the automatic extraction of a list of aligned terms
with their translations (i.e. specialized bilingual lexicon) from
comparable corpora belonging to a specific domain. Comparable corpora
include texts written in two languages which are not translations of
each other but belong to the same domain. This thesis contributes to the
improvement of the quality of an extracted bilingual lexicon. We propose
methods dedicated to the translation of two types of terms that have
common characteristics among many languages or that cause specific
problems for translation due to their nature. These types of terms are
the neoclassical compounds (terms containing at least one root borrowed
from Greek or Latin) and the terms composed of one noun and one
relational adjective. We also propose a method, which exploits contexts
rich in domain-specific terms to re-rank some provided translations in a
bilingual lexicon for a given term. The experiments are performed using
two specialized comparable corpora, the first in the domain of breast
cancer and the second in the domain of renewable energy, on the
languages French, English, German and Spanish.

Keywords: comparable corpora, specialized language, multilingual
alignment, neoclassical compounds, relational adjectives.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------