These: Emmanuel Prochasson, Alignement multilingue en corpus comparables sp écialises

Fri Dec 4 21:16:29 UTC 2009

Date: Fri, 04 Dec 2009 13:56:46 +0100
From: Emmanuel Prochasson <emmanuel.prochasson at univ-nantes.fr>
Message-ID: <4B19070E.6010407 at univ-nantes.fr>

Bonjour,

j'ai le plaisir de vous inviter à ma soutenance de thèse, le *jeudi 17
décembre, à 9h* au LINA (Laboratoire d'Informatique de Nantes
Atlantique -- UFR Sciences & Techniques, Université de Nantes),
intitulée :

/Alignement multilingue en corpus comparables spécialisés/

La soutenance sera suivie d'un traditionnel pot de thèse.

Cette thèse sera soutenue devant le jury suivant :
*Éric Gaussier*, Professeur, Université Joseph Fourier (Grenoble), 
rapporteur;
*Yves Lepage*, Professeur, Université de Caen, rapporteur;
*Kamel Smaïli*, Professeur, Université Nancy 2, examinateur;
*Béatrice Daille*, Professeur, Université de Nantes, directrice de thèse;
*Emmanuel Morin*, Professeur, Université de Nantes, co-encadrant.

__Résumé de la thèse__

Les corpus comparables rassemblent des documents multilingues n'étant
pas en relation de traduction mais partageant des traits
communs. Notre travail porte sur l'extraction de lexique bilingue à
partir de ces corpus, c'est-à-dire la reconnaissance et l'alignement
d'un vocabulaire commun multilingue disponible dans le corpus. Nous
nous concentrons sur les corpus comparables spécialisés, c'est-à-dire
des corpus constitués de documents révélateurs de la terminologie
utilisée dans les langues de spécialité. Nous travaillons sur des
corpus médicaux, l'un deux couvre la thématique du diabète et de
l'alimentation, en français, anglais et japonais; l'autre couvre la
thématique du cancer du sein, en anglais et en français. Nous
proposons et évaluons différentes améliorations du processus
d'alignement, en particulier dans le cas délicat de la langue
japonaise. Nous prolongeons ce manuscrit par une réflexion sur la
nature des corpus comparables et la notion de comparabilité.

Comparable corpora are sets of documents written in different
languages, which are not translations of each other but share common
features, such as the topic or the discourse type. Our work concerns
bilingual lexicon extraction from such corpora, in other word, the
process of finding translation pairs among the common multilingual
vocabulary available in comparable corpora. We focus on specialised
comparable corpora, for they are likely to reveal the terminology
proper to specialised language. We work on corpora made of medical
documents: one of them covers the topic of diabetes and feeding, in
French, English and Japanese; the other one covers the topic of breast
cancer, in French and English. We propose several improvements for the
classical alignment process, especially concerning the delicate case
of the Japanese language, distant from French and English. We conclude
this thesis with thoughts concerning the nature of comparable corpora
and the question of comparability.

Cordialement,

Emmanuel Prochasson

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------