These: Amir Hazem, Extraction de lexiques bilingues a partir de corpus comparables

Wed Oct 9 10:09:55 UTC 2013

Date: Wed, 9 Oct 2013 12:01:06 +0200 (CEST)
From: "Amir HAZEM" <amir.hazem at univ-nantes.fr>
Message-ID: <f83e82f642c1550d4ebef55f71e1ddac.squirrel at webmail.univ-nantes.fr>

Bonjour

J'ai le plaisir de vous inviter à ma soutenance de thèse réalisée au
sein du Laboratoire d'Informatique de Nantes Atlantique et intitulé :

" Extraction de lexiques bilingues à partir de corpus comparables ".

La soutenance aura lieu le vendredi 11 octobre à 10h30 à l'amphi 121
(fac de sciences, bâtiment 26).

Vous êtes également convié-e-s au pôt de thèse qui suivra.

BIen cordialement,

Amir HAZEM

-------

Composition du jury :
------------------------------

- Pierre ZWEIGENBAUM, Directeur de Recherche CNRS, LIMSI-CNRS
  (Rapporteur)
- Philippe LANGLAIS, Professeur des Universités, Université de Montréal
  (Rapporteur)
- Béatrice DAILLE, Professeur des Universités, Université de Nantes
  (Examinateur)
- Éric GAUSSIER, Professeur des Universités, Université de Grenoble
  (Examinateur)
- Emmanuel MORIN, Professeur des Universités, Université de Nantes
  (Directeur de thèse)

Résumé :
------------
La plupart des travaux en acquisition de lexiques bilingues à partir de
corpus comparables reposent sur l'hypothèse distributionnelle qui a été
étendue au scénario bilingue. Deux mots ont de fortes chances d'être en
relation de traduction s'ils apparaissent dans les mêmes contextes
lexicaux. Ce postulat suppose donc une définition claire et rigoureuse
du contexte et une connaissance parfaite des indices contextuelles. Or,
la complexité et les spécificités de chaque langue font qu'il n'est pas
aisé d'énoncer une telle définition qui garantisse une extraction de
couples de traductions, efficace dans tous les cas de figure. Toute la
difficulté réside dans la manière de définir, d'extraire et de comparer
ces contextes dans le but de construire des lexiques bilingues
fiables. Nous nous efforcerons tout au long de cette thèse à essayer de
mieux comprendre cette notion de contexte, pour ensuite l'étendre et
l'adapter afin d'améliorer la qualité des lexiques bilingues. Une
première partie des contributions vise à améliorer la méthode directe
qui fait office de référence dans la communauté. Nous proposerons
plusieurs manières d'aborder le contexte des mots pour mieux les
caractériser.  Dans la deuxième partie des contributions, nous
commencerons par présenter une approche qui vise à améliorer la méthode
par similarité inter-langue.  Ensuite, une méthode nommée Q-Align,
directement inspirée des systèmes de questions/réponses sera
présentée. Enfin, nous présenterons plusieurs transformations
mathématiques et donc plusieurs représentations vectorielles, pour nous
concentrer essentiellement sur celles que nous aurons choisies pour
développer une nouvelle méthode d'alignement

Abstract :
--------------
Most work in bilingual lexicon acquisition from comparable corpora are
based on the distributional hypothesis that has been extended to the
bilingual scenario. Hence, two words are more likely to be translation
of each other if they appear in the same lexical contexts. This
assumption presupposes a clear and rigorous definition of context and a
thorough knowledge of contextual clues. However, the complexity and
specificity of each language make the formulation of such a definition
that ensures effective extraction of translation pairs in all cases not
easy. All the difficulty lies in how to define, extract and compare
these contexts in order to build reliable bilingual lexicons. We strive
throughout the different chapters of this thesis to try to understand
this notion of context, and then extend and adapt it to improve the
quality of bilingual lexicons. The first part of contributions aims at
improving the standard approach concidered as a baseline in the
community. Thus, we propose several ways to concider the context for
better words characterization. In the second part of the contributions,
we first present an approach that aims to improve the extended
approach. Then, a method called Q-Align directly inspired from
questions/answering systems will be presented.  Finally, we present
several mathematical transforms and thus multiple vector space
representations to focus primarily on the one we have chosen to develop
a new alignment method.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA dÃ©cline toute responsabilitÃ© concernant le contenu des
messages diffusÃ©s sur la liste LN
-------------------------------------------------------------------------