These: Charlotte Lecluze, Alignement de documents multilingues sans presuppose de parallelisme
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Fri Nov 18 21:52:21 UTC 2011
Date: Wed, 16 Nov 2011 17:08:49 +0100
From: charlotte.lecluze at pertimm.com
Message-ID: <1321459729.4ec3e01100857 at wm.pertimm.com>
***********************
Bonjour,
J'ai le plaisir de vous convier à ma soutenance de thèse en informatique
qui aura lieu le lundi 5 décembre à 14h00 en salle des thèses de
l'université de Caen Basse-Normandie (S3-102 1er étage), campus 2,
bâtiment sciences 3, UFR des sciences.
Vous êtes également cordialement invités au pot de thèse qui suivra la
soutenance et qui aura lieu dans la salle S3-347, bâtiment sciences 3.
Titre : Alignement de documents multilingues sans présupposé de
parallélisme
Jury :
M. Eric Gaussier, professeur, université de Grenoble (rapporteur)
M. Philippe Langlais, professeur, université de Montréal (rapporteur)
M. Patrick Constant, président et fondateur de Pertimm
Mme Christine Durieux, Professeur, université de Caen
M. Emmanuel Giguet, chargé de recherche, université de Caen (co-directeur)
M. Jacques Vergne, professeur, université de Caen (directeur)
Aujourd’hui les travaux exploitant des documents multilingues se
tournent vers l’étude de textes comparables alors même que tous les
aspects des documents parallèles n’ont pas été étudiés ni tous les
verrous liés aux méthodes d’alignement levés, notamment leur mise en
forme et les cas d’inversions et de suppressions au niveau
sur-phrastique. Ainsi, nous ne disposons pas à ce jour d’outils
permettant de valoriser cette mine d’informations, d’en extraire aussi
massivement qu’envisagé des ressources pourtant utiles tant aux
traducteurs qu’aux lexicologues.
Nous présentons ici une méthode sans présupposé de parallélisme entre
les différents volets d’un multidocument. L’idée essentielle de ces
travaux est la suivante : entre deux volets d’un multidocument, il
existe des grains qui maximisent le parallélisme, nous les appelons des
multizones. Celles-ci peuvent recouvrir plusieurs réalités : documents,
série de paragraphes, paragraphes, propositions. . . Ces multizones ne
sont pas délimitables de façon ad hoc, il convient de le faire en
contexte et de façon indépendante des langues. À ces fins, nous
combinons plusieurs procédés originaux : étudier chaque multidocument au
travers d’une collection de multidocuments, exploiter la mise en forme
des documents par traitement direct du source ou encore traiter des
chaînes de caractères répétées plutôt que des mots.
Notre objectif est double : appariement et alignement, i.e. création de
ressources et analyse de documents. Cette méthode requiert peu de
supervision, l’ajout d’une nouvelle langue ou le changement de corpus
d’entrée ne représentent pas un coût important.
Charlotte Lecluze
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list