These: Louise Deleger - Exploitation de corpus paralleles et comparables pour la detection de correspondances lexicales

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Oct 6 19:58:27 UTC 2009


Date: Mon, 5 Oct 2009 09:05:45 +0200
From: Louise Deleger <louise.deleger at limsi.fr>
Message-Id: <200910050905.45747.louise.deleger at limsi.fr>


Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse de doctorat
intitulée "Exploitation de corpus parallèles et comparables pour la
détection de correspondances lexicales : application au domaine
médical", ainsi qu'au pot qui suivra.

Elle aura lieu le Vendredi 2 octobre 2009 à 13h, au Centre de
Recherche des Cordeliers, Laboratoire SPIM-INSERM U872 Equipe 20 -
Escalier D 2è étage - 15 rue de l'École de Médecine - 75006 Paris

Cette thèse a été réalisée au laboratoire SPIM - INSERM UMRS_872,
équipe 20 (Ingénierie des connaissances en santé).

La soutenance se fera devant un jury composé de :

Béatrice Daille, rapporteure, Université de Nantes
Philippe Langlais, rapporteur, Université de Montréal, Canada
Stéfan Darmoni, examinateur, Université de Rouen
Jean-Gabriel Ganascia, examinateur, Université Pierre et Marie Curie
Marie-Christine Jaulent, examinatrice, INSERM U872 Equipe 20
Pierre Zweigenbaum, directeur de thèse, LIMSI-CNRS

Bien cordialement,

Louise Deleger

*******************************************************************

***Résumé***

En Traitement Automatique des Langues (TAL), des corpus de textes sont
régulièrement exploités pour contribuer aux diverses applications de
ce domaine, comme la recherche d'information, la construction de
terminologies ou la traduction. Une propriété des corpus couramment
exploitée en TAL est le parallélisme, dont le degré peut varier (vrai
parallélisme ou bien simple comparabilité). Nous cherchons dans cette
thèse à mettre ce parallélisme à profit pour le domaine de
l'Informatique Médicale. Plus spécifiquement, nous mettons en oeuvre
des méthodes de détection de correspondances lexicales de deux types:
d'une part, des traductions de termes médicaux afin d'enrichir des
terminologies médicales; d'autre part, des paraphrases d'expressions
spécialisées et grand public dans le but d'aider à rédiger des
documents médicaux à l'intention du grand public. Deux expériences ont
ainsi été menées.

La première expérience, plus applicative, se base sur des approches
éprouvées et sur un corpus parallèle, type souvent exploité. Elle met
en place des méthodes d'alignement de corpus (en phrases puis en mots)
en s'appuyant sur des outils existants. Cette expérience nous a permis
d'obtenir de nouvelles traductions françaises de termes anglais de
terminologies médicales (MeSH, SNOMED CT, MedlinePlusHealth Topics) à
partir d'un corpus parallèle bilingue français-anglais, dont certaines
sont maintenant intégrées au thésaurus MeSH.

La seconde expérience, plus exploratoire, examine les possibilités
d'exploitation de corpus comparables monolingues, type plus rarement
utilisé, ici composés de textes destinés pour les uns à des
spécialistes et pour les autres au grand public. Après
l'identification et l'appariement de segments de texte similaires
susceptibles de contenir des expressions équivalentes, deux méthodes
ont été conçues et mises en place: une première recherche des
paraphrases de nominalisations; la deuxième détecte des paraphrases de
composés savants. Nous avons ainsi obtenu diverses paraphrases qui
semblent cohérentes avec l'opposition spécialisé/grand public que l'on
cherche à instancier. Ce travail ouvre des pistes pour la compilation
d'expressions visant à aider les rédacteurs de documents médicaux à
l'intention du grand public.

***Abstract***

In Natural Language Processing (NLP), textual corpora are widely used
to contribute to various applications such as information retrieval,
terminology building or translation. A commonly used property in NLP
is parallelism, which can vary in degree (true parallelism or simple
comparability). In this work, we try to take advantage of this
parallelism for the domain of medical informatics. More specifically,
we set up methods for the detection of lexical correspondences (or
equivalent expressions) of two types: on the one hand, translations of
medical terms in order to enrich medical terminologies; on the other
hand, paraphrases between specialized and lay expressions with the aim
of helping to write medical documents for the general public. Two
experiments were carried out:

The first one is more applicative and is based on known approaches and
on a parallel corpus, a type of corpus often used in NLP. This
experiment relies on existing sentence and word alignment methods and
tools. It allowed us to obtain new French translations of English
terms from medical terminologies (MeSH, SNOMED CT, MedlinePlusHealth
Topics), some of which are now integrated in the French version of the
MeSH.

The second experiment is more exploratory and examines the possibility
of using monolingual comparable corpora, a corpus type which is less
often used, to collect paraphrases of a specific type. Here comparable
corpora consist of texts intended for specialists on the one hand and
for the general public on the other hand. As a first step, we
identified and matched text segments likely to contain equivalent
expressions. Two methods were then designed and implemented to extract
paraphrases from matching segments. The first method looks for
nominalisation paraphrases, the second one looks for paraphrases of
neo-classical compounds. They allowed us to obtain paraphrases which
are relevant with regard to the specialized/lay opposition we seek to
instantiate. This work opens prospects for the compilation of
expressions aimed at helping authors of medical documents dedicated to
the general public.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list