These: Gael Patin, Extraction interactive et non-supervisee de lexique en chinois contemporain

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Jan 23 08:10:46 UTC 2013


Date: Wed, 23 Jan 2013 00:27:18 +0100
From: Gaël Patin <gpatin at gmail.com>
Message-ID: <CAKRs6Jm_g_rBm5gX6jQ4CNiA-F9=PCj4y8SP87LsJSzUTYVhNQ at mail.gmail.com>

Bonjour,

J'ai le plaisir de vous inviter à la soutenance de ma thèse intitulée :

"Extraction interactive et non-supervisée de lexique en chinois
contemporain appliquée à la constitution de ressources linguistiques
dans un domaine spécialisé"

Elle aura lieu le jeudi 31 janvier 2013 à 9h30, à INaLCO au 2,rue de
Lille, Paris 7e - Les salons (escalier C, 2ème étage)

Métro : Gare d'Orsay (RER C) ou Saint Germain des près (ligne 4) ou rue
du bac (ligne 12)

Je vous convie chaleureusement au pot qui suivra et qui se tiendra
également rue de Lille.

Bien cordialement,

Gaël Patin

---------------------------------------
Le jury de soutenance sera composé de :

Rapporteurs :

Béatrice Daille - Professeur (Université de Nantes)
Pascale Fung - Associate Professor (Hong Kong University of Science and
Technology)

Examinateurs:

Pierre Zweigenbaum (Directeur de thèse) - Professeur (LIMSI, INaLCO)
Alain Polguère - Professeur (ATILF, Université de Lorraine-CNRS)
Zhitang Drocout-Yang - Maître de conférence HDR (CRLAO, INaLCO)
Nicolas Dessaigne - Docteur (Université de Nantes) \ PDG (Algolia)

------------------------------------------
Résumé

Cette thèse traite de l’extraction d’unités lexicales en chinois
contemporain à partir d’un corpus de textes de spécialité. Elle aborde
la tâche d’extraction de lexique en chinois en utilisant des techniques
se basant sur des caractéristiques linguistiques de la langue
chinoise. La thèse traite également de la manière d’évaluer l’extraction
de lexique dans un environnement industriel.
La première partie de la thèse est consacrée à la description du
contexte de l’étude. Nous nous attachons dans un premier temps à décrire
les concepts linguistiques d’unité lexicale et de lexique, et nous
donnons une description du processus de construction des unités
lexicales en chinois contemporain. Nous faisons ensuite un inventaire
des différentes techniques utilisées par la communauté scientifique pour
traiter la tâche de l’extraction de lexique en chinois
contemporain. Nous concluons cette partie par une description des
pratiques d’extraction de lexique en milieu industriel, et nous
proposons une formalisation des critères utilisés par les terminographes
d’entreprise pour sélectionner les unités lexicales pertinentes.

La deuxième partie du mémoire porte sur la description d’une méthode
d’extraction de lexique en chinois contemporain et sur son évaluation.
Nous introduisons une nouvelle méthode numérique non supervisée
s’appuyant sur des caractéristiques structurelles de l’unité lexicale en
chinois et sur des particularités syntaxiques du chinois. La méthode
comporte un module optionnel permettant une interaction avec un
opérateur (i.e. semi-automatique). Dans la section consacrée à
l’évaluation, nous évaluons d’abord le potentiel de la méthode en
comparant les résultats de l’extraction avec un standard de référence et
une méthode de référence. Nous mettons ensuite en œuvre une évaluation
plus pragmatique de la méthode en mesurant les gains apportés par
l’usage de la méthode en comparaison avec l’extraction manuelle de
lexique par des terminographes.
Les résultats obtenus par notre méthode sont de bonne qualité et sont
meilleurs que ceux produits par la méthode de référence sur le standard
de référence. Ces résultats sont encourageants, mais ils doivent être
confirmés par une évaluation plus complète. L’évaluation pragmatique
montre que la méthode n’améliore pas significativement la productivité
des terminographes, mais permet d’extraire des unités lexicales
différentes de celles obtenues manuellement.

Abstract

This thesis deals with lexical unit extraction in contemporary Chinese
from a corpus of specialized texts. It addresses the task of Chinese
lexicon extraction using techniques based on linguistic characteristics
of the Chinese language. The thesis also discusses how to evaluate the
extraction of a lexicon in an industrial environment.

The first part of the thesis describes the context of the study. We
focus on describing the linguistic concepts of vocabulary and lexical
units, and we also give a description of the construction of lexical
units in contemporary Chinese. We then make a inventory of the different
techniques used by the scientific community to address the task of
extracting a contemporary Chinese lexicon. We conclude this section by
describing lexicon extraction practices in industry, and we propose a
formalization of the criteria used by terminologists to select the
relevant lexical units.

The second part of this thesis deals with the description of a method
for extracting Chinese contemporary lexicon and its evaluation. We
introduce a new numerical unsupervised method based on structural
features of the lexical unit in Chinese and syntactic features of
Chinese. The method includes an optional module to interact with a user
(i.e. semi-automatic). In the section related to the evaluation, we
first evaluate the potential of the method by comparing extraction
results to a reference standard and a reference method. We then
implement a more pragmatic evaluation of the method by measuring the
gains using this method as opposed to manual lexicon extraction by
terminologists. The results obtained by our method are better than those
produced by the reference method on the reference standard.  These
results are encouraging, but need to be confirmed by a more
comprehensive study. The pragmatic evaluation shows that the method does
not significantly improve the productivity of terminologists but can
extract different lexical units than those obtained manually.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list