These: Fran=?ISO-8859-1?Q?=E7ois_?=Morlane-Hondere, Evaluation des ressources extraites par analyse distributionnelle automatique

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Jun 26 10:49:31 UTC 2013


Date: Tue, 25 Jun 2013 12:04:31 +0200
From: François Morlane-Hondère <francois.morlane at univ-tlse2.fr>
Message-ID: <CAEkQZjyx0Qf03GPc_LEsp0_-B8P=vvO+kVZCkJqJEDRb=m-6uw at mail.gmail.com>
X-url: http://w3.erss.univ-tlse2.fr/membre/morlane/

Bonjour,

J'ai le plaisir de vous convier à la soutenance de ma thèse, qui
s'intitule "Une approche linguistique de l'évaluation des ressources
extraites par analyse distributionnelle automatique".

Cette soutenance aura lieu le mercredi 10 juillet 2013 à 14h à la salle
D29 de la Maison de la Recherche, à l'Université Toulouse II Le
Mirail. Elle sera suivie du traditionnel pot de thèse auquel vous êtes
chaleureusement conviés.

Bien cordialement,

François Morlane-Hondère

-----
Composition du jury :
Pierre-André Buvet - Maître de conférences HDR, Université Paris 13/LDI
(examinateur)
Béatrice Daille - Professeur, Université de Nantes/LINA (rapporteur)
Cécile Fabre - Professeur, Université de Toulouse II/CLLE-ERSS
(directrice)
Nabil Hathout - Directeur de recherche, CNRS et Université de Toulouse
II/CLLE-ERSS (examinateur)
Alain Polguère - Professeur, Université de Lorraine/ATILF (rapporteur)

-----
Résumé :
Dans cette thèse, nous abordons du point de vue linguistique la question
de l'évaluation des bases lexicales extraites par analyse
distributionnelle automatique (ADA). Les méthodes d'évaluation de ces
ressources qui sont actuellement mises en oeuvre (comparaison à des
lexiques de référence, évaluation par la tâche, test du TOEFL...)
relèvent en effet d'une approche quantitative des données qui ne laisse
que peu de place à l'interprétation des rapprochements générés. De ce
fait, les conditions qui font que certains couples de mots sont extraits
alors que d'autres ne le sont pas restent mal connues. Notre travail
vise une meilleure compréhension des fonctionnements en corpus qui
régissent les rapprochements distributionnels. Pour cela, nous avons
dans un premier temps adopté une approche quantitative qui a consisté à
comparer plusieurs ressources distributionnelles calculées sur des
corpus différents à des lexiques de références (le Dictionnaire
électronique des synonymes du CRISCO et le réseau lexical
JeuxDeMots). Cette étape nous a permis, premièrement, d'avoir une
estimation globale du contenu de nos ressources, et, deuxièmement, de
sélectionner des échantillons de couples de mots à étudier d'un point de
vue qualitatif.

Cette deuxième étape constitue le coeur de la thèse. Nous avons choisi
de nous focaliser sur les relations lexico-sémantiques que sont la
synonymie, l'antonymie, l'hyperonymie et la méronymie, que nous abordons
en mettant en place quatre protocoles différents. En nous appuyant sur
les relations contenues dans les lexiques de référence, nous avons
comparé les propriétés distributionnelles des couples de
synonymes/antonymes/hyperonymes/méronymes qui ont été extraits par l'ADA
avec celles des couples qui ne l'ont pas été. Nous mettons ainsi au jour
plusieurs phénomènes qui favorisent ou bloquent la substituabilité des
couples de mots (donc leur extraction par l'ADA). Ces phénomènes sont
considérés au regard de paramètres comme la nature du corpus qui a
permis de générer les bases distributionnelles étudiées (corpus
encyclopédique, journalistique ou littéraire) ou les limites des
lexiques de référence.

Ainsi, en même temps qu'il questionne les méthodes d'évaluation des
bases distributionnelles actuellement employées, ce travail de thèse
illustre l'intérêt qu'il y a à considérer ces ressources comme des
objets d'études linguistiques à part entière. Les bases
distributionnelles sont en effet le résultat d'une mise en oeuvre à
grande échelle du principe de substituabilité, ce qui en fait un
matériau de choix pour la description des relations lexico-sémantiques.

François Morlane-Hondère

Doctorant contractuel
Université Toulouse II - Le Mirail
Laboratoire CLLE-ERSS (UMR 5263) & Département de Sciences du Langage
http://w3.erss.univ-tlse2.fr/membre/morlane/

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list