These: Pierre Magistry, Unsupervised Word Segmentation and Wordhood Assessment

Thierry Hamon hamon at LIMSI.FR
Tue Dec 10 20:49:11 UTC 2013


Date: Tue, 10 Dec 2013 13:46:04 +0100
From: Pierre Magistry 馬基石 <pmagistry at gmail.com>
Message-ID: <CAP7jsJKEmqKvSMt9pd_KDWZxU1Ms-LrkoG9LnFTGrd9Oy+4NPA at mail.gmail.com>

Chers amis, professeurs, étudiants, collègues,

J'ai le plaisir de vous inviter à la soutenance de ma thèse, intitulée
"Unsupervised Word Segmentation and Wordhood Assessment: the case for
Mandarin Chinese".
(Segmentation en mots non-supervisée et estimation de la lexicalité : le
cas du mandarin)

Je l'ai menée au sein de l'équipe Alpage, à l'université
Paris-Diderot/INRIA
et la soutiendrai le 19 décembre 2013 à partir de 9h30, dans la salle
des thèses de Paris 7.
Salle des thèses 580F (Halle aux Farines)
10 rue Françoise Dolto
75013  Paris
(plan :
http://www.openstreetmap.org/?mlat=48.8295&mlon=2.3825#map=16/48.8295/2.3825
)
Prendre l'entrée la plus proche de la Seine.

La soutenance sera suivie d'un pot auquel vous êtes également conviés.

Bien cordialement,
Pierre Magistry
----
Le jury  de soutenance sera composé de:
PR. 謝舒凱 Hsieh Shukai (rapporteur) - National Taiwan University
PR. Sylvain Kahane (directeur) - Université Paris 10 Nanterre, MoDyCo
PR. Yves Lepage (rapporteur) - Waseda University
PR. Marie-Claude Paris (co-directrice) - Université Paris Diderot, LLF
DR. Benoit Sagot (co-directeur) - INRIA, ALPAGE
DR. Pierre Zweigenbaum (président) - CNRS, LIMSI

----
Résumé de la thèse :

Ce mémoire traite de la segmentation non-supervisée en mots et de
l'évaluation de la «lexicalité» des formes. Le chinois moderne standard
(mandarin) est choisi pour les expériences et évaluations.

La première partie porte sur les aspects linguistiques. Elle présente
les critères couramment utilisés pour définir le «mot» en linguistique
chinoise et en montre les limites au travers d'une discussion de
linguistique générale, abordant notamment la question des «expressions
multi-mots» et son lien avec les problèmes de segmentation en mots.

Nous présentons ensuite l'historique du développement de la Segmentation
en Mot du Chinois (CWS) comme une tâche typique en TAL, et défendons
l'idée qu'une part d'arbitraire dans l'annotation des corpus
d'évaluation favorise artificiellement les systèmes d'apprentissage
supervisés alors que nous considérons les systèmes non-supervisés d'un
plus grand intérêt pour la linguistique.

La première partie nous amène à fonder notre définition de la lexicalité
sur deux critères: une forte autonomie de combinaison et un haut degré
d'appartenance à une classe distributionnelle.

La seconde partie présente une méthode non-supervisée pour évaluer
l'autonomie de combinaison des formes inspirée par les hypothèses de
Harris. Avec un algorithme de segmentation simple et rapide basé
uniquement sur cette mesure, nous obtenons des résultats proches de
l'état de l'art.  Nous discutons ensuite de l'importance des
pré-traitements et présentons des expériences utilisant le principe de
la Longueur de Description Minimale (MDL) pour améliorer nos résultats.

Enfin, nous proposons une méthode et des outils pour une évaluation plus
qualitative des analyses fournies par notre système. Nous présentons
aussi quelques résultats préliminaires sur d'autres langues qui montrent
la généricité de notre méthode.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------



More information about the Ln mailing list