Soutenance de th=?UTF-8?Q?=C3=A8se=3A_Pierre_Magistry=2C_19/12_=C3=A0_?=9h30
Pierre Magistry 馬基石
pmagistry at GMAIL.COM
Mon Dec 9 18:50:48 UTC 2013
Chers amis, professeurs, étudiants, collègues,
J'ai le plaisir de vous inviter à la soutenance de ma thèse, intitulée
"Unsupervised Word Segmentation and Wordhood Assessment: the case for
Mandarin Chinese".
(Segmentation en mots non-supervisée et estimation de la lexicalité : le
cas du mandarin)
Je l'ai menée au sein de l'équipe Alpage, à l'université
Paris-Diderot/INRIA
et la soutiendrai le 19 décembre 2013 à partir de 9h30, dans la salle des
thèses de Paris 7.
Salle des thèses 580F (Halle aux Farines)
10 rue Françoise Dolto
75013 Paris
(plan :
http://www.openstreetmap.org/?mlat=48.8295&mlon=2.3825#map=16/48.8295/2.3825
)
Prendre l'entrée la plus proche de la Seine.
La soutenance sera suivie d'un pot auquel vous êtes également conviés.
Bien cordialement,
Pierre Magistry
----
Le jury de soutenance sera composé de:
PR. 謝舒凱 Hsieh Shukai (rapporteur) - National Taiwan University
PR. Sylvain Kahane (directeur) - Université Paris 10 Nanterre, MoDyCo
PR. Yves Lepage (rapporteur) - Waseda University
PR. Marie-Claude Paris (co-directrice) - Université Paris Diderot, LLF
DR. Benoit Sagot (co-directeur) - INRIA, ALPAGE
DR. Pierre Zweigenbaum (président) - CNRS, LIMSI
----
Résumé de la thèse :
Ce mémoire traite de la segmentation non-supervisée en mots et de
l'évaluation de la «lexicalité» des formes. Le chinois moderne standard
(mandarin) est choisi pour les expériences et évaluations.
La première partie porte sur les aspects linguistiques. Elle présente les
critères couramment utilisés pour définir le «mot» en linguistique
chinoise et en montre les limites au travers d'une discussion de
linguistique générale, abordant notamment la question des «expressions
multi-mots» et son lien avec les problèmes de segmentation en mots.
Nous présentons ensuite l'historique du développement de la Segmentation en
Mot du Chinois (CWS) comme une tâche typique en TAL, et défendons l'idée
qu'une part d'arbitraire dans l'annotation des corpus d'évaluation favorise
artificiellement les systèmes d'apprentissage supervisés alors que nous
considérons les systèmes non-supervisés d'un plus grand intérêt pour la
linguistique.
La première partie nous amène à fonder notre définition de la lexicalité
sur deux critères: une forte autonomie de combinaison et un haut degré
d'appartenance à une classe distributionnelle.
La seconde partie présente une méthode non-supervisée pour évaluer
l'autonomie de combinaison des formes inspirée par les hypothèses de
Harris. Avec un algorithme de segmentation simple et rapide basé uniquement
sur cette mesure, nous obtenons des résultats proches de l'état de l'art.
Nous discutons ensuite de l'importance des pré-traitements et présentons
des expériences utilisant le principe de la Longueur de Description
Minimale (MDL) pour améliorer nos résultats.
Enfin, nous proposons une méthode et des outils pour une évaluation plus
qualitative des analyses fournies par notre système. Nous présentons aussi
quelques résultats préliminaires sur d'autres langues qui montrent la
généricité de notre méthode.
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20131209/7cfc157e/attachment.htm>
More information about the Parislinguists
mailing list