Seminaire: Alpage, 9 mars 2012, Pierre Magistry "Segmentation non-supervisee du mandarin ecrit"

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Mar 6 20:51:15 UTC 2012


Date: Tue, 06 Mar 2012 13:32:53 +0100
From: Marie Candito <marie.candito at gmail.com>
Message-ID: <4F5603F5.4070503 at gmail.com>


************** Séminaire Alpage *******************

Séminaire de l'école doctorale de Paris Diderot

Il s'agit du séminaire de recherche en linguistique informatique
organisé par l'équipe Alpage, équipe mixte Inria -- Paris Diderot,
spécialisée en analyse syntaxique automatique et en traitement du
discours.

Le prochain séminaire se tiendra :

* vendredi 9 mars de 11h à 12h30 *

en salle 3E91 à l'UFRL, 16, rue de Clisson, 75013 Paris (3e étage
gauche)

Toute personne intéressée est la bienvenue.

***********************************************************

Pierre Magistry (Alpage) : Segmentation non-supervisée du mandarin écrit

L'écriture chinoise est de celles qui n'utilisent pas de caractère
d'espacement.

Ceci complexifie grandement la tokenisation, première étape de presque
tout système d'analyse de textes écrits en mandarin, étape que l'on
appelle traditionnellement "segmentation".

Si les méthodes de segmentation supervisées donnent aujourd'hui de très
bons résultats "en laboratoire", la qualité de leur sortie devient
difficile à prédire si l'on doit faire face à toute forme de variation
qui nous éloignerait du corpus d’entraînement (variations en genre, en
style, dans le temps ou au contact d'autres langues sinitiques).

Pour cette raison, ainsi que pour les questions linguistiques
sous-jacentes sur lesquelles les méthodes supervisées ne disent presque
rien, la segmentation non-supervisée reste une option intéressante à
étudier.

Après avoir évoqué les difficultés d'évaluation de tels systèmes, nous
montrerons comment l'état de l'art actuel peut être atteint en
simplifiant un modèle existant inspiré d'une hypothèse de Harris.  Pour
une qualité de sortie comparable, le modèle proposé présente les
avantages d'être non paramétrique et de se baser sur une unique
hypothèse linguistique, rendant son fonctionnement plus intuitif.

***********************************************************

Prochaines dates:

23/03 : Roser Sauri (Brandeis University)

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list