Info: Vers un etiqueteur libre du francais / Towards an open-source French tagger
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Sat Dec 1 19:37:50 UTC 2012
Date: Wed, 28 Nov 2012 11:27:17 +0100
From: Agata Savary <agata.savary at univ-tours.fr>
Message-ID: <50B5E705.3010102 at univ-tours.fr>
X-url: http://hackage.haskell.org/package/concraft
ENGLISH VERSION FOLLOWS
===================================
CONCRAFT (http://hackage.haskell.org/package/concraft) est un étiqueteur
libre du polonais basé sur l'idée innovante des CRF contraints
(Constrained Conditional Random Fields, cf [1]). Il permet de maîtriser
la complexité des CRF classiques en limitant l'ensemble des étiquettes
considérées pour un mot par la sortie d'un analyseur morphologique. Il
obtient de meilleurs résultats que les autres taggers du polonais, en
particulier en ce qui concerne les mots inconnus.
Nous souhaiterions étudier l'adaptabilité de CONCRAFT à une langue
fléchie d'une autre famille. Ainsi, nous sommes à la recherche :
- d'un corpus français annoté morphologiquement (de préférence avec les
parties du discours et avec les traits flexionnels tels que nombre,
genre, temps, etc.),
- d'un analyseur morphologique à large couverture dont le tagset serait
équivalent à celui du corpus,
- d'autres étiqueteur libres du français pour une études contrastive.
Une version française du CONCRAFT, obtenue grâce à cette expérience,
serait distribuée sous une licence libre (probablement BSD).
[1] Jakub Waszczuk "Harnessing the CRF complexity with domain-specific
constraints. The case of morphosyntactic tagging of a highly inflected
language", in Proceedings of COLING 2012, Mumbai, India.
===================================
CONCRAFT (http://hackage.haskell.org/package/concraft) is an open source
tagger for Polish based on a novel idea of a Constrained Conditional
Random Fields model (see [1] for details). It allows to harness the
complexity of CRFs by constraining the set of labels for a given token
by the output of a morphological analyzer. It outperforms existing
taggers for Polish, notably with respect to unknown words.
We are planning to explore CONCRAFT's adaptability to an inflected
language of a different family. Thus, we are looking for:
- a morphologically annotated corpus of French (preferably with both
parts-of-speech and morphological features such as gender, number,
tense, etc.),
- a large-coverage morphological analyser whose tagset would be
equivalent to the corpus tagset,
- other freely-available taggers for French in view of a contrastive
analysis.
A French version of CONCRAFT obtained in this experiment would be
distributed under an open license (probably BSD).
[1] Jakub Waszczuk "Harnessing the CRF complexity with domain-specific
constraints. The case of morphosyntactic tagging of a highly inflected
language", in Proceedings of COLING 2012, Mumbai, India.
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list