Info: Vers un etiqueteur libre du francais / Towards an open-source French tagger

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Sat Dec 1 19:37:50 UTC 2012


Date: Wed, 28 Nov 2012 11:27:17 +0100
From: Agata Savary <agata.savary at univ-tours.fr>
Message-ID: <50B5E705.3010102 at univ-tours.fr>
X-url: http://hackage.haskell.org/package/concraft


ENGLISH VERSION FOLLOWS
===================================

CONCRAFT (http://hackage.haskell.org/package/concraft) est un étiqueteur
libre du polonais basé sur l'idée innovante des CRF contraints
(Constrained Conditional Random Fields, cf [1]). Il permet de maîtriser
la complexité des CRF classiques en limitant l'ensemble des étiquettes
considérées pour un mot par la sortie d'un analyseur morphologique. Il
obtient de meilleurs résultats que les autres taggers du polonais, en
particulier en ce qui concerne les mots inconnus.

Nous souhaiterions étudier l'adaptabilité de CONCRAFT à une langue
fléchie d'une autre famille. Ainsi, nous sommes à la recherche :

- d'un corpus français annoté morphologiquement (de préférence avec les
  parties du discours et avec les traits flexionnels tels que nombre,
  genre, temps, etc.),
- d'un analyseur morphologique à large couverture dont le tagset serait
  équivalent à celui du corpus,
- d'autres étiqueteur libres du français pour une études contrastive.

Une version française du CONCRAFT, obtenue grâce à cette expérience,
serait distribuée sous une licence libre (probablement BSD).

[1] Jakub Waszczuk "Harnessing the CRF complexity with domain-specific
constraints. The case of morphosyntactic tagging of a highly inflected
language", in Proceedings of COLING 2012, Mumbai, India.

===================================

CONCRAFT (http://hackage.haskell.org/package/concraft) is an open source
tagger for Polish based on a novel idea of a Constrained Conditional
Random Fields model (see [1] for details). It allows to harness the
complexity of CRFs by constraining the set of labels for a given token
by the output of a morphological analyzer. It outperforms existing
taggers for Polish, notably with respect to unknown words.

We are planning to explore CONCRAFT's adaptability to an inflected
language of a different family. Thus, we are looking for:

- a morphologically annotated corpus of French (preferably with both
  parts-of-speech and morphological features such as gender, number,
  tense, etc.),

- a large-coverage morphological analyser whose tagset would be
  equivalent to the corpus tagset,

- other freely-available taggers for French in view of a contrastive
  analysis.

A French version of CONCRAFT obtained in this experiment would be
distributed under an open license (probably BSD).

[1] Jakub Waszczuk "Harnessing the CRF complexity with domain-specific
constraints. The case of morphosyntactic tagging of a highly inflected
language", in Proceedings of COLING 2012, Mumbai, India.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list