Fran=?ISO-8859-1?Q?=E7ais_parl=E9_?=: une nouvelle ressource pour l'annotation automatique en POS
Christophe Benzitoun
Christophe.Benzitoun at UNIV-NANCY2.FR
Mon Jul 2 11:19:00 UTC 2012
Bonjour,
Une nouvelle ressource basée sur du français parlé est disponible à
l'adresse suivante : http://cnrtl.fr/corpus/perceo/
Elle est composée :
- de transcriptions annotés automatiquement et corrigées manuellement au
format Treetagger => une unité par ligne décomposée comme suit : mot
puis POS puis lemme, le tout séparé par des tabulations. Cette ressource
fait un peu plus de 100.000 mots et elle s'appuie sur le corpus TCOF,
également disponible à l'adresse : http://cnrtl.fr/corpus/tcof/
- d'un lexique composé pour une part de Morphalou 2.0 (ressource
exogène) et pour une autre du corpus annoté lui-même (ressource endogène).
- d'un fichier paramètre à utiliser avec Treetagger.
L'intégralité de ces fichiers (encodés en utf-8) sont utilisables
librement pour des applications non commerciales. A noter que la
ressource ne pouvant pas être exempte d'erreurs, les futurs utilisateurs
pourront envoyer leurs relevés afin de l'améliorer.
Cordialement,
--
Christophe Benzitoun, Maître de conférences à l'Université de Lorraine
Membre élu au Conseil d'Administration
UFR Sciences du langage
Membre de l'ATILF - Université de Lorraine & CNRS
44, avenue de la Libération
BP 30687
54063 Nancy cedex
tel : 03 54 50 53 40
e-mail : Christophe.Benzitoun at univ-lorraine.fr
--
Christophe Benzitoun, Maître de conférences à l'Université de Lorraine
Membre élu au Conseil d'Administration
UFR Sciences du langage
Membre de l'ATILF - Université de Lorraine & CNRS
44, avenue de la Libération
BP 30687
54063 Nancy cedex
tel : 03 54 50 53 40
e-mail : Christophe.Benzitoun at univ-lorraine.fr
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20120702/246fc576/attachment.htm>
More information about the Parislinguists
mailing list