Appel: Collaboration pour la lemmatisation du francais medieval

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Jun 12 20:14:18 UTC 2013


Date: Tue, 11 Jun 2013 17:07:20 +0200
From: Céline Guillot <celine.guillot at ens-lyon.fr>
Message-ID: <51B73D28.4010603 at ens-lyon.fr>
X-url: http://txm.bfm-corpus.org/
X-url: http://nl.ijs.si/ME/V4


Chers collègues,

À l'occasion du projet PRESTO financé par l'ANR et la DFG (D. Vigier,
Univ. Lyon2 et resp. P. Blumenthal, Univ. de Cologne), la Base de
Français Médiéval (http://txm.bfm-corpus.org/) lance une vaste opération
de lemmatisation d'un corpus de textes médiévaux (9e-15e siècles).

Pour cela, nous avons prévu :
- de construire un ou plusieurs lemmatiseurs sur la base des logiciels
  de l'état de l'art (TreeTagger, LGTagger...) ;
- de construire un lexique morphologique le plus complet possible
  associant « forme(*) - catégorie morphosyntaxique(**) - lemme(***) » ;
- de construire des corpus d'apprentissage déjà étiquetés.

Nous souhaitons développer le lexique en appliquant un modèle de
construction équivalent à celui utilisé pour le développement des
logiciels ouverts (open-source), c'est à dire en compilant différents
lexiques en un lexique commun diffusé sous licence libre - de type
LGPLFLR (Lesser General Public License For Linguistic Resources - voir :
http://hoop.univ-mlv.fr/lgpllr.html).  Cette licence précisera
explicitement la contribution de chaque partenaire et la mise à jour
régulière du lexique sera réalisée de façon communautaire au bénéfice de
tous les contributeurs.

Le développement du lemmatiseur se fera dans le cadre de la plateforme
TXM qui offre déjà un cadre de développement open-source en logistique
de corpus (gestion de formats standards en import et en export,
intégration d'outils de TAL tiers, etc.). Ce nouvel outil de
lemmatisation sera ouvert à tous et librement adaptable (open-source
avec une licence de diffusion de logiciel de type GNU GPL - voir :
http://www.rodage.org/gpl-3.0.fr.txt).

Si vous disposez de ressources pour la période médiévale, nous
souhaiterions savoir si vous êtes intéressés par des échanges et par le
partage d'un lexique ou de corpus d'apprentissage dans les conditions
décrites ci-dessus.

Si vous connaissez des personnes qui pourraient être intéressées, nous
vous serions très reconnaissants de leur faire suivre ce mail.

Bien cordialement,
Céline Guillot pour l'équipe BFM

(*) certaines formes pourront être composées si nécessaire (par exemple
comme dans le cas d'un dictionnaire Unitex)
(**) nous souhaiterions utiliser un jeu d'étiquettes normalisé basé par
exemple sur le standard Multext adapté à l'époque médiévale
(http://nl.ijs.si/ME/V4)
(***) nous souhaiterions utiliser des formes modernisées des lemmes

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list