Soft: Talismane, analyseur syntaxique robuste en dependances

Tue Feb 11 21:17:55 UTC 2014

Date: Tue, 11 Feb 2014 16:27:03 +0100
From: Assaf Urieli <assaf.urieli at gmail.com>
Message-ID: <CAM62byriSSYH4C3no+TZf4ZSgkEqGEMpAq-9e5k6Lc7R3m3ogA at mail.gmail.com>
X-url: http://redac.univ-tlse2.fr/applications/talismane.html

Talismane : analyseur syntaxique robuste en dépendances
*******************************************************
Talismane est un outil libre et complet d'analyse syntaxique en
dépendances, prêt à l'emploi pour le français.

L'outil Talismane est disponible pour téléchargement à :
http://redac.univ-tlse2.fr/applications/talismane.html

Talismane a été développé par Assaf URIELI dans le cadre de sa thèse au
sein de l'axe TAL de CLLE-ERSS (UMR 5263), Université de Toulouse II le
Mirail.
- Thèse :
  http://w3.erss.univ-tlse2.fr/textes/pagespersos/urieli/URIELI-thesis-2013.pdf
- Laboratoire CLLE-ERSS : http://w3.erss.univ-tlse2.fr/

C'est un logiciel libre (open source) écrit en Java, et diffusé sous une
licence Affero GPL v3 : http://www.gnu.org/licenses/agpl-3.0.html

Talismane effectue, pour le français :
- la segmentation en phrases ;
- la segmentation en mots (tokenisation) + lemmatisation ;
- l'étiquetage morpho-syntaxique (pos-tagging) ;
- l'analyse syntaxique en dépendances (parsing).

Talismane a été entraîné sur le French Treebank (Abeillé et al, 2003)
pour la segmentation en phrases et en mots ainsi que pour le
pos-tagging, et sur le French Treebank converti en dépendances (Candito
et al, 2010) pour le parsing. Il utilise le LeFFF comme lexique par
défaut (Sagot 2010). Il est entièrement paramétrable (apprentissage,
traits, règles, jeu d'étiquettes, lexique...) et peut être réentraîné
pour d'autres langues.

En plus, Talismane permet de :
- analyser rapidement (2 millions de mots par heure dans la
  configuration de base) ;
- parser du XML ou du HTML facilement, par l'ajout de filtres indiquant
  quelles parties analyser ;
- ajouter des règles pour forcer ou empêcher le système de choisir une
  certaine segmentation, étiquette ou lien de dépendance, selon le
  contexte ;
- choisir entre une analyse de meilleure qualité (faisceau large) ou
  plus rapide (faisceau étroit) ;
- garder une trace de la position exacte de chaque token analysé dans le
  fichier d'origine ;
- indiquer la confiance du système dans chaque décision prise.

Un mode d'emploi est disponible sur le site.

Cordialement,
Assaf URIELI
Laboratoire CLLE-ERSS, UMR 5263
Université de Toulouse II le Mirail

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------