ATALA: journee du 15/05 : Evaluation et analyseurs syntaxiques

alexis.nasr at LINGUIST.JUSSIEU.FR alexis.nasr at LINGUIST.JUSSIEU.FR
Thu Mar 18 07:35:42 UTC 2004


Samedi 15 mai 2004

EVANS :"'Évaluation et analyseurs syntaxiques"
Journée organisée par
Patrick Paroubek , Isabelle Robba et Anne Vilnat(LIMSI - CNRS)

Appel à contribution

Depuis une dizaine d'années, avec l'apparition des outils de recherche
d'information sur le web, de nouvelles techniques d'analyse syntaxique
plus robustes ont vu le jour. Les analyseurs partiels construisent une
analyse parfois minimale, incomplète, mais cela quels que soient
lataille et le contenu des données à traiter.

Dans le même temps, les analyseurs qui tentent de produire
systématiquement une analyse "complète", ou la plus complète possible
ont continué d'améliorer leurs résultats.

Pour aider au développement de ces analyseurs, mais aussi pour
permettre la comparaison de leurs performances, il est important de
disposer des méthodes et des outils permettant de les évaluer.  Et la
mise en oeuvre de ces méthodes suppose plusieurs étapes qui sont:

* la définition d'un format d'annotation permettant une large
couverture des phénomènes syntaxiques ;

* le choix d'un corpus et son annotation manuelle (ou
semi-automatique) dans ce format d'annotation ;

* la définition d'un ensemble de mesures permettant l'évaluation ;

* la mise au point des outils aussi bien d'annotation, que de
transcription et d'évaluation.

De nombreux pays ont commencé à s'intéresser à l'évaluation. Des
discussions ont eu lieu sur les annotations à produire, sur les
méthodes pour les obtenir et des corpus annotés dans différentes
langues ont été peu à peu constitués : que ce soit en anglais (voir le
célèbre Penn TreeBank et sa "dernière" couche le Propbank) mais aussi
et peut-être surtout dans un certain nombre de langues à moins forte
diffusion, comme le bulgare (BulTreeBank), le tchèque (PDT), le
norvégien, le suédois, le finlandais, le danois (Arboretum), le
catalan, le basque et l'espagnol (3LB), l'allemand (Negra, TéBa-D).

En ce qui concerne l'anglais, qui est sans doute la langue pour
laquelle les recherches étaient les plus avancées, les métriques et
les corpus annotés dans le cadre de la campagne PARSEVAL sont
aujourd'hui remis en cause car ils ne sont ouverts ni à d'autres
langues ni à de nouveaux formats d'analyse (voir l'atelier de la
conférence LREC 2002 : Beyond Parseval towards improved evaluation
measures for parsing systems). Ce qui nous montre que la problématique
de l'évaluation des analyseurs syntaxiques n'est en rien résolue et
donc est ouverte à toute nouvelle proposition.

Pour le français, la campagne d'évaluation EVALDA/EASY du programme
Technolangue, à l'initiative du ministère délégué à la recherche et
aux nouvelles technologies) a débuté en janvier 2003. Elle sert de
lieu d'expérimentation pour tester de nouvelles approches pour
l'évaluation des analyseurs syntaxiques du français.  Le but de cette
journée sera donc de développer une réflexion autour des méthodologies
d'évaluation, des corpus, des métriques, des outils et des formalismes
d'annotation.

Conférencier invité:

John Carroll, de l'Université du Sussex, donnera une conférence
invitée lors de cette journée :

"Evaluating parsers using decomposed and weighted representations" Les
contributions attendues pourront porter sur l'un des thèmes suivants :

     * l'annotation des corpus (formalisme, outils, ...)
     * les corpus
     * les méthodologies d'évaluation
     * les métriques d'évaluation (choix, outils ...)
     * les outils de projection d'un analyseur dans un formalisme

Des articles prospectifs sur l'évaluation et les analyseurs
syntaxiques seront également les bienvenus.

Organisateurs : Patrick Paroubek, Isabelle Robba et Anne Vilnat

Format des soumissions :

Résumés longs ou articles courts entre 2 et 4 pages. Les soumissions
devront se faire sous format électronique de préférence, en version
pdf, ou ps.

Les résumés devront être envoyés à : evans at limsi.fr.

En cas de problème, vous pouvez également transmettre une version
papier, adressée aux organisateurs, au :
LIMSI, BP133, 91403 Orsay Cedex
Comité Scientifique

     * Veronique Gendner (LIMSI-CNRS)
     * Laura Monceaux (LINA - Univ. Nantes)
     * Patrick Paroubek (LIMSI-CNRS)
     * Isabelle Robba (LIMSI-CNRS)
     * Anne Vilnat (LIMSI-CNRS)
     * Salah Ait-Mokhtar (XRCE-XEROX)

Calendrier:

     * 13/04/04 - date limite pour la soummission des articles
     * 30/04/04 - notification aux auteur
     * 15/05/04 - journee


Pour plus d'informations sur l'ATALA et sur l'organisation des
journées d'études, consultez le site de l'ATALA à l'adresse :

http://www.atala.org

ou le site de la journee

http://www.limsi.fr/Recherche/CORVAL/atala_evans

-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list