Appel: DEFT2014
Thierry Hamon
hamon at LIMSI.FR
Wed Jan 29 09:53:05 UTC 2014
Date: Mon, 27 Jan 2014 13:27:13 +0100
From: Cyril Grouin <cyril.grouin at limsi.fr>
Message-ID: <52E650A1.9090306 at limsi.fr>
X-url: http://deft.limsi.fr/2014/
********************************************************
DEFT2014 - Appel à participation
Le défi DEFT est un atelier annuel d'évaluation francophone en fouille
de textes. Cette dixième édition portera sur l'analyse automatique de
textes littéraires et scientifiques en langue française.
Site Web : http://deft.limsi.fr/2014/
Comité d'organisation :
- Président : Patrick Paroubek
- Nuria Gala, Cyril Grouin, Thierry Hamon, Patrick Paroubek, Pierre
Zweigenbaum
- contact : deft at limsi.fr
********************************************************
Dates importantes :
- Inscription : à partir du 17 février 2014
- Diffusion des corpus d'apprentissage : 17 février 2014
- Test : 3 jours pris entre le 21 et le 25 avril 2014
- Atelier : prévu sous réserve, le 1er juillet 2014 lors de la
conférence TALN/RECITAL à Marseille.
********************************************************
Pour cette nouvelle édition du défi, nous proposons quatre tâches
d'analyse concernant d'une part, des textes littéraires (courtes
nouvelles), et d'autre part, des articles scientifiques :
1- Catégoriser le genre littéraire de courtes nouvelles parmi 30
catégories (poésie, nouvelles, policier, etc.) ;
2- Évaluer la qualité littéraire de chacune de ces nouvelles en
prédisant la note que donnerait un juge humain ;
3- Déterminer, pour chacune des nouvelles, si elle est consensuelle
auprès des différents relecteurs ;
4- Pour chaque édition précédente de TALN, identifier dans quelle
session scientifique chaque article scientifique de la conférence a
été présenté (communication orale), parmi la liste fournie pour
chaque édition.
Nous abordons donc cette année une nouvelle thématique : l'analyse de
textes littéraires relevant de plusieurs genres, complétée par l'analyse
des textes scientifiques.
- La tâche 1 a pour but d'évaluer la capacité d'un système à classer un
court texte littéraire (publié par le site Short Edition) selon le
genre qui lui correspond. La liste des genres littéraires sera fournie
et contient une trentaine de catégories (poésie, nouvelle, policier,
etc.). La mise en œuvre de cette classification revêt différents
aspects : les aspects stylistiques (vers, mise en forme du texte),
sémantiques (champs sémantiques utilisés), et syntaxiques.
- La tâche 2 propose d'évaluer la qualité littéraire de chacun de ces
textes en prédisant la note attribuée par le comité de relecture à
chacun des textes littéraires. La référence de cette tâche est
constituée par l'ensemble des notes attribuées par le comité de
relecture de l'éditeur Short Edition. Ces notes seront fournies avec
le corpus d'entraînement.
- La tâche 3 consiste à déterminer si un texte littéraire fait consensus
auprès des différents membres du comité de relecture. La distribution
des notes attribuées à chaque œuvre sera fournie avec le corpus
d'entraînement.
- La tâche 4 se démarque des précédentes car elle concerne les articles
scientifiques présentés lors des dernières conférences TALN. Le corpus
se composera des articles présentés en communication orale (ni poster,
ni conférence invitée). Pour chaque édition, seront fournis : un
ensemble d'articles (titre, résumé, mots-clés, texte), la liste des
sessions scientifiques de cette édition, et la correspondance
article/session (sauf pour le test). Le corpus de test se composera
d'une édition complète de TALN (articles et liste des sessions) pour
laquelle il faudra identifier dans quelle session chaque article a été
présenté.
Il n'y a pas de limite quant au nombre de pistes auxquelles peut
participer une équipe.
Le nombre maximum de systèmes différents présentés pour une tâche donnée
est limité à 3. Si une équipe souhaite présenter plus de 3 systèmes
différents elle doit contacter au préalable les organisateurs.
À partir du moment où une équipe aura reçu le corpus de test, elle
s'engage moralement à effectuer l'évaluation complètement en retournant
les données annotées et en participant à l'atelier de clôture, où elle
présentera le détails des algorithmes et méthodes utilisées.
Les équipes participant à DEFT2014 devront s'inscrire à l'aide du
formulaire en ligne, et signer les accords confidentialité et de
restriction d'usage pour les corpus provenant de Short Edition.
À l'exclusion ressources utilisées par les organisateurs pour servir de
base à la constitution des corpus (par ex. http://short-edition.com/ et
Archives TALN via http://www.florianboudin.org/taln_archives/) ainsi que
tout autre source reproduisant tout ou partie de ces informations telle
que sites des conférences ou annonces des programmes, les participants
pourront utiliser toutes les ressources complémentaires qu'ils
souhaitent, à condition de les mentionner avec leur provenance, lors de
la présentation de leurs résultats.
Des corpus d'apprentissage seront fournis aux participants inscrits à
partir du 17 février 2014. Le test aura lieu du 21 au 25 avril 2014. À
partir de la date qu'ils auront choisie dans cet intervalle, les
participants auront trois jours pour appliquer, sur les corpus de test,
les méthodes mises en œuvre sur les corpus d'apprentissage.
************************************************************************
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------
More information about the Ln
mailing list