[Corpora-List] [deft2011] Appel à participation DEFT2011

Thu Jan 6 19:37:00 UTC 2011

********************************************************
DEFT2011 - Appel à participation

Le défi DEFT est un atelier d'évaluation francophone en fouille de
textes. L'édition 2011 portera, d'une part sur la variation
diachronique en corpus de presse francophone et d'autre part sur
l'appariement d'un article scientifique avec son résumé.

Site web : http://deft2011.limsi.fr/
Comité d'organisation :
- présidents : Cyril Grouin (LIMSI-CNRS) et Dominic Forest (EBSI,
  Université de Montréal)
- contact : deft2011 at limsi.fr

********************************************************
Dates importantes :
- Inscription : à partir du 25 janvier 2011
- Diffusion des corpus d'apprentissage : 1er mars 2011
- Test : 3 jours pris entre le 1er et le 7 mai 2011
- Atelier : le 1er juillet 2011 lors de la conférence TALN

********************************************************
DEFT2011 constitue la septième édition de la campagne d'évaluation en
fouille de textes DEFT. L'atelier de clôture se tiendra à Montpellier
dans le cadre de la conférence TALN.

Pour cette nouvelle édition, nous proposons deux pistes distinctes :
- la variation diachronique en corpus de presse ;
- l'appariement d'articles scientifiques et de résumés.

*** Piste 1.
Dans la continuité de l'édition 2010 du défi, nous offrons de nouveau
l'opportunité de travailler sur l'étude de la variation diachronique
en corpus de presse. Cette piste sera ainsi l'occasion de mesurer les
évolutions des systèmes depuis la précédente édition du défi.

Le corpus se compose d'archives journalistiques parmi plusieurs titres
français (dont "Le Journal des Débats", "Le Journal de l'Empire", "Le
Journal des Débats politiques et littéraires", "Le Figaro", et "La
Croix" ; des titres supplémentaires seront éventuellement ajoutés
selon disponibilité) sur une période comprise entre 1800 et 1944. Les
documents de travail sont le résultat d'une OCRisation

Deux sous-pistes sont envisagées :
- la première concerne des extraits de 300 mots semblables à ceux
  fournis dans les corpus de l'année passée.
- la seconde se rapporte à des extraits plus larges intégrant 500
  mots.

Les participants devront identifier l'année de parution de l'extrait
étudié (et non plus la décennie comme en 2010). Les résultats seront
évalués au moyen d'une distance entre l'année fournie et l'année
attendue (fenêtre d'évaluation autour de l'année de référence).

Pour cette piste, les participants auront la possibilité d'utiliser
des ressources externes (linguistiques, historiques, etc.) qu'ils
devront obligatoirement déclarer lors de la soumission des
résultats. Les ressources provenant de Gallica ne seront pas
autorisées !

*** Piste 2.
Nous proposons également une piste axée autour du résumé d'article
scientifique. Plutôt que de se placer dans la perspective d'une
génération automatique de résumé à partir d'un article (approche
intéressante mais délicate à évaluer de manière automatique), nous
adoptons l'approche inverse qui consiste à identifier à quel article
scientifique correspond un résumé.

Les méthodes qui seront utilisées pour effectuer ces appariements
devraient permettre de mettre en évidence les éléments saillants qui
doivent se retrouver dans le résumé et les techniques langagières
utilisées pour produire de tels résumés.

Cette seconde piste se composera de deux corpus d'articles
scientifiques, le premier en français dans le domaine des sciences
humaines et sociales, le second en anglais dans le domaine de la
santé.

Plusieurs sous-pistes ont été définies sur cette tâche :
- identifier les couples résumé/article scientifique complet ;
- identifier les couples résumé/article scientifique auquel on a
  enlevé l'introduction et la conclusion.

********************************************************
Les équipes participant à DEFT2011 devront s'inscrire à l'aide du
formulaire en ligne, et signer les accords de restriction d'usage des
corpus.

Des corpus d'apprentissage seront fournis aux participants inscrits, à
partir du 1er mars 2011. Ces corpus sont composés de 60% des corpus
d'origine. Les 40% de corpus restants seront utilisés pour le test. Le
test aura lieu sur la première semaine de mai. A partir de la date
qu'ils auront choisie dans cet intervalle, les participants auront
trois jours pour appliquer, sur les corpus de test, les méthodes mises
en oeuvre sur les corpus d'apprentissage.

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/corpora/attachments/20110106/6307c75e/attachment.htm>
-------------- next part --------------
_______________________________________________
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora