<HTML>
<HEAD>
<TITLE>[deft2011] Appel à participation DEFT2011</TITLE>
</HEAD>
<BODY>
<FONT SIZE="2"><FONT FACE="Consolas, Courier New, Courier"><SPAN STYLE='font-size:10pt'>********************************************************<BR>
DEFT2011 - Appel à participation<BR>
<BR>
Le défi DEFT est un atelier d'évaluation francophone en fouille de<BR>
textes. L'édition 2011 portera, d'une part sur la variation<BR>
diachronique en corpus de presse francophone et d'autre part sur<BR>
l'appariement d'un article scientifique avec son résumé.<BR>
<BR>
Site web : <FONT COLOR="#0000FF"><U><a href="http://deft2011.limsi.fr/">http://deft2011.limsi.fr/</a><BR>
</U></FONT>Comité d'organisation :<BR>
- présidents : Cyril Grouin (LIMSI-CNRS) et Dominic Forest (EBSI,<BR>
  Université de Montréal)<BR>
- contact : <FONT COLOR="#0000FF"><U><a href="deft2011@limsi.fr">deft2011@limsi.fr</a><BR>
</U></FONT><BR>
********************************************************<BR>
Dates importantes :<BR>
- Inscription : à partir du 25 janvier 2011<BR>
- Diffusion des corpus d'apprentissage : 1er mars 2011<BR>
- Test : 3 jours pris entre le 1er et le 7 mai 2011<BR>
- Atelier : le 1er juillet 2011 lors de la conférence TALN<BR>
<BR>
******************************************************** <BR>
DEFT2011 constitue la septième édition de la campagne d'évaluation en<BR>
fouille de textes DEFT. L'atelier de clôture se tiendra à Montpellier<BR>
dans le cadre de la conférence TALN.<BR>
<BR>
Pour cette nouvelle édition, nous proposons deux pistes distinctes :<BR>
- la variation diachronique en corpus de presse ;<BR>
- l'appariement d'articles scientifiques et de résumés.<BR>
<BR>
*** Piste 1.<BR>
Dans la continuité de l'édition 2010 du défi, nous offrons de nouveau<BR>
l'opportunité de travailler sur l'étude de la variation diachronique<BR>
en corpus de presse. Cette piste sera ainsi l'occasion de mesurer les<BR>
évolutions des systèmes depuis la précédente édition du défi.<BR>
<BR>
Le corpus se compose d'archives journalistiques parmi plusieurs titres<BR>
français (dont "Le Journal des Débats", "Le Journal de l'Empire", "Le<BR>
Journal des Débats politiques et littéraires", "Le Figaro", et "La<BR>
Croix" ; des titres supplémentaires seront éventuellement ajoutés<BR>
selon disponibilité) sur une période comprise entre 1800 et 1944. Les<BR>
documents de travail sont le résultat d'une OCRisation<BR>
<BR>
Deux sous-pistes sont envisagées :<BR>
- la première concerne des extraits de 300 mots semblables à ceux<BR>
  fournis dans les corpus de l'année passée.<BR>
- la seconde se rapporte à des extraits plus larges intégrant 500<BR>
  mots.<BR>
<BR>
Les participants devront identifier l'année de parution de l'extrait<BR>
étudié (et non plus la décennie comme en 2010). Les résultats seront<BR>
évalués au moyen d'une distance entre l'année fournie et l'année<BR>
attendue (fenêtre d'évaluation autour de l'année de référence).<BR>
<BR>
Pour cette piste, les participants auront la possibilité d'utiliser<BR>
des ressources externes (linguistiques, historiques, etc.) qu'ils<BR>
devront obligatoirement déclarer lors de la soumission des<BR>
résultats. Les ressources provenant de Gallica ne seront pas<BR>
autorisées !<BR>
<BR>
<BR>
*** Piste 2.<BR>
Nous proposons également une piste axée autour du résumé d'article<BR>
scientifique. Plutôt que de se placer dans la perspective d'une<BR>
génération automatique de résumé à partir d'un article (approche<BR>
intéressante mais délicate à évaluer de manière automatique), nous<BR>
adoptons l'approche inverse qui consiste à identifier à quel article<BR>
scientifique correspond un résumé.<BR>
<BR>
Les méthodes qui seront utilisées pour effectuer ces appariements<BR>
devraient permettre de mettre en évidence les éléments saillants qui<BR>
doivent se retrouver dans le résumé et les techniques langagières<BR>
utilisées pour produire de tels résumés.<BR>
<BR>
Cette seconde piste se composera de deux corpus d'articles<BR>
scientifiques, le premier en français dans le domaine des sciences<BR>
humaines et sociales, le second en anglais dans le domaine de la<BR>
santé.<BR>
<BR>
Plusieurs sous-pistes ont été définies sur cette tâche :<BR>
- identifier les couples résumé/article scientifique complet ;<BR>
- identifier les couples résumé/article scientifique auquel on a<BR>
  enlevé l'introduction et la conclusion.<BR>
<BR>
<BR>
********************************************************<BR>
Les équipes participant à DEFT2011 devront s'inscrire à l'aide du<BR>
formulaire en ligne, et signer les accords de restriction d'usage des<BR>
corpus.<BR>
<BR>
Des corpus d'apprentissage seront fournis aux participants inscrits, à<BR>
partir du 1er mars 2011. Ces corpus sont composés de 60% des corpus<BR>
d'origine. Les 40% de corpus restants seront utilisés pour le test. Le<BR>
test aura lieu sur la première semaine de mai. A partir de la date<BR>
qu'ils auront choisie dans cet intervalle, les participants auront<BR>
trois jours pour appliquer, sur les corpus de test, les méthodes mises<BR>
en oeuvre sur les corpus d'apprentissage.<BR>
</SPAN></FONT></FONT>
</BODY>
</HTML>