Appel: DEFT2013

Sat Feb 16 20:29:08 UTC 2013

Date: Fri, 15 Feb 2013 16:38:13 +0100
From: Cyril Grouin <cyril.grouin at limsi.fr>
Message-ID: <384889dd256f46505d97f2db62ee175f at limsi.fr>
X-url: http://deft.limsi.fr/2013/

========================================================
DEFT2013 - APPEL À PARTICIPATION
========================================================

Le défi DEFT est un atelier annuel d'évaluation francophone en fouille
de textes. Cette neuvième édition portera sur l'analyse automatique des
recettes de cuisine en langue française.

Site Web : http://deft.limsi.fr/2013/

Comité d'organisation :
- présidents : Cyril Grouin (LIMSI-CNRS) et Dominic Forest (EBSI,
  Université de Montréal)
- contact : deft at limsi.fr

Nous abordons cette année un nouveau domaine d'application sur une
thématique à la mode en ce moment, qui a déjà fait par le passé l'objet
d'une campagne d'évaluation (Computer Cooking Contest) : les recettes de
cuisine. Nous nous intéressons dans DEFT2013 à deux types de fonction
d'analyse du langage, la classification de documents (tâches 1 à 3) et
l'extraction d'information (tâche 4), ceci dans un domaine de
spécialité.

Pour cette nouvelle édition du défi, nous proposons quatre tâches
d'analyse concernant les recettes de cuisine :

- Identifier à partir du titre et du texte de la recette son niveau de
  difficulté sur une échelle à 4 niveaux : très facile, facile,
  moyennement difficile, difficile.
- Identifier à partir du titre et du texte de la recette le type de plat
  préparé : entrée, plat principal, dessert.
- Apparier le texte d'une recette à son titre.
- Extraire du titre et du texte d'une recette la liste de ses
  ingrédients.

DATES IMPORTANTES (calendrier prévisionnel)
-------------------------------------------

- inscription : 15 février 2013
- diffusion des corpus d'apprentissage : 25 février 2013
- phase de test : 3 jours à choisir pendant la semaine du 22 au 28 avril
  2013
- atelier de clôture : 21 juin 2013 pendant TALN/RECITAL 2013.

PRÉSENTATION
------------

=== Tâche 1 - Niveau de difficulté de réalisation d'une recette

La tâche 1 a pour but d'évaluer la capacité d'un algorithme à inférer la
difficulté d'une recette de cuisine en se basant sur toutes les
informations qu'il est possible d'extraire à partir du texte de la
recette et de son titre. Les données d'apprentissage seront constituées
d'un corpus de recettes associées à leur appréciation de difficulté sur
une échelle à 4 valeurs :
- très facile,
- facile,
- moyennement difficile,
- très difficile.

La mesure d'évaluation sera calculée à partir de la distance entre la
réponse du système et la bonne réponse.

=== Tâche 2 - Type de plat

La tâche 2 propose de classer les recettes en fonction du type de plat
préparé, selon une partition en trois classes :
- entrée,
- plat principal,
- dessert.

Les sources d'information à considérer seront le titre et le texte de la
recette. La mesure d'évaluation sera calculée comme la moyenne des
précisions par classe, chacune calculée avec une micro-moyenne.

=== Tâche 3 - Appariement titre/recette

La tâche 3 demandera au système de retrouver pour chaque texte de
recette du corpus à traiter, son titre original dans une liste de titres
de recettes. Pour chaque texte de recette, le système devra fournir une
liste de titres par ordre de pertinence décroissante. La mesure
d'évaluation sera basée sur un calcul de Mean Average Precision (MAP) ou
de Mean Reciprocal Rank (MRR). Notez que l'emploi de mesures annexes
(non prises en compte pour le classement final) sera exploré afin de
prendre en compte de similarité textuelle ou sémantique entre les
titres.

=== Tâche 4 - Ingrédients d'une recette

La tâche 4 se démarque des précédentes car elle ne concerne pas la
classification des recettes, mais l'extraction d'information. Il s'agit
en effet dans cette tâche d'identifier la liste des ingrédients de la
recette. L'évaluation se fera en comparant les listes d'ingrédients
fournies par les auteurs des recettes à la liste fournie par le
système. Une liste normalisée globale de libellés d'ingrédients sera
fournie aux participants. Cette liste contiendra au moins tous les
ingrédients présents dans la base des textes de recettes, mais pourra
aussi contenir des ingrédients qui ne sont pas présents dans les
recettes. La mesure d'évaluation sera basée sur un calcul de Mean
Average Precision (MAP) ou de Mean Reciprocal Rank (MRR).

DÉROULEMENT
-----------

Il n'y a pas de limite quant au nombre de pistes auxquelles peut
participer une équipe.

Le nombre maximum de systèmes différents présentés par une équipe pour
une tâche donnée est limité à 3. Si une équipe veut présenter plus de 3
systèmes différents elle doit contacter au préalable les organisateurs.

À partir du moment où une équipe a reçu le corpus de test, elle s'engage
moralement à effectuer l'évaluation complètement en retournant les
données annotées et en participant à l'atelier de clôture.

Les équipes participant à DEFT2013 devront s'inscrire à l'aide du
formulaire en ligne.

À l'exclusion des sites WEB et corpus qui auront servi de base à la
constitution des corpus de test et dont la liste sera communiquée aux
participants par les organisateurs, les participants pourront utiliser
toutes les ressources qu'ils souhaitent à condition de les mentionner
avec leur provenance lors de la présentation de leurs résultats.

Des corpus d'apprentissage seront fournis aux participants inscrits à
partir du 15 février 2013. Ces corpus sont composés de 60% des corpus
d'origine. Les 40% de corpus restants seront utilisés pour le test. Le
test aura lieu du 22 au 28 avril 2013. À partir de la date qu'ils auront
choisie dans cet intervalle, les participants auront trois jours pour
appliquer, sur les corpus de test, les méthodes mises en oeuvre sur les
corpus d'apprentissage.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------