Appel: DEFT2012

Tue Feb 7 20:02:56 UTC 2012

Date: Sun, 05 Feb 2012 14:30:47 -0500
From: Dominic Forest <dominic.forest at umontreal.ca>
Message-ID: <CB544317.1E7C0%dominic.forest at umontreal.ca>
X-url: http://deft.limsi.fr/2012/

********************************************************
DEFT2012 - Appel à participation

Le défi DEFT est un atelier d'évaluation francophone en fouille de
textes.  L'édition 2012 portera sur l¹identification de mots-clés
utilisés pour la description d'articles scientifiques en SHS.

Site Web : http://deft.limsi.fr/2012/

Comité d'organisation :

- présidents : Cyril Grouin (LIMSI-CNRS) et Dominic Forest (EBSI,
  Université de Montréal)

- contact : deft2012 at limsi.fr

********************************************************
Dates importantes :
- Inscription : à partir du 4 février 2012
- Diffusion des corpus d'apprentissage : 4 février 2012
- Test : 3 jours pris entre le 9 et le 15 avril 2012
- Atelier : le 8 juin 2012 lors de la conférence JEP/TALN (sous toute
  réserve)

******************************************************** 
DEFT2012 constitue la huitième édition de la campagne d'évaluation en
fouille de textes DEFT. L'atelier de clôture se tiendra sous toute
réserve à Grenoble dans le cadre de la conférence JEP/TALN.

Pour cette nouvelle édition, nous proposons une tâche qui se décline en
deux pistes distinctes.

Dans la continuité des éditions 2010 et 2011 du défi, nous offrons de
nouveau l'opportunité de travailler sur l'extraction d'informations sur
un corpus d'articles scientifiques en sciences humaines et sociales. La
tâche consistera à identifier à partir des documents les mots-clés qui
ont été utilisés, par les auteurs, pour décrire chaque article du
corpus. Le nombre précis de mots-clés attendus pour chaque document sera
renseigné, tant pour les documents du corpus d'apprentissage que pour
ceux du corpus de test (entre 3 et 8 mots-clés par article).

Cette tâche d'assistance à l'indexation est fondamentale pour la
description des articles scientifiques. En effet, les bases de données
bibliographiques présentes sur le Web regroupant les articles parus en
revue et dans les actes de conférences permettent aux chercheurs
d¹accéder facilement aux articles scientifiques de leur domaine. Compte
tenu de la quantité d'articles scientifiques disponibles en format
numérique, l'une des problématiques les plus cruciales consiste à
accéder aux articles correspondant le mieux aux thématiques cherchées
par l'utilisateur.

La description et l¹indexation des articles scientifiques au moyen de
mots-clés permettent de faciliter les recherches dans les bases de
données documentaires.

Alors que dans certains domaines, des thesaurus existent pour aider au
choix des descripteurs d¹articles (le thésaurus MeSH Medical Subject
Headings dans le domaine médical, par exemple), le domaine des Sciences
Humaines et Sociales ne dispose pas encore de tels outils dont
l¹objectif principal serait d¹assister l¹indexation des articles
scientifiques. En conséquence, les auteurs choisissent eux-mêmes les
mots-clés qu'ils estiment les plus à même de décrire le contenu de leur
article, sans que la pertinence des mots-clés choisis ne soit toutefois
garantie. Travailler sur l¹indexation des articles scientifiques en SHS
constitue une première étape d¹étude de ces mots-clés, et du bien-fondé
de ces choix personnels. En outre, l¹objectif de cette édition du défi
consiste également à mettre en évidence les décalages qui pourraient
voir le jour entre les mots-clés choisis par les auteurs et ceux qu'une
machine pourrait automatiquement extraire.

Deux pistes sont possibles :

- la première consiste à travailler à partir des articles entiers et en
  disposant de la terminologie complète utilisée pour décrire les
  articles du corpus.

- la seconde consiste à travailler à partir des articles entiers et en
  ne disposant pas de la terminologie complète utilisée pour décrire les
  articles du corpus.

Les résultats seront en utilisant des méthodes classiques d¹évaluation
(rappel, précision, mesure-F, etc.) en mettant en relation les mots-clés
de chaque article avec ceux fournis par chaque équipe participante.

Il n'y a aucune limite quant au nombre de pistes auxquelles peuvent
participer les équipes.

Les participants ne pourront utiliser des ressources externes
(thésaurus, Web, etc.) Les équipes participant à DEFT2012 devront
s'inscrire à l'aide du formulaire en ligne, et signer les accords de
restriction d'usage des corpus.

Des corpus d'apprentissage seront fournis aux participants inscrits à
partir du 4 février 2012. Ces corpus sont composés de 60% des corpus
d¹origine. Les 40% de corpus restants seront utilisés pour le test. Le
test aura lieu sur la première semaine de mai. À partir de la date
qu'ils auront choisie dans cet intervalle, les participants auront trois
jours pour appliquer, sur les corpus de test, les méthodes mises en
oeuvre sur les corpus d'apprentissage.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------