[Corpora-List] [DEFT2012] Appel =?iso-8859-1?Q?=E0_?=participation DEFT2012

Dominic Forest dominic.forest at umontreal.ca
Sun Feb 5 19:30:20 UTC 2012


********************************************************
DEFT2012 - Appel à participation
 
Le défi DEFT est un atelier d'évaluation francophone en fouille de textes.
L'édition 2012 portera sur l¹identification de mots-clés utilisés pour la
description d'articles scientifiques en SHS.
 
Site Web : http://deft.limsi.fr/2012/
 
Comité d'organisation :
- présidents : Cyril Grouin (LIMSI-CNRS) et Dominic Forest (EBSI, Université
de Montréal)
- contact : deft2012 at limsi.fr
 
********************************************************
Dates importantes :
- Inscription : à partir du 4 février 2012
- Diffusion des corpus d'apprentissage : 4 février 2012
- Test : 3 jours pris entre le 9 et le 15 avril 2012
- Atelier : le 8 juin 2012 lors de la conférence JEP/TALN (sous toute
réserve)
 
********************************************************
DEFT2012 constitue la huitième édition de la campagne d'évaluation en
fouille de textes DEFT. L'atelier de clôture se tiendra sous toute réserve à
Grenoble dans le cadre de la conférence JEP/TALN.

Pour cette nouvelle édition, nous proposons une tâche qui se décline en deux
pistes distinctes.
 
Dans la continuité des éditions 2010 et 2011 du défi, nous offrons de
nouveau l'opportunité de travailler sur l'extraction d'informations sur un
corpus d'articles scientifiques en sciences humaines et sociales. La  tâche
consistera à identifier à partir des documents les mots-clés qui ont été
utilisés, par les auteurs, pour décrire chaque article du corpus. Le nombre
précis de mots-clés attendus pour chaque document sera renseigné, tant pour
les documents du corpus d'apprentissage que pour ceux du corpus de test
(entre 3 et 8 mots-clés par article).
 
Cette tâche d'assistance à l'indexation est fondamentale pour la description
des articles scientifiques. En effet, les bases de données bibliographiques
présentes sur le Web regroupant les articles parus en revue et dans les
actes de conférences permettent aux chercheurs d¹accéder facilement aux
articles scientifiques de leur domaine. Compte tenu de la quantité
d'articles scientifiques disponibles en format numérique, l'une des
problématiques les plus cruciales consiste à accéder aux articles
correspondant le mieux aux thématiques cherchées par l'utilisateur.
 
La description et l¹indexation des articles scientifiques au moyen de
mots-clés permettent de faciliter les recherches dans les bases de données
documentaires.
 
Alors que dans certains domaines, des thesaurus existent pour aider au choix
des descripteurs d¹articles (le thésaurus MeSH Medical Subject Headings dans
le domaine médical, par exemple), le domaine des Sciences Humaines et
Sociales ne dispose pas encore de tels outils dont l¹objectif principal
serait d¹assister l¹indexation des articles scientifiques. En conséquence,
les auteurs choisissent eux-mêmes les mots-clés qu'ils estiment les plus à
même de décrire le contenu de leur article, sans que la pertinence des
mots-clés choisis ne soit toutefois garantie. Travailler sur l¹indexation
des articles scientifiques en SHS constitue une première étape d¹étude de
ces mots-clés, et du bien-fondé de ces choix personnels. En outre,
l¹objectif de cette édition du défi consiste également à mettre en évidence
les décalages qui pourraient voir le jour entre les mots-clés choisis par
les auteurs et ceux qu'une machine pourrait automatiquement extraire.

Deux pistes sont possibles :
- la première consiste à travailler à partir des articles entiers et en
disposant de la terminologie complète utilisée pour décrire les articles du
corpus.
- la seconde consiste à travailler à partir des articles entiers et en ne
disposant pas de la terminologie complète utilisée pour décrire les articles
du corpus.
 
Les résultats seront en utilisant des méthodes classiques d¹évaluation
(rappel, précision, mesure-F, etc.) en mettant en relation les mots-clés de
chaque article avec ceux fournis par chaque équipe participante.
 
Il n'y a aucune limite quant au nombre de pistes auxquelles peuvent
participer les équipes.
 
Les participants ne pourront utiliser des ressources externes (thésaurus,
Web, etc.) Les équipes participant à DEFT2012 devront s'inscrire à l'aide du
formulaire en ligne, et signer les accords de restriction d'usage des
corpus.
 
Des corpus d'apprentissage seront fournis aux participants inscrits à partir
du 4 février 2012. Ces corpus sont composés de 60% des corpus d¹origine. Les
40% de corpus restants seront utilisés pour le test. Le test aura lieu sur
la première semaine de mai. À partir de la date qu'ils auront choisie dans
cet intervalle, les participants auront trois jours pour appliquer, sur les
corpus de test, les méthodes mises en oeuvre sur les corpus d'apprentissage.


_______________________________________________
UNSUBSCRIBE from this page: http://mailman.uib.no/options/corpora
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora



More information about the Corpora mailing list