[Corpora-List] DEFT 2010 - 2e appel à participation

Dominic Forest dominic.forest at umontreal.ca
Tue Apr 6 14:32:05 UTC 2010


********************************************************
 
DEFT 2010 - Appel à participation
 
~~ Où et quand un article de presse a-t-il été écrit ? ~~
 
Atelier d'évaluation en fouille de textes sur l'identification de la période
et du lieu de publication d'articles de presse francophone
 
Date de l¹atelier : 23 juillet 2010 (conjointement à TALN 2010)
Lieu : Montréal (Canada)
 
Site Internet : http://www.groupes.polymtl.ca/taln2010/deft.php
Contact : deft10 at limsi.fr
 
Cette campagne d'évaluation bénéficie du soutien de CEDROM-SNi,
du CNRTL et de ELDA.
 
********************************************************
 
DEFT2010, sixième édition de la campagne d'évaluation en fouille de textes,
portera sur les variations diachroniques et géographiques en corpus de
presse francophones. L'atelier de clôture se tiendra à Montréal dans le
cadre de la conférence TALN 2010.
 
Un locuteur francophone natif est capable de détecter dans une conversation
des expressions spécifiques à un pays (par exemple au niveau des nombres
"septante" et "nonante" en Belgique et en Suisse contre "soixante-dix et
"quatre-vingt-dix" en France et au Québec, et "huitante" en Suisse vs.
"quatre-vingts" dans les trois autres pays).
 
Un lecteur est également capable de mobiliser des connaissances
linguistiques, culturelles et historiques pour identifier la période (sur
une échelle plus ou moins grande) de parution d'un article (en identifiant
un événement particulier et/ou des tournures linguistiques ou des entités
nommées jugées représentatives d'une période donnée).
 
Comme tout acte de communication, les documents ont une origine et un public
visé ; leur nature, c'est-à-dire leurs contenu, niveaux de langue, etc. en
dépend fortement. Dans cette édition du défi fouille de textes, nous nous
intéressons à l'origine des documents, plus particulièrement à l'époque et
au lieu de leur création.
 
Dans ce cadre, nous proposons plusieurs pistes distinctes et indépendantes.
 
* Piste 1.
Cette piste, relative à la variation diachronique, concerne l'identification
de la décennie de publication d'extraits d'articles français d'une taille de
300 mots. Les extraits de ce corpus couvrent une période comprise entre 1800
et 1944.
 
Le corpus d'apprentissage se composera d'extraits (300 mots) d'articles de
quatre titres de journaux différents, le corpus de test intègrera des
extraits provenant de ces quatre mêmes titres plus un cinquième titre absent
du corpus d'apprentissage, de manière à éprouver la robustesse des systèmes.
 
* Piste 2.
L'identification de l'origine géographique de chaque document (pays
d'origine) constituera la seconde piste de cette campagne. Elle reposera sur
des corpus de presse rassemblant plusieurs titres provenant de France et du
Québec.
 
Pour ces deux pistes, les participants auront la possibilité d'utiliser des
ressources externes (linguistiques, historiques, etc.) qu'ils devront
obligatoirement déclarer lors de la soumission des résultats. En ce qui
concerne plus spécifiquement la piste 1, les ressources provenant de Gallica
ne seront pas autorisées.
 
Nous invitons les participants à participer aux deux pistes. Il est
cependant possible de ne participer qu'à une seule des pistes.
 
Des corpus d'apprentissage seront fournis aux participants inscrits, à
partir du 26 février 2010. Ces corpus sont composés de 60% des corpus
d'origine. Les 40% de corpus restants seront utilisés pour le test. Le test
aura lieu sur une fenêtre d'un mois, à partir de la mi-mars.  À partir de la
date qu'ils auront choisie dans cet intervalle, les participants auront
trois jours pour appliquer, sur les corpus de test, les méthodes mises au
point sur les corpus d'apprentissage et nous retourner leurs résultats
d'analyse.
 
********************************************************
 
Dates importantes :
 
- Inscription : à partir du 25 janvier 2010. Les équipes souhaitant
participer à DEFT 2010 devront s'inscrire à l'aide du formulaire en ligne et
signer les accords de mise à disposition des corpus.
- Diffusion des corpus d'apprentissage : fin mars 2010
- Test : au choix, 3 jours pris courant mai 2010
- Diffusion des résultats : fin mai 2010
- Soumission des articles : 14 juin 2010
- Atelier : le 23 juillet 2010 lors de la conférence TALN
 
********************************************************
 
Comité d'organisation :
- Dominic Forest (EBSI, UdeM)
- Cyril Grouin (LIMSI)
- Lyne Da Sylva (EBSI, UdeM)
 
********************************************************
 

____________________________________________________________
Dominic Forest, Ph. D.
Professeur adjoint 
 
Adresse postale : 
École de bibliothéconomie et des sciences de l'information
Université de Montréal
C.P. 6128, succursale Centre-ville
Montréal (Québec) H3C 3J7
 
Adresse géographique :
École de bibliothéconomie et des sciences de l'information
Université de Montréal
Pavillon Lionel-Groulx
3150, rue Jean-Brillant, bureau C-2046
Montréal (Québec) H3T 1N8
 
Téléphone : (514) 343-6119
Télécopieur : (514) 343-5753
 
Courrier électronique : dominic.forest at umontreal.ca
Sites Internet : www.dominicforest.name  et www.ebsi.umontreal.ca
____________________________________________________________


_______________________________________________
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora



More information about the Corpora mailing list