Appel: DEFT 2010
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Tue Apr 6 19:54:34 UTC 2010
Date: Tue, 06 Apr 2010 10:32:26 -0400
From: Dominic Forest <dominic.forest at umontreal.ca>
Message-ID: <C7E0BE3A.13358%dominic.forest at umontreal.ca>
X-url: http://www.groupes.polymtl.ca/taln2010/deft.php
********************************************************
DEFT 2010 - Appel à participation
~~ Où et quand un article de presse a-t-il été écrit ? ~~
Atelier d'évaluation en fouille de textes sur l'identification de la
période et du lieu de publication d'articles de presse francophone
Date de l¹atelier : 23 juillet 2010 (conjointement à TALN 2010)
Lieu : Montréal (Canada)
Site Internet : http://www.groupes.polymtl.ca/taln2010/deft.php
Contact : deft10 at limsi.fr
Cette campagne d'évaluation bénéficie du soutien de CEDROM-SNi,
du CNRTL et de ELDA.
********************************************************
DEFT2010, sixième édition de la campagne d'évaluation en fouille de
textes, portera sur les variations diachroniques et géographiques en
corpus de presse francophones. L'atelier de clôture se tiendra à
Montréal dans le cadre de la conférence TALN 2010.
Un locuteur francophone natif est capable de détecter dans une
conversation des expressions spécifiques à un pays (par exemple au
niveau des nombres "septante" et "nonante" en Belgique et en Suisse
contre "soixante-dix et "quatre-vingt-dix" en France et au Québec, et
"huitante" en Suisse vs. "quatre-vingts" dans les trois autres pays).
Un lecteur est également capable de mobiliser des connaissances
linguistiques, culturelles et historiques pour identifier la période
(sur une échelle plus ou moins grande) de parution d'un article (en
identifiant un événement particulier et/ou des tournures linguistiques
ou des entités nommées jugées représentatives d'une période donnée).
Comme tout acte de communication, les documents ont une origine et un
public visé ; leur nature, c'est-à-dire leurs contenu, niveaux de
langue, etc. en dépend fortement. Dans cette édition du défi fouille
de textes, nous nous intéressons à l'origine des documents, plus
particulièrement à l'époque et au lieu de leur création.
Dans ce cadre, nous proposons plusieurs pistes distinctes et
indépendantes.
* Piste 1.
Cette piste, relative à la variation diachronique, concerne
l'identification de la décennie de publication d'extraits d'articles
français d'une taille de 300 mots. Les extraits de ce corpus couvrent
une période comprise entre 1800 et 1944.
Le corpus d'apprentissage se composera d'extraits (300 mots)
d'articles de quatre titres de journaux différents, le corpus de test
intègrera des extraits provenant de ces quatre mêmes titres plus un
cinquième titre absent du corpus d'apprentissage, de manière à
éprouver la robustesse des systèmes.
* Piste 2.
L'identification de l'origine géographique de chaque document (pays
d'origine) constituera la seconde piste de cette campagne. Elle
reposera sur des corpus de presse rassemblant plusieurs titres
provenant de France et du Québec.
Pour ces deux pistes, les participants auront la possibilité
d'utiliser des ressources externes (linguistiques, historiques, etc.)
qu'ils devront obligatoirement déclarer lors de la soumission des
résultats. En ce qui concerne plus spécifiquement la piste 1, les
ressources provenant de Gallica ne seront pas autorisées.
Nous invitons les participants à participer aux deux pistes. Il est
cependant possible de ne participer qu'à une seule des pistes.
Des corpus d'apprentissage seront fournis aux participants inscrits, à
partir du 26 février 2010. Ces corpus sont composés de 60% des corpus
d'origine. Les 40% de corpus restants seront utilisés pour le test. Le
test aura lieu sur une fenêtre d'un mois, à partir de la mi-mars. À
partir de la date qu'ils auront choisie dans cet intervalle, les
participants auront trois jours pour appliquer, sur les corpus de
test, les méthodes mises au point sur les corpus d'apprentissage et
nous retourner leurs résultats d'analyse.
********************************************************
Dates importantes :
- Inscription : à partir du 25 janvier 2010. Les équipes souhaitant
participer à DEFT 2010 devront s'inscrire à l'aide du formulaire en
ligne et signer les accords de mise à disposition des corpus.
- Diffusion des corpus d'apprentissage : fin mars 2010
- Test : au choix, 3 jours pris courant mai 2010
- Diffusion des résultats : fin mai 2010
- Soumission des articles : 14 juin 2010
- Atelier : le 23 juillet 2010 lors de la conférence TALN
********************************************************
Comité d'organisation :
- Dominic Forest (EBSI, UdeM)
- Cyril Grouin (LIMSI)
- Lyne Da Sylva (EBSI, UdeM)
********************************************************
Dominic Forest, Ph. D.
Professeur adjoint
Adresse postale :
École de bibliothéconomie et des sciences de l'information
Université de Montréal
C.P. 6128, succursale Centre-ville
Montréal (Québec) H3C 3J7
Adresse géographique :
École de bibliothéconomie et des sciences de l'information
Université de Montréal
Pavillon Lionel-Groulx
3150, rue Jean-Brillant, bureau C-2046
Montréal (Québec) H3T 1N8
Téléphone : (514) 343-6119
Télécopieur : (514) 343-5753
Courrier électronique : dominic.forest at umontreal.ca
Sites Internet : www.dominicforest.name et www.ebsi.umontreal.ca
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list