Appel: DEFT'08

Fri Jan 25 21:14:27 UTC 2008

Date: Fri, 25 Jan 2008 12:36:12 +0100
From: Martine Hurault-Plantet <Martine.Hurault-Plantet at limsi.fr>
Message-Id: <200801251236.12840.Martine.Hurault-Plantet at limsi.fr>
X-url: http://deft08.limsi.fr/
X-url: http://deft08.limsi.fr/inscription.php

******************************************************************
DEFT'08   Appel à participation

Atelier d'évaluation en fouille de textes :
Classification de textes en thème et en genre

http://deft08.limsi.fr/
Inscription : http://deft08.limsi.fr/inscription.php
******************************************************************
Dates importantes :

Inscription : à partir du 21 décembre 2007
Diffusion des corpus d'apprentissage : 14 janvier 2008
Test : 3 jours pris dans la dernière quinzaine de mars 2008
Atelier : 9-13 juin dans le cadre de TALN'08

******************************************************************
Depuis 3 ans DEFT (http://deft.limsi.fr/) propose des campagnes
d'évaluation dans le domaine de la Fouille de Textes en langue
française. L'atelier DEFT'08 se tiendra cette année en Avignon dans le
cadre de la conférence TALN. Le thème de cette édition 2008 de DEFT
concerne la classification en thème et en genre de textes.

La classification automatique a de multiples applications en fouille
de textes. De l'orientation de courriels à la veille stratégique ou
scientifique, de nombreux domaines d'application ont été
explorés. Depuis quelques années une nouvelle problématique est
apparue, celle de la classification en genre de textes. Au-delà de la
reconnaissance du thème du document, la reconnaissance de son genre
est utile pour guider l'utilisation qui sera faite du document. Mais
comment reconnaître à la fois le thème et le genre d'un document ? La
différence de genre influence-t-elle la reconnaissance de la catégorie
thématique d'un document, et, inversement, la différence de thème
influence-t-elle la reconnaissance du genre du document ?

Pour évaluer des logiciels de classification dans cette perspective,
nous allons confronter, sur un même ensemble de catégories
pré-définies, deux corpus de genres différents, un corpus d'articles
journalistiques issus du journal Le Monde, et un corpus d'articles
encyclopédiques issus de l'encyclopédie libre sur Internet,
Wikipédia. Ce que nous mettons ici sous le terme genre renvoie à un
ensemble de textes partageant des propriétés liées au domaine
d'activité, à des pratiques et au support utilisé pour ces textes.  Un
article de journal rend compte d'une actualité et un article
encyclopédique diffuse un savoir, mais les deux ont en commun un
certain nombre de catégories thématiques générales, appelées rubriques
chez l'un et catégories chez l'autre. Il s'agira de tester sur ces
corpus d'une part la robustesse d'un modèle de classification
thématique soumis à des variations en genre de texte, et d'autre part
les améliorations possibles d'une classification thématique par la
reconnaissance du genre de texte.

Description de la tâche
***********************
Pour l'entraînement, nous fournirons 2 corpus :

    * un corpus d'articles du journal Le Monde et d'articles de
Wikipédia d'un ensemble A de catégories thématiques avec un double
étiquetage, l'un en genre et l'autre en catégorie thématique,
    * un corpus d'articles du journal Le Monde et d'articles de
Wikipédia d'un ensemble B de catégories thématiques, différent de
l'ensemble A, avec un simple étiquetage en catégorie thématique.

Pour le test, nous fournirons deux corpus non étiquetés en genre ou en
thème, avec une tâche différente pour chacun :

    * tâche 1 : reconnaissance du genre et de la catégorie thématique
de chaque document d'un corpus d'articles du journal Le Monde et
d'articles de Wikipédia appartenant à l'ensemble A de catégories
thématiques,
    * tâche 2 : reconnaissance de la catégorie thématique de chaque
document d'un corpus d'articles du journal Le Monde et d'articles de
Wikipédia appartenant à l'ensemble B de catégories thématiques.

Inscription
**********
Les équipes participant à DEFT'08 devront s'inscrire à l'aide du
formulaire en ligne (http://deft08.limsi.fr/inscription.php), et
signer les accords de restriction d'usage des corpus.

Comités
********
Comité d'organisation :
Co-responsables : Martine Hurault-Plantet (LIMSI) et Cyril Grouin
(LIMSI)
Membres : Sylvain Loiseau (LIMSI), Jean-Baptiste Berthelin (LIMSI),
Sarra El Ayari (LIMSI)

Comité de programme :
Président : Patrick Paroubek (LIMSI)
Membres : 
Catherine Berrut (CLIPS), 
Fabrice Clérot (France Telecom), 
Guillaume Cleuziou (LIFO), 
Matthieu Constant (IGM)
Béatrice Daille (LINA), 
Halima Dahmani (CEA-LIST),
Marc El-Bèze (LIA), 
Patrick Gallinari (LIP6), 
Éric Gaussier (Xerox Research), 
Thierry Hamon (LIPN), 
Fidélia Ibekwe-SanJuan (ELICO), 
Pascal Poncelet (LGI2P), 
Christophe Roche (LISTIC), 
Mathieu Roche (LIRMM), 
Bernard Rothenburger (IRIT - INRIA),
Pascale Sébillot (IRISA), 
Yannick Toussaint (LORIA), 
François Yvon (LIMSI).

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------