Projet: Evaluation (AUF)

Philippe Blache pb at harar.lpl.univ-aix.fr
Fri Jul 30 09:05:20 UTC 1999


From: Christophe Jouis <jouis at univ-lille3.fr>


____________________________
N'HESITEZ PAS A REDIFFUSER CE MESSAGE-------------------------------------

ARC A3 : Evaluation des systèmes de construction de terminologie et de
relations sémantiques entre
termes

***** Appel à participation *********

L'ARC A3 est une Action de Recherche Concertée financée par l'AUF
(Association des Universites Francophones,
ex -Aupelf-Uref). Ce projet cherche à "promouvoir l'élaboration de corpus
et de procédures d'évaluation
concernant le français, pour permettre à la recherche de progresser et au
domaine de se doter d'instruments
de mesure rendant possible une comparaison objective des différentes
approches". D'autre part il vise
à favoriser le développement des systèmes et permettre une meilleure
visibilité de l'offre.
La première phase de ce projet (1995-1998) a permis de constituer une
première série de corpus, d'établir
des protocoles de tests et d'effectuer une première campagne de tests.

Le présent appel à participation pour le second cycle du projet ARC A3
(1999-2000) s'adresse à des
équipes de recherche et à des industriels (qu'ils soient francophones ou
non), disposant de système(s)
de construction de terminologie et/ou  de relations sémantiques entre
termes traitant au moins le français.
Les 8 systèmes qui ont été testés lors de la première phase ont
diffférentes fonctionnalités et fournissent
différentes sorties :
termes (ordonnés), réseaux grammaticaux, classes de termes, graphes
sémantiques... L'évaluation a été
essentiellement qualitative,  et a été  effectuée par les experts sur la
base de l'analyse de
l'utilisabilité de l'information procurée par le système.

Nous avons distingué 3 catégories non disjointes de systèmes :
1. Systèmes d'extraction de candidats-termes : ils se fondent sur une
analyse syntaxique et statistique ;
2. Systèmes " classifieurs ", c'est-à-dire construisant des classes de
termes qui co-occurrent de manière
   régulière dans les textes. Ces systèmes se fondent soit sur une analyse
syntaxique et statistique soit
   sur des approches numériques pures ;
3. Systèmes d'extraction de relations sémantiques. Ces systèmes utilisent
une approche statistique ou une
   approche linguistique par exploration contextuelle.

Les terminologies ont ete évaluées suivant deux objectifs :
1. indexation ;
2. couverture du domaine.

DEROULEMENT DU SECOND CYCLE (1999-2000)

Aucun financement n'est prévu pour cette participation, mais le
bénéfice pour ces équipes de recherche et industriels sera multiple :
* disposer, dans le cadre du projet, d'un ensemble de corpus de documents,
de questions d'utilisateurs
  et
  de réponses "justes",
* bénéficier d'une structure d'échange et de réflexion grâce à la
participation de concepteurs et
  d'utilisateurs de systèmes,
* la possibilité d'intégration de systèmes, tirant avantage de la nature
complémentaire des résultats
  issus des différents systèmes,
* bénéficier de la visibilité induite par la participation au projet.

Le corpus est proposé par l'INRA (Institut National de Recherche en
Agronomie). Il est constitué
d'articles dans le domaine des biotechnologies. Plusieurs "spécialistes" de
l'INRA (documentalistes,
indexeurs, terminologues travaillant dans le domaine) sont prets à évaluer
les resultats.

Calendrier :

--Septembre 99
Sélection et notification des candidats externes
Premier corpus d’entraînement sur le corpus de l’INRA et un autre corpus
éventuellement
--Octobre 99 : corpus étiqueté (avec le logiciel SYLEX d'INGENIA)
--Janvier 2000
Première session réelle sur le corpus de l’INRA et un autre corpus
éventuellement
--Avril 2000
Réunion de mise au point : analyse des résultats, raffinement des mesures
Publication des résultats en « interne »
Mise en place définitive de la méthodologie
-- Septembre 2000
Deuxième session réelle et définitive sur le corpus de l ’INRA et un autre
corpus éventuellement
-- Décembre 2000 : publication des résultats en vue des JST (Journees
Scientifiques et Techniques,
colloque organisé par le réseau FRANCIL et l'AUF).

---------------
Pour tout complément d'information, vous pouvez nous contacter à l'adresse
électronique suivante :
jouis at univ-lille3.fr.

(Christophe Jouis
 IDIST
 Equipe organisatrice ARC A3
 Universite CHARLES-DE-GAULLE - Lille 3
 BP 149
 59653 Villeneuve d'Ascq FRANCE)


Pour signaler votre intention de participer, envoyez un message au plus
tard le 15 septembre 1999 à
jouis at univ-lille3.fr contenant les informations suivantes :

-Personne à contacter : ....................................
-Nom de l'organisme : .....................................
-Nom du système proposé : .................................
-Catégorie du système (extracteurs de terme, classifieur, extracteur de
relations semantiques).
-Description des fonctionnalités du système (20 lignes).



More information about the Ln mailing list