Appel: Journee ATALA, Des ressources semantiques existantes ? un FrameNet francais ?

Tue Jan 31 15:53:44 UTC 2006

Date: Mon, 30 Jan 2006 16:50:40 +0100
From: Guillaume Pitel <Guillaume.Pitel at laposte.net>
Message-ID: <43DE35D0.1040709 at laposte.net>
X-url: http://libresource.inria.fr/projects/framenet/
X-url: http://www.taln.be/index.php?lang=fr&page=96

      Journée d'Etude ATALA : Des ressources sémantiques existantes à
      un FrameNet français ? (Contre-)arguments, ressources, methodes
      et outils

    * *Date* : 13 mai 2006.
    * *Organisation* : Susanne Alt (ATILF), Guillaume Pitel (LORIA)
    * *Lieu* : ENST, 46 rue Barrault, Paris 13ème (accès par le 49 rue
      Vergniaud)

      Dates importantes

    * Date de la journée : 13 mai 2006
    * Date limite de soumission : 13 mars 2006
    * Date de notification aux auteurs : 5 avril 2006
    * Date pour les versions finales : 26 avril 2006

      Contexte

Actuellement, l'anglais est la seule langue dotée d'un éventail de
ressources sémantiques à large couverture, librement accessibles et
représentant différentes approches théoriques et méthodologiques :
parmi celles à fort impact pour le TAL, citons WordNet et FrameNet. Le
premier (115000 synsets, 203000 entrées lexicales) a été développé à
partir de 1985 en se fondant sur une théorie inspirée des recherches
en psychologie. Le second (8900 entrées, 620 cadres, 130000 exemples
annotés) est fondé sur la sémantique des cadres ("frame semantics") et
a pour objectif de documenter la combinatoire syntaxique et sémantique
pour chacun des sens d'une entrée lexicale à travers une annotation
manuelle d'exemples choisis dans des corpus sur des critères de
représentativité lexicographique. Les annotations sont ensuite
synthétisées automatiquement dans des tables, qui résument pour chaque
mot les cadres avec leur actants sémantiques et arguments syntaxiques.
La totalité des outils et données résultantes - la description et la
hiérarchisation des cadres et des actants sémantiques (620 cadres), la
description des unités lexicales (8900 entrées) ainsi que la base des
exemples annotés (130000 phrases) - est distribuée librement et
fournit un point de départ intéressant pour des développements
sémantiques en TAL, tels que l'étiquetage sémantique, la recherche
d'information, l'inférence pour la compréhension automatique de textes
ou la résolution d'anaphores.

Au vu de l'importance de telles ressources lexico-sémantiques non
seulement pour le TAL, mais plus largement en sémantique des langues
naturelles dans un perspective comparative, des initiatives de
constitution de bases similaires ont vu le jour pour d'autres
langues. A côté des réseaux sémantiques inspirés de WordNet (BalkanNet
et EuroWordNet), des initatives partant du FrameNet anglais sont
apparues, notamment pour l'espagnol, le japonais, le tchèque, le
chinois et l'allemand. Ces initiatives expérimentent différentes
approches : quasi reprise à l'identique de la chaîne éditoriale,
induction du lexique à partir d'une annotation exhaustive d'un corpus
de référence, approches statistiques ou symboliques à partir de corpus
parallèles ou traduction du corpus des exemples anglais et appariement
des cadres. Le choix parmi ces approches se fait toujours en fonction
des données initialement disponibles (corpus bruts ou annotés
syntaxiquement, qualité et taille de lexiques mono- ou bilingues) et
se traduit différemment en termes d'investissement et de qualité
lexicographique des ressources résultantes.

Notre proposition repose sur la conviction que l'absence de ressources
sémantiques comparables - c'est-à-dire librement accessibles, de bonne
qualité lexicographique, suffisamment structurées pour être
exploitables et de large couverture - risque à moyen terme de
pénaliser l'avancée du TAL de l'espace francophone. Actuellement,
aucune des ressources sémantiques dont nous disposons ne remplit tous
ces critères : à titre d'exemple, le DiCo est de bonne qualité
lexicographique et suffisamment structuré, mais ne présente pas pour
l'instant, une couverture suffisante. Le TLFi couvre une large partie
du lexique français, mais les informations sémantiques sont
difficilement exploitables dans leur structuration
actuelle. L'acquisition automatique de connaissances sémantiques à
partir de corpus peut être une piste intéressante à explorer, mais
dans l'état actuel des choses, les travaux dans ce domaine restent
majoritairement orientés vers des domaines techniques particuliers et
sont souvent conduits dans une perspective d'acquisition
terminologique ou ontologique. Par ailleurs, en l'absence de
ressources de référence, leur évaluation n'est pas aisée. Pour
l'instant, les ressources obtenues par des approches endogènes ne sont
donc pas encore à considérer comme concurrentes aux ressources
dictionnairiques, mais plutôt comme complémentaires.

      Appel à contributions

Dans l'optique de constituer des ressources sémantiques pour le
Français qui soit pérennes et évolutives, de bonne qualité
linguistique et comparables avec des ressources existantes pour
l'anglais, au moins deux projets s'inspirant du FrameNet anglais sont
actuellement en cours ou en préparation : le projet FR.FrameNet
(collaboration ATILF/LORIA, ICSI Berkeley et Université de
Saarbrücken) qui évalue les ressources et méthodologies pour un
FrameNet français (http://libresource.inria.fr/projects/framenet/ );
le projet "Romance FrameNet" qui vise à la construction parallèle d'un
lexique sémantique pour les principales langues romanes. Dans ce
cadre, nous souhaitons ouvrir la discussion plus largement à la
communauté francophone (de TAL et de sémantique) lors d'une journée
d'étude qui fasse le point sur les (contre-)arguments théoriques et
pratiques concernant un FrameNet français. D'un point de vue
théorique, nous invitons des contributions sur les fondements de la
sémantique des cadres et/ou son articulation avec des approches
alternatives ou complémentaires. D'un point de vue pratique, nous
invitons des contributions sur les ressources, outils et méthodes pour
la construction de ressources sémantiques et leur (im)possible
articulation avec les bases de données constituant le FrameNet. Ces
contributions pourraient par exemple porter sur :

    * les ressources sémantiques du Français : lexiques et corpus ;
    * les méthodes et outils d'acquisition automatique d'informations
      sémantiques à partir de corpus ou de lexiques ;
    * les techniques de projection d'informations sémantiques dans des
      corpus alignés ;
    * le positionnement de la sémantique des cadres ("frame
      semantics") par rapport à d'autres approches théoriques (lexique
      génératif, sémantique différentielle, sémantique
      compositionnelle);
    * les scénarios d'utilisation et d'interfaçage d'un lexique de
      type FrameNet dans des applications TAL ;
    * des études de cas lexico-sémantiques appliquées au français (cf.
      les travaux de S. Atkins pour l'anglais).

      Comité de Programme

    * Katrin Erk (Université de Saarbrücken)
    * Joseph Ruppenhofer (ISCI, Berkeley)
    * Pierrette Bouillon (ISSCO)
    * Jean Véronis (DELIC)
    * Guillaume Pitel (LORIA)
    * Susanne Alt (ATILF)

      Instructions pour la soumission

Les auteurs sont invités à soumettre leurs articles portant sur les
thématiques abordées par cette journée d'étude. Les articles devront
être formatés selon le style des conférences TALN (/modifié en
enlevant les informations relatives à la conférence/) et ne devront
*pas* être *anonymes*. Les articles soumis devront faire environ 6
pages. La langue officielle de l'atelier est le Français, mais il est
possible de soumettre un article en Anglais si aucun des auteurs ne
parle le Français. Les fichiers décrivant le style TALN 2006 sont
disponibles ici : http://www.taln.be/index.php?lang=fr&page=96

Les articles devront être envoyés en format PDF, au plus tard le 13
mars 2006 à salt at atilf.fr *et* Guillaume.Pitel at gmail.com

-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version          : 
Archives                 : http://listes.cines.fr/wws/arc/ln
                           http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------