Appel: JE Atala Caracterisation des contenus de l'internet, le 31/01/2004

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Wed Nov 19 08:26:24 UTC 2003


Date: Tue, 18 Nov 2003 12:12:15 +0100
From: "BEAUVISAGE Thomas FTRD/DIH/ISS" <thomas.beauvisage at rd.francetelecom.com>
Message-ID: <6F704D0B4CD23044990B4F8999F463DD0C920B at ftrdmel1.rd.francetelecom.fr>



Journées d'Étude de l'Association pour le Traitement Automatique des LAngues
(ATALA)

APPEL À COMMUNICATIONS

Lieu :
ENST, 46, rue Barrault, 75013 Paris, Métro : Corvisart

Date :
SAMEDI 31 JANVIER 2004

Titre :
CARACTÉRISATION DES CONTENUS DE L'INTERNET : AU-DELÀ DU LEXIQUE, L'APPROCHE SÉMANTIQUE.

Journée organisée par François Rastier (CNRS - UMR 7114, Paris X -
MoDyCo), Natalia Grabar (CRIM/INaLCO, STIM / DSI / AP-HP, Paris 6) et
Thomas Beauvisage (France Télécom R&D - DIH/UCE, Paris X - MoDyCo)

[L'appel à participation peut-être consulté sur le site de l'ATALA (www.atala.org)]


=============
Problématique
=============

Les applications de caractérisation, de détection et de traitement des
contenus Internet (Web, mail, forums...) se multiplient, soit pour
l'accès, soit pour le filtrage. Il y a là une demande sociale
croissante qui intéresse naturellement le traitement automatique du
langage : dans ce cadre, le TAL se pose comme consommateur de
contenus, mais également comme producteur d'outils qui exploitent ces
contenus. Cependant, si la masse des documents accessibles sur le Web
et des échanges via le réseau s'apparente à une mine de textes
numérisés en constante extension, le repérage, la collecte et le
traitement de ces documents posent une série de problèmes, tant au
niveau technique que théorique.

En premier lieu, le contenu textuel des documents nécessite bien
souvent d'adapter les outils de TAL (vocabulaire spécifique,
formatage, correction orthographique et grammaticale). Plus
généralement, la nature polysémiotique des contenus Web invite à
s'interroger sur la place et la pertinence d'un traitement réduit au
lexique, comme c'est fréquemment le cas. Deux exemples illustrent un
dépassement heureux du "tout lexical" :

 - les moteurs de recherche ont significativement amélioré leurs
   performances en exploitant finement les éléments structurels des
   documents HTML (balises "keywords"...) et la structure de liens du
   Web.

 - dans les applications de filtrage, les mots-clé s'avèrent très
   insuffisants. Ils ne constituent qu'une amorce et doivent être
   exploités en combinaison avec des indices provenant d'autres
   paliers linguistiques (morphologie, ponctuation, syntaxe,
   ...). Images, formulaires, mise en forme, évolutivité, services
   proposés, structure des échanges sont autant d'éléments qui
   obligent à replonger les contenus Internet dans les modes
   d'activité, d'interaction et, en quelque sorte, de consommation
   particuliers.


Ces problèmes appellent l'ingénierie linguistique à s'interroger plus
profondément sur l'utilisation qu'elle fait des contenus accessibles
sur Internet. Il importe de définir quels sont les éléments textuels
ou non textuels qui participent à la caractérisation des contenus
Internet, par-delà le matériel lexical, et de déterminer les outils
nécessaires à cette caractérisation. Cette journée d'étude cherchera à
faire le point sur les problèmes rencontrés, et les solutions
apportées dans différentes applications.


=========
Objectifs
=========

Cette journée d'étude a pour objectif de faire le point sur les
problèmes rencontrés par les outils de TAL pour la description et
l'exploitation des contenus disponibles sur Internet (pages et sites
du Web, mail, forums, etc.) Les difficultés concernent notamment :

 - les méthodes de récupération des contenus, l'accessibilité des
   contenus, les formalismes pour le stockage des informations, etc. ;

 - la sémantique des contenus Internet : contenu textuel vs. services
   proposés, contenus multimédia et interactifs, sémiotique des pages ;

 - les méthodes de catégorisation : détection thématique,
   catégorisation des sites et de pages, genres propres à Internet. De
   manière générale, ces problèmes marquent les liens naissants entre
   le TAL et l'Internet. Mais surtout, ils invitent à réfléchir sur
   les apports et les limites des outils de TAL et la description des
   contenus Internet.

Nous nous intéressons en particulier aux travaux qui dépassent les
analyses mono-critériales (par exemple, par mots-clé) et privilégient
l'analyse qui se situe aux différents niveaux de complexité du
document :
 - à l'intérieur de l'unité ergonomique que constitue le document :
   éléments textuels (lexicaux, grammaticaux, etc.), visuels
   (pictogrammes, logos) et structurels (texte, péritexte) ou autres
   pages (frames),

- dans le contexte proche du document : le site ou le service
  proposé par la page, le réseau de pages dans lequel elle s'inscrit
  (liens externes et internes, pointeurs), les scénarios d'usage dans
  lesquels elle s'inscrit, etc.

- dans l'intégration intertextuelle du document à Internet
  (connectivité, hypertexte).



=======================
Modalités de soumission
=======================

Les auteurs sont priés de soumettre un résumé de 2 à 4 pages de leurs
travaux en précisant :
- cadre et objectifs des travaux,
- aboutissement des travaux,
- tenants théoriques et applicatifs,
- bibliographie.

Les résumés doivent être envoyés à l'adresse suivante :
indices.internet at ml.free.fr
(l'adresse sera fermée au 01/02/2004)

Formats acceptés (dans l'ordre de préférence) : PDF, PS, TXT, DOC, RTF

Langues de présentation : français, anglais


=================
Dates importantes
=================

Réception des résumés : 15 décembre 2003
Notification d'acceptation : 05 janvier 2004
Journée d'étude : 31 janvier 2004

-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list