Appel: journee ATALA du 31/01 : NON-LEXICAL CHARACTERISATION OF INTERNET CONTENT

Mon Nov 3 17:31:52 UTC 2003

[french version below]

Workshops of the Association pour le Traitement Automatique des
LAngues (ATALA)

CALL FOR SUBMISSIONS

Location: ENST, 46, rue Barrault, 75013 Paris, Métro : Corvisart

Date: SATURDAY JANUARY 31TH, 2004

Subject: NON-LEXICAL CHARACTERISATION OF INTERNET CONTENT.

Workshop organised by Natalia Grabar (CRIM/INaLCO, STIM / DSI / AP-HP,
Paris 6), Thomas Beauvisage (France Télécom R&D - DIH/UCE, Paris X -
MoDyCo) and Mathieu Valette (CRIM/INaLCO, , Paris X - MoDyCo)

[This call for submissions is also available on the ATALA website
(www.atala.org)]

==========
Objectives
==========

The workshop aims at the presentation of work on analysis and
description of material available on the Internet: Web pages and
sites, mail, fora, instant mail, etc.  Such work concerns for
instance:

- the semantics of Internet content: textual content vs. services
offered, multimedia and interactive content, semiotics of web pages;

- categorisation methods: topic detection, categorisation of sites and
pages, Internet-specific genres;

- computational linguistics and the Internet: contribution and limits
of NLP tools for the description of Internet content;

- related problems: methods for content collection, accessibility of
content, "hidden Web", formalisms for information storage, etc.

We are particularly interested in work which goes beyond the
single-criterion analysis (i.e. key-words) and offers an analysis
which takes into account different organisational levels of the
document:

- inside the ergonomic unity of the document: textual (lexical,
grammatical, etc.), visual (pictures, logos), structural (text,
peritext) or other elements (frames),

- the environment of the document: the sites or the services proposed
within the document, the network of pages which the document is part
of (internal, external links, anchors), the usage scenarii in which
the document exists, etc.

- in the intertextual integration of the document on the Internet
(connectivity, hypertext).

======
Issues
======

Applications related to characterisation, detection and processing of
Internet content (Web, mail, fora, ...) are ever more numerous, both
in relation to Internet access and content filtering. Therefore, there
exists a real social need which is direclty related to NLP
techniques. But while all documents available on the Web and network
exchanges (mails, web discussion fora, ...) make up a digitised text
repository that is constantly expanding, their detection, collection
and processing raise a series of technical and theoretical problems.

First of all, NLP tools have to be adapted to the lexical content of
Internet documents (specific vocabulary, formatting, check spelling,
grammatical correction).  More generally, the poly-semiotic nature of
Web content raises questions about the relevance of lexicon-specific
content processing. Two examples can help us realise the usefulness of
going beyond lexical approaches:

- search engines have significantly improved their performances with
the exploitation of structural elements of HTML pages ("keywords"
tags, ...) and Web links.

- in filtering applications, key-words seem to be insufficient. They
make up a baseline and have to be combined with other types of
features (morphology, punctuation, syntax, etc.).

Pictures, formularies, layout, evolutivity, services offered, exchange
structures are some other elements which require considering Internet
content as a specific activity, with its own interaction modes and its
specific user-centered rules.

Because of these problems, computational linguistics has to study
further the use of Internet content. NLP appears as the user of
Internet content, but also as the developer of tools for the content
processing. It is then important to define which textual and
non-textual elements -going beyond merely lexical material-
participate in the characterisation of Internet content and which
kinds of tools are useful to bring this characterisation to
light. This workshop is organised to point to existing problems and
current solutions in different applications.

==========
Submission
==========

Interested authors can send a 2-to-4-page abstract of their work,
providing the following information:

- research objectives and application fields,

- stage of research work,

- theoretical and practical research-related issues,

- bibliography.

Abstracts have to be sent to the following e-mail address:
je.atala.internet at ml.free.fr

Accepted document formats (in preference order): PDF, PS, TXT, DOC,
RTF

Official languages: French, English

===============
Important dates
===============

Submission deadline      : 1st December 2003
Notifications to authors : 26th December 2003
Workshop                 : 31st January 2004

<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

Journées d'Étude de l'Association pour le Traitement Automatique des
LAngues (ATALA)

APPEL À COMMUNICATIONS

Lieu : ENST, 46, rue Barrault, 75013 Paris, Métro : Corvisart

Date : SAMEDI 31 JANVIER 2004

Sujet : CARACTÉRISATIONS NON LEXICALES DES CONTENUS DE L'INTERNET. LA
PAROLE À LA SÉMANTIQUE.

Journée organisée par Natalia Grabar (CRIM/INaLCO, STIM / DSI / AP-HP,
Paris 6), Thomas Beauvisage (France Télécom R&D - DIH/UCE, Paris X -
MoDyCo) et Mathieu Valette (CRIM/INaLCO, , Paris X - MoDyCo)

[L'appel à participation peut-être consulté sur le site de l'ATALA
(www.atala.org)]

=========
Objectifs
=========

Cette journée d'étude est dédiée à la présentation de travaux
consacrés à l'analyse et la description des contenus disponibles sur
Internet : pages et sites du Web, mail, forums, messagerie
instantanée, etc. Ces travaux concernent notamment :

- la sémantique des contenus Internet : contenu textuel vs. services
proposés, contenus multimédia et interactifs, sémiotique des pages ;

- les méthodes de catégorisation : détection thématique,
catégorisation des sites et de pages, genres propres à Internet ;

- la linguistique informatique et Internet : apports et limites des
outils de TAL pour la description des contenus Internet ; - les
problèmes soulevés : méthodes de récupération des contenus,
accessibilité des contenus, "hidden Web", formalismes pour le stockage
des informations, etc.

Nous nous intéressons en particulier aux travaux qui dépassent les
analyses mono-critériales (par exemple, par mot clés), privilégient
l'analyse qui se situe aux différents niveaux de complexité du
document :

- à l'intérieur de l'unité ergonomique que constitue le document :
éléments textuels (lexicaux, grammaticaux, etc.), visuels
(pictogrammes, logos) et structurels (texte, peritexte) ou autres
pages (frames),

- dans le contexte proche du document : le site ou le service proposé
par la page, le réseau de pages dans lequel elle s'inscrit (liens
externes et internes, pointeurs), les scénarios d'usage dans lesquels
elle s'inscrit, etc.

- dans l'intégration intertextuelle du document à Internet
(connectivité, hypertexte).

=============
Problématique
=============

Les applications de caractérisation, de détection et de traitement des
contenus Internet (Web, mail, forums...) se multiplient, soit pour
l'accès, soit pour le filtrage. Il y a là une demande sociale
croissante qui intéresse naturellement le traitement automatique du
langage. Mais si la masse des documents accessibles sur le Web et des
échanges via le réseau s'apparentent à une mine de textes numérisés en
constante extension, le repérage, la collecte et le traitement de ces
documents posent une série de problèmes, tant au niveau technique que
théorique.

En premier lieu, le contenu textuel des documents nécessite bien
souvent d'adapter les outils de TAL (vocabulaire spécifique,
formatage, correction orthographique et grammaticale). Plus
généralement, la nature polysémiotique des contenus Web invite à
s'interroger sur la place et la pertinence d'un traitement réduit au
lexique, comme ce peut être fréquemment le cas. Deux exemples
illustrent un dépassement heureux du "tout lexical" :

- les moteurs de recherche ont significativemet amélioré leurs
performances en exploitant finement les éléments structurels des
documents HTML (balises "keywords"...) et la structure de liens du
Web.

- dans les applications de filtrage, les mots clés s'avèrent très
insuffisants. Ils ne constituent qu'une amorce et doivent être
exploités en combinaison avec d'autres types d'indices (morphologie,
ponctuation, syntaxe, ...).

Images, formulaires, mise en forme, évolutivité, services proposés,
structure des échanges sont autant d'éléments qui obligent à replonger
les contenus Internet dans les modes d'activité, d'interaction et, en
quelque sorte, de consommation particuliers.

Ces problèmes appellent l'ingénierie linguistique à s'interroger plus
profondément sur l'utilisation qu'elle fait des contenus accessibles
sur Internet. Le TAL se pose comme consommateur de contenus, mais
également comme producteur d'outils qui exploitent ces contenus. Il
importe donc de définir quels sont les éléments textuels ou non
textuels qui participent à la caractérisation des contenus Internet,
par-delà le matériel lexical, et de déterminer les outils nécessaires
à cette caractérisation.  Cette journée d'étude cherchera a faire le
point sur les problèmes rencontrés, et les solutions apportées dans
différentes applications.

=======================
Modalités de soumission
=======================

Les auteurs sont priés de soumettre un résumé de 2 à 4 pages de leurs
travaux en précisant :

- cadre et objectifs des travaux,

- aboutissement des travaux,

- tenants théoriques et applicatifs,

- bibliographie.

Les résumés doivent être envoyés à l'adresse suivante :
je.atala.internet at ml.free.fr

Formats acceptés (dans l'ordre de préférence) : PDF, PS, TXT, DOC, RTF

Langues de présentation : français, anglais

=================
Dates importantes
=================

Réception des résumés      : 1er décembre 2003
Notification d'acceptation : 26 décembre 2003
Journée d'étude            : 31 janvier 2004

<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------