[Corpora-List] Call for submissions : workshop on "NON-LEXICAL CHARACTERISATION OF INTERNET CONTENT" (urgent)

Thomas BEAUVISAGE thomas.beauvisage at wanadoo.fr
Mon Nov 3 13:38:58 UTC 2003


[french version below]


Workshops of the Association pour le Traitement Automatique des LAngues
(ATALA)

CALL FOR SUBMISSIONS

Location:
ENST, 46, rue Barrault, 75013 Paris, Métro : Corvisart

Date:
SATURDAY JANUARY 31TH, 2004

Subject:
NON-LEXICAL CHARACTERISATION OF INTERNET CONTENT.

Workshop organised by Natalia Grabar (CRIM/INaLCO, STIM / DSI / AP-HP,
Paris
6), Thomas Beauvisage (France Télécom R&D - DIH/UCE, Paris X - MoDyCo) and
Mathieu Valette (CRIM/INaLCO, , Paris X - MoDyCo)


[This call for submissions is also available on the ATALA website
(www.atala.org)]



==========
Objectives
==========


The workshop aims at the presentation of work on analysis and
description of
material available on the Internet: Web pages and sites, mail, fora,
instant mail, etc.
Such work concerns for instance:
- the semantics of Internet content: textual content vs. services offered,
multimedia and interactive content, semiotics of web pages;
- categorisation methods: topic detection, categorisation of sites and
pages,
Internet-specific genres;
- computational linguistics and the Internet: contribution and limits of
NLP tools
for the description of Internet content;
- related problems: methods for content collection, accessibility of
content, "hidden
Web", formalisms for information storage, etc.


We are particularly interested in work which goes beyond the
single-criterion
analysis (i.e. key-words) and offers an analysis which takes into
account different
organisational levels of the document:
- inside the ergonomic unity of the document: textual (lexical,
grammatical, etc.),
visual (pictures, logos), structural (text, peritext) or other elements
(frames),
- the environment of the document: the sites or the services proposed
within the
document, the network of pages which the document is part of (internal,
external
links, anchors), the usage scenarii in which the document exists, etc.
- in the intertextual integration of the document on the Internet
(connectivity,
hypertext).



======
Issues
======


Applications related to characterisation, detection and processing of
Internet
content (Web, mail, fora, ...) are ever more numerous, both in relation
to Internet
access and content filtering. Therefore, there exists a real social need
which is
direclty related to NLP techniques. But while all documents available on
the Web and
network exchanges (mails, web discussion fora, ...) make up a digitised
text
repository that is constantly expanding, their detection, collection and
processing
raise a series of technical and theoretical problems.


First of all, NLP tools have to be adapted to the lexical content of
Internet
documents (specific vocabulary, formatting, check spelling, grammatical
correction).
More generally, the poly-semiotic nature of Web content raises questions
about the
relevance of lexicon-specific content processing. Two examples can help
us realise
the usefulness of going beyond lexical approaches:
- search engines have significantly improved their performances with the
exploitation of structural elements of HTML pages ("keywords" tags, ...)
and Web
links.
- in filtering applications, key-words seem to be insufficient. They
make up a
baseline and have to be combined with other types of features (morphology,
punctuation, syntax, etc.).
Pictures, formularies, layout, evolutivity, services offered, exchange
structures are
some other elements which require considering Internet content as a
specific
activity, with its own interaction modes and its specific user-centered
rules.


Because of these problems, computational linguistics has to study
further the use of
Internet content. NLP appears as the user of Internet content, but also
as the
developer of tools for the content processing. It is then important to
define which
textual and non-textual elements -going beyond merely lexical material-
participate
in the characterisation of Internet content and which kinds of tools are
useful to
bring this characterisation to light. This workshop is organised to
point to existing
problems and current solutions in different applications.



==========
Submission
==========

Interested authors can send a 2-to-4-page abstract of their work,
providing the
following information:
- research objectives and application fields,
- stage of research work,
- theoretical and practical research-related issues,
- bibliography.


Abstracts have to be sent to the following e-mail address:
je.atala.internet at ml.free.fr


Accepted document formats (in preference order): PDF, PS, TXT, DOC, RTF


Official languages: French, English



===============
Important dates
===============


Submission deadline      : 1st December 2003
Notifications to authors : 26th December 2003
Workshop                 : 31st January 2004


<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<


 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>


Journées d'Étude de l'Association pour le Traitement Automatique des
LAngues
(ATALA)

APPEL À COMMUNICATIONS

Lieu :
ENST, 46, rue Barrault, 75013 Paris, Métro : Corvisart

Date :
SAMEDI 31 JANVIER 2004

Sujet :
CARACTÉRISATIONS NON LEXICALES DES CONTENUS DE L'INTERNET. LA
PAROLE À LA SÉMANTIQUE.

Journée organisée par Natalia Grabar (CRIM/INaLCO, STIM / DSI / AP-HP,
Paris
6), Thomas Beauvisage (France Télécom R&D - DIH/UCE, Paris X - MoDyCo) et
Mathieu Valette (CRIM/INaLCO, , Paris X - MoDyCo)

[L'appel à participation peut-être consulté sur le site de l'ATALA
(www.atala.org)]


=========
Objectifs
=========

Cette journée d'étude est dédiée à la présentation de travaux consacrés
à l'analyse
et la description des contenus disponibles sur Internet : pages et sites
du Web, mail,
forums, messagerie instantanée, etc. Ces travaux concernent notamment :
- la sémantique des contenus Internet : contenu textuel vs. services
proposés,
contenus multimédia et interactifs, sémiotique des pages ;
- les méthodes de catégorisation : détection thématique, catégorisation
des sites et
de pages, genres propres à Internet ;
- la linguistique informatique et Internet : apports et limites des
outils de TAL pour la
description des contenus Internet ;
- les problèmes soulevés : méthodes de récupération des contenus,
accessibilité des
contenus, "hidden Web", formalismes pour le stockage des informations, etc.

Nous nous intéressons en particulier aux travaux qui dépassent les analyses
mono-critériales (par exemple, par mot clés), privilégient l'analyse qui
se situe aux
différents niveaux de complexité du document :
- à l'intérieur de l'unité ergonomique que constitue le document :
éléments textuels
(lexicaux, grammaticaux, etc.), visuels (pictogrammes, logos) et
structurels (texte,
peritexte) ou autres pages (frames),
- dans le contexte proche du document : le site ou le service proposé
par la page, le
réseau de pages dans lequel elle s'inscrit (liens externes et internes,
pointeurs), les
scénarios d'usage dans lesquels elle s'inscrit, etc.
- dans l'intégration intertextuelle du document à Internet
(connectivité, hypertexte).


=============
Problématique
=============

Les applications de caractérisation, de détection et de traitement des
contenus
Internet (Web, mail, forums...) se multiplient, soit pour l'accès, soit
pour le filtrage. Il
y a là une demande sociale croissante qui intéresse naturellement le
traitement
automatique du langage. Mais si la masse des documents accessibles sur
le Web et
des échanges via le réseau s'apparentent à une mine de textes numérisés en
constante extension, le repérage, la collecte et le traitement de ces
documents
posent une série de problèmes, tant au niveau technique que théorique.

En premier lieu, le contenu textuel des documents nécessite bien souvent
d'adapter
les outils de TAL (vocabulaire spécifique, formatage, correction
orthographique et
grammaticale). Plus généralement, la nature polysémiotique des contenus
Web invite
à s'interroger sur la place et la pertinence d'un traitement réduit au
lexique, comme
ce peut être fréquemment le cas. Deux exemples illustrent un dépassement
heureux
du "tout lexical" :
- les moteurs de recherche ont significativemet amélioré leurs
performances en
exploitant finement les éléments structurels des documents HTML (balises
"keywords"...) et la structure de liens du Web.
- dans les applications de filtrage, les mots clés s'avèrent très
insuffisants. Ils ne
constituent qu'une amorce et doivent être exploités en combinaison avec
d'autres
types d'indices (morphologie, ponctuation, syntaxe, ...).
Images, formulaires, mise en forme, évolutivité, services proposés,
structure des
échanges sont autant d'éléments qui obligent à replonger les contenus
Internet
dans les modes d'activité, d'interaction et, en quelque sorte, de
consommation
particuliers.

Ces problèmes appellent l'ingénierie linguistique à s'interroger plus
profondément
sur l'utilisation qu'elle fait des contenus accessibles sur Internet. Le
TAL se pose
comme consommateur de contenus, mais également comme producteur d'outils
qui
exploitent ces contenus. Il importe donc de définir quels sont les
éléments textuels
ou non textuels qui participent à la caractérisation des contenus
Internet, par-delà
le matériel lexical, et de déterminer les outils nécessaires à cette
caractérisation.
Cette journée d'étude cherchera a faire le point sur les problèmes
rencontrés, et les
solutions apportées dans différentes applications.


=======================
Modalités de soumission
=======================

Les auteurs sont priés de soumettre un résumé de 2 à 4 pages de leurs
travaux en
précisant :
- cadre et objectifs des travaux,
- aboutissement des travaux,
- tenants théoriques et applicatifs,
- bibliographie.

Les résumés doivent être envoyés à l'adresse suivante :
je.atala.internet at ml.free.fr

Formats acceptés (dans l'ordre de préférence) : PDF, PS, TXT, DOC, RTF

Langues de présentation : français, anglais


=================
Dates importantes
=================

Réception des résumés      : 1er décembre 2003
Notification d'acceptation : 26 décembre 2003
Journée d'étude            : 31 janvier 2004


<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<



More information about the Corpora mailing list