[ln] Appel: Journee ATALA, Articuler les traitements sur corpus, 5 fevrier 2005 (deuxieme appel)

Tue Nov 2 15:40:48 UTC 2004

Date: Fri, 29 Oct 2004 17:49:27 +0200
From: "Serge HEIDEN" <slh at ens-lsh.fr>
Message-ID: <01d301c4bdce$def02810$1929050a at intranet.enslsh.fr>

Journée d'étude de l'ATALA (www.atala.org/) (Deuxième Appel)
Samedi 5 février 2005 - ENST  46 r Barrault, 75634 Paris Cédex 13

Organisateurs : Benoît Habert (LIMSI et université Paris X -
habert at limsi.fr), Serge Heiden (ICAR - ENS LSH - slh at ens-lsh.fr),
André Salem (Syled - Paris III - salem at msh-paris.fr)

Le traitement des données textuelles articule, probablement pour
encore quelques années, des données non structurées (texte "brut"),
des données semi-structurées (formats d'entrée/sortie plus ou moins
contraignants des logiciels utilisés) et données structurées (XML,
graphes d'annotation...). Les outils traitent/produisent des données
selon des formats variables et d'ailleurs évolutifs.

La plupart des logiciels utilisent en outre des représentations
internes des données textuelles, comme des index, qui permettent des
réorganisations et des traitements plus efficaces de la chaîne
textuelle (concordances, repérage des cooccurrences etc.) tout en
constituant, du même coup, empiriquement, des unités textuelles aux
statuts très variables.

Enfin, ils offrent divers moyens de visualisation des données
résultats ou intermédiaires en sollicitant des interfaces aux
ergonomies très variables.

Pour des projets d'envergure, des architectures ont été conçues pour
articuler modules et formats hétérogènes. C'est le cas de GATE
[Gaizauskas et al. 98] à l'université de Sheffield pour MUC. Ces
architectures, trop lourdes, n'offrent pas une solution satisfaisante
pour le quotidien. D'autres architectures font le choix de flux XML
pour l'enchaînement des traitements (LT-XML
[#http://www.ltg.ed.ac.uk/software/xml/]] et les flux SAX de Cocoon
[http://cocoon.apache.org/2.1/overview.html#Pipeline]).

La journée d'étude proposée abordera en particulier les points suivants :

- faut-il aller vers des architectures "tout XML" ou privilégier des
moyens d'associer modules etformats hétérogènes ?

- quels moyens utiliser pour avancer dans la standardisation des
formats d'annotation des données et la formalisation de la sémantique
de ces annotations, de sorte à faciliter et à expliciter
l'enchaînement des divers traitements (EAGLES, ISLE) ?

- quelles architectures utiliser pour articuler la gestion des
entrepôts de données et l'application des divers outils
d'enrichissement et d'analyse des données (client/serveur.) ?

- quels formats retenir pour faciliter l'annotation multiple et
complexe de corpus (graphes d'annotation, annotation `déportée' ou «
stand-off » ...) ?

- quelle utilisation effective des en-têtes à la TEI (Text Encoding
Initiative) ou XCES (XML Corpus Encoding Standard) ou d'aides au
catalogage (OLAC) pour mémoriser la signalétique accompagnant les
corpus ? quelle interaction avec les propositions du consortium W3C
pour noter les méta-données (RDF, par exemple) ?

- l'histoire des traitements d'un corpus (son cycle de vie), de ses
versions, de ses partitions est souvent impossible à reconstituer : on
dispose de résultats (texte étiqueté/lemmatisé, analyse syntaxique en
dépendances, couples d'information mutuelle, etc.) dont on ne sait
plus avec quoi ils ont été obtenus et selon quels paramétrages.

- est-il possible de normaliser la description des traitements
effectués afin de permettre la répétition des mêmes chaînes de
traitement à des données diverses ?

Comité de lecture

Michael Beddow  (Anglo-Norman On-Line Hub)
Lou Burnard (UOxford)
Jean Carletta (HCRC UEdinburgh)
François Daoust (UQAM)
Michel Jacobson (Lacito CNRS)
Sylvaine Nugier (EDF R&D)
Mark Olsen (UChicago)
Thierry Poibeau (LIPN)
Laurent Romary (LORIA)
Ludovic Tanguy (ERSS)
Jean Véronis (DELIC - Aix)
Matthew Zimmerman (NYU)
Pierre Zweigenbaum (DIAM-SIM AP-HP)

Les propositions de communication (de 1 à 5 pages) devront parvenir
aux organisateurs pour le 1er décembre 2004.

Dates limites importantes

Proposition de communication : 1er décembre 2004
Notification d'acceptation/rejet : 10 janvier 2005

_____________________________________________________________________
Serge Heiden, slh at ens-lsh.fr, https://weblex.ens-lsh.fr
ENS-LSH/CNRS - ICAR UMR5191, Institut de Linguistique Française
15, parvis René Descartes 69342 Lyon BP7000 Cedex, tél. +33 4 37 37 63 12, fax. +33 4 37 37 62 65

-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------