Appel: Journee ATALA, Typologies de textes pour le traitement automatique (2eme appel)
Thierry Hamon
thierry.hamon at LIPN.UNIV-PARIS13.FR
Fri Oct 27 14:46:59 UTC 2006
Date: Thu, 26 Oct 2006 16:58:45 +0200
From: Maria ZIMINA <maria.zimina at lipn.univ-paris13.fr>
Message-ID: <4540CD25.1000901 at lipn.univ-paris13.fr>
----------------------------------------------------------------------
DEUXIÈME APPEL A COMMUNICATIONS
Journée d'études ATALA "TYPOLOGIES DE TEXTES POUR LE TRAITEMENT
AUTOMATIQUE"
9 décembre 2006, Paris.
Depuis quelques années, avec le développement de l'accès aux documents
numériques, de nouveaux besoins émergent concernant l'exploitation des
documents :
- besoin de catégoriser les documents par thème, par genre,... pour
faciliter la recherche documentaire et regrouper les documents par
catégorie,
- besoin d'isoler des zones de documents plutôt que des documents, pour
montrer, par exemple, des parties pertinentes par rapport à une question
posée,
- besoin de naviguer à l'intérieur des documents, pour guider
l'utilisateur dans sa recherche,
-...
Ces besoins nécessitent d'avoir à la fois une vision globale du document
afin de prendre en considération son organisation discursive, sa
structuration thématique ou rhétorique,... et aussi une vision « locale
» puisque ce sont souvent des marques linguistiques qui permettent de
mettre à jour ces différents plans organisationnels.
Du point de vue du traitement automatique de la langue et de la
linguistique textuelle, une dynamique de recherche s'est instaurée
autour de ces besoins et de ces visions complémentaires avec la journée
ATALA « Modéliser et décrire l'organisation discursive à l'heure du
document numérique » de juin 2004, le colloque « discours et document »
de Caen en juin dernier et l'appel de la revue TAL « Discours et
document : traitements automatiques ». La part de « traitement
automatique » est très variable suivant les approches.
Une autre communauté scientifique, « apprentissage à partir de textes »
est aussi concernée par ces problématiques quand elle s'assigne des
tâches de catégorisation automatique, de classification automatique,
segmentation automatique de textes... La représentation du texte est
souvent extrêmement simplifiée mais les solutions proposées sont
implémentées et leur efficacité peut être testée et comparée.
La journée ATALA proposée s'inscrit dans ce cadre général mais souhaite
concentrer les exposés sur la notion de typologie textuelle c'est à dire
le rattachement d'un document à tel ou tel type de textes (ou genre ou
registre, vu la terminologie fluctuante) : manuel technique, texte de
loi, constat d'accident, rapport de stage, recommandation médicale,
documentation technique, éditorial, article scientifique,... Si cette
approche typologique fait l'hypothèse de types de textes définis a
priori, l'appel concerne aussi, mais dans une moindre mesure, une
typologie a posteriori où les catégories émergent en fonction de
l'examen et du regroupement de traits linguistiques ou autres.
Dans cet éventail de recherches allant du plus théorique ou plus
pratique, cette journée se veut un lieu d'échange et de discussions
entre des chercheurs qui abordent le texte avec des points de vue très
divers mais qui envisagent une automatisation des traitements.
Cette journée abordera en particulier les points suivants :
- quelles mesures de distances pour calculer des proximités/oppositions
entre textes ? Quels facteurs, quels traits (lexical, syntaxique,
sémantique, pragmatique) utiliser ?
- les systèmes de TAL existants utilisent les mêmes outils, les mêmes
ressources, réalisent les mêmes traitements quel que soit le type du
texte. Est-ce pertinent ? Si non, est-il possible de traiter la
circularité apparente : l'efficacité des outils dépend du type de textes
mais la détection du type de textes nécessite l'utilisation d'outils ?
- Les deux façons de définir une typologie a priori (avec des
catégories pré-établies de genres, de domaines, de contextes de
production) ou a posteriori (où les catégories émergent en fonction de
l'examen et du regroupement de traits linguistiques), concordent-elles ?
- Un texte est-il entièrement d'un certain type ou peut-il comporter des
parties relevant chacune de types différents ? Quels moyens de repérage ?
- En quoi les documents structurés renouvellent la problématique de
typologie des textes ?
- ou toute autre proposition de communication en relation avec les
thèmes de la journée.
Comité d'organisation :
Maria Zimina-Poirot (LIPN)
Marie-Paule Jacques (LIPN)
Patrick Saint-Dizier (IRIT)
Thierry Poibeau (LIPN)
Françoise Gayral (LIPN)
Comité de lecture :
Anne Condamines (ERSS, France)
Patrice Enjalbert (GREYC, France)
Serge Fleury (SYLED, France)
Nicolas Hernandez (GREYC, France)
Gabriel Illouz (LIMSI, France)
Denise Malrieu (MoDyCO, France)
Jean-Luc Minel (MoDyCO, France)
Marie-Paule Péry-Woodley (ERSS, France)
Horacio Saggion (U. Sheffield, UK)
Marina Santini (U. Brighton, UK)
Les propositions de communication (de 1 à 5 pages) au format WORD ou PDF
devront parvenir aux organisateurs pour le 10 novembre 2006
pour une journée le 9 décembre.
CONTACTS :
francoise.gayral at lipn.univ-paris13.fr
maria.zimina at lipn.univ-paris13.fr
----------------------------------------------------------------------
LIPN-RCLN
Université Paris 13
99, avenue Jean-Baptiste Clément
93430 Villetaneuse
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list