Appel: Journee ATALA, Typologies de textes pour le traitement automatique (2eme appel)

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Fri Oct 27 14:46:59 UTC 2006


Date: Thu, 26 Oct 2006 16:58:45 +0200
From: Maria ZIMINA <maria.zimina at lipn.univ-paris13.fr>
Message-ID: <4540CD25.1000901 at lipn.univ-paris13.fr>

----------------------------------------------------------------------
DEUXIÈME APPEL A COMMUNICATIONS

Journée d'études ATALA "TYPOLOGIES DE TEXTES POUR LE TRAITEMENT 
AUTOMATIQUE"
9 décembre 2006, Paris.

Depuis quelques années, avec le développement de l'accès aux documents
numériques, de nouveaux besoins émergent concernant l'exploitation des
documents :

- besoin de catégoriser les documents par thème, par genre,... pour 
faciliter la recherche documentaire et regrouper les documents par 
catégorie,

- besoin d'isoler des zones de documents plutôt que des documents, pour 
montrer, par exemple, des parties pertinentes par rapport à une question 
posée,

- besoin de naviguer à l'intérieur des documents, pour guider 
l'utilisateur dans sa recherche,

-...

Ces besoins nécessitent d'avoir à la fois une vision globale du document 
afin de prendre en considération son organisation discursive, sa 
structuration thématique ou rhétorique,... et aussi une vision « locale 
» puisque ce sont souvent des marques linguistiques qui permettent de 
mettre à jour ces différents plans organisationnels.

Du point de vue du traitement automatique de la langue et de la 
linguistique textuelle, une dynamique de recherche s'est instaurée 
autour de ces besoins et de ces visions complémentaires avec la journée 
ATALA « Modéliser et décrire l'organisation discursive à l'heure du 
document numérique » de juin 2004, le colloque « discours et document »  
de Caen en juin dernier et l'appel de la revue TAL « Discours et 
document : traitements automatiques ». La part de « traitement 
automatique » est très variable suivant les approches.

Une autre communauté scientifique, « apprentissage à partir de textes » 
est aussi concernée par ces problématiques quand elle s'assigne des 
tâches de catégorisation automatique, de classification automatique, 
segmentation automatique de textes... La représentation du texte est 
souvent extrêmement simplifiée mais les solutions proposées sont 
implémentées et leur efficacité peut être testée et comparée.

La journée ATALA proposée s'inscrit dans ce cadre général mais souhaite 
concentrer les exposés sur la notion de typologie textuelle c'est à dire 
le rattachement d'un document à tel ou tel type de textes (ou genre ou 
registre, vu la terminologie fluctuante) : manuel technique, texte de 
loi, constat d'accident, rapport de stage, recommandation médicale, 
documentation technique, éditorial, article scientifique,... Si cette 
approche typologique fait l'hypothèse de types de textes définis a 
priori, l'appel concerne aussi, mais dans une moindre mesure, une 
typologie a posteriori où les catégories émergent en fonction de 
l'examen et du regroupement de traits linguistiques ou autres.

Dans cet éventail de recherches allant du plus théorique ou plus 
pratique, cette journée se veut  un lieu d'échange et de discussions 
entre des chercheurs qui abordent le texte avec des points de vue très 
divers mais qui envisagent une automatisation des traitements.

Cette journée abordera en particulier les points suivants :

- quelles mesures de distances pour calculer des proximités/oppositions 
entre textes ? Quels facteurs, quels traits (lexical, syntaxique, 
sémantique, pragmatique) utiliser ?

- les systèmes de TAL existants utilisent les mêmes outils, les mêmes 
ressources, réalisent les mêmes traitements quel que soit le type du 
texte. Est-ce pertinent ? Si non, est-il possible de  traiter la 
circularité apparente : l'efficacité des outils dépend du type de textes 
mais la détection du type de textes nécessite l'utilisation d'outils ?

- Les deux façons de définir une typologie  a priori (avec des 
catégories pré-établies de genres, de domaines, de contextes de 
production) ou a posteriori (où les catégories émergent en fonction de 
l'examen et du regroupement de traits linguistiques), concordent-elles ?

- Un texte est-il entièrement d'un certain type ou peut-il comporter des 
parties relevant chacune de types différents ? Quels moyens de repérage ?

- En quoi les documents structurés renouvellent la problématique de 
typologie des textes ?

- ou toute autre proposition de communication en relation avec les 
thèmes de la journée.

Comité d'organisation :

Maria Zimina-Poirot (LIPN)
Marie-Paule Jacques (LIPN)
Patrick Saint-Dizier (IRIT)
Thierry Poibeau (LIPN)
Françoise Gayral (LIPN)

Comité de lecture :

Anne Condamines (ERSS, France)
Patrice Enjalbert (GREYC, France)
Serge Fleury (SYLED, France)
Nicolas Hernandez (GREYC, France)
Gabriel Illouz (LIMSI, France)
Denise Malrieu (MoDyCO, France)
Jean-Luc Minel (MoDyCO, France)
Marie-Paule Péry-Woodley (ERSS, France)
Horacio Saggion (U. Sheffield, UK)
Marina Santini (U. Brighton, UK)

Les propositions de communication (de 1 à 5 pages) au format WORD ou PDF 
devront parvenir aux organisateurs pour le 10 novembre 2006

pour une journée le 9 décembre.

CONTACTS :
francoise.gayral at lipn.univ-paris13.fr
maria.zimina at lipn.univ-paris13.fr

----------------------------------------------------------------------
LIPN-RCLN
Université Paris 13
99, avenue Jean-Baptiste Clément
93430 Villetaneuse


-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list