Appel: Journee ATALA, Typologies de textes pour le traitement automatique

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Fri Oct 6 15:26:14 UTC 2006


Date: Thu, 05 Oct 2006 11:07:19 +0200
From: Maria ZIMINA <maria.zimina at lipn.univ-paris13.fr>
Message-ID: <4524CB47.9000209 at lipn.univ-paris13.fr>


----------------------------------------------------------------------
APPEL A COMMUNICATIONS
Journée d'études ATALA "TYPOLOGIES DE TEXTES POUR LE TRAITEMENT AUTOMATIQUE"
9 décembre 2006, Paris.


Depuis quelques années, avec le développement de l'accès aux documents
numériques, de nouveaux besoins émergent concernant l'exploitation des
documents :


- besoin de catégoriser les documents par thème, par genre,... pour
faciliter la recherche documentaire et regrouper les documents par
catégorie,


- besoin d'isoler des zones de documents plutôt que des documents, pour 
montrer, par exemple, des parties pertinentes par rapport à une question 
posée,


- besoin de naviguer à l'intérieur des documents, pour guider 
l'utilisateur dans sa recherche,


-...


Ces besoins nécessitent d'avoir à la fois une vision globale du
document afin de prendre en considération son organisation discursive,
sa structuration thématique ou rhétorique,... et aussi une vision «
locale » puisque ce sont souvent des marques linguistiques qui
permettent de mettre à jour ces différents plans organisationnels.


Du point de vue du traitement automatique de la langue et de la
linguistique textuelle, une dynamique de recherche s'est instaurée
autour de ces besoins et de ces visions complémentaires avec la
journée ATALA « Modéliser et décrire l'organisation discursive à
l'heure du document numérique » de juin 2004, le colloque « discours
et document » de Caen en juin dernier et l'appel de la revue TAL «
Discours et document : traitements automatiques ». La part de «
traitement automatique » est très variable suivant les approches.


Une autre communauté scientifique, « apprentissage à partir de textes
» est aussi concernée par ces problématiques quand elle s'assigne des
tâches de catégorisation automatique, de classification automatique,
segmentation automatique de textes... La représentation du texte est
souvent extrêmement simplifiée mais les solutions proposées sont
implémentées et leur efficacité peut être testée et comparée.

La journée ATALA proposée s'inscrit dans ce cadre général mais
souhaite concentrer les exposés sur la notion de typologie textuelle
c'est à dire le rattachement d'un document à tel ou tel type de textes
(ou genre ou registre, vu la terminologie fluctuante) : manuel
technique, texte de loi, constat d'accident, rapport de stage,
recommandation médicale, documentation technique, éditorial, article
scientifique,... Si cette approche typologique fait l'hypothèse de
types de textes définis a priori, l'appel concerne aussi, mais dans
une moindre mesure, une typologie a posteriori où les catégories
émergent en fonction de l'examen et du regroupement de traits
linguistiques ou autres.


Dans cet éventail de recherches allant du plus théorique ou plus
pratique, cette journée se veut un lieu d'échange et de discussions
entre des chercheurs qui abordent le texte avec des points de vue très
divers mais qui envisagent une automatisation des traitements.


Cette journée abordera en particulier les points suivants :


- quelles mesures de distances pour calculer des
proximités/oppositions entre textes ? Quels facteurs, quels traits
(lexical, syntaxique, sémantique, pragmatique) utiliser ?


- les systèmes de TAL existants utilisent les mêmes outils, les mêmes
ressources, réalisent les mêmes traitements quel que soit le type du
texte. Est-ce pertinent ? Si non, est-il possible de traiter la
circularité apparente : l'efficacité des outils dépend du type de
textes mais la détection du type de textes nécessite l'utilisation
d'outils ?


- Les deux façons de définir une typologie a priori (avec des
catégories pré-établies de genres, de domaines, de contextes de
production) ou a posteriori (où les catégories émergent en fonction de
l'examen et du regroupement de traits linguistiques), concordent-elles ?


- Un texte est-il entièrement d'un certain type ou peut-il comporter
des parties relevant chacune de types différents ? Quels moyens de
repérage ?

- En quoi les documents structurés renouvellent la problématique de 
typologie des textes ?

- ou toute autre proposition de communication en relation avec les
thèmes de la journée.


Comité d'organisation :

Maria Zimina-Poirot (LIPN)
Marie-Paul Jacques (LIPN)
Patrick Saint-Dizier (IRIT)
Thierry Poibeau (LIPN-CNRS)
Françoise Gayral (LIPN)


Comité de lecture (en cours de définition)


Les propositions de communication (de 1 à 5 pages) au format WORD ou
PDF devront parvenir aux organisateurs pour le 10 novembre 2006


pour une journée le 9 décembre.


CONTACTS :
francoise.gayral at lipn.univ-paris13.fr
maria.zimina at lipn.univ-paris13.fr


----------------------------------------------------------------------
LIPN-RCLN
Université Paris 13
99, avenue Jean-Baptiste Clément
93430 Villetaneuse


-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list