ATALA: journee d'etude 22/11 : Le role de la typographie et de la ponctuation dans le TAL

alexis.nasr at LINGUIST.JUSSIEU.FR alexis.nasr at LINGUIST.JUSSIEU.FR
Fri Jul 18 15:00:42 UTC 2003


(Veuillez nous excuser pour les réceptions multiples)
----------------------------------------------------------------------------
(English version below)
--------------------------------------------

JOURNEES d'étude de  l'ATALA
APPEL A COMMUNICATION
**************************************
22 novembre 2003
ENST, 46, rue Barrault (49, rue Vergnault), 75013 Paris

Titre : Le rôle de la typographie et de la ponctuation dans le
traitement
automatique des langues
(segmentation de textes, prosodie, analyse syntaxique, filtrage
d'informations, codage dans des systèmes multilingues, etc.)

Organisée par Ghassan Mourad & Jean-Pierre Desclés
Laboratoire : LaLICC  (UMR 8139 Paris-Sorbonne / CNRS)

Objectif :
Même si elles ne constituent toujours pas un savoir enseigné à part
entière, peut-on encore nier le rôle de la ponctuation et de la
typographie, tant sut le plan de la lecture que sur le plan de
l'écriture '
Ceci est d'autant plus vrai concernant le traitement automatique de
langues, domaine où la ponctuation tient une place majeure. Les signes
typographiques et de ponctuation sont des « baliseurs naturels » de
l'information, mais aussi, des indicateurs sur lesquels devrait
désormais
s'appuyer la plupart des traitements automatiques (syntaxiques,
sémantiques, prosodique, extracteurs d'information, etc.). Concernant
ces
derniers, il est important de cadrer et d'étudier tout les problèmes qui
surgissent dans la phase de traitement automatique multilingue,
multiécriture et multicodage.

L'objectif de cette journée de l'ATALA est de faire le point sur l'état
actuel des recherches concernant les problématiques de la ponctuation,
de
la typographie, du codage et du transcodage en linguistique et dans le
traitement automatique ; et de présenter les travaux déjà réalises dans
ce
domaine, ou les travaux y contribuant directement.

Problématique :
L'ingénierie linguistique et le TAL sont confrontés à de nouveaux
problèmes. En effet, il est maintenant nécessaire de travailler non plus
seulement sur des phrases ou des énoncés isolés mais sur des textes
entiers, formatés ou  non formatés, par exemple sur des textes rapatriés
du
Web ou encore sur des textes extraits de grandes bases de documents
stockés
dans des entreprises ou des administrations, sur des encyclopédies ou
même
sur des articles de dictionnaire. De plus, les textes disponibles ne
sont
pas tous numérisés et encore moins balisés. Or , effectuer un traitement
automatique de documents textuels impose des opérations préalables aux
analyses syntaxiques, sémantiques et pragmatiques. En particulier,
chaque
texte possède deux  structures : une structure formelle et une structure
discursive. La première structuration conditionne la seconde. La
structure
formelle est déjà porteuse d'une certaine intentionnalité signifiante ;
elle est le résultat d'un codage dans un système typographique et celui
d'une mise en texte. Le traitement préalable d'un texte doit exploiter
cette structuration formelle (repérage des titres et sous titres ;
découpage d'un texte en paragraphes, énoncés, phrases, propositions,
mots ;
repérage des citations ; identification des énumérations ; prise en
compte
des ordres dispositionnels dans les textes ; repérage des images,
diagrammes, légendes, encadrés ') avant de procéder aux opérations
ultérieures et à l'exploitation de la structuration discursive
(identification des cadres temporels, spatiaux, thématiques ;
des  relations causales, définitoires, temporelles ' ; des relations
entre
concepts, termes, événements ; des liens anaphoriques ;  des prises en
charge énonciatives  ').
Sans la maîtrise complète de l'exploitation de la structure formelle,
aucun
traitement automatique des textes ne sera vraiment opérationnel.
Evidemment, ce problème ne se posait pas encore lorsque l'on travaillait
uniquement sur des phrases isolées. Mais, pour  l'analyse sémantique des
textes, il faut être capable de le segmenter en des unités linguistiques
qui sont supérieures et inférieures à la phrase normative, en prenant en
compte des marques sémiotiques clairement et formellement identifiables
par
une machine. Ainsi, la ponctuation et tous les indices typographiques
restent les éléments les plus pertinents car ils sont susceptibles de
fournir des indications précises pour segmenter et structurer
formellement
les textes, ces indications étant aux fondements mêmes d'une véritable
linguistique textuelle automatisable.
En schématisant, on peut distinguer trois types d'approche de la
segmentation : (a) approches numériques (réseaux neuronaux, N-grammes,
chaînes de Markov ') ; (b) approches par automates finis et expressions
régulières (exemple : INTEX) ; (c) approches par exploration
contextuelle
autour des marqueurs de ponctuation  (exemple : SegATex).
Les traités classiques sur la ponctuation sont en général normatifs et
ils
ne permettent donc pas une formulation de règles précises permettant de
réaliser une segmentation automatique. De plus, ces traités n'ont pas
assez
dégagé des analyses sémantiques de marqueurs hautement polysémiques
comme
la virgule, le point-virgule, le deux-point, les tirets, les
parenthèses,
les guillemets, le point' Pourtant, ces marqueurs jouent un rôle très
important dans la structuration sémantique ; leur analyse permet
d'améliorer les processus de segmentation et la structuration discursive
des textes.

Les outils de traitement des textes offrent d'énormes possibilités pour
des
variations typographiques afin de souligner la mise en relief d'un terme
pour citer, pour exemplifier, ou encore pour désambiguïser une
expression'
; comme l'a dit Ch. Gouriou : « A tout problème que pose la
transcription
de la  pensée, la typographie se doit d'apporter au moins une solution ;
elle en offre plusieurs dès que l'on la sollicite de faire valoir des
nuances ou des subtilités ». Cependant,  l'intégration qu'il convient
d'attribuer à ces variations n'est pas uniforme et dépend d'autres
éléments
contextuels (ponctuationnels et typographiques) ; par exemple, une
expression mise en italique n'a pas la même valeur selon qu'elle est
entre
guillemets ou en majuscules . C'est en fait un conglomérat d'indices
typographiques, variables de textes à textes, qui fixe la valeur d'une
occurrence de changement typographique. Le traitement automatique,
lorsqu'il prend pour objet des textes réels, se doit de résoudre ces
problèmes, à la fois linguistiques et informatiques.

Thèmes :
Les problèmes (liste non-exhaustive) qui pourraient être abordés lors de
cette journée seront, entre autres :

-       segmentation formelle du texte ;
-       segmentation discursive du texte à partir des marques de
ponctuation et de typographie (par exemple la sémantique de la
disposition
spatiale) ;
-       architecture textuelle ;
-       rôle de la ponctuation - en particulier, la virgule - dans une
analyse syntaxique ;
-       contribution de la ponctuation dans le codage de la prosodie et
contribution de la typographie au codage  de l'intonation' ;
-       contribution de la ponctuation pour l'identification des noms
propres, des mots composés, des sigles et des abréviations, des
références
bibliographiques, des citations, des renvois aux notes' ;
-       comparaison des  différents systèmes de ponctuation et de
typographie dans différents systèmes linguistiques (arabe, chinois,
japonais ') ;
-       problème de codage, du transcodage et du multicodage de
différents
systèmes linguistiques dans une approche multilingue des textes.
-       '.

Modalités :
Nous demandons aux auteurs de préciser si leur soumission :
  1) concerne des travaux en cours, ou des prises de position;
  2) des travaux aboutis du point de vue théorique ou appliqué.
Soumission (modalités)
Un résumé de 2 à 4 pages doit être envoyé avant le 30 septembre 2003
par courrier électronique en format text, .rtf, .doc ou .pdf à :
Ghassan.Mourad at paris4.sorbonne.fr
Et
Jean-Pierre.Descles at paris4.sorbonne.fr

Les notifications d'acceptation seront données pour le 20 octobre 2003.
****************************************************************************************

English version
-----------------------
ATALA Workshop
Conference call
**************************************
22 novembre 2003
ENST, 46, rue Barrault (49, rue Vergnault), 75013 Paris
****************************************************
Title :
Role of typography and punctuation in natural language processing
(texts segmentation, prosody, syntactical analysis, information
retrieval,
coding in multilingual systems,')

Organisation : Ghassan Mourad & Jean-Pierre Desclés
Laboratory : LaLICC  (UMR 8139 Paris-Sorbonne / CNRS)

Objective:
Even though punctuation and typography are not seen as teaching
knowledge,
we can hardly deny their role in reading and writing. This is also true
for
natural language processing, where punctuation plays an important role.
Typographical and punctuation signs are 'natural tags' of information,
and
indicators on which most of the processing should rely. It is essential
to
tally and study all issues in the multilingual, multiwriting, and
multicoding processing phases.

The ATALA workshop is particularly concerned with current research on
punctuation, typography, coding and transcribing issues in linguistics
and
language processing; and with work that already exists in this
restricted
domain or directly related to.

Issues:
Linguistic engineering and language processing is confronted with new
issues.  Indeed, it is now necessary to work not only on isolated
sentences
or utterances, but on entire structured or unstructured texts too; for
example, texts from the Internet or from document-bases stored by
companies
or administrations, encyclopaedias or even dictionary articles.
Moreover, texts are rarely tagged or digitised. However, text processing
requires pre-processing in order to conduct syntactical, semantic and
pragmatic analysis. In particular, each text has two structures: formal
and
discursive. The later depends on the earlier. The formal structure
expresses a certain meaning intentionality; it results from the coding
in a
typographical system and from 'text-setting' or text layout.
The pre-processing of a text must exploit the formal structure (titles
and
sub-titles localisation; text fragmentation in sentences, paragraphs,
utterances, propositions, words; quotation identification; item list
identification; spatial disposition consideration; images, diagrams,
captions, boxes localisation....), before executing other tasks, or
exploiting the discursive structure (temporal, spatial, topic, event
frames
identification; relations between concepts, terms, events; anaphoric
links;
enunciative phenomena').

  Without complete control of the exploitation of formal structure, text
processing will not really be operational. Obviously, this issue did not
appear when we worked only on isolated sentences. However, for semantic
analysis, text must segmented into linguistic units that are superior or
inferior to the normative sentences, by taking into account semiotic
marks
clearly and formally known by the computer. Punctuation and all
typographic
signs (index) are still the most relevant elements, since they can
provide
sharp indications for formal text segmentation and structuring; these
indications being the foundation of automatic textual linguistics.

We can distinguish between three types of approaches for segmentation:
(a)     Digital approaches (neuronal nets, N-grams, Markov model');
(b)     Finite automata and regular expressions approaches (for instance
INTEX);
(c)     Contextual exploration approaches based on punctuation marks
(for
instance SegATex).

Traditional theories (treaties, handbooks) of punctuation generally are
normative and do not allow the expression of precise rules that could
lead
to automatic segmentation. Furthermore, these treaties did not consider
semantic analysis of highly polysemous marks like comma, semicolon,
colon,
dash, parenthesises, ... However, marks play a very important role in
semantic structuring; their analysis allow to improve segmentation
process
and text discursive structuring.
Text processing tools offer enormous potentialities for typographic
variations; for example highlighting a term being quoted, exemplify, or
disambiguate an expression'; Quoting Ch. Gouriou : « A tout problème que
pose la transcription de la  pensée, la typographie se doit d'apporter
au
moins une solution ; elle en offre plusieurs dès que l'on la sollicite
de
faire valoir des nuances ou des subtilité ». However, the integration to
be
granted to these variations is not regular and depends on other
contextual
(typographic and punctuation) elements; for example, an italicized
expression does not have the same value (meaning) according to the fact
that it is capitalized or between quoting marks. It is indeed a
conglomerate of typographic marks, variable from text to text, which
gives
the value of an occurrence of typographic change. Text processing must
resolve these linguistic and computational issues.

Theme:
Submission can also Discuss/tackle cross-domain topics in relation to:

-       Formal segmentation of text,
-       Text discursive segmentation based on punctuation and typography
marks,
-       'Textual architecture',
-       The role of the punctuation -particularly, the comma- in a
syntactic analysis,
-       Contribution of the punctuation for the coding of the prosody
and
contribution of typography for the coding of intonation,
-       Contribution of the punctuation for the identification of proper
names, compound words, abbreviations, initials, '
-       Comparison between punctuation in various linguistic systems
(Arab,
Chinese'),
-       Coding and transcribing issues in various linguistics systems,
-       ?

Modalities :
Submission : a 2-4 page summary.
We ask authors to indicate if their submission:
-       present in-progress work or is a position paper;
-       present theoretical or applied completed work.
A 2-4-page summary must be sent before 30 September 2003 by e-mail in
text,
.rtf, .doc or .pdf to:
Ghassan.Mourad at paris4.sorbonne.fr
and
Jean-Pierre.Descles at paris4.sorbonne.fr

Acceptance notifications will be sent for 20 October 2003.

********************************************************************************
Ghassan Mourad
ISHA, Paris - Sorbonne
Laboratoire LaLICC (Langage, Logique, Informatique, Cognition et
Communication)
(UMR 8139 Paris-Sorbonne / CNRS)
96, Bd Raspail
http://www.lalic.paris4.sorbonne.fr/
75006 Paris
France
tél : 01 44 39 35 90
fax : 01 44 39 35 91
-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list