ATALA: journee du 28 avril

alexis nasr alexis.nasr at lim.univ-mrs.fr
Mon Feb 12 17:23:14 UTC 2001


From: Benoit Habert <Benoit.Habert at limsi.fr>

                -------------------------------------------
                JOURNEES de l'ATALA - APPEL A COMMUNICATION
                -------------------------------------------
                        Samedi 28 avril 2001

                De la langue aux genres et aux types

La place des types et des genres textuels dans la description et le
traitement automatique d'une langue peut être reconsidérée aujourd'hui à
la lumière des corpus et des annotateurs automatiques disponibles mais
aussi de l'expérience gagnée à traiter non plus des domaines restreints
mais du texte "tout venant", en très grande quantité.

Cependant la notion de texte tout-venant doit sans doute être réélaborée
ou dépassée.


La notion de genre textuel est peu étudiée en linguistique. Elle suscite
des débats sur sa définition et son opérativité (Adam 00). Néanmoins, de
nombreux travaux (Bronckart 96, Roulet 96) portent sur les genres et
leur place dans l'économie des échanges langagiers. L'hypothèse
sous-jacente est que les genres organiseraient et réguleraient l'infinie
diversité des énoncés (Bakhtine). Maîtriser une langue, ce serait
d'abord maîtriser des genres. Ces travaux se trouvent aujourd'hui en
mesure, grâce à la multiplication des corpus et des outils d'annotation,
de tester effectivement ces hypothèses. On peut ainsi chercher à
qualifier les différences significatives entre les genres prédéfinis
d'un corpus donné et tester la pertinence du classement initial des
documents de ce corpus en fonction de ces genres. On peut également,
dans une approche d'apprentissage non supervisé, développer une
typologie inductive des textes en les caractérisant par un ensemble de
dimensions organisant des traits linguistiques (Biber 88, 95).

Le traitement automatique des langues fait de plus en plus appel à de
volumineux corpus textuels pour l'acquisition des connaissances qui lui
sont nécessaires : cadres de sous-catégorisation des verbes,
collocations, enchaînement de catégories, acquisition de catégories
sémantiques... L'obstacle actuel n'est donc plus la disponibilité de
corpus, mais l'hétérogénéité des données qui sont rassemblées sous ce
nom. En effet la qualité des connaissances acquises dépend directement
de la maîtrise des caractéristiques du corpus utilisé, qu'il s'agisse de
l'étiquetage morphosyntaxique (Biber 93), du parsage (Sekhine 97) ou de
la recherche d'information (Karlgren 98). Il importerait alors de
(re)connaître les types de textes ou les genres présents dans les corpus
utilisés.

Les propositions de communication pourront en particulier apporter une
contribution sur les questions et les thèmes suivants :

        . Le profilage de documents : comment répartir un ensemble donné
de documents en sous-ensembles homogènes pour les traitements
automatiques envisagés ?
        . L'influence des genres ou des types de textes sur les
performances des traitements automatiques : y a-t-il des tâches plus
sensibles que d'autres à l'hétérogénéité des données utilisées ?
        . Retrouve-t-on d'un domaine à un autre des genres ou des types
similaires ?
        . Quelle est la fiabilité d'une répartition d'un ensemble de
documents en genres et en types par un ensemble d'individus ?
        . La description syntaxique et sémantique d'une langue, y
compris pour le TAL, doit-elle prendre en compte la variation en genres
?
        . Les "genres" reconnus dans une communauté langagière donnée
sont-ils identifiables de manière automatique ?
        . Les "genres" reconnus dans une communauté langagière donnée
constituent-ils les bonnes "variables" pour expliquer l'hétérogénéité
d'un corpus ?

Soumission (modalités)

Un résumé de deux à quatre pages doit être envoyé avant le 28 février
2001 par courrier électronique uniquement à :

        François Rastier (lpe2 at ext.jussieu.fr) et à
        Benoît Habert  (habert at limsi.fr)


Les notifications d'acceptation seront données pour le 31 mars 2001

Pour plus d'informations sur l'ATALA et sur l'organisation des
journées d'études, consultez le site de l'ATALA à l'adresse:
http://www.atala.org

--
La France est le "pays-de-l'amour-et-des-fleurs", disent gentiment les
Japonais. Quel étrange sentiment, non dénué de rêverie, que de se
découvrir "has been". François Julien et Thierry Marchaisse, Penser d'un
dehors (la Chine). Entretiens d'extrême-Occident, Seuil, 2000, p.
490-491.
Benoît Habert Equipe Langues Interprétation Représentations (LIR) -
LIMSI, BP 133, F-91403, Orsay Cédex
& université Paris X
mailto:habert at limsi.fr http://www.limsi.fr/Individu/habert/
Tel : mardi et jeudi (33 1) 69 85 80 22 (fax 80 88) - lundi et vendredi
(33 1) 40 97 47 34 (fax 40 73) - Fax (33 1) 45 34 35 76

___________________________________________________________________
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://web-lli.univ-paris13.fr/ln/



More information about the Ln mailing list