Appel: Corpus 6 - interpretation, contexts, encoding

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Fri Sep 29 11:34:58 UTC 2006


Date: Fri, 29 Sep 2006 11:40:37 +0200
From: Pincemin <benie at club-internet.fr>
Message-id: <451CEA15.6000600 at club-internet.fr>
X-url: http://revel.unice.fr/corpus/
X-url: http://www.tei-c.org/
X-url: http://www.revue-texto.net/Inedits/Rastier/Rastier_PourSdT.html
X-url: http://revel.unice.fr/corpus/sommaire.html?id=49



[French version of CFP below / version française de l'appel suit]

CALL FOR PAPERS

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
The CORPUS Journal invites articles on the following topic :
	Interpretation, Contexts, Encoding

Submission deadline (abstract) : November 15th, 2006
Date of publication of #6 issue : October 2007
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

1. Presentation of CORPUS
2. Introduction to the topic of the #6 issue (2007)
3. Submission procedure and important dates


1. Presentation of CORPUS

CORPUS is a journal devoted to corpus linguistics, in all its aspects
: theory, epistemology, methodology, whatever the field of application
or geographic area could be. These different points of view focus on
one main objective : getting a better understanding of the place of
corpora in linguistic research.

Each article is then invited to question the way of building or
exploiting corpora. How can a (good) corpus be defined ? Is there a
set of criteria, or some empirical guidelines, that prove to be
efficient ?  How can the corpus and its analysis be adjusted to each
other ? Can the corpus be appropriately used for several studies ? How
may the corpus be affected by aging ? These questions and others
deserve to be considered carefully, all the more so when having a
great acquaintance with corpus practice.

CORPUS Journal is an international journal, published once a year.
Articles can be written in French or English, and are reviewed by a
scientific commitee.
The diffusion is both paper-based and online (6 months later, free).
http://revel.unice.fr/corpus/
ISSN for the internet edition : 1765-3126
ISSN for the paper edition : 1638-9808


2. Introduction to the topic of the #6 issue (2007)

The #6 issue of CORPUS, to be published in 2007, will investigate the
relationships between encoding, interpretation and contexts. In fact,
textual corpora cannot be built or processed without some kind of
INTERPRETATION. Meaning is grounded in CONTEXTS, and ENCODING is the
technical way to express textual, intertextual and contextual
affinities. Such a theme naturally combines theoretical and empirical
considerations.

A possible approach is to consider the interaction between two of the
three components of the topic. For example :

* encoding + interpretation : are encoding and interpretation allied
or ennemies ? Related topics : Subjectivity or objectivity of the
encoding, respect of the form of the text and spirit, overcoding... Is
encoding a nasty job or a crucial scientific task ? Theorically
speaking, encoding may not precede interpretation : how can this be
implemented and taken into account in corpus practice ?

* interpretation + contexts : what kind of effects on meaning and
interpretation do the grouping of texts and the corpus structure
create ? Some text and corpus analysis methods, and textual and
distributional semantics, are based on the contextualisations of
linguistic units : which contextual levels should be considered ?
(phrase, sentence, paragraph, text, text class,...) Which ones are
fully relevant for what kind of corpus analysis ?

* encoding + contexts : What kind of contextual information should be
encoded ? How much do such contextual information determine the
quality of the corpus-based research ? What is the real place given to
contexts in text representations and computational analysis of texts ?


3. Submission procedure and important dates

Submission procedure :

Please send a short description of the paper (1 or 2 pages including a
title, main ideas, an outline proposal, a few bibliographical
references) to :

Mrs. Bénédicte Pincemin
name at ens-lsh.fr (please replace name by benedicte.pincemin)
Subject of the mail : Corpus 6 - submission
Format : pdf preferred (txt, rtf, doc, sxw, ps also welcome).

A preliminary review, based on the proposal, will indicate how
relevant to the issue the proposal is, and will give indications and
suggestions so as to adjust the content of the article, if necessary.
The full-length version of the article is due by March 19th, 2007, and
will then be reviewed for acceptance or reject.

Important dates :

- deadline for paper proposal (sketch version) : November 15th, 2006
- preliminary review : December 11th, 2006
- deadline submission (full-length article) : March 30th, 2007
- notification of acceptance or reject : May 15th, 2007
- final version's due : July 1st, 2007
- paper publication : October 2007
- online publication : June 2008

________________________________________________________________________
APPEL A CONTRIBUTIONS


!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
La revue Corpus prépare pour 2007 un numéro sur le thème :
	interprétation, contextes, codage

Date limite de soumission des propositions (résumé) :
mercredi 15 novembre 2006
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!


1. Présentation de la revue
2. Introduction au thème du numéro 6 (à paraître en 2007)
3. Modalités pratiques


1. Présentation de la revue

La revue CORPUS est consacrée à la linguistique de corpus envisagée
sous tous ses aspects : théoriques, épistémologiques, méthodologiques,
quels que soient le champ disciplinaire et le domaine géolinguistique
d'application. Au fil des numéros il s'agit de développer une
réflexion approfondie sur le rôle des corpus dans les pratiques
linguistiques contemporaines et une analyse réflexive sur les modes de
constitution des différents corpus présentés, ainsi que sur leurs
outils d'exploitation. Par là-même on tente d'expliciter et d'évaluer
les processus heuristiques qui unissent la collecte et la
structuration des données empiriques d'une part et le surgissement ou
la validation de l'hypothèse linguistique d'autre part.

CORPUS est publiée par l'UMR 6039 "Bases, Corpus et Langage" (CNRS &
Université de Nice), à raison d'un numéro chaque année.  C'est une
revue à comités qui dispose de deux supports complémentaires : le
support papier qui reste essentiel, et le support électronique qui met
gratuitement sur le Web, à la disposition de la communauté, les
articles six mois après leur publication papier.

http://revel.unice.fr/corpus/
ISSN Electronique : 1765-3126 - ISSN Papier : 1638-9808


2. Introduction au thème du numéro 6 (à paraître en 2007)

La réflexion sur l'usage de corpus de textes part ici de sa possible
-et nécessaire- INTERPRETATION. Or le sens se déploie en s'appuyant
sur des CONTEXTES structurants, et le CODAGE est l'expression
technique, déterminante, des structures textuelles, intertextuelles,
et contextuelles.

Concrètement, le CODAGE renvoie aux choix d'édition lors de la
réécriture du corpus dans le format adopté pour l'analyse. Dans le cas
d'un format XML par exemple, le codage concerne aussi bien le balisage
de structures textuelles (notamment par découpage et emboîtements,
avec la délimitation de contextes syntagmatiques) que l'enrichissement
par étiquetage (l'assignation de catégories créant complémentairement
des contextes paradigmatiques). A la multiplicité des interprétations
possibles répond le besoin de vues alternatives sur le corpus : par
exemple, les informations enregistrées par le codage pourront être
différentes et se noter différemment, et donc conduire à différentes
éditions électroniques du corpus, selon que l'objectif est
l'archivage, la diffusion, ou le traitement par tel ou tel
logiciel. En matière d'analyse assistée par ordinateur, si la
robustesse des outils d'analyse est certainement pertinente, il serait
dommageable qu'elle dicte un nivellement par le bas de la
structuration des corpus. Car les logiciels d'analyse et d'exploration
textuelle, notamment à visée sémantique, ont tout à gagner à savoir
tirer parti d'un codage riche -ou du moins non appauvri-, donnant
véritablement accès aux informations de contextualisation de tous
ordres. Reste à trouver un équilibre vertueux, pour éviter des codages
excessifs, trop lourds, ingérables, et étouffant l'interprétation au
lieu de la rendre accessible et de la susciter.

L'INTERPRETATION est présente à toutes les étapes du travail sur
corpus.  Interprétation "a priori" au moment de la constitution du
corpus, et avec la conception des opérations d'analyse à pratiquer ;
interprétation "a posteriori" pour l'exploitation des résultats
produits. Mais la pratique interprétative procède par retours et
ajustements, elle n'échappe pas au cercle herméneutique : ainsi, la
lecture des résultats motive(rait) très naturellement une reprise du
codage et une réorientation des traitements. La Text Encoding
Initiative (1) prévoit à juste raison un commentaire du codage, livré
avec le corpus (rubrique tagUsage), comme du contexte du codage
(rubrique projectDesc) : une telle explicitation des conventions de
sens et du mode d'usage des balises dans le contexte du corpus est
éminemment importante pour toute exploitation et réexploitation du
corpus, en d'autres temps ou d'autres lieux, y compris par ses
éditeurs, mais aussi au moment même du codage !  L'annotation des
corpus semble questionner encore plus directement l'alliance entre
codage et interprétation : peut-on établir une typologie des
annotations, et ce à tous les paliers de contexte ? A l'image d'un
cheminement interprétatif, l'annotation peut-elle, voire doit-elle,
être dynamique (c'est-à-dire ajoutée, rectifiée, oubliée...) ?
doit-elle être partagée et sédimentée - mais avec quels contextes pour
limiter gêne mutuelle des séries d'annotations et surcharge
artificielle, inhumaine, de la lecture ?

Quelquefois précisée par la distinction entre contexte et co-texte, la
réflexion sur le CONTEXTE dans son lien au codage et à
l'interprétation des corpus pourrait ici se centrer sur les structures
syntagmatiques (qui découpent, emboîtent) et paradigmatiques (qui
mettent en lien), dans un texte et entre des textes. Cette option
n'est pas si restrictive qu'il y paraît : Rastier (2) montre que les
réalités externes en prise avec le texte (l'auteur, le monde, le
lecteur - les "pôles extrinsèques") s'y retrouvent par leur empreinte
dans le matériau linguistique et textuel ("pôles intrinsèques"),
notamment via le genre du texte. Peut-être aussi la question du
contexte rejoint-elle directement celle, fondamentale, de la bonne
constitution du corpus : les critères de clôture ou de réflexivité (3)
par exemple ne visent-ils pas la recherche d'une contextualisation
globale, sémantiquement stable, nécessaire et suffisante, déterminante
? Complémentairement, les techniques d'analyse de corpus dessinent
également des contextualisations glissantes, mouvantes : qu'est-ce
qu'un passage, et faut-il le coder ? L'observation des affinités et
des attirances lexicales par des calculs de cooccurrences suppose la
délimitation de contextes : l'environnement d'un mot, sa spère
d'influence, son rayonnement, se laissent-t-ils délimiter ?
uniformément ? de façon unique ? Pour autant, comment garder sa
consistance pratique et significative à la notion de contexte ?

Il est suggestif d'articuler deux à deux les trois pôles du thème,
pour retrouver des terrains de recherche actifs, correspondant à des
perspectives d'analyse complémentaires :

- codage + interprétation : codage et interprétation sont-ils alliés
ou ennemis ? subjectivité/objectivité, respect du texte, sur-codage,
pratique de tâcheron ou travail scientifique déterminant... Si, en
théorie, le codage ne saurait précéder l'interprétation, comment en
rendre compte en pratique ? Par exemple, en cas de d'hésitation ou de
désaccord au moment du codage, la multi-annotation apporte-t-elle une
solution en reportant l'arrêt d'une interprétation, voire en
permettant d'évaluer statistiquement, par le calcul, chaque
possibilité interprétative ? Réciproquement, à quelles conditions, et
dans quelle mesure, le codage peut-il concourir à la transmission
d'une interprétation ?

- interprétation + contextes : effets interprétatifs (parfois
sous-estimés ou ignorés) liés à la réunion des textes et à la
délimitation de collections, à la structuration du corpus et à la
génération possible d'éditions (ou "vues") partielles ou diversement
présentées et organisées ; méthodes d'analyse et de parcours des
corpus (textes et intertexte), sémantique interprétative fondée sur la
contextualisation d'unités linguistiques et textuelles de tous
ordres...

- codage + contextes : pourquoi et comment pratiquer la linguistique
de corpus, par opposition à une linguistique sur exemples ponctuels ?
La constitution, le codage (y compris minimal) et l'exploitation d'un
corpus imposent des choix concrets de structuration des données
textuelles. Quelles informations de contextualisation exprimer ?
Ont-elles une forte incidence sur la qualité de la recherche ? A
contrario, l'importance des contextes dans les modélisations usuelles
pour les textes et les traitements est peut-être encore souvent
incomplètement perçue.

Dans l'esprit de la revue CORPUS, ce thème invite à une réflexion
clairement pratique et théorique. L'étude des mécanismes
interprétatifs, de l'existence et de la nature des contextes, de la
modélisation des textes, se nourrissent maintenant des pratiques et
des observations rendues possibles par la numérisation et l'édition
électronique.  Réciproquement, la fréquentation des corpus et les
savoir-faire développés dans des expériences bien concrètes appellent
une prise de recul, une relecture synthétique, pour en mieux saisir la
valeur.

Notes :

(1) Présentation de la Text Encoding Initiative :
http://www.tei-c.org/

(2) Voir par exemple : Rastier, François, 1996, "Pour une sémantique
des textes -questions d'épistémologie", Textes & Sens, Rastier
F. (dir.), Didier érudition, pp. 9-35. En ligne sur la revue Texto! :
http://www.revue-texto.net/Inedits/Rastier/Rastier_PourSdT.html

(3) Voir par exemple la première livraison de CORPUS :
http://revel.unice.fr/corpus/sommaire.html?id=49


3. Modalités pratiques

Soumission :

Envoyer un projet d'article d'une à deux pages (comprenant titre,
résumé du ou des arguments principaux soutenus, proposition de plan,
quelques références bibliographiques) à :

Bénédicte Pincemin
a_remplacer at ens-lsh.fr (et remplacer a_remplacer par prenom.nom tel que
ci-après : benedicte.pincemin)
Sujet du mail : Corpus 6 - soumission
Format : pdf de préférence (txt, rtf, doc, sxw, ps acceptés).

Ce projet recevra un avis indicatif, permettant d'ajuster
éventuellement le travail de rédaction de l'article. Une première
version de l'article complet sera alors à préparer pour le 19 mars
2007. C'est la relecture des textes développés qui confirmera ou non
l'acceptation pour publication.

Calendrier :

- proposition d'article : avant le 15 novembre 2006
- réponse indicative du comité : 11 décembre 2006
- version provisoire : 30 mars 2007
- retours du comité avec avis (acceptation/rejet) : 15 mai 2007
- version définitive : 1er juillet 2007
- publication papier : octobre 2007
- publication électronique : juin 2008
________________________________________________________________________


-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list