Journee: Journee d'etudes sur l'interpretation des donnees textuelles, 4 juin 2013, Caen

Wed May 15 08:44:34 UTC 2013

Date: Mon, 13 May 2013 09:10:12 +0200
From: Thierry Charnois <thierry.charnois at unicaen.fr>
Message-ID: <519091D4.8060003 at unicaen.fr>

Nous avons le plaisir de vous convier à cette journée d'étude sur
l'interprétation des données textuelles :*

Que faire des corpus (une fois) numérisés ? L'exemple du discours
littéraire*

Université de Caen, 4 juin 2013
Maison de la Recherche et des Sciences de l'Homme (MRSH), Salle des
Actes SH 027 (participation gratuite sans inscription)

Organisation : Pôle du document numérique de la MRSH de l'Université de
Caen Basse-Normandie

Journée soutenue par le PRES Normandie-Université

Thierry Charnois, Greyc, Université de Caen

Dominique Legallois, Crisco, Université de Caen

     La numérisation de corpus littéraires, suivie parfois d'édition en
ligne, ne s'inscrit pas uniquement dans une démarche de sauvegarde ou de
valorisation du patrimoine : elle constitue avant tout une étape vers
une herméneutique sachant mettre à profit les données issues d'analyses
diverses : concordances, co-occurrences, vocabulaire spécifique,
segments répétés, progression du vocabulaire, champs thématiques et
lexicaux, etc. Ces données peuvent être déterminées à partir de simples
fréquences, ou par des méthodes statistiques éprouvées par la
textométrie ; elles peuvent être mises en évidence par des logiciels
relativement peu élaborés (simples concordanciers), ou bien par des
outils plus complexes (plateformes textométriques).

     C'est dans l'objectif de mieux faire connaître à des non
spécialistes, des analyses possibles -- voire des modèles d'analyse -
que le pôle pluridisciplinaire « Document Numérique » de la MRSH de
l'Université de Caen organise une journée d'étude sur l'interprétation
des données textuelles littéraires ; il s'agira donc de présenter
différents travaux proposant des méthodes d'investigation, mais aussi
des méthodes interprétatives qui mettent en évidence tel phénomène, ou
qui contribuent à valider ou invalider des hypothèses de recherche. Ces
études auront le souci principal d'illustrer l'exploitation de données
quantitatives et qualitatives à des fins d'interprétation, ou d'analyse
stylistique, et de permettre aux non-spécialistes de s'approprier des
méthodes pertinentes ou de mieux les comprendre.

     Le discours littéraire est donné comme objet d'étude, mais les
méthodes et exemples seront en partie transposables à d'autres genres et
à d'autres disciplines des sciences humaines (histoire, sociologie,
philosophie, par exemple).

9h15 -- Accueil

9h30 -- Introduction à la journée (Pascal Buléon, Dominique Legallois,
Thierry Charnois)9h45 - Thierry Charnois, Greyc, Eliane Delente, Crisco,
Dominique Legallois, Crisco Université de Caen : /Segments répétés et
motifs, comme pratiques d'investigation et d'analyse des textes
littéraires : l'exemple des Rougon-Macquart/

10h30 - Dominique Longrée, LASLA, ULg (Université de Liége) : /L'analyse 
des données textuelles : au-delà du "sac de mots" (approches 
topologiques et réticulaires)/

11h45- Michel Bernard, Université Sorbonne-Nouvelle (Paris 3) : 
T/raitement lexicométrique d'un dossier génétique/: Bouvard et Pécuchet

12h30 -- repas

14h15 - Véronique Magri, Université de Nice UMR 7320 : Bases, Corpus, 
Langage

/Contraster deux corpus narratifs : distinctions formelles et génériques
entre récits fictionnels et récits factuels (récits de voyage)/

15h - Bénédicte Pincemin, Université de Lyon 2, Icar : /Fonctionnalités
textométriques pour l'analyse littéraire : possibilités offertes par le
logiciel libre TXM/

15h45 - Démonstrations d'outils et discussion générale.

*_Résumés des interventions_ :*

Thierry Charnois, GREYC, Université de Caen, Eliane Delente, CRISCO,
Université de Caen, Dominique Legallois, CRISCO,Université de Caen

*Segments répétés et motifs, comme pratiques d'investigation et
d'analyse des textes littéraires : l'exemple des Rougon-Macquart*

Nous proposons d'abord une illustration de l'analyse des textes
littéraires par le biais de l'identification des segments répétés ; les
segments répétés (Salem 1987) sont des suites récurrentes de mots,
devenues facilement détectables par des outils simples (par exemple, le
concordancier Antconc). Appliquée à la saga des Rougon-Macquart,
l'analyse par les segments répétés révèle un phénomène spectaculaire,
parfois aperçu par la critique, mais dont l'ampleur n'a jamais été
mesurée ni appréciée : Zola use d'une stratégie d'écriture fondée sur la
répétition de segments (allant du syntagme à la phrase, mais aussi au
paragraphe), les segments pouvant être séparés par plusieurs centaines
de pages. On note aussi quelques cas d'intertextualité où des segments
d'une oeuvre des Rougon sont repris dans une autre oeuvre. On proposera
une caractérisation générale de ces reprises.

Par ailleurs, la fouille de données, qui est une discipline
informatique, utilise des méthodes et outils pour identifier des
régularités dans les bases de données de grande taille. Ces régularités
prennent la forme de /motifs/. On peut voir ces motifs comme une
extension des segments répétés (cf. aussi la communication de D.
Longrée), la différence principale étant que, contrairement aux segments
répétés, les éléments constitutifs des motifs, ne sont pas
nécessairement contigus, et peuvent porter aussi bien simultanément sur
des formes, des lemmes ou des catégories grammaticales. L'utilisation de
contraintes ou d'annotations dans les textes donne la possibilité
d'orienter la fouille, et de faire émerger divers types de motifs
linguistiques. On présentera brièvement ce paradigme de la fouille de
données séquentielles pour l'analyse des textes, et on l'illustrera par
une application aux Rougon-Macquart. Ainsi, des caractéristiques
auctoriales ou génériques peuvent-elles émerger à partir des
spécificités des motifs.

Dominique Longrée, LASLA, ULg (Université de Liége)

*L'analyse des données textuelles : au-delà du "sac de mots" (approches
topologiques et réticulaires) *

Depuis les années 1950, les méthodes d'analyse statistique des données
textuelles ont permis de mieux décrire et caractériser la langue et le
style de documents très variés (oeuvres littéraires, discours
politiques, articles de journaux, enquêtes orales, etc.). Celles les
plus couramment utilisées aujourd'hui reposent essentiellement sur des
dénombrements d'occurrences de formes, de lemmes, de catégories
grammaticales au sein des divers textes. Ces dénombrements permettent
d'obtenir des tableaux chiffrés (tableaux de contingence) auxquels on
fait subir un certain nombre de tests éprouvés (test de Pearson ou du
Chi2, écart réduit, analyse factorielle des correspondances, analyse
arborée...). Ces méthodes ont donné d'excellents résultats et permettent
généralement de mieux évaluer les distances entre textes selon le genre,
l'époque, l'auteur... Elles se sont toutefois assez rapidement heurtées
au fait qu'un texte n'est pas un sac dans lequel seraient rassemblées en
vrac ses unités constitutives (par exemple, ce n'est pas parce que deux
textes contiennent la même proportion d'occurrences d'imparfait par
rapport aux autres temps verbaux que l'imparfait y est utilisé de la
même manière). Les approches topologiques et réticulaires permettent
heureusement de mieux prendre en compte le texte comme un espace
ordonné. Ainsi, la notion de « motif », introduite récemment, fournit un
outil permettant d'étudier des objets complexes formés par des
associations récurrentes et ordonnées d'éléments du texte muni de sa
structure linéaire. L'examen des cooccurrences, notamment des
cooccurrences généralisées, met en évidence l'existence de réseaux
structurant les textes. A partir de quelques exemples concrets, on
illustrera comment ces nouveaux outils peuvent servir à mieux
caractériser des genres, des modes d'expression ou des styles.

Michel Bernard, Université Sorbonne-Nouvelle (Paris 3)

*Traitement lexicométrique d'un dossier génétique : Bouvard et Pécuchet*

Grâce à la numérisation des manuscrits de /Bouvard et Pécuchet/ mise en
ligne par le CÉRÉdI de l'université de Rouen, il est possible de
pratiquer sur cet épais dossier génétique des études de statistique
lexicale. Travailler sur un texte manuscrit, corrigé, raturé, inséré
impose évidemment des précautions méthodologiques mais permet de
travailler sur des catégories nouvelles en lexicométrie. Il est ainsi
possible de répondre à des questions qui portent sur la /manière /de
l'écrivain : quels sont les mots qu'il rature le plus souvent ? Ceux
qu'il insère, qu'il élague entre le manuscrit et sa mise au propre ? Les
premiers résultats de ce travail ont déjà été présentés aux flaubertiens
; il s'agira ici d'insister plutôt sur la méthodologie du traitement
lexicométrique d'un corpus génétique, et de réfléchir à la possibilité
de l'appliquer à d'autres dossiers

Véronique Magri, Université de Nice, UMR 7320 : Bases, Corpus, Langage

*Contraster deux corpus narratifs : distinctions formelles et génériques
entre récits fictionnels et récits factuels (récits de voyage)*

Le travail présente une analyse différentielle et contrastive de deux
corpus narratifs du XIXe siècle. L'un à vocation fictionnelle, l'autre à
visée factuelle, le récit de voyage. L'enjeu est de parvenir à établir
des distinctions formelles génériques, par le biais du logiciel
d'analyse hypertextuelle, Hyperbase. Le corpus d'étude regroupe douze
binômes d'oeuvres d'écrivains, un récit de fiction d'une part, un récit
de voyage d'autre part. L'outil statistique aidera à dégager en
particulier une poétique du récit de voyage, entendue comme l'étude de
l'échange permanent entre les structures formelles de la langue et
l'interprétation à leur donner.

Bénédicte Pincemin, Université de Lyon 2, ICAR

*Fonctionnalités textométriques pour l'analyse littéraire : possibilités
offertes par le logiciel libre TXM*

En restant toujours au plus proche du texte tout en ouvrant de nouveaux
types de lecture et de nouvelles pistes interprétatives, la textométrie
intéresse les chercheurs en sciences humaines pour étudier
méthodiquement leurs corpus numériques. D'autre part, TXM est un
logiciel récent (adapté à l'état de l'art des corpus, potentiellement
structurés et enrichis) et accessible (logiciel libre, multiplateformes
-windows, mac, linux-, avec une interface conviviale). Cette
présentation mettra en relation des fonctionnalités du logiciel et leur
usage possible en contexte littéraire. L'accent pourra être mis sur des
apports originaux de TXM : structuration et restructuration des corpus,
travail simultanément sur de multiples niveaux de description, souplesse
des concordances, caractérisation distributionnelle d'un mot ou d'une
construction, repérage et quantification de traits stylistiques.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------