29.4630, Software: Un corpus pour l'étude du français contemporain
The LINGUIST List
linguist at listserv.linguistlist.org
Tue Nov 20 23:57:39 UTC 2018
LINGUIST List: Vol-29-4630. Tue Nov 20 2018. ISSN: 1069 - 4875.
Subject: 29.4630, Software: Un corpus pour l'étude du français contemporain
Moderator: linguist at linguistlist.org (Malgorzata E. Cavar)
Reviews: reviews at linguistlist.org (Helen Aristar-Dry, Robert Coté)
Homepage: https://linguistlist.org
Please support the LL editors and operation with a donation at:
https://funddrive.linguistlist.org/donate/
Editor for this issue: Everett Green <everett at linguistlist.org>
================================================================
Date: Tue, 20 Nov 2018 18:57:14
From: Jeanne-Marie Debaisieux [jeanne-marie.debaisieux at Sorbonne-Nouvelle.fr]
Subject: Un corpus pour l'étude du français contemporain
Chères et chers collègues,
J’ai le plaisir de vous annoncer que la plate-forme Outils et Ressources pour
le Français Ecrit et Oral (Orfeo) est en libre accès à l’adresse suivante :
https://www.ortolang.fr/market/corpora/cefc-orfeo
La plate-forme permet d’interroger le Corpus d’Etude pour le Français
Contemporain (CEFC) qui comprend 10 M. de mots :
- 4 M. de mots de français parlé correspondant à environ 350 heures
d’enregistrements (2500 locutrices et locuteurs) provenant de France, de
Suisse et de Belgique et illustrant différentes situations de parole :
conversations, entretiens, réunions, cours, discours
- 6 M. de mots provenant de textes écrits de genres différents : littérature,
textes scientifiques, presse nationale et régionale, écrits académiques,
écrits non-standard.
Le corpus est interrogeable à partir des métadonnées ; noms des corpus, type
de textes ou d’interactions, nombre de locuteurs ect… L’ensemble du corpus a
été lemmatisé et annoté semi-automatiquement en catégories (POS) et en
dépendances syntaxiques.
Deux outils de recherche permettent d’interroger le corpus. Les requêtes
donnent accès au texte et à la transcription alignée avec le son ainsi qu’aux
arbres de dépendances. Des guides sont disponibles pour toutes les
annotations. Tous les fichiers : texte, transcription, son et annotations sont
téléchargeable librement.
Linguistic Field(s): Text/Corpus Linguistics
Subject Language(s): French (fra)
------------------------------------------------------------------------------
***************** LINGUIST List Support *****************
Please support the LL editors and operation with a donation at:
The IU Foundation Crowd Funding site:
https://iufoundation.fundly.com/the-linguist-list
The LINGUIST List FundDrive Page:
https://funddrive.linguistlist.org/donate/
----------------------------------------------------------
LINGUIST List: Vol-29-4630
----------------------------------------------------------
More information about the LINGUIST
mailing list