29.4630, Software: Un corpus pour l'étude du français contemporain

The LINGUIST List linguist at listserv.linguistlist.org
Tue Nov 20 23:57:39 UTC 2018


LINGUIST List: Vol-29-4630. Tue Nov 20 2018. ISSN: 1069 - 4875.

Subject: 29.4630, Software: Un corpus pour l'étude du français contemporain

Moderator: linguist at linguistlist.org (Malgorzata E. Cavar)
Reviews: reviews at linguistlist.org (Helen Aristar-Dry, Robert Coté)
Homepage: https://linguistlist.org

Please support the LL editors and operation with a donation at:
           https://funddrive.linguistlist.org/donate/

Editor for this issue: Everett Green <everett at linguistlist.org>
================================================================


Date: Tue, 20 Nov 2018 18:57:14
From: Jeanne-Marie Debaisieux [jeanne-marie.debaisieux at Sorbonne-Nouvelle.fr]
Subject: Un corpus pour l'étude du français contemporain

 
Chères et chers collègues,

J’ai le plaisir de vous annoncer que la plate-forme Outils et Ressources pour
le Français Ecrit et Oral (Orfeo) est en libre accès à l’adresse suivante :

https://www.ortolang.fr/market/corpora/cefc-orfeo

La plate-forme permet d’interroger le Corpus d’Etude pour le Français
Contemporain (CEFC) qui comprend 10 M. de mots :
- 4 M. de mots de français parlé correspondant à environ 350 heures
d’enregistrements (2500 locutrices et locuteurs)  provenant de France, de
Suisse et de Belgique et illustrant différentes situations de parole  :
conversations, entretiens, réunions, cours, discours 
- 6 M. de mots provenant de textes écrits de genres différents : littérature,
textes scientifiques, presse nationale et régionale, écrits académiques,
écrits non-standard.

Le corpus est interrogeable à partir des métadonnées ; noms des corpus, type
de textes ou d’interactions, nombre de locuteurs ect… L’ensemble du corpus a
été lemmatisé et annoté semi-automatiquement en catégories (POS) et en
dépendances syntaxiques. 

Deux outils de recherche permettent d’interroger le corpus. Les requêtes
donnent accès au texte et à la transcription alignée avec le son ainsi qu’aux
arbres de dépendances. Des guides sont disponibles pour toutes les
annotations. Tous les fichiers : texte, transcription, son et annotations sont
téléchargeable librement.


Linguistic Field(s): Text/Corpus Linguistics

Subject Language(s): French (fra)



------------------------------------------------------------------------------

*****************    LINGUIST List Support    *****************
Please support the LL editors and operation with a donation at:

              The IU Foundation Crowd Funding site:
       https://iufoundation.fundly.com/the-linguist-list

               The LINGUIST List FundDrive Page:
            https://funddrive.linguistlist.org/donate/
 


----------------------------------------------------------
LINGUIST List: Vol-29-4630	
----------------------------------------------------------






More information about the LINGUIST mailing list