[Corpora-List] RE: Corpora of Written French

Jean Veronis Jean.Veronis at up.univ-mrs.fr
Thu Nov 7 09:02:25 UTC 2002


The random sets of French sentences requested by Zoe Handley for testing 
speech synthesis are available for download from my web page:

http://www.up.univ-mrs.fr/veronis/

(follow "Ressources utiles" -> "Jeux de phases aléatoires")

They may be useful to others.

--jv

----------------------------------------------------------------------------

Jeux de phrases aléatoires
==========================

Cette archive contient deux jeux de test comporant chacun 125 phrases tirées
aléatoirement dans un corpus de 5 millions de mots. Chaque jeu est constitué
de 5 ensembles de 25 phrases choisies dans des genres textuels différents. Il
a été créé en vue de servir de banc de test pour des systèmes de synthèse de
la parole.

1. Corpus
---------
Le corpus Syntsem comporte 5 millions de mots, divisés en 5 tranches de
1 million de mots chacune :
* ABU : littérature fin XIXè-début XXè (provenant du site de l'Association
des Bibliophiles Universels : http://cedric.abu.cnam.fr/).
* JOC : Journal Officiel de la Commission Européenne (1993, Serie C, Questions
et reponses des parlementaires européens à la Commission).
* MON : extraits du journal "Le Monde" (articles tirés au hasard dans le
années 1987, 1989, 1991, 1993 et 1995).
* OUV : 10 ouvrages en sciences humaines, provenant des éditions du CNRS.
* PER : Périodiques : des articles longs (10 000 à 20 000 mots) en 
communication
politique (revue Hermès), des communiqués courts (1 000 à 2 000 mots) de
vulgarisation des résultats de la recherche (revue CNRS Info).

Le corpus a été réalisé en 1999-2000 sous par Benoît Habert et Jean Véronis,
dans le cadre d'un contrat avec ELRA/ELDA, à partir de sources provenant
notamment des projets Parole et Multext.

2. Sélection
-------------
Les phrases aléatoires ont été extraites par Jean Véronis en novembre 2002. 
Deux
sous-ensembles ont été produits (Phrases1 et Phrases2), chacun composés de 5
séries de 25 phrases extraites de chacun des sous-corpus ABU, JOC, MON, OUV,
PER, soit au total 250 phrases. Seules les phrases comportant au moins 40
caractères et au plus 255 ont été retenues.

3. Distribution
---------------
Ces données peuvent être utilisées librement, ainsi que redistribuées.
Dans ce dernier cas, la présente notice doit impérativement être jointe
à la redistribution.

Merci de citer l'utilisation de ces données dans vos publications!

4. Contact
----------
Jean Véronis, Professeur de Linguistique et Informatique
Université de Provence
29 av. Robert Schuman
13621 Aix-en-Provence Cedex 1, France

Jean.Veronis at up.univ-mrs.fr
http://www.up.univ-mrs.fr/veronis



More information about the Corpora mailing list