Corpora: Workshop: French spoken corpora

Fri Mar 8 09:24:08 UTC 2002

Dear all,

This comes a bit late, but at first, I didn not plan to send it to CORPORA 
because it is in French, and about French. However, somebody pointed out 
that it could be of interest to members of the list anyway, so here it 
is... Apologies if you don't read that language at all.

By the way, abstracts can be sent in English.
Best,

Jean Véronis
http://www.up.univ-mrs.fr/veronis/

------------------------------------------------------------------
Appel à communications
Journée d'étude de l'ATALA

"Constitution et exploitation de corpus du français parlé"

Claire Blanche-Benveniste & Jean Véronis

25 mai 2002, Paris

Thème
-----

Alors qu'on dispose de plusieurs centaines de millions de mots de textes 
écrits (et que le gigantesque réservoir qu'est le World Wide Web repousse 
chaque jour cette limite), on dispose de très peu de données sur l'oral. 
Les corpus de langue orale transcrite sont pourtant d'une importance 
fondamentale pour l'étude linguistique, comme pour la mise au point de 
nouvelles technologies vocales.

Pour l'anglais, plusieurs dizaines de millions de mots transcrits sont 
disponibles (British National Corpus, Santa Barbara Corpus of American 
English, Corpus CANCODE, etc.) et plusieurs grands projets de corpus oraux 
viennent de voir le jour pour d'autres langues (Corpus Gesproken 
Nederlands, Corpus of Spoken Israeli Hebrew, Corpus du Portugais Parlé, 
etc.), qui visent une taille de l'ordre de la dizaine de millions de mots. 
Il n'existe pas pour l'instant de grand projet national pour le français, 
mais uniquement des entreprises isolées, et il est difficile d'évaluer la 
quantité totale des données informatisées, mais elle ne dépasse 
certainement que de peu le million de mots.

Le développement de corpus oraux transcrits est extrêmement coûteux, et 
demande une méthodologie stricte, appuyée sur des outils informatiques 
adéquats. Le but de cette journée est de réunir linguistes et 
informaticiens pour faire le point sur la situation concernant le français, 
et peut-être de tracer quelques pistes pour des recherches et 
collaborations futures. Le but de la journée est à la fois de dresser un 
état de l'art et de présenter des recherches en cours ; les thèmes abordés 
seront (liste non exhaustive) :

- problèmes de constitution des corpus oraux : choix des locuteurs et des 
situations, échantillonnage éventuel, conventions de transcription, 
problèmes juridiques et éthiques, etc. ;

- techniques et outils informatiques : étiquetage grammatical, marquage 
prosodique, alignement avec le son, outils de concordance et de recherche, 
etc. ;

- analyse linguistique : quels types d'analyse sont possibles sur les 
corpus oraux transcrits ? quelles sont les difficultés et les limites ? 
quelles sont les conséquences pour l'étude grammaticale de la prise en 
considération des corpus oraux ? etc.

- domaines d'application : quelle est la demande sociale pour les corpus 
oraux (étude de différentes "variations", comme les enfants, les 
"pathologiques" et non pathologiques, les régions, le français de France et 
de l'extérieur) ? quelle est la demande technologique (reconnaissance 
vocale) ? quelle est la demande pour l'enseignement du français (langue 
première et seconde) ?

Les communications pourront également relater des expériences particulières 
de constitution et d'exploitation de corpus oraux.

Conférencier invité
-------------------

Michael McCarthy, Université de Nottingham

"Spoken corpus design : speakers, contexts and language use"

Michael McCarthy est professeur de linguistique appliquée à l'Université de 
Nottingham et spécialiste des corpus d'anglais parlé. Il est l'un des 
créateurs du corpus CANCODE (Cambridge and Nottingham Corpus of Discourse 
in English), produit d'une collaboration entre l'Université de Notthingham 
et Cambridge University Press et comportant plusieurs millions de mots 
d'anglais parlé. Michael McCarthy a publié de nombreux ouvrages tels que 
"Discourse Analysis for Language Teachers" (Cambridge University Press, 
1991), "Language as Discourse" (avec R. A Carter, Longman, 1994), 
"Exploring Spoken English" (avec R. A Carter, Cambridge University Press, 
1997), "Spoken Language and Applied Linguistics" (Cambridge University 
Press, 1998), "Exploring Grammar in Context" (avec R. Hughes et R. A 
Carter, Cambridge University Press, Cambridge, 2000) and "Issues in Applied 
Linguistics" (Cambridge University Press, Cambridge, 2000).

Soumission (modalités)
---------------------

Un résumé de deux à quatre pages doit être envoyé avant le 31 mars 2002 par 
courrier électronique, en format RTF ou TXT uniquement à

        Jean Véronis <Jean.Veronis at up.univ-mrs.fr>

Les notifications d'acceptation seront envoyées le 30 avril 2002.

Pour plus d'informations sur l'ATALA et sur l'organisation des journées 
d'études, consultez le site de l'ATALA à l'adresse http://www.atala.org