13.308, Calls: Corpora of spoken French

Tue Feb 5 15:58:19 UTC 2002

LINGUIST List:  Vol-13-308. Tue Feb 5 2002. ISSN: 1068-4875.

Subject: 13.308, Calls: Corpora of spoken French

Moderators: Anthony Aristar, Wayne State U.<aristar at linguistlist.org>
            Helen Dry, Eastern Michigan U. <hdry at linguistlist.org>
            Andrew Carnie, U. of Arizona <carnie at linguistlist.org>

Reviews (reviews at linguistlist.org):
	Simin Karimi, U. of Arizona
	Terence Langendoen, U. of Arizona

Editors (linguist at linguistlist.org):
	Karen Milligan, WSU 		Naomi Ogasawara, EMU
	James Yuells, EMU		Marie Klopfenstein, WSU
	Michael Appleby, EMU		Heather Taylor-Loring, EMU
	Ljuba Veselinova, Stockholm U.	Richard John Harvey, EMU
	Dina Kapetangianni, EMU		Renee Galvis, WSU
	Karolina Owczarzak, EMU

Software: John Remmers, E. Michigan U. <remmers at emunix.emich.edu>
          Gayathri Sriram, E. Michigan U. <gayatri at linguistlist.org>

Home Page:  http://linguistlist.org/

The LINGUIST List is funded by Eastern Michigan University, Wayne
State University, and donations from subscribers and publishers.

Editor for this issue: Dina Kapetangianni <dina at linguistlist.org>
 ==========================================================================

As a matter of policy, LINGUIST discourages the use of abbreviations
or acronyms in conference announcements unless they are explained in
the text.

=================================Directory=================================

1)
Date:  Mon, 04 Feb 2002 22:01:53 +0100
From:  Jean Veronis <Jean.Veronis at newsup.univ-mrs.fr>
Subject:  Call: Corpora of spoken French

-------------------------------- Message 1 -------------------------------

Date:  Mon, 04 Feb 2002 22:01:53 +0100
From:  Jean Veronis <Jean.Veronis at newsup.univ-mrs.fr>
Subject:  Call: Corpora of spoken French

CALL FOR PAPERS

Appel à communications
Journée d'étude de l'ATALA

"Constitution et exploitation de corpus du français parlé"

Claire Blanche-Benveniste & Jean Véronis

25 mai 2002, Paris

Thème
- ---

Alors qu'on dispose de plusieurs centaines de millions de mots de textes
écrits (et que le gigantesque réservoir qu'est le World Wide Web repousse
chaque jour cette limite), on dispose de très peu de données sur l'oral.
Les corpus de langue orale transcrite sont pourtant d'une importance
fondamentale pour l'étude linguistique, comme pour la mise au point de
nouvelles technologies vocales.

Pour l'anglais, plusieurs dizaines de millions de mots transcrits sont
disponibles (British National Corpus, Santa Barbara Corpus of American
English, Corpus CANCODE, etc.) et plusieurs grands projets de corpus oraux
viennent de voir le jour pour d'autres langues (Corpus Gesproken
Nederlands, Corpus of Spoken Israeli Hebrew, Corpus du Portugais Parlé,
etc.), qui visent une taille de l'ordre de la dizaine de millions de mots.
Il n'existe pas pour l'instant de grand projet national pour le français,
mais uniquement des entreprises par des équipes individuelles, et il est
difficile d'évaluer la quantité totale des données informatisées, mais elle
ne dépasse certainement que de peu le million de mots.

Le développement de corpus oraux transcrits est extrêmement coûteux, et
demande une méthodologie stricte, appuyée sur des outils informatiques
adéquats. Le but de cette journée est de réunir linguistes et
informaticiens pour faire le point sur la situation concernant le français,
et peut-être de tracer quelques pistes pour des recherches et
collaborations futures. Les thèmes abordés seront (liste non exhaustive) :

- problèmes de constitution des corpus oraux : choix des locuteurs et des
situations, échantillonnage éventuel, conventions de transcription,
problèmes juridiques et éthiques, etc. ;

- techniques et outils informatiques : étiquetage grammatical, marquage
prosodique, alignement avec le son, outils de concordance et de recherche,
etc. ;

- analyse linguistique : quels types d'analyse sont possibles sur les
corpus oraux transcrits ? quelles sont les difficultés et les limites ?
quelles sont les conséquences pour l'étude grammaticale de la prise en
considération des corpus oraux ? etc.

- domaines d'application : quelle est la demande sociale pour les corpus
oraux (étude de différentes "variations", comme les enfants, les
"pathologiques" et non pathologiques, les régions, le français de France et
de l'extérieur) ? quelle est la demande technologique (reconnaissance
vocale) ? quelle est la demande pour l'enseignement du français (langue
première et seconde) ?

Les communications pourront également relater des expériences particulières
de constitution et d'exploitation de corpus oraux.

Conférencier invité
- -----------------

Michael McCarthy, Université de Nottingham

"Spoken corpus design : speakers, contexts and language use"

Michael McCarthy est professeur de linguistique appliquée à l'Université de
Nottingham et spécialiste des corpus d'anglais parlé. Il est l'un des
créateurs du corpus CANCODE (Cambridge and Nottingham Corpus of Discourse
in English), produit d'une collaboration entre l'Université de Notthingham
et Cambridge University Press et comportant plusieurs millions de mots
d'anglais parlé. Michael McCarthy a publié de nombreux ouvrages tels que
"Discourse Analysis for Language Teachers" (Cambridge University Press,
1991), "Language as Discourse" (avec R. A Carter, Longman, 1994),
"Exploring Spoken English" (avec R. A Carter, Cambridge University Press,
1997), "Spoken Language and Applied Linguistics" (Cambridge University
Press, 1998), "Exploring Grammar in Context" (avec R. Hughes et R. A
Carter, Cambridge University Press, Cambridge, 2000) and "Issues in Applied
Linguistics" (Cambridge University Press, Cambridge, 2000).

Soumission (modalités)
- -------------------

Un résumé de deux à quatre pages doit être envoyé avant le 31 mars 2002 par
courrier électronique, en format RTF ou TXT uniquement à

        Jean Véronis <Jean.Veronis at up.univ-mrs.fr>

Les notifications d'acceptation seront envoyées le 30 avril 2002.

Pour plus d'informations sur l'ATALA et sur l'organisation des journées
d'études, consultez le site de l'ATALA à l'adresse http://www.atala.org

---------------------------------------------------------------------------
LINGUIST List: Vol-13-308