Appel: journee d'etude ATALA "Constitution et exploitation de corpus du français parlé"

Fri Feb 1 16:07:47 UTC 2002

Appel à communications
Journée d'étude de l'ATALA

"Constitution et exploitation de corpus du français parlé"

Claire Blanche-Benveniste & Jean Véronis

25 mai 2002, Paris

Thème
-----

Alors qu'on dispose de plusieurs centaines de millions de mots de textes
écrits (et que le gigantesque réservoir qu'est le World Wide Web repousse
chaque jour cette limite), on dispose de très peu de données sur l'oral.
Les corpus de langue orale transcrite sont pourtant d'une importance
fondamentale pour l'étude linguistique, comme pour la mise au point de
nouvelles technologies vocales.

Pour l'anglais, plusieurs dizaines de millions de mots transcrits sont
disponibles (British National Corpus, Santa Barbara Corpus of American
English, Corpus CANCODE, etc.) et plusieurs grands projets de corpus oraux
viennent de voir le jour pour d'autres langues (Corpus Gesproken
Nederlands, Corpus of Spoken Israeli Hebrew, Corpus du Portugais Parlé,
etc.), qui visent une taille de l'ordre de la dizaine de millions de mots.
Il n'existe pas pour l'instant de grand projet national pour le français,
mais uniquement des entreprises isolées, et il est difficile d'évaluer la
quantité totale des données informatisées, mais elle ne dépasse
certainement que de peu le million de mots.

Le développement de corpus oraux transcrits est extrêmement coûteux, et
demande une méthodologie stricte, appuyée sur des outils informatiques
adéquats. Le but de cette journée est de réunir linguistes et
informaticiens pour faire le point sur la situation concernant le français,
et peut-être de tracer quelques pistes pour des recherches et
collaborations futures. Le but de la journée est à la fois de dresser un
état de l'art et de présenter des recherches en cours ; les thèmes abordés
seront (liste non exhaustive) :

- problèmes de constitution des corpus oraux : choix des locuteurs et des
situations, échantillonnage éventuel, conventions de transcription,
problèmes juridiques et éthiques, etc. ;

- techniques et outils informatiques : étiquetage grammatical, marquage
prosodique, alignement avec le son, outils de concordance et de recherche,
etc. ;

- analyse linguistique : quels types d'analyse sont possibles sur les
corpus oraux transcrits ? quelles sont les difficultés et les limites ?
quelles sont les conséquences pour l'étude grammaticale de la prise en
considération des corpus oraux ? etc.

- domaines d'application : quelle est la demande sociale pour les corpus
oraux (étude de différentes "variations", comme les enfants, les
"pathologiques" et non pathologiques, les régions, le français de France et
de l'extérieur) ? quelle est la demande technologique (reconnaissance
vocale) ? quelle est la demande pour l'enseignement du français (langue
première et seconde) ?

Les communications pourront également relater des expériences particulières
de constitution et d'exploitation de corpus oraux.

Conférencier invité
-------------------

Michael McCarthy, Université de Nottingham

"Spoken corpus design : speakers, contexts and language use"

Michael McCarthy est professeur de linguistique appliquée à l'Université de
Nottingham et spécialiste des corpus d'anglais parlé. Il est l'un des
créateurs du corpus CANCODE (Cambridge and Nottingham Corpus of Discourse
in English), produit d'une collaboration entre l'Université de Notthingham
et Cambridge University Press et comportant plusieurs millions de mots
d'anglais parlé. Michael McCarthy a publié de nombreux ouvrages tels que
"Discourse Analysis for Language Teachers" (Cambridge University Press,
1991), "Language as Discourse" (avec R. A Carter, Longman, 1994),
"Exploring Spoken English" (avec R. A Carter, Cambridge University Press,
1997), "Spoken Language and Applied Linguistics" (Cambridge University
Press, 1998), "Exploring Grammar in Context" (avec R. Hughes et R. A
Carter, Cambridge University Press, Cambridge, 2000) and "Issues in Applied
Linguistics" (Cambridge University Press, Cambridge, 2000).

Soumission (modalités)
---------------------

Un résumé de deux à quatre pages doit être envoyé avant le 31 mars 2002 par
courrier électronique, en format RTF ou TXT uniquement à

        Jean Véronis <Jean.Veronis at up.univ-mrs.fr>

Les notifications d'acceptation seront envoyées le 30 avril 2002.

Pour plus d'informations sur l'ATALA et sur l'organisation des journées
d'études, consultez le site de l'ATALA à l'adresse http//www.atala.org
-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------