Corpora: Workshop on French spoken corpora
Jean Veronis
Jean.Veronis at newsup.univ-mrs.fr
Tue Apr 23 09:38:26 UTC 2002
ATALA
http://www.atala.org/
Journée d'Etude
Constitution et exploitation de corpus du français parlé
organisée par
Claire Blanche-Benveniste & Jean Véronis
25 mai 2002
CHU Pitié-Salpétrière
91 bd de l'Hôpital
75013 Paris, France
Amphis B et C
(RdC du bâtiment principal, à gauche des ascenseurs)
Thème
=====
Alors qu'on dispose de plusieurs centaines de millions de mots de textes écrits
(et que le gigantesque réservoir qu'est le World Wide Web repousse chaque jour
cette limite), on dispose de très peu de données sur l'oral. Les corpus de
langue orale transcrite sont pourtant d'une importance fondamentale pour
l'étude linguistique, comme pour la mise au point de nouvelles technologies
vocales.
Pour l'anglais, plusieurs dizaines de millions de mots transcrits sont
disponibles (British National Corpus, Santa Barbara Corpus of American English,
Corpus CANCODE, etc.) et plusieurs grands projets de corpus oraux viennent de
voir le jour pour d'autres langues (Corpus Gesproken Nederlands, Corpus of
Spoken Israeli Hebrew, Corpus du Portugais Parlé, etc.), qui visent une taille
de l'ordre de la dizaine de millions de mots. Il n'existe pas pour l'instant de
grand projet national pour le français, mais uniquement des entreprises
isolées, et il est difficile d'évaluer la quantité totale des données
informatisées, mais elle ne dépasse certainement que de peu le million de mots.
Le développement de corpus oraux transcrits est extrêmement coûteux, et demande
une méthodologie stricte, appuyée sur des outils informatiques adéquats. Le but
de cette journée est de réunir linguistes et informaticiens pour faire le point
sur la situation concernant le français, et de tracer quelques pistes pour des
recherches et collaborations futures.
Inscription
===========
Il n'y a pas d'inscription et l'entrée est gratuite, mais l'adhésion à l'ATALA
est un geste qui permet à l'association de continuer ses activités. L'adhésion
inclut la réception gratuite de la revue "Traitement Automatique des langues".
[Cf. http://www.atala.org/adhesion.html]
Programme
=========
Les modifications de dernière minute, ainsi que les résumés des
communications se trouvent à l'adresse:
http://www.up.univ-mrs.fr/veronis/Atala/jecorpus/
9h15 Accueil
9h30 Conférence invitée
Michael McCarthy (Université de Nottingham), Spoken corpus design :
speakers, contexts and language use
Michael McCarthy est professeur de linguistique appliquée à
l'Université de Nottingham et spécialiste des corpus d'anglais parlé.
Il est l'un des créateurs du corpus CANCODE (Cambridge and Nottingham
Corpus of Discourse in English), produit d'une collaboration entre
l'Université de Notthingham et Cambridge University Press et
comportant plusieurs millions de mots d'anglais parlé. Michael
McCarthy a publié de nombreux ouvrages tels que "Discourse Analysis
for Language Teachers" (Cambridge University Press, 1991), "Language
as Discourse" (avec R. A Carter, Longman, 1994), "Exploring Spoken
English" (avec R. A Carter, Cambridge University Press, 1997),
"Spoken Language and Applied Linguistics" (Cambridge University
Press, 1998), "Exploring Grammar in Context" (avec R. Hughes et R. A
Carter, Cambridge University Press, Cambridge, 2000) and "Issues in
Applied Linguistics" (Cambridge University Press, Cambridge, 2000).
10:15-11:15 Session plénière (Amphi C)
10:15 Michel Francard, Geneviève Geron, Vincent Giroul Philippe
Hambye, Anne Catherine Simon, Régine Wilmet (Université Catholique de
Louvain-la-Neuve, Belgique), Le centre de recherche VALIBEL : des
corpus oraux au service d'un observatoire du français en Belgique
10:45 Shana Poplack, Anne St-Amand (Université d'Ottawa, Canada), Un
corpus oral du français du XIXe siècle : Les Récits du français
québécois d'autrefois
11:15-11:45 Pause et rencontre autour des posters
11:45-12:45 Sessions parallèles
Amphi B
11:45 Raphaël Maître, Véronique Wild (Université de Neuchâtel), Un
corpus bilingue français - dialecte francoprovençal en situation de
contact à Evolene en Valais (Suisse)
12:15 Christina Linqvist (Uppsala, Suède), Corpus transcrit de
quelques journaux télévisés français : expériences de constitution
Amphi C
11:45 Barbara Pirlot, Gilles Sadowski, Sylvie Delvenne (Université
Libre de Bruxelles, Belgique), Analyse des témoignages audiovisuels
de rescapés des camps nazis : représentation écrite et exploitation
linguistique des données
12:15 Kate Beeching (University of the West of England, Royaume-Uni),
Collecte, transcription et analyse d'un corpus sociolinguistique
12:45-14:15 Déjeuner
14:15-15:45 Sessions parallèles
Amphi B
14:15 Ligia-Stela Florea (Université Babes-Bolyai, Roumanie),
Exploitation de corpus oraux : une expérience pédagogique au niveau
Licence FLE
14:45 Florence Myles, Emma Marsden, Sarah Rule, Rosamond Mitchell
(Université de Southampton, Royaume-Uni), Corpus d'interlangue
française orale: outils de gestion et d'analyse
15:15 Anne Violin-Wigent (Michigan State University, Etats-Unis), On
ne peut pas tout avoir: difficultés inhérentes à l'utilisation d'un
corpus parlé
Amphi C
14:15 Mireille Bilger (Université de Perpignan, France), Présentation
du Corpus de référence de français parlé
14:45 Jacques Durand (ERSS, Université de Toulouse-Le Mirail,
France), Bernard Laks (Université de Paris-X, France), Chantal Lyche
(Université d'Oslo, Norvège), La Phonologie du Français Contemporain
(PFC): présentation et premiers résultats
15:15 Estelle Campione (Université de Provence, France), La prosodie
dans les corpus oraux : problèmes d'annotation
15:45-16:15 Pause et rencontre autour des posters
16:15-17:45 Session plénière (Amphi C)
16:15 Piet Mertens (K.U.Leuven, Belgique), L'étiquetage grammatical
dans le corpus ELICOP
16:45 Hanne Leth Andersen (Aarhus Universitet, Danemark), Le français
parlé dans l'enseignement du français langue étrangère au Danemark
15:15 Pascal Cordereix (Bibliothèque nationale de France), Des
Archives de la parole au Département de l'Audiovisuel de la
Bibliothèque nationale de France ; 1911 - 2002 : un siècle de
français parlé enregistré
17:45-18:00 Conclusion
Communications affichées (posters)
1. Jean-Yves Antoine, Jérôme Goulian, Sabine Letellier (VALORIA,
Université de Bretagne Sud, France), Corpus de dialogue oral pour la
Communication Homme-Machine : quelques enseignements en linguistique
et en Traitement Automatique des Langues Naturelles
2. Vincent Arnaud (Université de Franche-Comté, France & Université
Laval, Québec), Gabrielle Konopczynski (Université de Franche-Comté,
France), Saint-Claude : une ville, un corpus...
3. Christophe Benzitoun (Université de Provence, France), Interaction
des composantes syntaxiques et prosodique dans le fonctionnement de
deux 'items conjonctifs' à partir d'un corpus oral aligné
4. Katia Ploog (ERSS à Bordeaux, France), Les outils de description
mis à l'épreuve du non-standard : que nous disent Singe et Caméléon
sur le changement syntaxique du français à Abidjan ?
5. Marie-Noëlle Roubaud, Chantal Le Thomas (Université de Provence,
France), Compte-rendu d'une expérience de correcteurs de corpus oraux
informatisés
6. Luiggi Sansonetti (ILPGA, Université de Paris III, France), Le
Projet ANACAL : ANalyse Automatique de Corpus d'Acquisition du Langage
7. Thomas Schmidt (Université de Hamburg, Allemagne), EXMARaLDA - un
système de transcription computationelle comme base d'un corpus de la
langue parlée multilingue
8. Pascale Vergely (Centre d'Etudes de la Navigation Aérienne et
ERSS, Université de Toulouse Le Mirail, France), Laurent Prevot
(Institut de Recherche en Informatique de Toulouse, France),
Problèmes de constitution d'un corpus de dialogues oraux finalisés,
les cas de la résolution d'un dysfonctionnement technique et de
l'explication d'un itinéraire
More information about the Corpora
mailing list