Corpora: Workshop on French spoken corpora

Tue Apr 23 09:38:26 UTC 2002

                                       ATALA
                               http://www.atala.org/

                                  Journée d'Etude
               Constitution et exploitation de corpus du français parlé
                                   organisée par
                      Claire Blanche-Benveniste & Jean Véronis

                                   25 mai 2002

                            CHU Pitié-Salpétrière
                              91 bd de l'Hôpital
                              75013 Paris, France

                                 Amphis B et C
                (RdC du bâtiment principal, à gauche des ascenseurs)

Thème
=====

Alors qu'on dispose de plusieurs centaines de millions de mots de textes écrits
(et que le gigantesque réservoir qu'est le World Wide Web repousse chaque jour
cette limite), on dispose de très peu de données sur l'oral. Les corpus de
langue orale transcrite sont pourtant d'une importance fondamentale pour
l'étude linguistique, comme pour la mise au point de nouvelles technologies
vocales.

Pour l'anglais, plusieurs dizaines de millions de mots transcrits sont
disponibles (British National Corpus, Santa Barbara Corpus of American English,
Corpus CANCODE, etc.) et plusieurs grands projets de corpus oraux viennent de
voir le jour pour d'autres langues (Corpus Gesproken Nederlands, Corpus of
Spoken Israeli Hebrew, Corpus du Portugais Parlé, etc.), qui visent une taille
de l'ordre de la dizaine de millions de mots. Il n'existe pas pour l'instant de
grand projet national pour le français, mais uniquement des entreprises
isolées, et il est difficile d'évaluer la quantité totale des données
informatisées, mais elle ne dépasse certainement que de peu le million de mots.

Le développement de corpus oraux transcrits est extrêmement coûteux, et demande
une méthodologie stricte, appuyée sur des outils informatiques adéquats. Le but
de cette journée est de réunir linguistes et informaticiens pour faire le point
sur la situation concernant le français, et de tracer quelques pistes pour des
recherches et collaborations futures.

Inscription
===========
Il n'y a pas d'inscription et l'entrée est gratuite, mais l'adhésion à l'ATALA
est un geste qui permet à l'association de continuer ses activités. L'adhésion
inclut la réception gratuite de la revue "Traitement Automatique des langues".
[Cf. http://www.atala.org/adhesion.html]

Programme
=========

Les modifications de dernière minute, ainsi que les résumés des 
communications se trouvent à l'adresse:

http://www.up.univ-mrs.fr/veronis/Atala/jecorpus/

9h15 Accueil

9h30 Conférence invitée

      Michael McCarthy (Université de Nottingham), Spoken corpus design :
      speakers, contexts and language use

      Michael McCarthy est professeur de linguistique appliquée à
      l'Université de Nottingham et spécialiste des corpus d'anglais parlé.
      Il est l'un des créateurs du corpus CANCODE (Cambridge and Nottingham
      Corpus of Discourse in English), produit d'une collaboration entre
      l'Université de Notthingham et Cambridge University Press et
      comportant plusieurs millions de mots d'anglais parlé. Michael
      McCarthy a publié de nombreux ouvrages tels que "Discourse Analysis
      for Language Teachers" (Cambridge University Press, 1991), "Language
      as Discourse" (avec R. A Carter, Longman, 1994), "Exploring Spoken
      English" (avec R. A Carter, Cambridge University Press, 1997),
      "Spoken Language and Applied Linguistics" (Cambridge University
      Press, 1998), "Exploring Grammar in Context" (avec R. Hughes et R. A
      Carter, Cambridge University Press, Cambridge, 2000) and "Issues in
      Applied Linguistics" (Cambridge University Press, Cambridge, 2000).

10:15-11:15 Session plénière (Amphi C)

      10:15 Michel Francard, Geneviève Geron, Vincent Giroul Philippe
      Hambye, Anne Catherine Simon, Régine Wilmet (Université Catholique de
      Louvain-la-Neuve, Belgique), Le centre de recherche VALIBEL : des
      corpus oraux au service d'un observatoire du français en Belgique

      10:45 Shana Poplack, Anne St-Amand (Université d'Ottawa, Canada), Un
      corpus oral du français du XIXe siècle : Les Récits du français
      québécois d'autrefois

11:15-11:45 Pause et rencontre autour des posters

11:45-12:45 Sessions parallèles

Amphi B

      11:45 Raphaël Maître, Véronique Wild (Université de Neuchâtel), Un
      corpus bilingue français - dialecte francoprovençal en situation de
      contact à Evolene en Valais (Suisse)

      12:15 Christina Linqvist (Uppsala, Suède), Corpus transcrit de
      quelques journaux télévisés français : expériences de constitution

Amphi C

      11:45 Barbara Pirlot, Gilles Sadowski, Sylvie Delvenne (Université
      Libre de Bruxelles, Belgique), Analyse des témoignages audiovisuels
      de rescapés des camps nazis : représentation écrite et exploitation
      linguistique des données

      12:15 Kate Beeching (University of the West of England, Royaume-Uni),
      Collecte, transcription et analyse d'un corpus sociolinguistique

12:45-14:15 Déjeuner

14:15-15:45 Sessions parallèles

Amphi B

      14:15 Ligia-Stela Florea (Université Babes-Bolyai, Roumanie),
      Exploitation de corpus oraux : une expérience pédagogique au niveau
      Licence FLE

      14:45 Florence Myles, Emma Marsden, Sarah Rule, Rosamond Mitchell
      (Université de Southampton, Royaume-Uni), Corpus d'interlangue
      française orale: outils de gestion et d'analyse

      15:15 Anne Violin-Wigent (Michigan State University, Etats-Unis), On
      ne peut pas tout avoir: difficultés inhérentes à l'utilisation d'un
      corpus parlé

Amphi C

      14:15 Mireille Bilger (Université de Perpignan, France), Présentation
      du Corpus de référence de français parlé

      14:45 Jacques Durand (ERSS, Université de Toulouse-Le Mirail,
      France), Bernard Laks (Université de Paris-X, France), Chantal Lyche
      (Université d'Oslo, Norvège), La Phonologie du Français Contemporain
      (PFC): présentation et premiers résultats

      15:15 Estelle Campione (Université de Provence, France), La prosodie
      dans les corpus oraux : problèmes d'annotation

15:45-16:15 Pause et rencontre autour des posters

16:15-17:45 Session plénière (Amphi C)

      16:15 Piet Mertens (K.U.Leuven, Belgique), L'étiquetage grammatical
      dans le corpus ELICOP

      16:45 Hanne Leth Andersen (Aarhus Universitet, Danemark), Le français
      parlé dans l'enseignement du français langue étrangère au Danemark

      15:15 Pascal Cordereix (Bibliothèque nationale de France), Des
      Archives de la parole au Département de l'Audiovisuel de la
      Bibliothèque nationale de France ; 1911 - 2002 : un siècle de
      français parlé enregistré

17:45-18:00 Conclusion

Communications affichées (posters)

      1. Jean-Yves Antoine, Jérôme Goulian, Sabine Letellier (VALORIA,
      Université de Bretagne Sud, France), Corpus de dialogue oral pour la
      Communication Homme-Machine : quelques enseignements en linguistique
      et en Traitement Automatique des Langues Naturelles

      2. Vincent Arnaud (Université de Franche-Comté, France & Université
      Laval, Québec), Gabrielle Konopczynski (Université de Franche-Comté,
      France), Saint-Claude : une ville, un corpus...

      3. Christophe Benzitoun (Université de Provence, France), Interaction
      des composantes syntaxiques et prosodique dans le fonctionnement de
      deux 'items conjonctifs' à partir d'un corpus oral aligné

      4. Katia Ploog (ERSS à Bordeaux, France), Les outils de description
      mis à l'épreuve du non-standard : que nous disent Singe et Caméléon
      sur le changement syntaxique du français à Abidjan ?

      5. Marie-Noëlle Roubaud, Chantal Le Thomas (Université de Provence,
      France), Compte-rendu d'une expérience de correcteurs de corpus oraux
      informatisés

      6. Luiggi Sansonetti (ILPGA, Université de Paris III, France), Le
      Projet ANACAL : ANalyse Automatique de Corpus d'Acquisition du Langage

      7. Thomas Schmidt (Université de Hamburg, Allemagne), EXMARaLDA - un
      système de transcription computationelle comme base d'un corpus de la
      langue parlée multilingue

      8. Pascale Vergely (Centre d'Etudes de la Navigation Aérienne et
      ERSS, Université de Toulouse Le Mirail, France), Laurent Prevot
      (Institut de Recherche en Informatique de Toulouse, France),
      Problèmes de constitution d'un corpus de dialogues oraux finalisés,
      les cas de la résolution d'un dysfonctionnement technique et de
      l'explication d'un itinéraire