13.1117, Confs: French Spoken Corpora, Paris, France

Tue Apr 23 14:44:40 UTC 2002

LINGUIST List:  Vol-13-1117. Tue Apr 23 2002. ISSN: 1068-4875.

Subject: 13.1117, Confs: French Spoken Corpora, Paris, France

Moderators: Anthony Aristar, Wayne State U.<aristar at linguistlist.org>
            Helen Dry, Eastern Michigan U. <hdry at linguistlist.org>

Reviews (reviews at linguistlist.org):
	Simin Karimi, U. of Arizona
	Terence Langendoen, U. of Arizona

Consulting Editor:
        Andrew Carnie, U. of Arizona <carnie at linguistlist.org>

Editors (linguist at linguistlist.org):
	Karen Milligan, WSU 		Naomi Ogasawara, EMU
	James Yuells, EMU		Marie Klopfenstein, WSU
	Michael Appleby, EMU		Heather Taylor-Loring, EMU
	Ljuba Veselinova, Stockholm U.	Richard John Harvey, EMU
	Dina Kapetangianni, EMU		Renee Galvis, WSU
	Karolina Owczarzak, EMU

Software: John Remmers, E. Michigan U. <remmers at emunix.emich.edu>
          Gayathri Sriram, E. Michigan U. <gayatri at linguistlist.org>

Home Page:  http://linguistlist.org/

The LINGUIST List is funded by Eastern Michigan University, Wayne
State University, and donations from subscribers and publishers.

Editor for this issue: Dina Kapetangianni <dina at linguistlist.org>
 ==========================================================================
Please keep conferences announcement as short as you can; LINGUIST
will not post conference announcements which in our opinion are
excessively long.

=================================Directory=================================

1)
Date:  Tue, 23 Apr 2002 11:38:26 +0200
From:  Jean Veronis <Jean.Veronis at newsup.univ-mrs.fr>
Subject:  Workshop on French spoken corpora

-------------------------------- Message 1 -------------------------------

Date:  Tue, 23 Apr 2002 11:38:26 +0200
From:  Jean Veronis <Jean.Veronis at newsup.univ-mrs.fr>
Subject:  Workshop on French spoken corpora

                                       ATALA
                               http://www.atala.org/

                                  Journée d'Etude
               Constitution et exploitation de corpus du français parlé
                                   organisée par
                      Claire Blanche-Benveniste & Jean Véronis

                                   25 mai 2002

                            CHU Pitié-Salpétrière
                              91 bd de l'Hôpital
                              75013 Paris, France

                                 Amphis B et C
                (RdC du bâtiment principal, à gauche des ascenseurs)

Thème
=====

Alors qu'on dispose de plusieurs centaines de millions de mots de
textes écrits (et que le gigantesque réservoir qu'est le World Wide
Web repousse chaque jour cette limite), on dispose de très peu de
données sur l'oral. Les corpus de langue orale transcrite sont
pourtant d'une importance fondamentale pour l'étude linguistique,
comme pour la mise au point de nouvelles technologies vocales.

Pour l'anglais, plusieurs dizaines de millions de mots transcrits sont
disponibles (British National Corpus, Santa Barbara Corpus of American
English, Corpus CANCODE, etc.) et plusieurs grands projets de corpus
oraux viennent de voir le jour pour d'autres langues (Corpus Gesproken
Nederlands, Corpus of Spoken Israeli Hebrew, Corpus du Portugais
Parlé, etc.), qui visent une taille de l'ordre de la dizaine de
millions de mots. Il n'existe pas pour l'instant de grand projet
national pour le français, mais uniquement des entreprises isolées, et
il est difficile d'évaluer la quantité totale des données
informatisées, mais elle ne dépasse certainement que de peu le million
de mots.

Le développement de corpus oraux transcrits est extrêmement coûteux,
et demande une méthodologie stricte, appuyée sur des outils
informatiques adéquats. Le but de cette journée est de réunir
linguistes et informaticiens pour faire le point sur la situation
concernant le français, et de tracer quelques pistes pour des
recherches et collaborations futures.

Inscription
===========
Il n'y a pas d'inscription et l'entrée est gratuite, mais l'adhésion à l'ATALA
est un geste qui permet à l'association de continuer ses activités. L'adhésion
inclut la réception gratuite de la revue "Traitement Automatique des langues".
 http://www.atala.org/adhesion.html

Programme
=========

Les modifications de dernière minute, ainsi que les résumés des
communications se trouvent à l'adresse:

http://www.up.univ-mrs.fr/veronis/Atala/jecorpus/

9h15 Accueil

9h30 Conférence invitée

      Michael McCarthy (Université de Nottingham), Spoken corpus design :
      speakers, contexts and language use

      Michael McCarthy est professeur de linguistique appliquée à
      l'Université de Nottingham et spécialiste des corpus d'anglais parlé.
      Il est l'un des créateurs du corpus CANCODE (Cambridge and Nottingham
      Corpus of Discourse in English), produit d'une collaboration entre
      l'Université de Notthingham et Cambridge University Press et
      comportant plusieurs millions de mots d'anglais parlé. Michael
      McCarthy a publié de nombreux ouvrages tels que "Discourse Analysis
      for Language Teachers" (Cambridge University Press, 1991), "Language
      as Discourse" (avec R. A Carter, Longman, 1994), "Exploring Spoken
      English" (avec R. A Carter, Cambridge University Press, 1997),
      "Spoken Language and Applied Linguistics" (Cambridge University
      Press, 1998), "Exploring Grammar in Context" (avec R. Hughes et R. A
      Carter, Cambridge University Press, Cambridge, 2000) and "Issues in
      Applied Linguistics" (Cambridge University Press, Cambridge, 2000).

10:15-11:15 Session plénière (Amphi C)

      10:15 Michel Francard, Geneviève Geron, Vincent Giroul Philippe
      Hambye, Anne Catherine Simon, Régine Wilmet (Université Catholique de
      Louvain-la-Neuve, Belgique), Le centre de recherche VALIBEL : des
      corpus oraux au service d'un observatoire du français en Belgique

      10:45 Shana Poplack, Anne St-Amand (Université d'Ottawa, Canada), Un
      corpus oral du français du XIXe siècle : Les Récits du français
      québécois d'autrefois

11:15-11:45 Pause et rencontre autour des posters

11:45-12:45 Sessions parallèles

Amphi B

      11:45 Raphaël Maître, Véronique Wild (Université de Neuchâtel), Un
      corpus bilingue français - dialecte francoprovençal en situation de
      contact à Evolene en Valais (Suisse)

      12:15 Christina Linqvist (Uppsala, Suède), Corpus transcrit de
      quelques journaux télévisés français : expériences de constitution

Amphi C

      11:45 Barbara Pirlot, Gilles Sadowski, Sylvie Delvenne (Université
      Libre de Bruxelles, Belgique), Analyse des témoignages audiovisuels
      de rescapés des camps nazis : représentation écrite et exploitation
      linguistique des données

      12:15 Kate Beeching (University of the West of England, Royaume-Uni),
      Collecte, transcription et analyse d'un corpus sociolinguistique

12:45-14:15 Déjeuner

14:15-15:45 Sessions parallèles

Amphi B

      14:15 Ligia-Stela Florea (Université Babes-Bolyai, Roumanie),
      Exploitation de corpus oraux : une expérience pédagogique au niveau
      Licence FLE

      14:45 Florence Myles, Emma Marsden, Sarah Rule, Rosamond Mitchell
      (Université de Southampton, Royaume-Uni), Corpus d'interlangue
      française orale: outils de gestion et d'analyse

      15:15 Anne Violin-Wigent (Michigan State University, Etats-Unis), On
      ne peut pas tout avoir: difficultés inhérentes à l'utilisation d'un
      corpus parlé

Amphi C

      14:15 Mireille Bilger (Université de Perpignan, France), Présentation
      du Corpus de référence de français parlé

      14:45 Jacques Durand (ERSS, Université de Toulouse-Le Mirail,
      France), Bernard Laks (Université de Paris-X, France), Chantal Lyche
      (Université d'Oslo, Norvège), La Phonologie du Français Contemporain
      (PFC): présentation et premiers résultats

      15:15 Estelle Campione (Université de Provence, France), La prosodie
      dans les corpus oraux : problèmes d'annotation

15:45-16:15 Pause et rencontre autour des posters

16:15-17:45 Session plénière (Amphi C)

      16:15 Piet Mertens (K.U.Leuven, Belgique), L'étiquetage grammatical
      dans le corpus ELICOP

      16:45 Hanne Leth Andersen (Aarhus Universitet, Danemark), Le français
      parlé dans l'enseignement du français langue étrangère au Danemark

      15:15 Pascal Cordereix (Bibliothèque nationale de France), Des
      Archives de la parole au Département de l'Audiovisuel de la
      Bibliothèque nationale de France ; 1911 - 2002 : un siècle de
      français parlé enregistré

17:45-18:00 Conclusion

Communications affichées (posters)

      1. Jean-Yves Antoine, Jérôme Goulian, Sabine Letellier (VALORIA,
      Université de Bretagne Sud, France), Corpus de dialogue oral pour la
      Communication Homme-Machine : quelques enseignements en linguistique
      et en Traitement Automatique des Langues Naturelles

      2. Vincent Arnaud (Université de Franche-Comté, France & Université
      Laval, Québec), Gabrielle Konopczynski (Université de Franche-Comté,
      France), Saint-Claude : une ville, un corpus...

      3. Christophe Benzitoun (Université de Provence, France), Interaction
      des composantes syntaxiques et prosodique dans le fonctionnement de
      deux 'items conjonctifs' à partir d'un corpus oral aligné

      4. Katia Ploog (ERSS à Bordeaux, France), Les outils de description
      mis à l'épreuve du non-standard : que nous disent Singe et Caméléon
      sur le changement syntaxique du français à Abidjan ?

      5. Marie-Noëlle Roubaud, Chantal Le Thomas (Université de Provence,
      France), Compte-rendu d'une expérience de correcteurs de corpus oraux
      informatisés

      6. Luiggi Sansonetti (ILPGA, Université de Paris III, France), Le
      Projet ANACAL : ANalyse Automatique de Corpus d'Acquisition du Langage

      7. Thomas Schmidt (Université de Hamburg, Allemagne), EXMARaLDA - un
      système de transcription computationelle comme base d'un corpus de la
      langue parlée multilingue

      8. Pascale Vergely (Centre d'Etudes de la Navigation Aérienne et
      ERSS, Université de Toulouse Le Mirail, France), Laurent Prevot
      (Institut de Recherche en Informatique de Toulouse, France),
      Problèmes de constitution d'un corpus de dialogues oraux finalisés,
      les cas de la résolution d'un dysfonctionnement technique et de
      l'explication d'un itinéraire

---------------------------------------------------------------------------
LINGUIST List: Vol-13-1117