Cataloguing and Coding of Spoken Language Data

Thu Jul 17 12:51:03 UTC 2008

French version below


> ************************************************
>
>                  CatCod 2008 - Call For Papers
>
>                  First International Workshop on
>     Cataloguing and Coding of Spoken Language Data
>
>                        December 4 - 5 2008
>                    Université d'Orléans, France
>
>                      http://www.catcod.org
>
> ************************************************
>
> The number of spoken recordings  which are digitized and available for
> the study and  description of language has remained  quite small for a
> long  time  and  their  distribution  has  been  largely  confined  to
> specialized  agencies.  However, the  development of  the Web  and its
> associated storage, distribution  and processing technologies have now
> made it  both practically and  economically feasible for  many smaller
> structures,  such as individual  research laboratories,  to distribute
> spoken resources for themselves.
> We  are  thus  entering  a  critical  phase. It  is  now  possible  to
> capitalize on the efforts  of projects which have digitized linguistic
> data in  order to form the  empirical basis for  entirely new research
> projects.
> However,  many such  existing projects  in France  and Europe  shows a
> great heterogeneity  among in their conformance  to established coding
> and  cataloguing standards  for this  type of  resource.   Even though
> these same  projects were often set  up with the  aims of facilitating
> access to  data, and of sharing  and preservation of  data, we observe
> that the diversity of formats, encodings and protocols they use limits
> exactly these objectives.  In this  symposium, we aim to report on the
> major  initiatives within  the  field of  digital document  management
> which will potentially have an important influence on standardization.
> We  would like  to stress  two  specific aspects:  the cataloguing  of
> spoken resources and their encoding.
>
> Cataloguing:
> The  recent  and  fast  growth  of the  number  of  spoken  recordings
> available on the  Web needs to be accompanied  by a significant effort
> of  description  and  referencing  if  these data  are  to  be  easily
> accessible  and managed,  rather  than  being buried  in  the mass  of
> available data.  Some cataloguing practices aim solely to complete the
> life cycle of a a  resource-creating project. Others explicitly aim to
> guide  the exploitation,  preservation,  and the  distribution of  the
> resource in the long term.
> Such cataloguing activity is all the more important and urgent in view
> of the rapid increase in  enhanced methods of handling operations this
> mass   of  data,  by   means  of   data  exchange,   enhancement,  and
> research.   Some  research   communities  are   well-organised  around
> established standards such as the Dublin Core for Web-based resources,
> the TEI  Header, or  the MARC standards  maintained by the  Library of
> Congress  for  the  description  of  bibliographical  resources.  More
> recently, smaller linguistic  communities have established cataloguing
> proposals (OLAC, IMDI).  People have now had enough  experience in the
> use of these  proposals to be able to criticize  them and propose some
> improvements.   With these  new  insights, it  should  be possible  to
> establish a minimal  charter to be respected by those  who wish to get
> involved  in the  distribution of  spoken language  data, in  order to
> facilitate their exchange and their more general use in research.
>
> Encoding:
> If cataloguing  is essential for  the identification of  resources and
> for  rapid comparisons  amongst  them, encoding  is  essential to  the
> description of the interpretation  of their content and also essential
> to  their   exploitation  for  specific  studies.    If  encoding  the
> transcription of  video or audio material is  indeed the clarification
> of an interpretation,  then one notes here as well  a great variety in
> the practices.
> The  inventories made  during  the EAGLES,  MATE  and ISLE  successive
> initiatives have demonstrated how difficulty  it is to grasp fully the
> extent of  various encoding systems.  The ISLE project  suggested that
> only  the specification of  a universal  software tool  for annotation
> could lead to  resources encoded in a standardized  way. But this does
> not make  it any the less necessary  for us to attempt  a communal and
> consensual  activity, aiming  to  categorize, name,  and organize  the
> phenomena found  within spoken  resources if we  hope to  achieve true
> interoperability  of the  data, with  a  view to  multiple and  future
> exploitations. We must now start  an exercise for the encoding of oral
> corpora  similar to  what  has already  been  undertaken for  written
> corpora by the TEI.
>
> Quality control:
> Assuming  that  we  can  achieve  an agreement  on  the  encoding  and
> cataloguing of spoken data, it  will then be necessary to define rules
> and develop tools to check the conformance of specific datasets to our
> agreed  principles.  This  symposium  will also  therefore  report  on
> quality control practices and techniques.
>
> ==== Français Français Français Français Français Français Français  ====
>
>
> ************************************************
>
>               CatCod 2008 - Appel à Communications
>
>             Premières rencontres internationales pour le
>                Catalogage et le Codage de corpus oraux
>
>                         4 - 5 Décembre 2008
>                    à l'Université d'Orléans, France
>
>                        http://www.catcod.org
>
> ************************************************
>
> Le  nombre  d'enregistrements  oraux  numérisés  et  disponibles  pour
> l'étude et la description des langues est longtemps resté relativement
> faible et  ceux-ci étaient confinés dans des  agences spécialisées qui
> en  assuraient le partage.  Avec l'essor  du web  et des  capacités de
> stockage, de diffusion et de  traitement, il est devenu abordable pour
> des plus petites structures (par ex. des laboratoires de recherche) de
> diffuser elles-mêmes leurs ressources  orales. Nous sommes désormais à
> une étape  clé où  la capitalisation des  efforts de  numérisation des
> données linguistiques  devient possible, ceci  afin de former  la base
> empirique de nouveaux projets de recherche.
> L'observation  des normes de  codage et  de catalogage  de ce  type de
> ressources  dans les  différents  projets existants  en  France et  en
> Europe, montre  une grande hétérogénéité des pratiques.  Alors que ces
> mêmes  projets se sont  montés dans  le but  de faciliter  l'accès, le
> partage  ou  la  conservation  des  données,  on  constate  que  cette
> diversité des formats, des codages et des protocoles utilisés limitent
> justement ces objectifs.
>
> Nous souhaitons  dans ce colloque  faire le point sur  les initiatives
> majeures dans le  monde de la gestion des  documents numériques, ayant
> potentiellement une  influence importante pour  la standardisation, en
> mettant  l'accent  sur  deux   aspects  particuliers  qui  sont  :  le
> catalogage d'une ressource orale et son codage.
>
> Le catalogage :
> La  croissance récente  et  rapide du  nombre d'enregistrements  oraux
> disponibles  sur  le  web  demande  à  être  accompagnée  d'un  effort
> important  de description  et de  référencement afin  que  ces données
> soient accessibles facilement,  ne soient pas noyées dans  le masse et
> que  la  gestion  en  soit  facilitée.   Il convient  à  ce  titre  de
> distinguer des pratiques de catalogage  qui ont pour vocation le suivi
> du cycle de  vie d'un projet de constitution  de ressources, de celles
> qui ont pour  vocation à guider l'exploitation, ou  la conservation et
> la diffusion de ces ressources.
> Cette activité  de catalogage est d'autant plus  importante et urgente
> que  les  opérations  de  manipulations  sur cette  masse  de  données
> augmentent    elles    aussi    (échange,   maintenance,    recherche,
> etc.). Certaines communautés se  sont déjà fortement organisées et ont
> parfois établi  des normes comme  le Dublin-Core pour ce  qui concerne
> les ressources  sur le web, ou  depuis plus longtemps  les normes MARC
> maintenues  par la  bibliothèque du  congrès pour  la  description des
> ressources  bibliographiques. Plus  récemment  enfin, des  communautés
> plus  restreintes  en  linguistique  ont établi  des  propositions  de
> catalogage   (OLAC,   IMDI).   Il   existe   maintenant   suffisamment
> d'expériences dans l'utilisation de  ces propositions pour en faire la
> critique, proposer des améliorations,  des pistes de réflexion et pour
> établir  une  charte minimale  à  respecter  par  ceux qui  souhaitent
> s'engager dans  la diffusion  de ressources orales  linguistiques afin
> d'en   faciliter   l'échange   et  plus   généralement   l'utilisation
> scientifique.
>
> Le codage :
> Si le catalogage est essentiel  à l'identification des ressources et à
> la  comparaison  rapide  entre  elles,  le codage  est  pour  sa  part
> essentiel  à  la description  de  l'interprétation  du  contenu de  la
> ressource   elle-même,  et   à  son   exploitation  pour   des  études
> particulières.
> Si  le codage  d'une transcription  de  vidéo ou  de son  est bien  un
> travail d'explicitation  d'une interprétation établie du  point de vue
> d'une  discipline  d'un objet  de  recherches,  alors  on constate  là
> également  une très  grande diversité  de pratiques.  Les recensements
> opérés  lors des initiatives  successives EAGLES,  MATE puis  ISLE ont
> démontré la difficulté d'appréhender  l'étendue des divers systèmes de
> codage.  La spécification d'un  outil logiciel  d'annotation universel
> peut  être  une  voie  d'accès   à  des  ressources  codées  de  façon
> standardisée, comme  cela a  été suggéré par  ISLE. Mais cela  nenous
> dispense  pas   de  faire  le  travail   communautaire  consensuel  de
> catégorisation, de dénomination et  de structuration des phénomènesse
> trouvant  au   sein  des  ressources  si  l'on   souhaite  une  réelle
> interopérabilité  des  données  en  vue d'exploitations  multiples  et
> futures. Il s'agit donc de  commencer le travail de standardisation du
> codage des  corpus oraux  comme cela a  déjà commencé pour  les corpus
> textuels avec la TEI.
>
> Contrôle qualité :
> En supposant obtenus  un compromis sur le catalogage  et sur le codage
> des données orales, il est alors nécessaire de se donner des règles et
> des outils  de vérification de la conformité  de données particulières
> aux principes  établis. Nous souhaitons donc également  faire le point
> dans  ce colloque  sur les  pratiques de  contrôle de  la  qualité des
> ressources.
>
> ====
> Topics of interest / Thématiques
>
> - description and cataloguing of spoken resources
> - distribution
> - specification of tools
> - research applications
> - archiving
> - publishing of language corpora
> - annotation
> - version control
> - cataloguing and coding standards
> - comparison of resources
> - multimodal and multimedia transcription
> - annotation schemes
> - interoperability
> - evaluation, quality control
>
> - description et référencement des données orales
> - diffusion
> - spécification d'outils
> - exploitation scientifique
> - conservation
> - édition de corpus
> - annotation
> - versionning
> - standards de catalogage et de codage
> - comparaison des ressources
> - transcription multimodale et multimédia
> - schémas d'annotation
> - interopérabilité
> - évaluation, contrôle qualité
>
> ====
> Important dates / Calendrier
>
> Initial Call for papers / Date de l'appel à communication : 11 July /
> juillet 2008
> Submission deadline / Date de soumission des résumés : 29 August / août 
> 2008
> Evaluation deadline / Réponse de l'évaluation : 10 October / octobre 2008
>
> ====
> Workshop date and place / Date et lieu du colloque :
>
> 4-5 December / décembre 2008  at Université d'Orléans
>
> ====
> Submissions
>
> - Paper submissions should not exceed 2 pages in length.
> - The abstract  should be sent  as an attachment  in WORD, PDF  or RTF
> format. If  this is  not possible, send  the abstract to  the postal
> address shown below.
> - At the top of the abstract, outside the typing area, put the title.
> - Your name should only appear in e-mail message carrying the attached
> abstract.
> - Special fonts: If your abstract uses any special fonts, there are two
> options:
> i. In addition to the document in WORD or RTF format, send a PDF document.
> ii. Send a paper copy to the address shown below.
> - When sending  the email submission,  please follow this  format (use
> the numbering system given below):
> 1. Title of abstract:
> 2. Name:
> 3. Address:
> 4. Affiliation:
> 5. Status (faculty, student):
> 6. Email address:
> 7. Fax:
> 8. Phone numbers:
>
> Send abstracts to: catcod2008 at ens-lsh.fr .
>
> If you are unable to send an abstract in an electronic format, mail it to:
>
> CatCod 2008
> s/c M. Plisson
> Laboratoire LLL
> Université d'Orléans - UFR Lettres, Langues et Sciences Humaines
> 10 Rue de Tours - BP 46527 - 45065 ORLEANS Cedex 2 FRANCE
>
> ====
> Propositions de communication
>
> - les résumés des communications ne doivent pas dépasser deux pages.
> - les résumés sont à envoyer au format WORD, PDF ou RTF.
> Si ce n'est pas possible par voie électronique, envoyez votre document
> à l'adresse postale mentionnée plus bas.
> - en entête du résumé, mentionner le titre de votre communication.
> - votre nom ne doit apparaître que dans le courriel accompagnant votre 
> résumé.
> - si vous utilisez des caractères spéciaux dans votre résumé, il y deux 
> solutions :
> i. en plus du document WORD ou RTF, envoyez un document PDF
> ii. envoyez un document papier au Comité Catcod
> - dans  le   courriel  qui  accompagne  votre   résumé,  indiquez  les
> information suivantes en respectant la numérotation :
> 1. Titre du résumé
> 2. Nom de l'auteur (ou des auteurs)
> 3. Adresse
> 4. Organisme
> 5. Statut (Etudiant, Chercheur, etc.)
> 6. Adresse électronique
> 7. N° de fax
> 8. N° de téléphone
>
> Envoyez votre résumé à catcod2008 at ens-lsh.fr .
>
> Si vous ne pouvez pas envoyer le résumé par voie électronique, envoyez
> votre courrier à :
>
> CatCod 2008
> s/c M. Plisson
> Laboratoire LLL
> Université d'Orléans - UFR Lettres, Langues et Sciences Humaines
> 10 Rue de Tours - BP 46527 - 45065 ORLEANS Cedex 2 FRANCE
>
>
> ====
> Program Committee / Comité de programme
>
> Jean-Yves Antoine (Université F. Rabelais Tours)
> Claude Barras     (LIMSI-CNRS)
> Steven Bird       (University of Melbourne & LDC University of 
> Pennsylvania)
> Lou Burnard       (Oxford University Computing Services)
> Pascal Cordereix  (BNF, Paris)
> Benoît Habert     (ENS-LSH, Lyon)
> Serge Heiden      (ENS-LSH, Lyon)
> Nancy Ide         (Vassar College)
> Michel Jacobson   (Ministère de la Culture, Paris)
> Laurent Romary    (MPI Berlin-INRIA)
> Emmanuel Schang   (Université d'Orléans)
> Richard Walter    (CNRS, Université d'Orléans)
> Peter Wittenburg  (Max-Planck-Institute for Psycholinguistics, Nijmegen)
>
> ====
> Organisation Commitee / Comité d'organisation
>
> Serge Heiden    (ENS-LSH, Lyon)
> Michel Jacobson (Ministère de la Culture, Paris)
> Emmanuel Schang (Université d'Orléans)
> Richard Walter  (CNRS, Université d'Orléans)
>
> ====
> Sponsors
>
> Agence Nationale pour la Recherche (ANR) : projet VARILING
>
> ====
> Information and Contact / Informations et Contact
>
> Email: catcod2008 at ens-lsh.fr
> Web: http://www.catcod.org
>
>
> _____________________________________________________________
>
>
>
> -- 
> Richard Walter
>
> Laboratoire MoDyCo
> UMR 7114 (CNRS - Université Paris X) Université Paris X - Nanterre, 
> Bâtiment A
> 200, avenue de la République
> 92001 Nanterre cedex
> richard.walter at u-paris10.fr
>
> Projet Variling
> CORAL - Université d'Orléans
> UFR Lettres, Langues et Sciences Humaines
> 10 Rue de Tours - BP 46527
> 45065 ORLEANS Cedex 2
> Tél : +33 (0)2 38 49 40 79
> Fax : +33 (0)2 38 41 71 06
>
>
>
> ----------------------------------------------------------------
> Ce message a ete envoye par IMP, grace a l'Universite Paris 10 Nanterre
>
>
>
>
>
> _______________________________________________
> Modyco-tous mailing list
> Modyco-tous at u-paris10.fr
> https://mailman.u-paris10.fr/mailman/listinfo/modyco-tous
>
> 


-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20080717/90b531a6/attachment.htm>