Cataloguing and Coding of Spoken Language Data
Clara Romero
ulysse21fr at YAHOO.FR
Thu Jul 17 12:51:03 UTC 2008
French version below
> ************************************************
>
> CatCod 2008 - Call For Papers
>
> First International Workshop on
> Cataloguing and Coding of Spoken Language Data
>
> December 4 - 5 2008
> Université d'Orléans, France
>
> http://www.catcod.org
>
> ************************************************
>
> The number of spoken recordings which are digitized and available for
> the study and description of language has remained quite small for a
> long time and their distribution has been largely confined to
> specialized agencies. However, the development of the Web and its
> associated storage, distribution and processing technologies have now
> made it both practically and economically feasible for many smaller
> structures, such as individual research laboratories, to distribute
> spoken resources for themselves.
> We are thus entering a critical phase. It is now possible to
> capitalize on the efforts of projects which have digitized linguistic
> data in order to form the empirical basis for entirely new research
> projects.
> However, many such existing projects in France and Europe shows a
> great heterogeneity among in their conformance to established coding
> and cataloguing standards for this type of resource. Even though
> these same projects were often set up with the aims of facilitating
> access to data, and of sharing and preservation of data, we observe
> that the diversity of formats, encodings and protocols they use limits
> exactly these objectives. In this symposium, we aim to report on the
> major initiatives within the field of digital document management
> which will potentially have an important influence on standardization.
> We would like to stress two specific aspects: the cataloguing of
> spoken resources and their encoding.
>
> Cataloguing:
> The recent and fast growth of the number of spoken recordings
> available on the Web needs to be accompanied by a significant effort
> of description and referencing if these data are to be easily
> accessible and managed, rather than being buried in the mass of
> available data. Some cataloguing practices aim solely to complete the
> life cycle of a a resource-creating project. Others explicitly aim to
> guide the exploitation, preservation, and the distribution of the
> resource in the long term.
> Such cataloguing activity is all the more important and urgent in view
> of the rapid increase in enhanced methods of handling operations this
> mass of data, by means of data exchange, enhancement, and
> research. Some research communities are well-organised around
> established standards such as the Dublin Core for Web-based resources,
> the TEI Header, or the MARC standards maintained by the Library of
> Congress for the description of bibliographical resources. More
> recently, smaller linguistic communities have established cataloguing
> proposals (OLAC, IMDI). People have now had enough experience in the
> use of these proposals to be able to criticize them and propose some
> improvements. With these new insights, it should be possible to
> establish a minimal charter to be respected by those who wish to get
> involved in the distribution of spoken language data, in order to
> facilitate their exchange and their more general use in research.
>
> Encoding:
> If cataloguing is essential for the identification of resources and
> for rapid comparisons amongst them, encoding is essential to the
> description of the interpretation of their content and also essential
> to their exploitation for specific studies. If encoding the
> transcription of video or audio material is indeed the clarification
> of an interpretation, then one notes here as well a great variety in
> the practices.
> The inventories made during the EAGLES, MATE and ISLE successive
> initiatives have demonstrated how difficulty it is to grasp fully the
> extent of various encoding systems. The ISLE project suggested that
> only the specification of a universal software tool for annotation
> could lead to resources encoded in a standardized way. But this does
> not make it any the less necessary for us to attempt a communal and
> consensual activity, aiming to categorize, name, and organize the
> phenomena found within spoken resources if we hope to achieve true
> interoperability of the data, with a view to multiple and future
> exploitations. We must now start an exercise for the encoding of oral
> corpora similar to what has already been undertaken for written
> corpora by the TEI.
>
> Quality control:
> Assuming that we can achieve an agreement on the encoding and
> cataloguing of spoken data, it will then be necessary to define rules
> and develop tools to check the conformance of specific datasets to our
> agreed principles. This symposium will also therefore report on
> quality control practices and techniques.
>
> ==== Français Français Français Français Français Français Français ====
>
>
> ************************************************
>
> CatCod 2008 - Appel à Communications
>
> Premières rencontres internationales pour le
> Catalogage et le Codage de corpus oraux
>
> 4 - 5 Décembre 2008
> à l'Université d'Orléans, France
>
> http://www.catcod.org
>
> ************************************************
>
> Le nombre d'enregistrements oraux numérisés et disponibles pour
> l'étude et la description des langues est longtemps resté relativement
> faible et ceux-ci étaient confinés dans des agences spécialisées qui
> en assuraient le partage. Avec l'essor du web et des capacités de
> stockage, de diffusion et de traitement, il est devenu abordable pour
> des plus petites structures (par ex. des laboratoires de recherche) de
> diffuser elles-mêmes leurs ressources orales. Nous sommes désormais à
> une étape clé où la capitalisation des efforts de numérisation des
> données linguistiques devient possible, ceci afin de former la base
> empirique de nouveaux projets de recherche.
> L'observation des normes de codage et de catalogage de ce type de
> ressources dans les différents projets existants en France et en
> Europe, montre une grande hétérogénéité des pratiques. Alors que ces
> mêmes projets se sont montés dans le but de faciliter l'accès, le
> partage ou la conservation des données, on constate que cette
> diversité des formats, des codages et des protocoles utilisés limitent
> justement ces objectifs.
>
> Nous souhaitons dans ce colloque faire le point sur les initiatives
> majeures dans le monde de la gestion des documents numériques, ayant
> potentiellement une influence importante pour la standardisation, en
> mettant l'accent sur deux aspects particuliers qui sont : le
> catalogage d'une ressource orale et son codage.
>
> Le catalogage :
> La croissance récente et rapide du nombre d'enregistrements oraux
> disponibles sur le web demande à être accompagnée d'un effort
> important de description et de référencement afin que ces données
> soient accessibles facilement, ne soient pas noyées dans le masse et
> que la gestion en soit facilitée. Il convient à ce titre de
> distinguer des pratiques de catalogage qui ont pour vocation le suivi
> du cycle de vie d'un projet de constitution de ressources, de celles
> qui ont pour vocation à guider l'exploitation, ou la conservation et
> la diffusion de ces ressources.
> Cette activité de catalogage est d'autant plus importante et urgente
> que les opérations de manipulations sur cette masse de données
> augmentent elles aussi (échange, maintenance, recherche,
> etc.). Certaines communautés se sont déjà fortement organisées et ont
> parfois établi des normes comme le Dublin-Core pour ce qui concerne
> les ressources sur le web, ou depuis plus longtemps les normes MARC
> maintenues par la bibliothèque du congrès pour la description des
> ressources bibliographiques. Plus récemment enfin, des communautés
> plus restreintes en linguistique ont établi des propositions de
> catalogage (OLAC, IMDI). Il existe maintenant suffisamment
> d'expériences dans l'utilisation de ces propositions pour en faire la
> critique, proposer des améliorations, des pistes de réflexion et pour
> établir une charte minimale à respecter par ceux qui souhaitent
> s'engager dans la diffusion de ressources orales linguistiques afin
> d'en faciliter l'échange et plus généralement l'utilisation
> scientifique.
>
> Le codage :
> Si le catalogage est essentiel à l'identification des ressources et à
> la comparaison rapide entre elles, le codage est pour sa part
> essentiel à la description de l'interprétation du contenu de la
> ressource elle-même, et à son exploitation pour des études
> particulières.
> Si le codage d'une transcription de vidéo ou de son est bien un
> travail d'explicitation d'une interprétation établie du point de vue
> d'une discipline d'un objet de recherches, alors on constate là
> également une très grande diversité de pratiques. Les recensements
> opérés lors des initiatives successives EAGLES, MATE puis ISLE ont
> démontré la difficulté d'appréhender l'étendue des divers systèmes de
> codage. La spécification d'un outil logiciel d'annotation universel
> peut être une voie d'accès à des ressources codées de façon
> standardisée, comme cela a été suggéré par ISLE. Mais cela nenous
> dispense pas de faire le travail communautaire consensuel de
> catégorisation, de dénomination et de structuration des phénomènesse
> trouvant au sein des ressources si l'on souhaite une réelle
> interopérabilité des données en vue d'exploitations multiples et
> futures. Il s'agit donc de commencer le travail de standardisation du
> codage des corpus oraux comme cela a déjà commencé pour les corpus
> textuels avec la TEI.
>
> Contrôle qualité :
> En supposant obtenus un compromis sur le catalogage et sur le codage
> des données orales, il est alors nécessaire de se donner des règles et
> des outils de vérification de la conformité de données particulières
> aux principes établis. Nous souhaitons donc également faire le point
> dans ce colloque sur les pratiques de contrôle de la qualité des
> ressources.
>
> ====
> Topics of interest / Thématiques
>
> - description and cataloguing of spoken resources
> - distribution
> - specification of tools
> - research applications
> - archiving
> - publishing of language corpora
> - annotation
> - version control
> - cataloguing and coding standards
> - comparison of resources
> - multimodal and multimedia transcription
> - annotation schemes
> - interoperability
> - evaluation, quality control
>
> - description et référencement des données orales
> - diffusion
> - spécification d'outils
> - exploitation scientifique
> - conservation
> - édition de corpus
> - annotation
> - versionning
> - standards de catalogage et de codage
> - comparaison des ressources
> - transcription multimodale et multimédia
> - schémas d'annotation
> - interopérabilité
> - évaluation, contrôle qualité
>
> ====
> Important dates / Calendrier
>
> Initial Call for papers / Date de l'appel à communication : 11 July /
> juillet 2008
> Submission deadline / Date de soumission des résumés : 29 August / août
> 2008
> Evaluation deadline / Réponse de l'évaluation : 10 October / octobre 2008
>
> ====
> Workshop date and place / Date et lieu du colloque :
>
> 4-5 December / décembre 2008 at Université d'Orléans
>
> ====
> Submissions
>
> - Paper submissions should not exceed 2 pages in length.
> - The abstract should be sent as an attachment in WORD, PDF or RTF
> format. If this is not possible, send the abstract to the postal
> address shown below.
> - At the top of the abstract, outside the typing area, put the title.
> - Your name should only appear in e-mail message carrying the attached
> abstract.
> - Special fonts: If your abstract uses any special fonts, there are two
> options:
> i. In addition to the document in WORD or RTF format, send a PDF document.
> ii. Send a paper copy to the address shown below.
> - When sending the email submission, please follow this format (use
> the numbering system given below):
> 1. Title of abstract:
> 2. Name:
> 3. Address:
> 4. Affiliation:
> 5. Status (faculty, student):
> 6. Email address:
> 7. Fax:
> 8. Phone numbers:
>
> Send abstracts to: catcod2008 at ens-lsh.fr .
>
> If you are unable to send an abstract in an electronic format, mail it to:
>
> CatCod 2008
> s/c M. Plisson
> Laboratoire LLL
> Université d'Orléans - UFR Lettres, Langues et Sciences Humaines
> 10 Rue de Tours - BP 46527 - 45065 ORLEANS Cedex 2 FRANCE
>
> ====
> Propositions de communication
>
> - les résumés des communications ne doivent pas dépasser deux pages.
> - les résumés sont à envoyer au format WORD, PDF ou RTF.
> Si ce n'est pas possible par voie électronique, envoyez votre document
> à l'adresse postale mentionnée plus bas.
> - en entête du résumé, mentionner le titre de votre communication.
> - votre nom ne doit apparaître que dans le courriel accompagnant votre
> résumé.
> - si vous utilisez des caractères spéciaux dans votre résumé, il y deux
> solutions :
> i. en plus du document WORD ou RTF, envoyez un document PDF
> ii. envoyez un document papier au Comité Catcod
> - dans le courriel qui accompagne votre résumé, indiquez les
> information suivantes en respectant la numérotation :
> 1. Titre du résumé
> 2. Nom de l'auteur (ou des auteurs)
> 3. Adresse
> 4. Organisme
> 5. Statut (Etudiant, Chercheur, etc.)
> 6. Adresse électronique
> 7. N° de fax
> 8. N° de téléphone
>
> Envoyez votre résumé à catcod2008 at ens-lsh.fr .
>
> Si vous ne pouvez pas envoyer le résumé par voie électronique, envoyez
> votre courrier à :
>
> CatCod 2008
> s/c M. Plisson
> Laboratoire LLL
> Université d'Orléans - UFR Lettres, Langues et Sciences Humaines
> 10 Rue de Tours - BP 46527 - 45065 ORLEANS Cedex 2 FRANCE
>
>
> ====
> Program Committee / Comité de programme
>
> Jean-Yves Antoine (Université F. Rabelais Tours)
> Claude Barras (LIMSI-CNRS)
> Steven Bird (University of Melbourne & LDC University of
> Pennsylvania)
> Lou Burnard (Oxford University Computing Services)
> Pascal Cordereix (BNF, Paris)
> Benoît Habert (ENS-LSH, Lyon)
> Serge Heiden (ENS-LSH, Lyon)
> Nancy Ide (Vassar College)
> Michel Jacobson (Ministère de la Culture, Paris)
> Laurent Romary (MPI Berlin-INRIA)
> Emmanuel Schang (Université d'Orléans)
> Richard Walter (CNRS, Université d'Orléans)
> Peter Wittenburg (Max-Planck-Institute for Psycholinguistics, Nijmegen)
>
> ====
> Organisation Commitee / Comité d'organisation
>
> Serge Heiden (ENS-LSH, Lyon)
> Michel Jacobson (Ministère de la Culture, Paris)
> Emmanuel Schang (Université d'Orléans)
> Richard Walter (CNRS, Université d'Orléans)
>
> ====
> Sponsors
>
> Agence Nationale pour la Recherche (ANR) : projet VARILING
>
> ====
> Information and Contact / Informations et Contact
>
> Email: catcod2008 at ens-lsh.fr
> Web: http://www.catcod.org
>
>
> _____________________________________________________________
>
>
>
> --
> Richard Walter
>
> Laboratoire MoDyCo
> UMR 7114 (CNRS - Université Paris X) Université Paris X - Nanterre,
> Bâtiment A
> 200, avenue de la République
> 92001 Nanterre cedex
> richard.walter at u-paris10.fr
>
> Projet Variling
> CORAL - Université d'Orléans
> UFR Lettres, Langues et Sciences Humaines
> 10 Rue de Tours - BP 46527
> 45065 ORLEANS Cedex 2
> Tél : +33 (0)2 38 49 40 79
> Fax : +33 (0)2 38 41 71 06
>
>
>
> ----------------------------------------------------------------
> Ce message a ete envoye par IMP, grace a l'Universite Paris 10 Nanterre
>
>
>
>
>
> _______________________________________________
> Modyco-tous mailing list
> Modyco-tous at u-paris10.fr
> https://mailman.u-paris10.fr/mailman/listinfo/modyco-tous
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20080717/90b531a6/attachment.htm>
More information about the Parislinguists
mailing list