[Corpora-List] CatCod 2008 - Call For Papers / App el à Communications
Serge HEIDEN
Slh at ens-lsh.fr
Fri Jul 11 16:33:08 UTC 2008
[version française plus bas]
************************************************
CatCod 2008 - Call For Papers
First International Workshop on
Cataloguing and Coding of Spoken Language Data
December 4 - 5 2008
Université d'Orléans, France
http://www.catcod.org
************************************************
The number of spoken recordings which are digitized and available for
the study and description of language has remained quite small for a
long time and their distribution has been largely confined to
specialized agencies. However, the development of the Web and its
associated storage, distribution and processing technologies have now
made it both practically and economically feasible for many smaller
structures, such as individual research laboratories, to distribute
spoken resources for themselves.
We are thus entering a critical phase. It is now possible to
capitalize on the efforts of projects which have digitized linguistic
data in order to form the empirical basis for entirely new research
projects.
However, many such existing projects in France and Europe shows a
great heterogeneity among in their conformance to established coding
and cataloguing standards for this type of resource. Even though
these same projects were often set up with the aims of facilitating
access to data, and of sharing and preservation of data, we observe
that the diversity of formats, encodings and protocols they use limits
exactly these objectives. In this symposium, we aim to report on the
major initiatives within the field of digital document management
which will potentially have an important influence on standardization.
We would like to stress two specific aspects: the cataloguing of
spoken resources and their encoding.
Cataloguing:
The recent and fast growth of the number of spoken recordings
available on the Web needs to be accompanied by a significant effort
of description and referencing if these data are to be easily
accessible and managed, rather than being buried in the mass of
available data. Some cataloguing practices aim solely to complete the
life cycle of a a resource-creating project. Others explicitly aim to
guide the exploitation, preservation, and the distribution of the
resource in the long term.
Such cataloguing activity is all the more important and urgent in view
of the rapid increase in enhanced methods of handling operations this
mass of data, by means of data exchange, enhancement, and
research. Some research communities are well-organised around
established standards such as the Dublin Core for Web-based resources,
the TEI Header, or the MARC standards maintained by the Library of
Congress for the description of bibliographical resources. More
recently, smaller linguistic communities have established cataloguing
proposals (OLAC, IMDI). People have now had enough experience in the
use of these proposals to be able to criticize them and propose some
improvements. With these new insights, it should be possible to
establish a minimal charter to be respected by those who wish to get
involved in the distribution of spoken language data, in order to
facilitate their exchange and their more general use in research.
Encoding:
If cataloguing is essential for the identification of resources and
for rapid comparisons amongst them, encoding is essential to the
description of the interpretation of their content and also essential
to their exploitation for specific studies. If encoding the
transcription of video or audio material is indeed the clarification
of an interpretation, then one notes here as well a great variety in
the practices.
The inventories made during the EAGLES, MATE and ISLE successive
initiatives have demonstrated how difficulty it is to grasp fully the
extent of various encoding systems. The ISLE project suggested that
only the specification of a universal software tool for annotation
could lead to resources encoded in a standardized way. But this does
not make it any the less necessary for us to attempt a communal and
consensual activity, aiming to categorize, name, and organize the
phenomena found within spoken resources if we hope to achieve true
interoperability of the data, with a view to multiple and future
exploitations. We must now start an exercise for the encoding of oral
corpora similar to what has already been undertaken for written
corpora by the TEI.
Quality control:
Assuming that we can achieve an agreement on the encoding and
cataloguing of spoken data, it will then be necessary to define rules
and develop tools to check the conformance of specific datasets to our
agreed principles. This symposium will also therefore report on
quality control practices and techniques.
==== Français Français Français Français Français Français Français ====
************************************************
CatCod 2008 - Appel à Communications
Premières rencontres internationales pour le
Catalogage et le Codage de corpus oraux
4 - 5 Décembre 2008
à l'Université d'Orléans, France
http://www.catcod.org
************************************************
Le nombre d'enregistrements oraux numérisés et disponibles pour
l'étude et la description des langues est longtemps resté relativement
faible et ceux-ci étaient confinés dans des agences spécialisées qui
en assuraient le partage. Avec l'essor du web et des capacités de
stockage, de diffusion et de traitement, il est devenu abordable pour
des plus petites structures (par ex. des laboratoires de recherche) de
diffuser elles-mêmes leurs ressources orales. Nous sommes désormais à
une étape clé où la capitalisation des efforts de numérisation des
données linguistiques devient possible, ceci afin de former la base
empirique de nouveaux projets de recherche.
L'observation des normes de codage et de catalogage de ce type de
ressources dans les différents projets existants en France et en
Europe, montre une grande hétérogénéité des pratiques. Alors que ces
mêmes projets se sont montés dans le but de faciliter l'accès, le
partage ou la conservation des données, on constate que cette
diversité des formats, des codages et des protocoles utilisés limitent
justement ces objectifs.
Nous souhaitons dans ce colloque faire le point sur les initiatives
majeures dans le monde de la gestion des documents numériques, ayant
potentiellement une influence importante pour la standardisation, en
mettant l'accent sur deux aspects particuliers qui sont : le
catalogage d'une ressource orale et son codage.
Le catalogage :
La croissance récente et rapide du nombre d'enregistrements oraux
disponibles sur le web demande à être accompagnée d'un effort
important de description et de référencement afin que ces données
soient accessibles facilement, ne soient pas noyées dans le masse et
que la gestion en soit facilitée. Il convient à ce titre de
distinguer des pratiques de catalogage qui ont pour vocation le suivi
du cycle de vie d'un projet de constitution de ressources, de celles
qui ont pour vocation à guider l'exploitation, ou la conservation et
la diffusion de ces ressources.
Cette activité de catalogage est d'autant plus importante et urgente
que les opérations de manipulations sur cette masse de données
augmentent elles aussi (échange, maintenance, recherche,
etc.). Certaines communautés se sont déjà fortement organisées et ont
parfois établi des normes comme le Dublin-Core pour ce qui concerne
les ressources sur le web, ou depuis plus longtemps les normes MARC
maintenues par la bibliothèque du congrès pour la description des
ressources bibliographiques. Plus récemment enfin, des communautés
plus restreintes en linguistique ont établi des propositions de
catalogage (OLAC, IMDI). Il existe maintenant suffisamment
d'expériences dans l'utilisation de ces propositions pour en faire la
critique, proposer des améliorations, des pistes de réflexion et pour
établir une charte minimale à respecter par ceux qui souhaitent
s'engager dans la diffusion de ressources orales linguistiques afin
d'en faciliter l'échange et plus généralement l'utilisation
scientifique.
Le codage :
Si le catalogage est essentiel à l'identification des ressources et à
la comparaison rapide entre elles, le codage est pour sa part
essentiel à la description de l'interprétation du contenu de la
ressource elle-même, et à son exploitation pour des études
particulières.
Si le codage d'une transcription de vidéo ou de son est bien un
travail d'explicitation d'une interprétation établie du point de vue
d'une discipline d'un objet de recherches, alors on constate là
également une très grande diversité de pratiques. Les recensements
opérés lors des initiatives successives EAGLES, MATE puis ISLE ont
démontré la difficulté d'appréhender l'étendue des divers systèmes de
codage. La spécification d'un outil logiciel d'annotation universel
peut être une voie d'accès à des ressources codées de façon
standardisée, comme cela a été suggéré par ISLE. Mais cela ne nous
dispense pas de faire le travail communautaire consensuel de
catégorisation, de dénomination et de structuration des phénomènes se
trouvant au sein des ressources si l'on souhaite une réelle
interopérabilité des données en vue d'exploitations multiples et
futures. Il s'agit donc de commencer le travail de standardisation du
codage des corpus oraux comme cela a déjà commencé pour les corpus
textuels avec la TEI.
Contrôle qualité :
En supposant obtenus un compromis sur le catalogage et sur le codage
des données orales, il est alors nécessaire de se donner des règles et
des outils de vérification de la conformité de données particulières
aux principes établis. Nous souhaitons donc également faire le point
dans ce colloque sur les pratiques de contrôle de la qualité des
ressources.
====
Topics of interest / Thématiques
- description and cataloguing of spoken resources
- distribution
- specification of tools
- research applications
- archiving
- publishing of language corpora
- annotation
- version control
- cataloguing and coding standards
- comparison of resources
- multimodal and multimedia transcription
- annotation schemes
- interoperability
- evaluation, quality control
- description et référencement des données orales
- diffusion
- spécification d'outils
- exploitation scientifique
- conservation
- édition de corpus
- annotation
- versionning
- standards de catalogage et de codage
- comparaison des ressources
- transcription multimodale et multimédia
- schémas d'annotation
- interopérabilité
- évaluation, contrôle qualité
====
Important dates / Calendrier
Initial Call for papers / Date de l'appel à communication : 11 July / juillet 2008
Submission deadline / Date de soumission des résumés : 29 August / août 2008
Evaluation deadline / Réponse de l'évaluation : 10 October / octobre 2008
====
Workshop date and place / Date et lieu du colloque :
4-5 December / décembre 2008 at Université d'Orléans
====
Submissions
- Paper submissions should not exceed 2 pages in length.
- The abstract should be sent as an attachment in WORD, PDF or RTF
format. If this is not possible, send the abstract to the postal
address shown below.
- At the top of the abstract, outside the typing area, put the title.
- Your name should only appear in e-mail message carrying the attached abstract.
- Special fonts: If your abstract uses any special fonts, there are two options:
i. In addition to the document in WORD or RTF format, send a PDF document.
ii. Send a paper copy to the address shown below.
- When sending the email submission, please follow this format (use
the numbering system given below):
1. Title of abstract:
2. Name:
3. Address:
4. Affiliation:
5. Status (faculty, student):
6. Email address:
7. Fax:
8. Phone numbers:
Send abstracts to: catcod2008 at ens-lsh.fr .
If you are unable to send an abstract in an electronic format, mail it to:
CatCod 2008
s/c M. Plisson
Laboratoire LLL
Université d'Orléans - UFR Lettres, Langues et Sciences Humaines
10 Rue de Tours - BP 46527 - 45065 ORLEANS Cedex 2 FRANCE
====
Propositions de communication
- les résumés des communications ne doivent pas dépasser deux pages.
- les résumés sont à envoyer au format WORD, PDF ou RTF.
Si ce n'est pas possible par voie électronique, envoyez votre document
à l'adresse postale mentionnée plus bas.
- en entête du résumé, mentionner le titre de votre communication.
- votre nom ne doit apparaître que dans le courriel accompagnant votre résumé.
- si vous utilisez des caractères spéciaux dans votre résumé, il y deux solutions :
i. en plus du document WORD ou RTF, envoyez un document PDF
ii. envoyez un document papier au Comité Catcod
- dans le courriel qui accompagne votre résumé, indiquez les
information suivantes en respectant la numérotation :
1. Titre du résumé
2. Nom de l'auteur (ou des auteurs)
3. Adresse
4. Organisme
5. Statut (Etudiant, Chercheur, etc.)
6. Adresse électronique
7. N° de fax
8. N° de téléphone
Envoyez votre résumé à catcod2008 at ens-lsh.fr .
Si vous ne pouvez pas envoyer le résumé par voie électronique, envoyez
votre courrier à :
CatCod 2008
s/c M. Plisson
Laboratoire LLL
Université d'Orléans - UFR Lettres, Langues et Sciences Humaines
10 Rue de Tours - BP 46527 - 45065 ORLEANS Cedex 2 FRANCE
====
Program Committee / Comité de programme
Jean-Yves Antoine (Université F. Rabelais Tours)
Claude Barras (LIMSI-CNRS)
Steven Bird (University of Melbourne & LDC University of Pennsylvania)
Lou Burnard (Oxford University Computing Services)
Pascal Cordereix (BNF, Paris)
Benoît Habert (ENS-LSH, Lyon)
Serge Heiden (ENS-LSH, Lyon)
Nancy Ide (Vassar College)
Michel Jacobson (Ministère de la Culture, Paris)
Laurent Romary (MPI Berlin-INRIA)
Emmanuel Schang (Université d'Orléans)
Richard Walter (CNRS, Université d'Orléans)
Peter Wittenburg (Max-Planck-Institute for Psycholinguistics, Nijmegen)
====
Organisation Commitee / Comité d'organisation
Serge Heiden (ENS-LSH, Lyon)
Michel Jacobson (Ministère de la Culture, Paris)
Emmanuel Schang (Université d'Orléans)
Richard Walter (CNRS, Université d'Orléans)
====
Sponsors
Agence Nationale pour la Recherche (ANR) : projet VARILING
====
Information and Contact / Informations et Contact
Email: catcod2008 at ens-lsh.fr
Web: http://www.catcod.org
_____________________________________________________________
Serge Heiden, slh at ens-lsh.fr, https://weblex.ens-lsh.fr
ENS-LSH/CNRS - ICAR UMR5191, Institut de Linguistique Française
15, parvis René Descartes 69342 Lyon BP7000 Cedex, tél. +33(0)622003883
_______________________________________________
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora
More information about the Corpora
mailing list