<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=windows-1252"
 http-equiv="Content-Type">
  <title></title>
</head>
<body bgcolor="#ffffcc" text="#660000">
Dear all,<br>
<br>
A few days ago, our discussion on archives of annotated texts triggered
the mention of LACITO's on-line <b>Archives of Endangered Languages</b>
(named "Archivage").<br>
Unfortunately, the site was undergoing maintenance precisely these
days, so you probably did not see much of it.<br>
<br>
The update was done yesterday. Of course there are still a few things
that need fixing, but essentially you can now figure out what it looks
like, by clicking on this link:<br>
<a class="moz-txt-link-freetext" href="http://lacito.vjf.cnrs.fr/archivage/index.htm">http://lacito.vjf.cnrs.fr/archivage/index.htm</a>. <br>
<br>
The public archive currently contains over 195 documents in 43
languages, annotated by some twenty specialists; and there are many
other documents awaiting processing. <br>
All texts can be listened to, and read in bilingual or trilingual
format. Most have also been annotated with word-to-word glosses. <br>
<br>
Comments (offline) are most welcome -- especially as we are in the
process of re-designing our site. I'll pass them on to the managers of
this part of the site (Boyd Michailovsky, Michel Jacobson, Anne
Behaghel).<br>
<br>
Best to all,<br>
<br>
Alex.<br>
<br>
<hr size="2" width="100%">
<div align="right">
<pre class="moz-signature" cols="72"><small>Alex François
LACITO - CNRS
7 rue Guy Môquet
F - 94801  Villejuif
  FRANCE

email  <a class="moz-txt-link-abbreviated" href="mailto:Alexandre.Francois@vjf.cnrs.fr">Alexandre.Francois@vjf.cnrs.fr</a>

<a class="moz-txt-link-freetext" href="http://lacito.vjf.cnrs.fr/membres/francois.htm">http://lacito.vjf.cnrs.fr/membres/francois.htm</a>
<a class="moz-txt-link-freetext" href="http://alex.francois.free.fr">http://alex.francois.free.fr</a></small></pre>
</div>
<br>
<hr size="2" width="100%"><br>
Margaret Dunham a écrit :
<blockquote cite="mid4624B21F.4090804@club-internet.fr" type="cite">The
LACITO archive is indeed a wonderful source for annotated texts, freely
accessible to researchers and speakers alike, but unfortunately it is
in the process of being updated, so please have some patience before
trying to access it!
  <br>
  <br>
To address the issues raised by Peter Austin - in my opinion, the best
way to have one's work acknowledged is to make it freely accessible, as
notoriety makes plagiarism more difficult, and easier to point out.
  <br>
  <br>
The question of ethics is more delicate, but in my experience, people
are delighted to make their knowledge accessible (blogs are one example
of this), especially if their grandchildren, who in a lot of cases will
have stopped speaking the language, can come back later and listen, and
understand!
  <br>
  <br>
Does anyone know if the ELP, DoBeS, AILLA, etc. archives will
eventually be opened to the public?
  <br>
  <br>
Yours,
  <br>
Margaret Dunham
  <br>
  <br>
  <br>
  <br>
  <br>
Vanhove a écrit :
  <br>
  <blockquote type="cite">Dear all,
    <br>
    <br>
You have a wonderful electronic archive of annotated texts (+
morphological data, etc.) done by fieldlinguists accessible at http
<a class="moz-txt-link-rfc2396E" href="http://lacito.vjf.cnrs.fr/archivage/presentation_fr.htm"><http://lacito.vjf.cnrs.fr/archivage/presentation_fr.htm></a>://lacito.vjf.cnrs.fr/archivage/presentation_fr.htm
<a class="moz-txt-link-rfc2396E" href="http://lacito.vjf.cnrs.fr/archivage/presentation_fr.htm"><http://lacito.vjf.cnrs.fr/archivage/presentation_fr.htm></a> and at
    <br>
<a class="moz-txt-link-freetext" href="http://crdo.vjf.cnrs.fr:8080/exist/crdo/">http://crdo.vjf.cnrs.fr:8080/exist/crdo/</a>. The original schema was set
up by the Lacito (CNRS France) and Michel Jacobson, and it is opened to
other fieldlinguists.
    <br>
    <br>
There is a growing awareness in France that electronic publications
have to count as publications in our evaluation system, but citability
is still a problem (not always though). At the CNRS, we are encouraged
to put this kind of publications on our CVs.
    <br>
    <br>
There is an ongoing joint project of fieldlinguists (just starded, a
website should be available soon) on "Oral corpuses in Afro-Asiatic
languages: Prosodic and morphosyntactic analysis" funded by the Agence
Nationale de la Recherche (responsible Amina Mettouchi, Nantes
University), which seems to fullfill all five traditional roles of
paper publication. Following is the description of the project:
    <br>
    <br>
The aim of this project is to establish a methodology in order to unify
and share spoken field data in one phylum, Afroasiatic. This
methodology is based on the linguistic analysis of the prosodic and
morphosyntactic structure
    <br>
of the languages studied in the project. We aim at compiling a pilot
corpus accessible on-line to the scientific community, in particular
for typological studies. The term ‘corpus’ implies that we are not
compiling an archive for conservation purposes, but a structured body
of systematically unified transcripts, accompanied by morphosyntactic
annotations, and associating sound and text. This creation is grounded
in the theoretical analysis of spoken field data.
    <br>
This effort towards the unification of the data and its sharing is
linked to two levels of analysis, implying both a theoretical stake and
a practical one.
    <br>
• the level of prosodic analysis: which units of spoken language are
relevant for the languages under study, and on which principles are
they founded (cognitive, phonological, pragmatic…)?
    <br>
• the level of morphosyntactic analysis: how can we code in a unified
manner the minimal segmental units of the languages, for the whole
sample?
    <br>
Through this project, we would like to contribute to answering the
following questions: • What are the units of spoken language?
    <br>
• Do those units differ on the basis of the tonal or accentual nature
of the intonation systems of the languages?
    <br>
• How are prosody and morphosyntax articulated (especially at
information-structure level)?
    <br>
• What is the optimal degree of unification of the annotations, in
order to both respect the specificities of languages, and provide a
comparative basis for typology?
    <br>
In order to provide answers to those questions, we will compile a
pilot-corpus built according to the following criteria:
    <br>
o it will be freely accessible on-line in xml format,
    <br>
o it will be constituted of languages belonging to the Afroasiatic
phylum, with three hours of recorded materials per language,
    <br>
o it will be segmented into prosodic units
    <br>
o it will minimally contain: a transcript, a translation, interlinear
glossing, and the sound (downloadable on-line) will be indexed to the
texts.
    <br>
    <br>
Best
    <br>
    <br>
Martine
    <br>
    <br>
    <br>
    <br>
    <br>
A 09:58 17/04/2007 +0200, Martin Haspelmath a écrit :
    <br>
    <br>
    <blockquote type="cite">Yes, the issue of data publication also
arises in field linguistics in a similar way. It has been my impression
that since there are many more field linguists than typologists, and
since there are some large-scale initiatives such as DoBeS (Volkswagen
Foundation) and ELP (Rausing Foundation/SOAS), field linguists have
talked much more about these issues. At least they have invested a lot
of effort into creating archives for field data such as AILLA, the
DoBeS archive and the ELAR (ELP archive).
      <br>
      <br>
However, it is unclear to me whether or how these archives address the
need to fulfill the five traditional roles of paper publication:
recognition, citability, accessibility, standardization, and
cross-searchability. It seems that they mostly address a sixth role
(that I had forgotten to mention in my original posting), permanence
(though fieldworkers also seem to have discussed the issue of
standardization).
      <br>
      <br>
So I wonder whether someone can explain why those fieldworkers that do
care about modern electronic methods (in my perception, the vast
majority) have not devoted a lot of energy to electronic publication.
Wouldn't it be great if anyone could read (and even cross-search) all
those texts that fieldworkers have gathered and annotated? If one could
refer to these texts as real publications, and if the researchers could
put them on their CV along with the other publications?
      <br>
      <br>
Martin
      <br>
      <br>
Stuart Robinson wrote:
      <br>
      <br>
      <blockquote type="cite">Ashild has a good point. Part of the
problem is the culture of descriptive
        <br>
linguistics, where there is still a fair bit of indifference and even
        <br>
hostility towards the technological investment required to support
        <br>
sustainable digital fieldwork data. I'm thinking, for example, of Bob
        <br>
Dixon's statement on this list when he received the Leonard Bloomfield
        <br>
award:
        <br>
                                                                                                                                                                         
        <br>
"A word addressed to junior colleagues who think that it
will                                                                                                            
        <br>
improve their work to immerse it in the latest electronic
technology.                                                                                                    
        <br>
Don't. Because it won't. I worked on the Jarawara grammar as I did
on                                                                                                    
        <br>
previous grammars of Dyirbal, of Yidi?, of Boumaa Fijian (and
of                                                                                                         
        <br>
English). I used pencil, pen and spiral-bound notebooks, plus a couple
of                                                                                                
        <br>
good-quality tape recorders. No video camera (to have
employed                                                                                                           
        <br>
one would have compromised my role in the community). No lap-top.
No                                                                                                     
        <br>
shoebox or anything of that nature. And no also
grammatical                                                                                                              
        <br>
elicitation from the lingua
franca."                                                                                                                                     
        <br>
                                                                                                                                                                         
        <br>
This passed without comment when it was posted roughly a year ago, but
if
        <br>
people are serious about recognizing the value of electronic data, it
        <br>
shouldn't have.
        <br>
        <br>
Best,                                                                                                                                                                    
        <br>
Stuart Robinson
        <br>
        <br>
On Mon, 16 Apr 2007, Ashild Naess wrote:
        <br>
        <br>
 
        <br>
        <br>
        <blockquote type="cite">Dear Martin,
          <br>
          <br>
the question you raise is just as relevant for descriptive linguistics;
properly annotated corpora of descriptive data require an enormous
amount of analysis work, but are generally not recognised as research
output by those who count such things. Finding ways of having
electronic data sets recognised as publications would be a great
benefit to the whole field.
          <br>
          <br>
There was some discussion of the question at a recent conference in
Sydney on electronic data collection, annotation and archiving. The
following paper from the conference proceedings may be of interest:
          <br>
          <br>
Coleman, Ross. 2006. Field, file, data, conference: Towards new modes
of scholarly publication. In Linda Barwick and Nicholas Thieberger
(eds): Sustainable data from digital fieldwork. Sydney: Sydney
University Press. 163-174.
          <br>
          <br>
The paper is available online at
<a class="moz-txt-link-freetext" href="http://ses.library.usyd.edu.au/handle/2123/1300">http://ses.library.usyd.edu.au/handle/2123/1300</a>
          <br>
          <br>
Best,
          <br>
          <br>
Åshild
          <br>
          <br>
On 13.04.2007 16:21, Martin Haspelmath wrote:
          <br>
   <br>
          <blockquote type="cite">Dear typologists,
            <br>
            <br>
Last week at an informal meeting of the European Typology Network in
Leipzig, we discussed the issue of publishing typological databases. In
the past, this was a practical problem, because journals and book
publishers were reluctant to print many pages of tabular data. The
basic practical problem has disappeared with modern information
technology, but many problems remain, and it would be good if
typologists made a joint effort to address them.
            <br>
            <br>
Traditional paper publication simultaneously fulfills at least four
distinct functions:
            <br>
            <br>
(i) giving *recognition* (or even prestige) to a researcher's work, so
that they can list it on their CV as the visible outcome of their work
            <br>
            <br>
(ii) *citability*, i.e. allowing users of published work to build on
this work without having to vouch for it personally, without having to
mention all the details, etc.
            <br>
            <br>
(iii) *accessibility*, i.e. allowing users in many different places (in
principle, at any institution devoted to research, and beyond) to
access the results of the work
            <br>
            <br>
(iv) *standardization*, i.e. things like uniform glossing,
bibliographical references, section organization, or even uniform
terminology (in some particular context, e.g. an edited volume)
            <br>
            <br>
All of these functions are important also for typological databases,
but while some progress has been made with regard to (iii)
(accessibility), the other requirements (recognition, citability, and
standardization) still need a lot of thinking and work on our part. You
can access some typological databases such as the Surrey morphology
databases (<a class="moz-txt-link-freetext" href="http://www.smg.surrey.ac.uk/">http://www.smg.surrey.ac.uk/</a>), the Berlin-Utrecht
Reciprocals Survey (<a class="moz-txt-link-freetext" href="http://languagelink.let.uu.nl/burs/index.php">http://languagelink.let.uu.nl/burs/index.php</a>), the
Graz Reduplication database (<a class="moz-txt-link-freetext" href="http://ling.uni-graz.at/reduplication/">http://ling.uni-graz.at/reduplication/</a>),
but these websites generally don't say how to cite data from these
databases, so they do not give enough recognition to the authors.
            <br>
            <br>
Standardization has been addressed by the Typological Database System
(<a class="moz-txt-link-freetext" href="http://languagelink.let.uu.nl/tds/">http://languagelink.let.uu.nl/tds/</a>), and this project additionally
aims for a fifth function, *cross-searchability*, that was not possible
with traditional paper publication at all.
            <br>
            <br>
Another problem is how to divide databases into units: Some databases
(such as the database of the World Atlas of Language Structures, which
will become available on the web in 2008) are aggregates of datasets
contributed by many different authors, which should be citable
separately. Also for the databases created by a smaller team, it may be
desirable to specifiy more precisely which author did what. In
traditional paper publications, we had two kinds of units, articles and
books, which could be single-authored or multi-authored (occasionally
with some ranking of the authors). Maybe it would be desirable to allow
more different units, and more different roles (e.g. content provider
vs. database designer?).
            <br>
            <br>
Any ideas how typologists should go about solving these problems?
            <br>
            <br>
Martin
            <br>
            <br>
      </blockquote>
          <br>
          <br>
    </blockquote>
        <br>
        <br>
  </blockquote>
      <br>
      <br>
      <br>
-- <br>
Martin Haspelmath (<a class="moz-txt-link-abbreviated" href="mailto:haspelmath@eva.mpg.de">haspelmath@eva.mpg.de</a>)
      <br>
Max-Planck-Institut fuer evolutionaere Anthropologie, Deutscher Platz 6
D-04103 Leipzig     Tel. (MPI) +49-341-3550 307, (priv.) +49-341-980
1616
      <br>
    </blockquote>
  </blockquote>
</blockquote>
<pre class="moz-signature" cols="72">
</pre>
</body>
</html>