<!doctype html public "-//W3C//DTD W3 HTML//EN">
<html><head><style type="text/css"><!--
blockquote, dl, ul, ol, li { padding-top: 0 ; padding-bottom: 0 }
 --></style><title>Re: [An-lang] AN corpora</title></head><body>
<div>Further to this discussion of corpora is the issue of how and
where these data sets are kept and how easy they are to obtain.
Typically, you ask the creator, if you know how to contact that person
and you know the data exists.</div>
<div><br></div>
<div>Further, what happens to these resources when the creator
retires?</div>
<div><br></div>
<div>To assist in the controlled access to and the discovery and
storage of these kinds of resources, colleagues at the Universities of
Sydney, Melbourne and the ANU have established a digital archive
called PARADISEC (Pacific And Regional Archive for Digital Sources in
Endangered Cultures). This project has already digitsed over 500 hours
of audio tapes that were located  in filing drawers in the Coombs
building at the ANU.</div>
<div><br></div>
<div>The focus of the project in its first year has been digitising
audio tapes, but we would also like to include theses, manuscripts,
wordlists, elicitation aids and so on. In short, the archive is a
resource to facilitate research, subject to normal copyright and
deposit conditions.</div>
<div><br></div>
<div>We are asking the community of scholars on AN-LANG to deposit in
the archive any digital material relevant to the list members. Deposit
and access forms can be found on our website, as can further details
about the project.</div>
<div><br></div>
<div>For any further details please contact me or visit our
website.</div>
<div><br></div>
<div><br></div>
<div>Nick Thieberger</div>
<div><br></div>
<div><font color="#19261D">PARADISEC Project Manager</font></div>
<div><font color="#000000">nicholas.thieberger</font><font
color="#19261D">@paradisec.org.au</font></div>
<div>http://paradisec.org.au</div>
<div><br></div>
<div>At 12:03 PM +1000 31/5/04, Andy Pawley wrote:</div>
<blockquote type="cite" cite>In response to Ross Clark's note, there
is at least one electronic corpus of  Samoan with frequency
analysis. This was compiled by Galumalemana Alfred Hunkin for his 2001
MA thesis:<i> A Corpus of Contemporary Colloquial Samoan</i>, in the
School of Linguistics and Applied Linguistics, Victoria University of
Wellington.  The corpus consists of about 300,000 words, made up
of 300 samples spoken and written Samoan. Mr Hunkin
<Alfred.Hunkin@vuw.ac.nz> teaches Samoan at Victoria U.
Wellington.</blockquote>
<blockquote type="cite" cite><br></blockquote>
<blockquote type="cite" cite>Andy Pawley</blockquote>
<blockquote type="cite" cite><br>
<blockquote type="cite" cite>Someone asked me whether there are word
frequency statistics available for<br>
Samoan, such as exist for English and other big languages. I think
probably<br>
not, and further it occurred to me that such statistics depend on a
corpus<br>
of the language in question -- nowadays assumed to be
computer-searchable.<br>
Corpus linguistics seems to be pretty trendy in English right now. But
I<br>
wonder whether there are comparable bodies of text for any
Austronesian<br>
languages? At one time the Maori Studies people here had at least
the<br>
beginnings of one, and I believe the Maori Newspapers project aims<br>
eventually to have a searchable online corpus. Any other news?<br>
</blockquote>
<blockquote type="cite" cite>Ross Clark</blockquote>
</blockquote>
<div><br></div>
</body>
</html>