<div>Numerous argument exist for the benefits of free and open resources. In our corpus project, the Icelandic Parsed Historical Corpus (IcePaHC), one of our goals is to identify how we can make the most out of these benefits and compare our approach to the approaches that others have taken with their parsed corpora (the same issues will of course in many cases apply equivalently to other types of resources). Our goal is not to "win the competition of the most free parsed corpus", but rather to learn what steps one might take to maximize the benefits of such an approach, while doing our best to carry out these steps in the context of our project.</div>
<div><br></div><div>Below is a list of steps we decided to pursue to this end.</div><div>We would like to ask Corpora List:</div><div>- Are there some other concrete steps that we should state explicitly in order to acheive our goal?</div>
<div>- Do you disagree with some of the steps?</div><div>- What is the situation for other parsed corpora with regard to the steps we list? In particular it would be useful to get a "yes/no/comment" for each item on the list for a particular corpus and/or a reference to a paper/website that can be cited for that information.</div>
<div><br></div><div>The steps we have taken with IcePaHC:</div><div>1) Raw data available can be downloaded for local use (corpus not hidden behind a search interface)</div><div>2) Comprehensive documentation freely available online</div>
<div>3) Available without registration, user identification of some sort, or signing of contracts</div><div>4) Development process of corpus relies only on free/open source software tools (for transparent replication of annotation process)</div>
<div>5) Open development (annotation is carried out in an open online version control repository for transparency regarding the actual steps taken in the development and immediate access to work-in-progress)</div><div>6) Regular scheduled releases of numbered versions during development as well as for more permanent milestone versions so that researchers can always produce replicable results on a recent version of the corpus</div>
<div>7) Users can improve the corpus and release modified versions without special permission</div><div>8) Free of cost to academia</div><div>9) Free of cost to commercial users</div><div>10) Corpus released under a standard free license of some sort for straightforward compatibility with other projects (GPL, LGPL, CC, etc.)</div>
<div><br></div><div>The latest version of our corpus, IcePaHC, preview version 0.3, with 262.000 words is available for download as described in the announcement below.</div><div><br></div><div>-----------</div><div><br></div>
<div>Available: Icelandic Parsed Historical Corpus, V0.3</div><div><br></div><div>We are pleased to announce that version 0.3 of the Icelandic Parsed Historical Corpus (IcePaHC) is now available for free download. </div><div>
<br></div><div>The corpus is syntactically parsed, annotated for full phrase structure using an adaptation of the annotation scheme used by the Penn parsed corpora of historical English (<a href="http://www.ling.upenn.edu/hist-corpora/">http://www.ling.upenn.edu/hist-corpora/</a>) and other corpora in that tradition (see links from website). The corpus contains ca. 262.000 words from every century between the 12th and the 19th centuries inclusive. Please note that this is about a quarter of the ultimate goal for the completed corpus, ca. 1 million words.</div>
<div><br></div><div>The corpus is distributed as raw UTF-8 data in labeled bracketing format and it is therefore compatible with various existing programs, including CorpusSearch (<a href="http://corpussearch.sourceforge.net/">http://corpussearch.sourceforge.net/</a>).</div>
<div><br></div><div>The corpus can be downloaded from:</div><div><a href="http://www.linguist.is/icelandic_treebank/Download">www.linguist.is/icelandic_treebank/Download</a></div><div><br></div><div>Further information on the annotation guidelines and project organization can be found on the project wiki:</div>
<div><a href="http://www.linguist.is/icelandic_treebank/">www.linguist.is/icelandic_treebank/</a></div><div><br></div><div>We hope that this release will result in feedback that allows us to improve the resource for upcoming versions. Updates are released every three months - the upcoming 0.4 version will be released on April 4th 2011. Between releases, development can be tracked at our open repository at Github (<a href="http://github.com/antonkarl/icecorpus">http://github.com/antonkarl/icecorpus</a>) but use of released versions is encouraged to ensure that results can be replicated.</div>
<div><br></div><div>Texts included in Version 0.3:</div><div>4439 words from The First Grammatical Treatise (entire text) (12th century)</div><div>8179 words from Íslensk hómilíubok (Icelandic book of homilies) (12th century)</div>
<div>3459 words from Egils saga (theta fragment) (13th century)</div><div>22720 words from Sturlunga saga (13th century)</div><div>23040 words from Finnboga saga ramma (1350)</div><div>11486 words from Bandamanna saga (1450)</div>
<div>23041 words from Vilhjálms saga Sjóðs (1450)</div><div>8582 words from Erasmus saga (1525)</div><div>20683 words from the New Testament's Gospel of John (1540)</div><div>16421 words from the New Testament's Acts (1540)</div>
<div>17127 words from Ólafur Egilsson's travelogue (1628)</div><div>9760 words from Píslarsaga Jóns Magnússonar (1659)</div><div>22905 words from Jón Indíafari's travelogue (1661)</div><div>22099 words from Jón Steingrímsson's biography (1791)</div>
<div>3269 words from Jónas Hallgrímsson's essay on the nature and origin of the earth (1835)</div><div>17837 words from Piltur og stúlka (novel by Jón Thoroddsen) (1850)</div><div>27192 words from Brynjólfur Sveinsson biskup (novel by Torfhildur Hólm) (1882)</div>
<div>Total number of words: 262240</div><div><br></div><div><br></div><div>Joel C. Wallenberg (<a href="mailto:joel.wallenberg@gmail.com">joel.wallenberg@gmail.com</a>)</div><div>Anton Karl Ingason (<a href="mailto:anton.karl.ingason@gmail.com">anton.karl.ingason@gmail.com</a>)</div>
<div>Einar Freyr Sigurðsson (<a href="mailto:einarfs@gmail.com">einarfs@gmail.com</a>)</div><div>Eiríkur Rögnvaldsson (<a href="mailto:eirikur@hi.is">eirikur@hi.is</a>)</div><div>University of Iceland</div><div><br></div>
<div>The project is funded by the following grants:</div><div><br></div><div>Icelandic Research Fund (RANNÍS), grant nr. 090662011,"Viable Language Technology beyond English – Icelandic as a test case".</div><div>
<br></div><div>U.S. National Science Foundation (NSF) International Research Fellowship Program (IRFP), grant #OISE-0853114, "Evolution of Language Systems: a comparative study of grammatical change in Icelandic and English".</div>
<div><br></div>