<div>We are pleased to announce that version 0.2 of the Icelandic Parsed Historical Corpus (IcePaHC) is now available for free download. </div><div><br></div><div>The corpus is syntactically parsed, annotated for full phrase structure using an adaptation of the annotation scheme used by the Penn parsed corpora of historical English (<a href="http://www.ling.upenn.edu/hist-corpora/">http://www.ling.upenn.edu/hist-corpora/</a>) and other corpora in that tradition (see links from website). The corpus contains ca. 120.000 words from 6 different centuries (12th, 13th, 16th, 17th, 18th and 19th). Please note that this is a small portion of the ultimate goal for the completed corpus, ca. 1 million words from the 12th-19th centuries.</div>
<div><br></div><div>The corpus is distributed as raw UTF-8 data in labeled bracketing format and it is therefore compatible with various existing programs, including CorpusSearch (<a href="http://corpussearch.sourceforge.net/">http://corpussearch.sourceforge.net/</a>).</div>
<div><br></div><div>The corpus can be downloaded from:</div><div><a href="http://www.linguist.is/icelandic_treebank/Download">www.linguist.is/icelandic_treebank/Download</a></div><div><br></div><div>Further information on the annotation guidelines and project organization can be found on the project wiki:</div>
<div><a href="http://www.linguist.is/icelandic_treebank/">www.linguist.is/icelandic_treebank/</a></div><div><br></div><div>We hope that this release will result in feedback that allows us to improve the resource for upcoming versions. Updates are released every three months - the upcoming 0.3 version will be released on January 1st 2011. Between releases, development can be tracked at our open repository at Github (<a href="http://github.com/antonkarl/icecorpus">http://github.com/antonkarl/icecorpus</a>) but use of released versions is encouraged to ensure that results can be replicated.</div>
<div><br></div><div>Texts included in Version 0.2:</div><div>4585 words from The First Grammatical Treatise (entire text) (12th century)</div><div>8179 words from Íslensk hómilíubok (Icelandic book of homilies) (12th century)</div>
<div>3459 words from Egils saga (theta fragment) (13th century)</div><div>22719 words from Sturlunga saga (13th century)</div><div>20683 words from the New Testament's Gospel of John (1540)</div><div>16421 words from the New Testament's Acts (1540)</div>
<div>4521 words from Jón Indíafari's travelogue (1661)</div><div>22097 words from Jón Steingrímsson's biography (1791)</div><div>17837 words from Piltur og stúlka (novel by Jón Thoroddsen) (1850)</div><div>Total number of words: 120355</div>
<div><br></div><div><br></div><div>Joel Wallenberg (<a href="mailto:joel.wallenberg@gmail.com">joel.wallenberg@gmail.com</a>)</div><div>Anton Karl Ingason (<a href="mailto:anton.karl.ingason@gmail.com">anton.karl.ingason@gmail.com</a>)</div>
<div>Einar Freyr Sigurðsson (<a href="mailto:einarfs@gmail.com">einarfs@gmail.com</a>)</div><div>Eiríkur Rögnvaldsson (<a href="mailto:eirikur@hi.is">eirikur@hi.is</a>)</div><div>University of Iceland</div><div><br></div>
<div>The project is funded by the following grants:</div><div><br></div><div>Icelandic Research Fund (RANNÍS), grant nr. 090662011,"Viable Language Technology beyond English – Icelandic as a test case".</div><div>
<br></div><div>U.S. National Science Foundation (NSF) International Research Fellowship Program (IRFP), grant #OISE-0853114, "Evolution of Language Systems: a comparative study of grammatical change in Icelandic and English".</div>
<div><br></div>