Thank you Marco for your reply. <br>Our corpus has classic as well as medieval Latin. <br>It woud be very good if you could provide us with <span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d"><font><span style="color:rgb(0,0,0)">Index Thomisticus Treebank</span></font> </span>we might have better results. <br>
<br>If there is anyone interested the corpus can be consulted at:<br><a href="http://parles.upf.edu/llocs/cqp/latin/">http://parles.upf.edu/llocs/cqp/latin/</a><br>user:guest<br>password:guest<br><br>Eva Bofias<br><br><div class="gmail_quote">
2013/3/19 Passarotti Marco Carlo <span dir="ltr"><<a href="mailto:marco.passarotti@unicatt.it" target="_blank">marco.passarotti@unicatt.it</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">







<div link="blue" vlink="purple" lang="IT">
<div>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">Hi Eva,<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">in this paper the results on an experiment on PoS-tagging Latin with TreeTagger are reported.<u></u><u></u></span></p>


<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">Bamman, D. & Crane, G. (2008). Building a Dynamic Lexicon from a Digital Library. In Proceedings of the 8th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL
 2008).<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">The authors use the tagset of the Perseus Digital Library.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">The training set features Classical Latin texts.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">But this is not the training set used to train the Latin parameter file available on the website of TreeTagger.<u></u><u></u></span></p>


<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">No tagset documentation on Latin is reported on TreeTagger homepage. From the parameter file, it seems like it uses the tagset of William Whitaker's Words: but I am
 not sure.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">The Latin TreeTagger was trained using resources (treebanks) that share the same syntactic annotation style, but feature different morphological tagsets. Further,
 the language of the three Latin resources used to train the tagger is pretty different (Classical Latin, Late Latin, Medieval Latin; prose-poetry; different authors).<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">From our experience, I can say that genre, author and era are features that affect very much the performances of PoS taggers (at least for ancient languages). Thus,
 maybe it is better to train a tool with less data, but more homogeneous.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">It depends on "which kind of Latin" you want to tag.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">If you are interested in tagging Medieval Latin, I can provide you with the Index Thomisticus Treebank and you can train the HunPos tagger by yourself (it works very
 well with our data).<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">Hope it helps.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">Best,<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d">Marco<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Courier New";color:#1f497d"><u></u> <u></u></span></p>
<div style="border:none;border-top:solid #b5c4df 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:"Segoe UI","sans-serif"">Da:</span></b><span style="font-size:10.0pt;font-family:"Segoe UI","sans-serif""> <a href="mailto:corpora-bounces@uib.no" target="_blank">corpora-bounces@uib.no</a> [mailto:<a href="mailto:corpora-bounces@uib.no" target="_blank">corpora-bounces@uib.no</a>]
<b>Per conto di </b>BOFÍAS ALBERCH, EVA<br>
<b>Inviato:</b> martedì 19 marzo 2013 13.06<br>
<b>A:</b> <a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a><br>
<b>Oggetto:</b> [Corpora-List] tagset for latin in tree-tagger<u></u><u></u></span></p>
</div><div><div>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Hi, <br>
I am using the Tree-Tagger for tagging a Latin corpus. I haven't been able to find the tagset. Does any one have it or know where to find documentation related to the tags they use in Latin?<br>
<br>
Thanks<br>
Eva Bofias<u></u><u></u></p>
</div></div></div>
</div>

</blockquote></div><br>