Dear corpora members,<br>we've released an open morphological analyser for Polish. The analyser consists of two parts:<br>• the morphological dictionary, resulting from tagset conversion from Morfologik 1.7(<a href="http://morfologik.blogpot.com" target="_blank">morfologik.blogpot.com</a>) — licensed under Creative Commons ShareAlike or GNU LGPL (the user is free to choose),<br>


• configurable morphological analysis and tokenisation framework called Maca (GNU GPL; bundled with ready-to-use configurations for Polish and the above dictionary compiled as a transducer).<br><br>The analyser is able to output in the tagset of the IPI PAN Corpus. This is important, since MSD taggers for Polish (at least TaKIPI and Pantera) resort to external analysers when tagging plain text — and to the best of our knowledge, there is no other free combination of a training corpus and an analyser that operate on the same tagset.<br>


<br>Dictionary “source” and its description: <a href="http://nlp.pwr.wroc.pl/redmine/projects/libpltagger/wiki/Morfologik_converted" target="_blank">http://nlp.pwr.wroc.pl/redmine/projects/libpltagger/wiki/Morfologik_converted</a><br>

The MACA system: <a href="http://nlp.pwr.wroc.pl/redmine/projects/libpltagger/wiki/" target="_blank">http://nlp.pwr.wroc.pl/redmine/projects/libpltagger/wiki/</a><br>
<br>The mentioned fragment of the IPI PAN corpus is available at: <a href="http://korpus.pl/index.php?lang=en&page=download">http://korpus.pl/index.php?lang=en&page=download</a><br><br>It's also worth noting that the MACA suite contains a tokeniser (“toki”) that is probably the first C++ open-source implementation of SRX segmentation rules. Both toki and maca proper may be used as shared libraries or by their simple command-line utils (tested only under GNU/Linux).<br>


<br>Best regards,<br>Adam<br><br>