<br><br><div class="gmail_quote">On 14 August 2012 00:29, Marcin Miłkowski <span dir="ltr"><<a href="mailto:list-address@wp.pl" target="_blank">list-address@wp.pl</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


Hi Jeff,<br>
<br>
if you want to reuse translator's resources (and computer-aided translation tools need to have text segmented into sentences), you can use SRX standard. I have authored some rules for English, though they are not perfect (I have a much better set of rules for Polish). The open-source library that supports SRX, segment, is also pretty fast.<br>


</blockquote><div><br></div><div>In case you're interested in using SRX rules, you may also consider trying our <a href="http://nlp.pwr.wroc.pl/redmine/projects/toki/wiki/" target="_blank">C++ implementation</a> (GNU LGPL). The processing speed in terms of tokens per sec is similar to Marcin Miłkowski's Java segment tool, but if many short texts are to be processed it might be convenient to get rid of Java VM start-up time.</div>


<div><br></div><div>Best,</div><div>Adam Radziszewski</div><div><br></div></div>