Hi Jeff,<br><br>I also tried the pre-trained sentence segmentation of NLTK before and did not satisfy with the quality either. I turned to Splitta (<a href="http://code.google.com/p/splitta/">http://code.google.com/p/splitta/</a>), mentioned by Aleksandar above and it's really good for English. It haven't trained on other languages, though, but for your requirements, I think Splitta is worth to try.<br>

<br>--Le. <br><br><div class="gmail_quote">On Tue, Aug 14, 2012 at 10:17 AM, Steven Bird <span dir="ltr"><<a href="mailto:sb@csse.unimelb.edu.au" target="_blank">sb@csse.unimelb.edu.au</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div class="im">On 13 August 2012 23:35, Jeff Elmore <<a href="mailto:jelmore@lexile.com">jelmore@lexile.com</a>> wrote:<br>
> I have checked<br>
> out what NLTK offers but from what I've seen there's not anything terribly<br>
> accurate in it (fails on obvious common cases like some honorifics).<br>
<br>
</div>Note that NLTK just uses Punkt, and this won't necessarily perform<br>
well if it uses an off-the-shelf model that was trained on data that<br>
contained different abbreviations to the test data:<br>
<br>
"Punkt is designed to learn parameters (a list of abbreviations, etc.)<br>
unsupervised from a corpus similar to the target domain. The<br>
pre-packaged models may therefore be unsuitable: use<br>
PunktSentenceTokenizer(text) to learn parameters from the given text."<br>
<a href="http://nltk.org/api/nltk.tokenize.html" target="_blank">http://nltk.org/api/nltk.tokenize.html</a><br>
<span class="HOEnZb"><font color="#888888"><br>
-Steven Bird<br>
</font></span><div class="HOEnZb"><div class="h5"><br>
_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</div></div></blockquote></div><br>