Hi,<br><br>One fairly easy to use sentence boundary detector and tokenizer is included in the OpenNLP toolkit: <br><br><a href="http://opennlp.sf.net">http://opennlp.sf.net</a><br><br>It is written in Java and is basically the same as Ratnaparkhi's detector. Lots of other tools, including parsing, tagging, and coreference are in that package. There are already trained models available for English. The tools themselves are not language specific, so if you provide an appropriate training corpus in Spanish, you can train new models easily enough. (And the code is open source, so you can modify it to make it more sensitive to another language (
e.g., morphology) if you want.)<br><br>For other tools, many of which are geared for Spanish NLP, you might also have a look at FreeLing:<br><br><a href="http://garraf.epsevg.upc.es/freeling/">http://garraf.epsevg.upc.es/freeling/
</a><br><br>There are certainly many other tools available -- it is actually pretty straightforward to whip up a detector from scratch. There are some recent unsupervised approaches for sentence boundary detection too that could be relevant for you. You might have a look at this article by Tibor Kiss and Jan Strunk:
<br><br><a href="http://www.linguistics.ruhr-uni-bochum.de/~strunk/ks2005FINAL.pdf">http://www.linguistics.ruhr-uni-bochum.de/~strunk/ks2005FINAL.pdf</a><br><br>Hope that helps!<br><br>Jason<br><br><br><div><span class="gmail_quote">
On 7/20/07, <b class="gmail_sendername">Kelly Vincent</b> <<a href="mailto:kpvincent@hotmail.com">kpvincent@hotmail.com</a>> wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
I am interested in what the current state-of-the-art is in sentence boundary<br>detection and (to a lesser degree) tokenization. I have been able to locate<br>several articles, but very few that are quite recent. I would appreciate any
<br>pointers to particularly important papers or to available tools, as well as<br>the community's thoughts on the topic.<br><br>We are building a Spanish corpus so I am particularly interested in these<br>topics from the Spanish perspective, though not confined to that.
<br><br>Regards,<br>Kelly Vincent<br>Software Engineer<br>MetaMetrics, Inc.<br><br>_________________________________________________________________<br>Local listings, incredible imagery, and driving directions - all in one
<br>place! <a href="http://maps.live.com/?wip=69&FORM=MGAC01">http://maps.live.com/?wip=69&FORM=MGAC01</a><br><br><br>_______________________________________________<br>Corpora mailing list<br><a href="mailto:Corpora@uib.no">
Corpora@uib.no</a><br><a href="http://mailman.uib.no/listinfo/corpora">http://mailman.uib.no/listinfo/corpora</a><br></blockquote></div><br>