Stefan,<div><br></div><div>The TüBa-D/Z treebank maintains the original spelling for the normal tokens and</div><div>annotates spelling corrections in the comment field. This means that it can be used</div><div>to train/test spell checkers (with a suitable split), and that the distribution</div>
<div>of errors corresponds perfectly to the actual error rate in edited newspaper text.</div><div>(It's less typical of the careless writing that you'll find in user-contributed web content,</div><div>though).</div>
<div><br></div><div>Best,</div><div>Yannick</div><div><br><br><div class="gmail_quote">On Sat, Apr 9, 2011 at 10:45 AM, Stefan Bordag <span dir="ltr"><<a href="mailto:sbordag@informatik.uni-leipzig.de">sbordag@informatik.uni-leipzig.de</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">Hi everyone,<br>
<br>
It seems like for every conceivable NLP task there is some agreed-upon evaluation data set. Or at least one that is used in at least several papers. Now, for some strange reason I seem to be utterly unable to find any such test set for the spell checking task!<br>

<br>
Am I doing something wrong or is there no such data set? I know I can make synthetic tests systematically inserting, swapping etc. letters in my own test data, but this would give me results which I cannot compare to any other results. Hence, is there some accepted evaluation forum which I am missing because whenever I include spell check in any form in search queries I get lots of tutorials how to write a spellchecker and almost nothing else...<br>

<br>
Best regards,<br>
Stefan Bordag<br>
<br>
_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote></div><br></div>