<html><body><div style="color:#000; background-color:#fff; font-family:times new roman, new york, times, serif;font-size:12pt"><div>....only that Cyrillic is not a language.</div><div><br></div><div>Hristo Tanev</div><div><br></div>  <div style="font-size: 12pt; font-family: 'times new roman', 'new york', times, serif; "> <div style="font-size: 12pt; font-family: 'times new roman', 'new york', times, serif; "> <div dir="ltr"> <font size="2" face="Arial"> <hr size="1">  <b><span style="font-weight:bold;">From:</span></b> Benjamin Van Durme <vandurme@cs.jhu.edu><br> <b><span style="font-weight: bold;">To:</span></b> Christine Amling <chamling@students.uni-mainz.de> <br><b><span style="font-weight: bold;">Cc:</span></b> corpora@uib.no <br> <b><span style="font-weight: bold;">Sent:</span></b> Tuesday, 19 June 2012, 16:05<br> <b><span style="font-weight: bold;">Subject:</span></b> Re: [Corpora-List] Need help with Twitter Corpus<br> </font> </div>
 <br>The following presents a new LID method, and includes a comparison<br>against a number of tools on Twitter data.<br><br>Language Identification for Creating Language-Specific Twitter Collections<br>Shane Bergsma, Paul McNamee, Mossaab Bagdouri, Clayton Fink, Theresa Wilson<br> <a href="http://aclweb.org/anthology-new/W/W12/W12-2108.pdf" target="_blank">http://aclweb.org/anthology-new/W/W12/W12-2108.pdf</a><br><br>Accuracy numbers (with most other systems run black-box without<br>adaptation, so take these conservatively) :<br><br>                 Arabic        Devanagari      Cyrillic<br>TextCat           96.3          89.1            90.3<br>Google CLD        90.5          NA              91.4<br>Lui/Baldwin 
      91.4          78.4            88.8<br>PPM - (new)        97.6          97.1            95.8<br><br>_______________________________________________<br>UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>Corpora mailing list<br><a ymailto="mailto:Corpora@uib.no" href="mailto:Corpora@uib.no">Corpora@uib.no</a><br><a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br><br><br> </div> </div>  </div></body></html>