<div dir="ltr">Hello Corpora members,<br>I have a corpus of 80,000 words in which each word is assigned either the class S or the class E. Class S occurs 72,000 times while class E occurs 8,000 times only.<br>I'm wondering what the best way to evaluate the classifier performance should be. I have randomly selected a dev set (5%) and a test set (10%). I'm mainly interested in predicting which words are class E.<br>
<br>I've read this page:<br><a href="http://webdocs.cs.ualberta.ca/~eisner/measures.html">webdocs.cs.ualberta.ca/~eisner/measures.html</a><br>but I'm still a little bit confused. Do we use specificity in linguistics papers? Should I report these measures for each of the two classes or a as a general number? Does this make sense / a difference?<br>
<br>Thank you so much.<br clear="all"><br>-- <br><div dir="ltr"><font size="1">Emad Mohamed<br>aka Emad Nawfal<br><span dir="auto">Université du Québec à Montréal</span><br></font></div><br>
</div>