<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 10pt;
font-family:Verdana
}
--></style>
</head>
<body class='hmmessage'>
Dear Angus,<BR>
 <BR>
I agree with what you said about personal e-mails and the false positives effect based on the Subject of the e-mail, because personal e-mail have a much wider variety of topics and friends can have quite an imagination :) - However, what kind of business e-mail or e-mails for a list that discusses important issues (like the Corpora list), would start with "hey"? Probability 0, I would say!<BR><BR>
Then there are simple combinations of the e-mail provider with Subject that could work well too.<BR>
 <BR>
But, I find it interesting/challenging to create a sophisticated program to sort e-mails by subject matter, that looks into the body of the message and analyses combinations of words and linguistic constructions (not just n-grams) and classifies them (including spam). While this might not be an investment worth for most common users, it would definitely be for big/international companies and such linguistically enriched software would be worth much more than just being applied to sorting and classifying e-mails. I believe that kind of software would help selecting quite some garbage and help prioritise important e-mails and intelligently sort them by topic. Perhaps some of software of this kind already exists. The work done for this software can be used by many other applications.<BR>
 <BR>
Regards,<BR>
<DIV><FONT size=1><SPAN style="FONT-STYLE: italic; FONT-FAMILY: Tahoma,Helvetica,Sans-Serif; COLOR: rgb(255,0,0)"></SPAN></FONT><FONT size=1><SPAN style="FONT-STYLE: italic; FONT-FAMILY: Tahoma,Helvetica,Sans-Serif; COLOR: rgb(255,0,0)"></SPAN></FONT><SPAN style="FONT-FAMILY: Tahoma; FONT-SIZE: 10pt"></SPAN> </DIV>
<DIV>Anabela </DIV>
<DIV> </DIV>
<BR>
<HR id=stopSpelling>
Date: Sun, 25 Jul 2010 13:39:28 -0400<BR>From: grvsmth@panix.com<BR>To: corpora@uib.no<BR>Subject: Re: [Corpora-List] on processing Junk e-mail<BR><BR>On 7/25/2010 1:21 PM, Anabela Barreiro wrote: 
<BLOCKQUOTE cite=mid:SNT126-W32C19A270AC869A21FD311E6A50@phx.gbl>
<STYLE>
.ExternalClass .ecxhmmessage P
{padding:0px;}
.ExternalClass body.ecxhmmessage
{font-size:10pt;font-family:Verdana;}
</STYLE>
My point was precisely this one: we do not need to click on the link to know what is it about, as we don't even have to read the message. The subject is enough for any unsophisticated program to do the job of eliminating this message from the list, in this particular case. <BR></BLOCKQUOTE>    I disagree, based on the nontrivial number of false positives I've seen from every spam filter I've ever observed.  In the two years I've been on this list, there have been a very small number of spam messages.  I think that the time cost of setting up and administering the spam filter, including dealing with false positives, far outweighs the cost of dealing with a tiny number of spam emails.<BR><BR>    In other cases (for example, my personal inbox), there is enough spam to make it worthwhile to filter.  In this case, not so much.  Language technology is very useful, but in almost every application it needs to be double-checked by a human.<BR><PRE class=ecxmoz-signature>-- 
                                -Angus B. Grieve-Smith
                                <A class=ecxmoz-txt-link-abbreviated href="mailto:grvsmth@panix.com">grvsmth@panix.com</A>
</PRE>                                      <br /><hr />Hotmail is redefining busy with tools for the New Busy. Get more from your inbox. <a href='http://www.windowslive.com/campaign/thenewbusy?ocid=PID28326::T:WLMTAGL:ON:WL:en-US:WM_HMP:042010_2' target='_new'>See how.</a></body>
</html>