<HTML style="FONT-FAMILY: MS Sans Serif; FONT-SIZE: x-small"><HEAD>
<STYLE><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 10pt;
font-family:Verdana
}
--></STYLE>

<META name=GENERATOR content="MSHTML 8.00.6001.18928"></HEAD>
<BODY class=hmmessage>
<DIV>
<DIV><FONT face="MS Sans Serif">Anabela,</FONT></DIV>
<DIV><FONT face="MS Sans Serif">While not disputing the potential for increasing the amount of linguistic information used to detect spam and other email characteristics,  I should mention that the spam message in question arrived with the subject annotated by Norton antivirus to the effect that no virus was found.   In other words, while the message was not identified as spam by the operative spamblockers, it looked sufficiently suspicious for my antivirus processor to take a look at it.</FONT></DIV>
<DIV> </DIV>
<DIV></DIV></DIV>
<DIV>Paula</DIV>
<BLOCKQUOTE style="BORDER-LEFT: #000000 2px solid; PADDING-LEFT: 5px; PADDING-RIGHT: 0px; MARGIN-LEFT: 5px">
<DIV style="FONT: 10pt Arial">----- Original Message ----- </DIV>
<DIV style="FONT: 10pt arial; BACKGROUND: #e4e4e4; font-color: black"><B>From:</B> <A title=barreiro_anabela@hotmail.com href="mailto:barreiro_anabela@hotmail.com">Anabela Barreiro</A> </DIV>
<DIV style="FONT: 10pt arial"><B>To: </B><A title=grvsmth@panix.com href="mailto:grvsmth@panix.com">grvsmth@panix.com</A>;<A title=corpora@uib.no href="mailto:corpora@uib.no">corpora@uib.no</A></DIV>
<DIV style="FONT: 10pt arial"><B>Sent:</B> 7/25/2010 3:30:18 PM </DIV>
<DIV style="FONT: 10pt arial"><B>Subject:</B> Re: [Corpora-List] on processing Junk e-mail</DIV>
<DIV><BR></DIV><FONT size=2>Dear Angus,<BR> <BR>I agree with what you said about personal e-mails and the false positives effect based on the Subject of the e-mail, because personal e-mail have a much wider variety of topics and friends can have quite an imagination :) - However, what kind of business e-mail or e-mails for a list that discusses important issues (like the Corpora list), would start with "hey"? Probability 0, I would say!<BR><BR>Then there are simple combinations of the e-mail provider with Subject that could work well too.<BR> <BR>But, I find it interesting/challenging to create a sophisticated program to sort e-mails by subject matter, that looks into the body of the message and analyses combinations of words and linguistic constructions (not just n-grams) and classifies them (including spam). While this might not be an investment worth for most common users, it would definitely be for big/international companies and such linguistically enriched software would be worth much more than just being applied to sorting and classifying e-mails. I believe that kind of software would help selecting quite some garbage and help prioritise important e-mails and intelligently sort them by topic. Perhaps some of software of this kind already exists. The work done for this software can be used by many other applications.<BR> <BR>Regards,<BR>
<DIV><FONT size=1><SPAN style="FONT-STYLE: italic; FONT-FAMILY: Tahoma,Helvetica,Sans-Serif; COLOR: rgb(255,0,0)"></SPAN></FONT><FONT size=1><SPAN style="FONT-STYLE: italic; FONT-FAMILY: Tahoma,Helvetica,Sans-Serif; COLOR: rgb(255,0,0)"></SPAN></FONT><SPAN style="FONT-FAMILY: Tahoma; FONT-SIZE: 10pt"></SPAN> </DIV>
<DIV>Anabela </DIV>
<DIV> </DIV><BR></FONT></BLOCKQUOTE></BODY></HTML>