<span class="gmail_quote"></span>Believe it or not, that spam was _not_ artifically generated! At least at the sentence level. All the individual sentences are from <a href="http://kfba.net/Forums/" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
http://kfba.net/Forums/</a>. The only randomness there is the selection and order of the sentences.
<br><br>That aside, your question is very interesting. I woud guess that an artifically generated text has greater entropy than a human generated sample. So, perhaps you could train a reasonable order Markov model on some specialized corpus (sports discussion, in this case), and measure the redundancy of the test sample against that. 
<br><span class="sg"><br>Sravana</span><div><span class="e" id="q_10ee38f535959c6b_2"><br><br><div><span class="gmail_quote">On 11/13/06, <b class="gmail_sendername">Lou Burnard</b> <<a href="mailto:lou.burnard@computing-services.oxford.ac.uk" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
lou.burnard@computing-services.oxford.ac.uk</a>
> wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">"My eyes tell me that there are fabulous talents in every decade,<br>

including this one. You have to remember where these young guys were<br>picked. You know things  are different when there's a press seat<br>assigned to someone representing lebronjames. Like many sports, you are<br>going to have writers who are too close  to the teams they cover and
<br>writers who aren't."<br><br><br>This is the start of a spam which I (and presumably several thousand<br>other people) just received. My suspicion is that the text has been<br>automatically generated from a reasonably large corpus of authentic
<br>email material (in this case, presumably, from some collection of sports<br>writing). The interesting question for this list is: how do I know it's<br>artificially generated? I'm guessing that the lack of coherence has
<br>something to do with it, but what are the factors which indicate that?<br>And how much text would you need to scan before determining that there<br>was no natural coherence amongst its components?<br><br>It's a question that several spam filter makers would probably pay good
<br>money for an answer to.<br><br><br></blockquote></div><br>

</span></div>