<html dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" id="owaParaStyle"></style>
</head>
<body fpstyle="1" ocsi="0">
<div style="direction: ltr;font-family: Bookman Old Style;color: #000000;font-size: 12pt;">
Hi Mike,
<div>I find the figures quoted in the article pretty astonishing, too.</div>
<div>The most colloquial and chatty spoken corpus I have is the Liverpool Speakers' corpus - and in 119,000 words, I appears 2721 times, almost the same as THE  with 2700 times. The Macmillan Dictionary Spoken subcorpus does fit the into the pattern set by
 other corpora: THE - 36,517 times, I - 189,823 times (out of 7.5 million words total).</div>
<div>I have also a (very raw) spoken English corpus with 323+ million words (which include a lot of children's and teenage talk) and there, still THE occurs 622,783 times and I only 426,533 times.</div>
<div><br>
</div>
<div>Michael<br>
<div><br>
<div class="BodyFragment"><font size="2">
<div class="PlainText">Dr. Michael Pace-Sigge<br>
School of English<br>
University of Liverpool<br>
<br>
http://tinyurl.com/Sigge-Writings<br>
http://tiny.cc/M4pictures<br>
</div>
</font></div>
</div>
</div>
</div>
</body>
</html>