<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns="http://www.w3.org/TR/REC-html40"
xmlns:ns0="http://schemas.microsoft.com/office/2004/12/omml">

<head>
<meta http-equiv=Content-Type content="text/html; charset=us-ascii">
<meta name=Generator content="Microsoft Word 11 (filtered medium)">
<!--[if !mso]>
<style>
v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style>
<![endif]-->
<style>
<!--a:link
        {mso-style-priority:99;}
span.MSOHYPERLINK
        {mso-style-priority:99;}
a:visited
        {mso-style-priority:99;}
span.MSOHYPERLINKFOLLOWED
        {mso-style-priority:99;}

 /* Font Definitions */
 @font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman";}
a:link, span.MsoHyperlink
        {color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal;
        font-family:Calibri;
        color:#1F497D;}
span.EmailStyle18
        {mso-style-type:personal-reply;
        font-family:Arial;
        color:blue;
        font-weight:normal;
        font-style:normal;
        text-decoration:none none;}
@page Section1
        {size:8.5in 11.0in;
        margin:70.85pt 70.85pt 70.85pt 70.85pt;}
div.Section1
        {page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=EN-US link=blue vlink=purple style='word-wrap: break-word;
-webkit-nbsp-mode: space;-webkit-line-break: after-white-space'>

<div class=Section1>

<p class=MsoNormal><font size=2 color=blue face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:blue'>Using “the/I” can lead to
infinite values in corpora (scientific lit, patents) that never use the pronoun
“I”.  It might be better practice to use the inverse, i.e. the
“I/the” ration, which would be 0.0 for such corpora.  Perhaps
there are languages (Russian?) in which the pronoun would never be used
anywhere, but in English the measure seems well chosen.  <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 color=blue face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:blue'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=2 color=blue face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:blue'>It is striking how clearly your figures
indicate how well that single measure works as an indication of corpus
character.  Thanks for a useful metric.  It might even be used to
identify a significant measure of subjectivity in the corpus.  <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 color=blue face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:blue'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=2 color=blue face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:blue'>-Rich<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 color=blue face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:blue'><o:p> </o:p></span></font></p>

<div>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt;color:black'>Sincerely,<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt;color:black'>Rich Cooper<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt;color:black'>EnglishLogicKernel.com</span></font><font
color=blue><span style='color:blue'><o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt;color:black'>Rich AT EnglishLogicKernel DOT com</span></font><font
color=blue><span style='color:blue'><o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt;color:black'>9 4 9 \ 5 2 5 - 5 7 1 2</span></font><o:p></o:p></p>

</div>

<div>

<div class=MsoNormal align=center style='text-align:center'><font size=3
face="Times New Roman"><span style='font-size:12.0pt'>

<hr size=3 width="100%" align=center tabindex=-1>

</span></font></div>

<p class=MsoNormal><b><font size=2 face=Tahoma><span style='font-size:10.0pt;
font-family:Tahoma;font-weight:bold'>From:</span></font></b><font size=2
face=Tahoma><span style='font-size:10.0pt;font-family:Tahoma'>
corpora-bounces@uib.no [mailto:corpora-bounces@uib.no] <b><span
style='font-weight:bold'>On Behalf Of </span></b>Marc Brysbaert<br>
<b><span style='font-weight:bold'>Sent:</span></b> Tuesday, September 13, 2011
8:34 AM<br>
<b><span style='font-weight:bold'>To:</span></b> corpora@uib.no<br>
<b><span style='font-weight:bold'>Subject:</span></b> Re: [Corpora-List]
Frequency of the pronoun I</span></font><o:p></o:p></p>

</div>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=2 color="#1f497d" face=Calibri><span
style='font-size:11.0pt;font-family:Calibri;color:#1F497D'>Maybe we can turn
the question around and use the “the/I” ratio as an index of how
socially vs. description oriented a corpus is? Here is a summary of the data I
have at hand. Marc<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 color="#1f497d" face=Calibri><span
style='font-size:11.0pt;font-family:Calibri;color:#1F497D'><o:p> </o:p></span></font></p>

<table class=MsoNormalTable border=0 cellspacing=0 cellpadding=0
 style='margin-left:-1.5pt;border-collapse:collapse'>
 <tr height=24 style='height:14.5pt'>
  <td width=225 height=24 valign=top style='width:134.75pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal style='text-autospace:none'><font size=2 color=black
  face=Calibri><span style='font-size:11.0pt;font-family:Calibri;color:black'>Source<o:p></o:p></span></font></p>
  </td>
  <td width=144 height=24 valign=top style='width:86.55pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal style='text-autospace:none'><font size=2 color=black
  face=Calibri><span style='font-size:11.0pt;font-family:Calibri;color:black'>the<o:p></o:p></span></font></p>
  </td>
  <td width=124 height=24 valign=top style='width:74.5pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal style='text-autospace:none'><font size=2 color=black
  face=Calibri><span style='font-size:11.0pt;font-family:Calibri;color:black'>I<o:p></o:p></span></font></p>
  </td>
  <td width=84 height=24 valign=top style='width:50.15pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal style='text-autospace:none'><font size=2 color=black
  face=Calibri><span style='font-size:11.0pt;font-family:Calibri;color:black'>ratio<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr height=24 style='height:14.5pt'>
  <td width=225 height=24 valign=top style='width:134.75pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'><o:p> </o:p></span></font></p>
  </td>
  <td width=144 height=24 valign=top style='width:86.55pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'><o:p> </o:p></span></font></p>
  </td>
  <td width=124 height=24 valign=top style='width:74.5pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'><o:p> </o:p></span></font></p>
  </td>
  <td width=84 height=24 valign=top style='width:50.15pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'><o:p> </o:p></span></font></p>
  </td>
 </tr>
 <tr height=24 style='height:14.5pt'>
  <td width=225 height=24 valign=top style='width:134.75pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal style='text-autospace:none'><font size=2 color=black
  face=Calibri><span style='font-size:11.0pt;font-family:Calibri;color:black'>COCA
  (academic)<o:p></o:p></span></font></p>
  </td>
  <td width=144 height=24 valign=top style='width:86.55pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>5549547<o:p></o:p></span></font></p>
  </td>
  <td width=124 height=24 valign=top style='width:74.5pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>204916<o:p></o:p></span></font></p>
  </td>
  <td width=84 height=24 valign=top style='width:50.15pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>0.04<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr height=24 style='height:14.5pt'>
  <td width=225 height=24 valign=top style='width:134.75pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal style='text-autospace:none'><font size=2 color=black
  face=Calibri><span style='font-size:11.0pt;font-family:Calibri;color:black'>COCA
  (newspapers)<o:p></o:p></span></font></p>
  </td>
  <td width=144 height=24 valign=top style='width:86.55pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>4648992<o:p></o:p></span></font></p>
  </td>
  <td width=124 height=24 valign=top style='width:74.5pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>506030<o:p></o:p></span></font></p>
  </td>
  <td width=84 height=24 valign=top style='width:50.15pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>0.11<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr height=24 style='height:14.5pt'>
  <td width=225 height=24 valign=top style='width:134.75pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal style='text-autospace:none'><font size=2 color=black
  face=Calibri><span style='font-size:11.0pt;font-family:Calibri;color:black'>Google
  (books)<o:p></o:p></span></font></p>
  </td>
  <td width=144 height=24 valign=top style='width:86.55pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>22914473646<o:p></o:p></span></font></p>
  </td>
  <td width=124 height=24 valign=top style='width:74.5pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>2744649681<o:p></o:p></span></font></p>
  </td>
  <td width=84 height=24 valign=top style='width:50.15pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>0.12<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr height=24 style='height:14.5pt'>
  <td width=225 height=24 valign=top style='width:134.75pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal style='text-autospace:none'><font size=2 color=black
  face=Calibri><span style='font-size:11.0pt;font-family:Calibri;color:black'>COCA
  (magazines)<o:p></o:p></span></font></p>
  </td>
  <td width=144 height=24 valign=top style='width:86.55pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>4878925<o:p></o:p></span></font></p>
  </td>
  <td width=124 height=24 valign=top style='width:74.5pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>648344<o:p></o:p></span></font></p>
  </td>
  <td width=84 height=24 valign=top style='width:50.15pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>0.13<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr height=24 style='height:14.5pt'>
  <td width=225 height=24 valign=top style='width:134.75pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal style='text-autospace:none'><font size=2 color=black
  face=Calibri><span style='font-size:11.0pt;font-family:Calibri;color:black'>American
  blogs<o:p></o:p></span></font></p>
  </td>
  <td width=144 height=24 valign=top style='width:86.55pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>4200000<o:p></o:p></span></font></p>
  </td>
  <td width=124 height=24 valign=top style='width:74.5pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>1300000<o:p></o:p></span></font></p>
  </td>
  <td width=84 height=24 valign=top style='width:50.15pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>0.31<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr height=24 style='height:14.5pt'>
  <td width=225 height=24 valign=top style='width:134.75pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal style='text-autospace:none'><font size=2 color=black
  face=Calibri><span style='font-size:11.0pt;font-family:Calibri;color:black'>COCA
  (fiction)<o:p></o:p></span></font></p>
  </td>
  <td width=144 height=24 valign=top style='width:86.55pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>4534433<o:p></o:p></span></font></p>
  </td>
  <td width=124 height=24 valign=top style='width:74.5pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>1576303<o:p></o:p></span></font></p>
  </td>
  <td width=84 height=24 valign=top style='width:50.15pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>0.35<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr height=24 style='height:14.5pt'>
  <td width=225 height=24 valign=top style='width:134.75pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal style='text-autospace:none'><font size=2 color=black
  face=Calibri><span style='font-size:11.0pt;font-family:Calibri;color:black'>COCA
  (television programs)<o:p></o:p></span></font></p>
  </td>
  <td width=144 height=24 valign=top style='width:86.55pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>4190341<o:p></o:p></span></font></p>
  </td>
  <td width=124 height=24 valign=top style='width:74.5pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>1623705<o:p></o:p></span></font></p>
  </td>
  <td width=84 height=24 valign=top style='width:50.15pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>0.39<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr height=24 style='height:14.5pt'>
  <td width=225 height=24 valign=top style='width:134.75pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal style='text-autospace:none'><font size=2 color=black
  face=Calibri><span style='font-size:11.0pt;font-family:Calibri;color:black'>Shakespearean
  plays<o:p></o:p></span></font></p>
  </td>
  <td width=144 height=24 valign=top style='width:86.55pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>182400<o:p></o:p></span></font></p>
  </td>
  <td width=124 height=24 valign=top style='width:74.5pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>239200<o:p></o:p></span></font></p>
  </td>
  <td width=84 height=24 valign=top style='width:50.15pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>1.31<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr height=24 style='height:14.5pt'>
  <td width=225 height=24 valign=top style='width:134.75pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal style='text-autospace:none'><font size=2 color=black
  face=Calibri><span style='font-size:11.0pt;font-family:Calibri;color:black'>SUBTLEX
  (film subtitles)<o:p></o:p></span></font></p>
  </td>
  <td width=144 height=24 valign=top style='width:86.55pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>1501908<o:p></o:p></span></font></p>
  </td>
  <td width=124 height=24 valign=top style='width:74.5pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>2038529<o:p></o:p></span></font></p>
  </td>
  <td width=84 height=24 valign=top style='width:50.15pt;padding:0in 3.5pt 0in 3.5pt;
  height:14.5pt'>
  <p class=MsoNormal align=right style='text-align:right;text-autospace:none'><font
  size=2 color=black face=Calibri><span style='font-size:11.0pt;font-family:
  Calibri;color:black'>1.36<o:p></o:p></span></font></p>
  </td>
 </tr>
</table>

<p class=MsoNormal><font size=2 color="#1f497d" face=Calibri><span
style='font-size:11.0pt;font-family:Calibri;color:#1F497D'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=2 color="#1f497d" face=Calibri><span
style='font-size:11.0pt;font-family:Calibri;color:#1F497D'><o:p> </o:p></span></font></p>

<div>

<div style='border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in'>

<p class=MsoNormal><b><font size=2 face=Tahoma><span style='font-size:10.0pt;
font-family:Tahoma;font-weight:bold'>From:</span></font></b><font size=2
face=Tahoma><span style='font-size:10.0pt;font-family:Tahoma'>
corpora-bounces@uib.no [mailto:corpora-bounces@uib.no] <b><span
style='font-weight:bold'>On Behalf Of </span></b>Martin Mueller<br>
<b><span style='font-weight:bold'>Sent:</span></b> dinsdag 13 september 2011
17:15<br>
<b><span style='font-weight:bold'>To:</span></b> corpora@uib.no<br>
<b><span style='font-weight:bold'>Cc:</span></b> jwpennebaker@gmail.com<br>
<b><span style='font-weight:bold'>Subject:</span></b> Re: [Corpora-List]
Frequency of the pronoun I<o:p></o:p></span></font></p>

</div>

</div>

<p class=MsoNormal><font size=3 face="Times New Roman"><span lang=NL-BE
style='font-size:12.0pt'><o:p> </o:p></span></font></p>

<div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'>Unsurprisingly, in a
corpus of ~ six million words from 320 plays of Shakespeare's generation
(broadly speaking) forms of 'be' and 'I' dominate (with respectively 245,500
and and 239,200 occurrences, followed at some distance by 'the' (182,400) and
'and' (180,00).  Everything does indeed depend on the text type. <o:p></o:p></span></font></p>

</div>

<div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'><o:p> </o:p></span></font></p>

</div>

<div style='border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in'>

<p class=MsoNormal><b><font size=2 color=black face=Calibri><span lang=NL-BE
style='font-size:11.0pt;font-family:Calibri;color:black;font-weight:bold'>From:
</span></font></b><font size=2 color=black face=Calibri><span lang=NL-BE
style='font-size:11.0pt;font-family:Calibri;color:black'>Adam Kilgarriff <<a
href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a>><br>
<b><span style='font-weight:bold'>Date: </span></b>Tue, 13 Sep 2011 15:51:06
+0100<br>
<b><span style='font-weight:bold'>To: </span></b>Mike Scott <<a
href="mailto:mike@lexically.net">mike@lexically.net</a>><br>
<b><span style='font-weight:bold'>Cc: </span></b><<a
href="mailto:corpora@uib.no">corpora@uib.no</a>>, <<a
href="mailto:jwpennebaker@gmail.com">jwpennebaker@gmail.com</a>><br>
<b><span style='font-weight:bold'>Subject: </span></b>Re: [Corpora-List]
Frequency of the pronoun I<o:p></o:p></span></font></p>

</div>

<div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'><o:p> </o:p></span></font></p>

</div>

<p class=MsoNormal style='margin-bottom:12.0pt'><font size=1 color=black
face=Arial><span lang=NL-BE style='font-size:8.5pt;font-family:Arial;
color:black'>Everything depends on text type.<o:p></o:p></span></font></p>

<div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'>BNC-spoken overall has
more 'the' than 'I' but that's because half of it is meetings/lectures/sermons.
 If you look only at the conversational part (obscurely called
"demographic") 'I' is more common, in keeping with the kinds of
language that James Pennebaker works with (from my recollection of a fascinating
talk of his I went to)<o:p></o:p></span></font></p>

</div>

<div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'><o:p> </o:p></span></font></p>

</div>

<div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'>Asking for a more
representative corpus won't help because we all have different ideas about what
it should be representative of<o:p></o:p></span></font></p>

</div>

<div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'><o:p> </o:p></span></font></p>

</div>

<div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'>Adam<o:p></o:p></span></font></p>

</div>

<div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'><o:p> </o:p></span></font></p>

<div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'>On 13 September 2011
15:33, Mike Scott <<a href="mailto:mike@lexically.net">mike@lexically.net</a>>
wrote:<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'>On page 45 of the 3
September issue of New Scientist, there is a table giving frequencies of
"the 20 most frequently used words in the English languiage, across both
spoken and written texts". The first is I, then THE, AND, TO, A, OF,
THAT... ME,ON,BUT.<br>
I wrote to the author, James Pennemaker of the U of Texas, about this,
expressing my surprise at the pronoun I having greater frequency than THE, as
even in the spoken-only section of the BNC (10m words) we find I occurring only
just over half as often as THE. His data contains a mix of spoken and written
with a large amount of blog data. He reports that with all his studies in the
USA and Mexico, "people always use more I more than THE.  It's never
close."<br>
Can anyone help here, clearing up the position? Someone with access to a really
top quality corpus, more up to date and representative than the BNC?<br>
<br>
Mike<br>
<br>
-- <br>
Mike Scott<br>
<br>
***<br>
If you publish research which uses WordSmith, do let me know so I can include
it at<br>
<a
href="http://www.lexically.net/wordsmith/corpus_linguistics_links/papers_using_wordsmith.htm"
target="_blank">http://www.lexically.net/wordsmith/corpus_linguistics_links/papers_using_wordsmith.htm</a><br>
***<br>
University of Aston and Lexical Analysis Software Ltd.<br>
<a href="mailto:mike.scott@aston.ac.uk" target="_blank">mike.scott@aston.ac.uk</a><br>
<a href="http://www.lexically.net" target="_blank">www.lexically.net</a><br>
<br>
<br>
_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora"
target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><o:p></o:p></span></font></p>

</div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'><br>
<br clear=all>
<o:p></o:p></span></font></p>

<div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'><o:p> </o:p></span></font></p>

</div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'>-- <br>
========================================<br>
<a href="http://www.kilgarriff.co.uk/" target="_blank">Adam Kilgarriff</a>    
             <a
href="mailto:adam@lexmasterclass.com" target="_blank">adam@lexmasterclass.com</a> 
                     
                     <br>
Director                    
               <a
href="http://www.sketchengine.co.uk/" target="_blank">Lexical Computing Ltd</a>  
             <br>
Visiting Research Fellow              
  <a href="http://leeds.ac.uk" target="_blank">University of Leeds</a>  
  <o:p></o:p></span></font></p>

<div>

<p class=MsoNormal><i><font size=1 color="#006600" face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:#006600;font-style:italic'>Corpora
for all</span></font></i><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'> with <a
href="http://www.sketchengine.co.uk" target="_blank">the Sketch Engine</a>  
              <o:p></o:p></span></font></p>

</div>

<div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'>    
                   <i><span
style='font-style:italic'><a href="http://www.webdante.com" target="_blank">DANTE:
<font color="#009900"><span style='color:#009900'>a lexical database for
English</span></font></a></span></i></span></font><i><font size=1
color="#009900" face=Arial><span lang=NL-BE style='font-size:8.5pt;font-family:
Arial;color:#009900;font-style:italic'> </span></font></i><i><font size=1
color=black face=Arial><span lang=NL-BE style='font-size:8.5pt;font-family:
Arial;color:black;font-style:italic'>           
     </span></font></i><font size=1 color=black face=Arial><span
lang=NL-BE style='font-size:8.5pt;font-family:Arial;color:black'><o:p></o:p></span></font></p>

<div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'>========================================<o:p></o:p></span></font></p>

</div>

</div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'><o:p> </o:p></span></font></p>

</div>

<p class=MsoNormal><font size=1 color=black face=Arial><span lang=NL-BE
style='font-size:8.5pt;font-family:Arial;color:black'>_______________________________________________
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora">http://mailman.uib.no/options/corpora</a>
Corpora mailing list <a href="mailto:Corpora@uib.no">Corpora@uib.no</a> <a
href="http://mailman.uib.no/listinfo/corpora">http://mailman.uib.no/listinfo/corpora</a>
<o:p></o:p></span></font></p>

</div>

</body>

</html>