<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:x="urn:schemas-microsoft-com:office:excel" xmlns:p="urn:schemas-microsoft-com:office:powerpoint" xmlns:a="urn:schemas-microsoft-com:office:access" xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-00AA00C14882" xmlns:s="uuid:BDC6E3F0-6DA3-11d1-A2A3-00AA00C14882" xmlns:rs="urn:schemas-microsoft-com:rowset" xmlns:z="#RowsetSchema" xmlns:b="urn:schemas-microsoft-com:office:publisher" xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet" xmlns:c="urn:schemas-microsoft-com:office:component:spreadsheet" xmlns:odc="urn:schemas-microsoft-com:office:odc" xmlns:oa="urn:schemas-microsoft-com:office:activation" xmlns:html="http://www.w3.org/TR/REC-html40" xmlns:q="http://schemas.xmlsoap.org/soap/envelope/" xmlns:D="DAV:" xmlns:x2="http://schemas.microsoft.com/office/excel/2003/xml" xmlns:ois="http://schemas.microsoft.com/sharepoint/soap/ois/" xmlns:dir="http://schemas.microsoft.com/sharepoint/soap/directory/" xmlns:ds="http://www.w3.org/2000/09/xmldsig#" xmlns:dsp="http://schemas.microsoft.com/sharepoint/dsp" xmlns:udc="http://schemas.microsoft.com/data/udc" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:sub="http://schemas.microsoft.com/sharepoint/soap/2002/1/alerts/" xmlns:ec="http://www.w3.org/2001/04/xmlenc#" xmlns:sp="http://schemas.microsoft.com/sharepoint/" xmlns:sps="http://schemas.microsoft.com/sharepoint/soap/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:udcs="http://schemas.microsoft.com/data/udc/soap" xmlns:udcxf="http://schemas.microsoft.com/data/udc/xmlfile" xmlns:udcp2p="http://schemas.microsoft.com/data/udc/parttopart" xmlns:st="" xmlns:st1="urn:schemas-microsoft-com:office:smarttags" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=us-ascii">
<meta name=Generator content="Microsoft Word 11 (filtered medium)">
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="country-region"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="PostalCode"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="City"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="PlaceType"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="PlaceName"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="place"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="PersonName"/>
<!--[if !mso]>
<style>
st1\:*{behavior:url(#default#ieooui) }
</style>
<![endif]-->
<style>
<!--
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman";}
a:link, span.MsoHyperlink
        {color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:Arial;
        color:windowtext;}
@page Section1
        {size:595.3pt 841.9pt;
        margin:72.0pt 89.85pt 72.0pt 89.85pt;}
div.Section1
        {page:Section1;}
-->
</style>

</head>

<body lang=EN-US link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'>Hi Mark<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'>I have some data from the Birmingham Collection of
English Text (18m; c 1986) <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'>and the Bank of English corpus (418m; c 2000) which may
be relevant to your <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'>question. <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'>Unfortunately this comparison is very inexact. The 2
corpora were compiled 14 years apart,<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'>using different design policies, data collection strategies
and procedures, and different <br>
technologies; the corpora differ substantially in composition; and the frequencies
were based <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=FR style='font-size:10.0pt;
font-family:Arial'>on different tokenization principles, etc etc. <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=FR style='font-size:10.0pt;
font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'>Also, I do not have lemmatized frequencies to offer,
only type frequencies. And I only <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'>have the examples given below, and cannot generate any
new lists.<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'>However, the fact that there were (albeit small) changes
in rank even in the top 10 items <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'>of the type frequency lists suggests that effects of
corpus size on lemmas lower down the <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'>lists could be substantial:<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<table class=MsoNormalTable border=1 cellspacing=0 cellpadding=0
 style='border-collapse:collapse;border:none'>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-bottom:solid windowtext 2.25pt;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>CORPUS<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:solid windowtext 1.0pt;
  border-left:none;border-bottom:solid windowtext 2.25pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>18m<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:solid windowtext 1.0pt;
  border-left:none;border-bottom:solid windowtext 2.25pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>418m<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>the<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>1,081,654            
  <o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>22,849,031<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>of<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>535,391              
  <o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>10,551,630<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>and<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>511,333              
  <o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>9,787,093<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>to<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>479,191              
  <o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>10,429,009<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>a<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>419,798              
  <o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>9,279,905<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>in<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>334,183              
  <o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>7,518,069<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>that<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>215,332              
  <o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>4175495<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>s<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'><o:p> </o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>4072762<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>is<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'><o:p> </o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>3900784<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>it<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>198,578              
  <o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>3771509<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>for<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'><o:p> </o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>3690466<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>i<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>197,055               
  <o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>3216005<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=111 valign=top style='width:83.15pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>was<o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>194,286              
  <o:p></o:p></span></font></b></p>
  </td>
  <td width=112 valign=top style='width:83.8pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>3092967<o:p></o:p></span></font></b></p>
  </td>
 </tr>
</table>

<p class=MsoNormal><font size=2 face=Arial><span lang=EN-GB style='font-size:
10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<div style='mso-element:para-border-div;border:none;border-bottom:solid windowtext 1.0pt;
padding:0cm 0cm 1.0pt 0cm'>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>An inspection of some random
types at various levels in the lists seems to bear this out. By rank 5000<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>in the 18m corpus, we see
variations of 5000+ ranks in the 418m corpus (i.e. from ‘prey’
downwards):<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

</div>

<table class=MsoNormalTable border=1 cellspacing=0 cellpadding=0
 style='border-collapse:collapse;border:none'>
 <tr style='page-break-inside:avoid'>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-bottom:solid windowtext 2.25pt;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>CORPUS<o:p></o:p></span></font></b></p>
  </td>
  <td width=227 colspan=2 valign=top style='width:170.4pt;border-top:solid windowtext 1.0pt;
  border-left:none;border-bottom:solid windowtext 2.25pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>18m<o:p></o:p></span></font></b></p>
  </td>
  <td width=227 colspan=2 valign=top style='width:170.5pt;border-top:solid windowtext 1.0pt;
  border-left:none;border-bottom:solid windowtext 2.25pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=center style='text-align:center'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>418m<o:p></o:p></span></font></b></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'><o:p> </o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 2.25pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>RANK<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 2.25pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt'>FREQ<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 2.25pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>RANK<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 2.25pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt'>FREQ<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>been <o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>48            
  <o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>48,068<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>47<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>1,019,904<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>people<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>75<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>26,057<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>72<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>610,679<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>how<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>94<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>20,906<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>104<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>393,586<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>going<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>129<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>14,924<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>147<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>288,607<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>away<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>150<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>12,168<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>225<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>185,260<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>house<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>176<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>9,890<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>206<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>198,592<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>widely<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>2,500<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>660<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>2,486<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>17,804<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>prey<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>5,000<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>280<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>9,211<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>3,185<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>fulfilment<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>10,000<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>107<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>15,122<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>1,506<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>balloon<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>15,000<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>58<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>9,011<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>3,298<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>compromises<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>20,000<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>37<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>16,395<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>1,327<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>scenic<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>25,000<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>26<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>15,651<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>1,429<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>fungal<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>40,000<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>11<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>25,633<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>628<o:p></o:p></span></font></p>
  </td>
 </tr>
 <tr>
  <td width=114 valign=top style='width:85.2pt;border:solid windowtext 1.0pt;
  border-top:none;padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal><b><font size=3 face="Times New Roman"><span lang=EN-GB
  style='font-size:12.0pt;font-weight:bold'>peyote<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>70,000<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.2pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 2.25pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>4<o:p></o:p></span></font></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><b><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt;font-weight:
  bold'>58,153<o:p></o:p></span></font></b></p>
  </td>
  <td width=114 valign=top style='width:85.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>
  <p class=MsoNormal align=right style='text-align:right'><font size=3
  face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>129<o:p></o:p></span></font></p>
  </td>
 </tr>
</table>

<div style='mso-element:para-border-div;border:none;border-bottom:solid windowtext 1.0pt;
padding:0cm 0cm 1.0pt 0cm'>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>I do not know what would
happen if you (for example) extracted a subset of complete texts from a<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>100m corpus to form a 10m
corpus or 1m corpus. But perhaps this exercise has in effect been <o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>conducted already with the
BNC, when they produced the Sampler, World Edition, etc? This would<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>at least reduce many of
the differences between BCET and BoE that I mentioned earlier. And perhaps<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>the relevant lemma lists
already exist?<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>Your proposal of selecting
every 10th running word from the texts in a 100m corpus to create <o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>a ‘10m corpus’
would imply approximately even distribution of types across the 100m corpus? <o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>You mention multiword items
in your email, but wouldn’t your proposed procedure deny any generic or
systemic<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>effect of the collocational
and phraseological tendencies of language on the frequency of individual types (which
<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>would be further affected
by lemmatization)? <o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>Also, wouldn’t it
affect different types/lemmas differently? For example, the high frequency of the
<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>content word/type ‘time’
in any general corpus of English must be greatly affected by its occurrence in many
common <o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>phrases? Whereas the content
word/type ‘people’ (usually also of similarly high frequency) might
participate less in phrases, <o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>and be used more in
isolated contexts, and hence be less afected?<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><st1:PersonName w:st="on"><font
 size=2 face=Arial><span lang=EN-GB style='font-size:10.0pt;font-family:Arial'>Crea</span></font></st1:PersonName><font
size=2 face=Arial><span lang=EN-GB style='font-size:10.0pt;font-family:Arial'>ting
lemmatized frequency lists of a 10m corpus created in this way would imply that
the members of each lemma were <o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>also distributed roughly
evenly across the 100m corpus?<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>I have of course until
now by-passed a major linguistic issue: which definition of lemma you are using,
and how that affects<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>any lemmatized frequency
lists produced. <o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>Although I feel neither
mathematically nor linguistically competent to say much more without further<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>evidence and discussion, wouldn’t
it be relatively straightforward (computationally) to implement your proposal
on existing corpora? <o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>I would certainly be very
interested to know the results!<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>Best<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'>Ramesh<o:p></o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=2 face=Arial><span
lang=EN-GB style='font-size:10.0pt;font-family:Arial'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='border:none;padding:0cm'><font size=3
face="Times New Roman"><span lang=EN-GB style='font-size:12.0pt'>Ramesh
Krishnamurthy<br>
Lecturer in English Studies, School of Languages and Social Sciences,<br>
<st1:PlaceName w:st="on">Aston</st1:PlaceName> <st1:PlaceType w:st="on">University</st1:PlaceType>,
<st1:place w:st="on"><st1:City w:st="on">Birmingham</st1:City> <st1:PostalCode
 w:st="on">B4 7ET</st1:PostalCode>, <st1:country-region w:st="on">UK</st1:country-region></st1:place><br>
Tel: +44 (0)121-204-3812 ; Fax: +44 (0)121-204-3766 [Room NX08, 10th<br>
Floor, North Wing of <st1:place w:st="on"><st1:PlaceName w:st="on">Main</st1:PlaceName>
 <st1:PlaceType w:st="on">Building</st1:PlaceType></st1:place>]<br>
<a href="http://www1.aston.ac.uk/lss/staff/krishnamurthyr/">http://www1.aston.ac.uk/lss/staff/krishnamurthyr/</a><br>
Director, ACORN (Aston Corpus Network project): <a
href="http://acorn.aston.ac.uk/" eudora=autourl>http://acorn.aston.ac.uk/</a> <o:p></o:p></span></font></p>

<X-SIGSEP></div>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>Date: Fri, 3 Apr 2009
08:45:35 -0600<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>From: Mark Davies
<Mark_Davies@byu.edu><o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>Subject: Re: [Corpora-List]
Corpus size and accuracy of frequency<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>      listings              <o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>To:
"corpora@uib.no" <corpora@uib.no><o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>> Dear Mark,<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>> I don't think your
question makes much sense -- possibly because you fail to explain what is the
purpose of your frequency lists.<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>No, I didn't give all of the
relevant details in the first message. The main issue is what is a an
"adequate" corpus size to create a lemma list of X number of words in
a given language. If it's a top 10,000 lemma list, is 10,000,000 words adequate?
Is 100,000,000 much better? The main point -- is it worth the effort to create
a corpus ten times the size for only a small increase in accuracy? And I'm not
just asking for the sake of curiosity -- there's an upcoming project that needs
some data on this.<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>>> The effect of
picking every 5th or 50th running word on the ranked list...<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>It would be every 5th or
50th word of running text *in the corpus*, *not* the ranked list. In this way,
even words that occur mainly in multiword expressions should be fine. Adjacent
words X1 and X2 would each be counted as would any other word. Sometimes the
first word would be retrieved as we take words 1, 11, 21, 31... etc, and
sometimes it would be the second word. It would never take the whole multiword
expression together, of course, but then we're just after 1-grams for the lemma
list (unless we *want* to preserve multiword units in the list, as in earlier
versions of the BNC, for example).<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>And again, I'm not proposing
to actually reduce a 100 million word corpus down to a 10 million word corpus
-- that wouldn't make any sense. The point is whether -- for a ranked lemma
list of size X -- a 10 million word corpus, for example, might be nearly as
adequate as a 100 million word corpus (all other things -- genres, etc -- being
equal).<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>Mark D.<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>============================================<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>Mark Davies<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>Professor of (Corpus)
Linguistics<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><st1:place w:st="on"><st1:PlaceName
 w:st="on"><font size=2 face="Courier New"><span style='font-size:10.0pt;
  font-family:"Courier New"'>Brigham</span></font></st1:PlaceName><font size=2
 face="Courier New"><span style='font-size:10.0pt;font-family:"Courier New"'> <st1:PlaceName
 w:st="on">Young</st1:PlaceName> <st1:PlaceType w:st="on">University</st1:PlaceType></span></font></st1:place><font
size=2 face="Courier New"><span style='font-size:10.0pt;font-family:"Courier New"'><o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>(phone) 801-422-9168 / (fax)
801-422-0906<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'><a
href="http://davies-linguistics.byu.edu/">http://davies-linguistics.byu.edu</a><o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>** Corpus design and use //
Linguistic databases **<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>** Historical linguistics //
Language variation **<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>** English, Spanish, and
Portuguese **<o:p></o:p></span></font></p>

<p class=MsoNormal style='text-autospace:none'><font size=2 face="Courier New"><span
style='font-size:10.0pt;font-family:"Courier New"'>============================================
<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span lang=EN-GB
style='font-size:12.0pt'><o:p> </o:p></span></font></p>

</div>

</body>

</html>