<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><!--StartFragment--><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span class="Apple-style-span" style="font-weight: bold; ">1) Mi<sub>2</sub> or MI<sub>10</sub>?</span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><b><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
font-family:Helvetica;mso-bidi-font-family:Helvetica"><o:p> </o:p></span></b></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">The MI for a 2-gram (a b) is calculated<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><o:p> </o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><span style="mso-tab-count:1">            </span>log2(p(a,b)/(p(a)*p(b))<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><o:p> </o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">The original application of MI to collocation
by Church and Hanks used log2, see also the Oakes, Statistics for Corpus
Linguistics book.<o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">AntConc calculates MI in this way. Laurence
Anthony in the AntConc readme file says that for MI he uses “equations
described in M. Stubbs, Collocations and Semantic Profiles, Functions of
Language 2, 1 (1995)”. In that article,<span style="mso-spacerun: yes"> 
</span>Mike Stubbs refers to Church and Hanks 1990. See also  <a href="http://ell.phil.tu-chemnitz.de/analysis/collocations.html"><span style="color:windowtext;text-decoration:none;text-underline:none">http://ell.phil.tu-chemnitz.de/analysis/collocations.html</span></a>.<o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">We believe that <span style="mso-spacerun:
yes"> </span>Collocate, the package we used in the Ellis & Simpson-Vlach
research, uses log2 too. Although the Collocate manual does not describe the
formula it uses, it generates the same MI values for bigrams as AntConc (give
or take a bit, probably depending on definitions of what is a word, etc.).<o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><o:p> </o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">The extension to a 3 gram (a b c) is <o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><span style="mso-tab-count:1">            </span>log2(p(a,b,c)/(p(a)*p(b)*p(c))<o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">In our (Ellis & Simpson-Vlach, 2008)
written academic corpus (The academic writing corpus consisted of Hyland’s
(2004) research article corpus (1.2 million words), plus selected BNC files
(931,000 words)), our analyses generated the following MIs for 6 example
n-grams in the 1st column of data. Mark Davies' from BNC (from his latest
e-mail to the list on this issue) are shown in the second column.<o:p></o:p></span></p>

<table class="MsoNormalTable" border="1" cellspacing="0" cellpadding="0" style="border-collapse:collapse;mso-table-layout-alt:fixed;border:none;
 mso-padding-alt:0in 5.4pt 0in 5.4pt">
 <tbody><tr style="mso-yfti-irow:0;mso-yfti-firstrow:yes">
  <td width="122" style="width:1.7in;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
  text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
  mso-bidi-font-family:Verdana">n-gram<o:p></o:p></span></p>
  </td>
  <td width="94" style="width:94.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
  text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
  mso-bidi-font-family:Verdana">our corpus & MIs<o:p></o:p></span></p>
  </td>
  <td width="86" style="width:86.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
  text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
  mso-bidi-font-family:Verdana">Davies BNC MIs<o:p></o:p></span></p>
  </td>
  <td width="116" style="width:116.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
  text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
  mso-bidi-font-family:Verdana">ours using log 10<o:p></o:p></span></p>
  </td>
 </tr>
 <tr style="mso-yfti-irow:1">
  <td width="122" style="width:1.7in;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
  text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
  mso-bidi-font-family:Verdana">the content of <o:p></o:p></span></p>
  </td>
  <td width="94" style="width:94.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">5.28<o:p></o:p></span></p>
  </td>
  <td width="86" style="width:86.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">2.75<o:p></o:p></span></p>
  </td>
  <td width="116" style="width:116.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">1.59<o:p></o:p></span></p>
  </td>
 </tr>
 <tr style="mso-yfti-irow:2">
  <td width="122" style="width:1.7in;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
  text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
  mso-bidi-font-family:Verdana">is one of the<o:p></o:p></span></p>
  </td>
  <td width="94" style="width:94.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">7.72<o:p></o:p></span></p>
  </td>
  <td width="86" style="width:86.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">2.18<o:p></o:p></span></p>
  </td>
  <td width="116" style="width:116.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">2.32<o:p></o:p></span></p>
  </td>
 </tr>
 <tr style="mso-yfti-irow:3">
  <td width="122" style="width:1.7in;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
  text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
  mso-bidi-font-family:Verdana">a kind of<o:p></o:p></span></p>
  </td>
  <td width="94" style="width:94.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">7.02<o:p></o:p></span></p>
  </td>
  <td width="86" style="width:86.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">3.52<o:p></o:p></span></p>
  </td>
  <td width="116" style="width:116.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">2.11<o:p></o:p></span></p>
  </td>
 </tr>
 <tr style="mso-yfti-irow:4">
  <td width="122" style="width:1.7in;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
  text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
  mso-bidi-font-family:Verdana">the extent to which<o:p></o:p></span></p>
  </td>
  <td width="94" style="width:94.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">14.81<o:p></o:p></span></p>
  </td>
  <td width="86" style="width:86.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">2.18<o:p></o:p></span></p>
  </td>
  <td width="116" style="width:116.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">4.46<o:p></o:p></span></p>
  </td>
 </tr>
 <tr style="mso-yfti-irow:5">
  <td width="122" style="width:1.7in;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
  text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
  mso-bidi-font-family:Verdana">in other words<o:p></o:p></span></p>
  </td>
  <td width="94" style="width:94.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">12.01<o:p></o:p></span></p>
  </td>
  <td width="86" style="width:86.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">4.39<o:p></o:p></span></p>
  </td>
  <td width="116" style="width:116.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">3.61<o:p></o:p></span></p>
  </td>
 </tr>
 <tr style="mso-yfti-irow:6;mso-yfti-lastrow:yes">
  <td width="122" style="width:1.7in;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
  text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
  mso-bidi-font-family:Verdana">a great deal of<o:p></o:p></span></p>
  </td>
  <td width="94" style="width:94.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">20.39<o:p></o:p></span></p>
  </td>
  <td width="86" style="width:86.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">2.94<o:p></o:p></span></p>
  </td>
  <td width="116" style="width:116.0pt;border:none;padding:0in 5.4pt 0in 5.4pt"><p class="MsoNormal" align="right" style="text-align:right;mso-pagination:none;
  mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Verdana">6.14<o:p></o:p></span></p>
  </td>
 </tr>
</tbody></table><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Verdana"><o:p> </o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Verdana">We believe that Mark is using log10 in his
calculations. If we do same we get MI values as shown in the final column.
Remembering the different samples, we're in the same ball-park.<o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Verdana"><o:p> </o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Verdana">Can you confirm that your interfaces
(corpus.byu.edu/bnc/) produce MI calculated as log10, Mark?<o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Verdana"><o:p> </o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Verdana">If some of us are using log2 and others log10,
there’s no problem of comparability within study, and we need simply use the
scaling factor of 3.3219 across studies. But there is scope for error if we are
not clear about our units (remember the Mars Orbiter). <o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US"><i>We should be explicit in our reports. Perhaps
there is reason to standardly report either as MI</i><sub><i>2</i></sub><i> or MI</i><sub><i>10.</i></sub></span><b style="mso-bidi-font-weight:normal"><span lang="EN-US" style="mso-bidi-font-size:
12.0pt;mso-bidi-font-family:Helvetica"><o:p></o:p></span></b></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Verdana"><o:p> </o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><b><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
font-family:Helvetica;mso-bidi-font-family:Helvetica">2) Mi<sub> </sub>is
sensitive to n-gram length<o:p></o:p></span></b></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Verdana"><o:p> </o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Verdana">MI is sensitive to length of string. Longer
formulaic sequences are rarer – see Newell on this. As I said in an earlier
reply to Brett Reynolds, we (Ellis, O'Donnell, Römer, Gries, & Wulff, 2009)
have</span><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:
Helvetica"> calculated MI for all 2-9 grams in the whole of BNCBaby
occurring 12+ times, for each N we found the median MI, resulting in:<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">N <span style="mso-tab-count:1">            </span>Median
MI<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">
2 <span style="mso-tab-count:1">            </span>2.234
<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">3 <span style="mso-tab-count:1">            </span>6.723<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">
4 <span style="mso-tab-count:1">            </span>13.085<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">
5 <span style="mso-tab-count:1">            </span>20.835<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">
6 <span style="mso-tab-count:1">            </span>38.925<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">
7 <span style="mso-tab-count:1">            </span>53.612
<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">8 <span style="mso-tab-count:1">            </span>69.046
<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">9 <span style="mso-tab-count:1">            </span>79.962<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><o:p> </o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">We did this by formula, not using Collocate,
but again log2.<span style="mso-spacerun: yes">  </span>The slides from
this talk can be found on our Michigan Corpus Linguistics site:<o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><a href="http://ctr.elicorpora.info/formulaic-language-project">http://ctr.elicorpora.info/formulaic-language-project</a><o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">Matt O’Donnell has now repeated these analyses,
just to be sure, and obtained similar results:<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">N<span style="mso-tab-count:1">            </span>MEDIAN<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">2<span style="mso-tab-count:1">            </span>2.26475918<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">3<span style="mso-tab-count:1">            </span>6.783017633<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">4<span style="mso-tab-count:1">            </span>13.17090969<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">5<span style="mso-tab-count:1">            </span>20.95527274<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">6<span style="mso-tab-count:1">            </span>39.06738859<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">7<span style="mso-tab-count:1">            </span>53.78959166<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">8<span style="mso-tab-count:1">            </span>69.24835305<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">9<span style="mso-tab-count:1">            </span>80.19228017<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><o:p> </o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">Word and 2-9 gram lists generated in WordSmith
with a frequency threshol of 12+ (i.e. 3 per million), then a python script to
calculate MI using the log2 formula.<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><o:p> </o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><o:p> </o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">The marginal mean MIs (low=3.3, medium = 6.7,
high = 11) in Ellis & Simpson-Vlach Table 1 average over strings of length
n=3, 4, 5 so are greater than one might expect for bigrams. We stratified
within each length, we did not use these values as overall thresholds.<o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">Thanks to Matt O’Donnell and Ute Römer for working this through with me.<o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica">Hope it clarifies,<o:p></o:p></span></p><p class="MsoNormal" style="mso-pagination:none;mso-layout-grid-align:none;
text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><span style="mso-tab-count:1">            </span><o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><span style="mso-tab-count:1">            </span>Nick
Ellis<o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:12.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><o:p>  </o:p></span></p><p class="MsoNormal" style="margin-left:24.0pt;text-indent:-24.0pt;mso-pagination:
none;mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Helvetica">Ellis, N. C.,
O’Donnell, M. B., Römer, U., Gries, S. T., & Wulff, S. Measuring the
formulaicity of language. Paper presented at AAAL 2009, the annual conference
of the American Association of Applied Linguistics,  Denver, CO. March
21-March 24, 2009.)<o:p></o:p></span></p><p class="MsoNormal" style="margin-left:24.0pt;text-indent:-24.0pt;mso-pagination:
none;mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Helvetica">Ellis, N. C.
& Simpson-Vlach, R. (2009). Formulaic language in native speakers:
Triangulating psycholinguistics, corpus linguistics, and education. Corpus
Linguistics and Linguistic Theory, 5, 61-78.<o:p></o:p></span></p><p class="MsoNormal" style="margin-left:24.0pt;text-indent:-24.0pt;mso-pagination:
none;mso-layout-grid-align:none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;mso-bidi-font-family:Helvetica">Newell, A.
(1990). Unified theories of cognition. Cambridge, MA: Harvard University Press.<o:p></o:p></span></p><p class="MsoNormal" style="margin-bottom:8.0pt;mso-pagination:none;mso-layout-grid-align:
none;text-autospace:none"><span lang="EN-US" style="mso-bidi-font-size:12.0pt;
mso-bidi-font-family:Helvetica"><o:p> </o:p></span></p><p class="MsoNormal"><span class="Apple-style-span" style="font-size: 12px; ">Nick Ellis</span></p><div apple-content-edited="true"><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">  Professor of Psychology</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">  Research Scientist, English Language Institute</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">University of Michigan</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Room 1011, </div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">500 East Washington Street</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Ann Arbor</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">MI 48104</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">USA</div><div><br></div><div>e-mail: <span class="Apple-tab-span" style="white-space: pre; "><span class="Apple-style-span" style="white-space: pre; "><span class="Apple-style-span" style="white-space: pre; ">               </span></span></span> <span class="Apple-tab-span" style="white-space: pre; "><span class="Apple-style-span" style="white-space: pre; "><span class="Apple-style-span" style="white-space: pre; ">         </span></span></span><a href="mailto:ncellis@umich.edu"><span class="Apple-style-span" style="color: rgb(0, 0, 238); -webkit-text-decorations-in-effect: underline; "><span class="Apple-style-span" style="color: rgb(0, 0, 238); -webkit-text-decorations-in-effect: underline; ">ncellis@umich.ed</span></span></a>u</div><div>home page:<span class="Apple-tab-span" style="white-space: pre; "><span class="Apple-style-span" style="white-space: pre; "><span class="Apple-style-span" style="white-space: pre; ">                      <span class="Apple-style-span" style="white-space: normal; "><a href="http://web.mac.com/ncellis/iWeb/Nick%20Ellis/Home.html">Ellis</a></span></span></span></span></div><div></div><div>work  phone:      <span class="Apple-tab-span" style="white-space: pre; "><span class="Apple-style-span" style="white-space: pre; "><span class="Apple-style-span" style="white-space: pre; ">          </span></span></span>734-647-0454</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">work fax<span class="Apple-converted-tab"> :   <span class="Apple-tab-span" style="white-space: pre; "><span class="Apple-style-span" style="white-space: pre; "><span class="Apple-style-span" style="white-space: pre; ">                 </span></span></span></span>734-763-0369</div><br class="Apple-interchange-newline"></span><br class="Apple-interchange-newline"></div></span></div></span></div></span></div></span></div></span> </div><br><div><div>On Sep 5, 2009, at 8:48 AM, Brett Reynolds wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div>"Formulaic language in native speakers: Triangulating psycholinguistics, corpus linguistics, and education" by Nick C. Ellis and Rita Simpson-Vlach was recently published in _Corpus Linguistics and Linguistic Theory_ <<a href="http://www.reference-global.com/doi/abs/10.1515/CLLT.2009.003">http://www.reference-global.com/doi/abs/10.1515/CLLT.2009.003</a>>.<br><br>Therein is a table of n-grams in three columns: low, medium, and high MI scores. I'm going from memory, but the authors consider roughly MI=3 as low, MI=6 as medium, and MI=12 as high.<br><br>I have only a very rudimentary understanding of MI scores, but my understanding is that an MI of 3 indicates a strong collocation, so I wrote to Nick and asked him about it. He wrote back that:<br><br>-They used Mike Barlow's Collocate.<br>-"MI is very sensitive to length of n-gram.<br><br>For example, calculating MI for all 2-9 grams in the whole of BNCBaby occurring 12+ times, for each N we found the median MI, resulting in:<br>N Median MI<br>2 2.234<br>3 6.723<br>4 13.085<br>5 20.835<br>6 38.925<br>7 53.612<br>8 69.046<br>9 79.962"<br><br>I've never seen MI scores of that size. Moreover, when I looked at some of the n-grams that appear in the paper using Mark Davies' COCA and BNC interfaces, I came up with much lower numbers. Here are some examples: the first is the MI in the entire corpus, and the second is the MI in the academic subcorpus.<br><br>BNC<br>the content of  2.99 0.34<br>is one of the 2.41 -0.24<br>a kind of 4.06 1.41<br>the extent to which 2.41 -0.24<br>in other words 4.71 2.05<br>a great deal of 3.47 0.82<br><br>COCA<br>the content of 3.24 0.90<br>is one of the 2.66 0.31<br>a kind of 4.31 1.97<br>the extent to which 2.66 0.31<br>in other words 4.83 2.49<br>a great deal of 3.73 1.38<br><br>Again, the numbers in the paper are often four times those above. Can anybody help me understand this discrepancy?<br><br>Best,<br>Brett<br><br><<a href="http://english-jack.blogspot.com">http://english-jack.blogspot.com</a>><br><br>-----------------------<br>Brett Reynolds<br>English Language Centre<br>Humber College Institute of Technology and Advanced Learning<br>Toronto, Ontario, Canada<br><a href="mailto:brett.reynolds@humber.ca">brett.reynolds@humber.ca</a><br><br><br><br><br>_______________________________________________<br>Corpora mailing list<br>Corpora@uib.no<br>http://mailman.uib.no/listinfo/corpora<br><br><br></div></blockquote></div>Brett,<br><br>I get quite different scores for the Academic-only queries, and these are much more in line with what one would expect. <br><br>BNC (corpus.byu.edu/bnc)<br>the content of  2.75 (vs. your 0.34)<br>is one of the 2.18 (vs. your -0.24)<br>a kind of 3.52<br>the extent to which 2.18<br>in other words 4.39<br>a great deal of 2.94<br><br>Corpus of Contemporary American English (<a href="http://www.americancorpus.org/">www.americancorpus.org</a>)<br>the content of 2.94<br>is one of the 2.35<br>a kind of 3.69<br>the extent to which 2.35<br>in other words 4.45<br>a great deal of 3.11<br><br>Also, the MI scores from the BYU-BNC agree quite nicely with the MI from the BNC via Sketch Engine and BNCweb. For example, for [ * havoc ], BYU-BNC gives 16.9 for [wreak], Sketch Engine gives 17.0, and BNCweb gives 17.1. So apparently they are all using the same MI formula correctly. (BTW, the calculated corpus size might account for the very small differences, since the number of "words" in the BNC differs slightly depending on what counts as a "word").<br><br>As you've mentioned, these MI scores are much, much lower than what Ellis et al have found. Even with a very highly idiomatic phrase like "run amok" or "wreak havoc", MI scores are almost never above 16-17 -- certainly not up in the 60-80 range.<br><br>Feel free to email me if you need help with these.<br><br>Mark<br><br>============================================<br>Mark Davies<br>Professor of (Corpus) Linguistics<br>Brigham Young University<br>(phone) 801-422-9168 / (fax) 801-422-0906<br></body></html>