<html>
  <head>
    <meta content="text/html; charset=ISO-8859-1"
      http-equiv="Content-Type">
  </head>
  <body text="#000000" bgcolor="#FFFFFF"><style>blockquote {padding-left: 1ex; margin: 0px 0px 0px 0.8ex; border-left: #cccccc 1px solid;} p {margin: 0px;padding: 0px;} </style>
<p>Dear Mike,</p>
<p> </p>
<p> </p>
<p> </p>
<p>I think you should look at the following paper by Biber:</p>
<p> </p>
<p> </p>
<p> </p>
<p class="MsoNormal" style="margin-top: 0cm; margin-right: 0cm; margin-left: 35.4pt; text-align: justify; text-indent: -35.4pt; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif; color: #000000;" lang="en-us">Biber, D. (2009). A corpus-driven approach to formulaic language in English: multi-word patterns in speech and writing. <em>International Journal of Corpus Linguistics </em>14(3): 275–311.</span></p>
<p> </p>
<p class="MsoNormal" style="margin-top: 0cm; margin-right: 0cm; margin-left: 35.4pt; text-align: justify; text-indent: -35.4pt; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif; color: #000000;" lang="en-us"> </span></p>
<p> </p>
<p><span style="font-size: 12pt; line-height: 115%; font-family: 'Times New Roman', serif;" lang="en-us">Biber (2009) demonstrated that normalized frequency constitutes a more effective measure than MI-score because the latter disregards the word order as well as those multi-word units which include high-frequency grammatical words (multi-word formulaic sequences). Multi-word collocations are usually extended noun phrases composed of lexical/content words only. They have high MI-scores and low 
frequencies, and they typically are multi-word technical terms, e.g. <em>severe subcutaneous tissue disorders, chronic renal failure </em>etc. On the other hand,multi-word formulaic sequences consist of both function and lexical/content words (hence, they have low MI-scores and high frequencies, and they typically play the role of discourse-organizing frames, e.g. <em>if you forget to</em>, <em>it is important to</em>, <em>in the case of</em> etc. </span></p>
<p> </p>
<p><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif;" lang="en-us"> </span></p>
<p> </p>
<p><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif;" lang="en-us">Also,  Heid (2011: 351) noticed that the use of such word association measures as Mi-score is problematic for inflectional languages exhibiting high level of morphological variation (e.g. Polish, Russian etc. vs. English). As counts for higher number of different word forms are higher, co-occurrence data becomes more diluted and fewer multi-word units reach a significant co-occurrence 
value. This problem can be remedied with the use of annotated and/or lemmatized corpora.</span></p>
<p> </p>
<p> </p>
<p> </p>
<p><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif;" lang="en-us"> </span></p>
<p> </p>
<p><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif;" lang="en-us">Ellis et al. (2009), on the other hand, observed the measure effect for mutual information only for 2-word grams, although they applied this metric to 2-9-word grams.</span></p>
<p> </p>
<p><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif;" lang="en-us"> </span></p>
<p> </p>
<p><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif;" lang="en-us">You can find more in the following papers:<br /></span></p>
<p> </p>
<p><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif;" lang="en-us"> </span></p>
<p> </p>
<p class="MsoNormal" style="margin-top: 0cm; margin-right: 0cm; margin-left: 35.4pt; text-align: justify; text-indent: -35.4pt; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif; color: #000000;" lang="en-us">Ellis, N., Roemer, U., Brook O’Donnell, M., Gries, S. & Wulff, S. (2009). â€¶Measuring the formulaicity of language”. Paper presented at colloquium <em>SLA and the inseparability o</em>f <em>vocabulary and 
syntax. </em>Denver, Colorado, 21-24 Mar 2009.</span></p>
<p> </p>
<p class="MsoNormal" style="margin-top: 0cm; margin-right: 0cm; margin-left: 35.4pt; text-align: justify; text-indent: -35.4pt; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif; color: #000000;" lang="en-us">Heid, U. (2011). â€¶Computational Phraseology: An overview”. In: In: S. Granger, F. Meunier (eds), <em>Phraseology: An interdisciplinary perspective</em>. Amsterdam: John Benjamins, pp. 337-360.</span></p>
<p> </p>
<p class="MsoNormal" style="margin-top: 0cm; margin-right: 0cm; margin-left: 35.4pt; text-align: justify; text-indent: -35.4pt; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif; color: #000000;" lang="en-us"> </span></p>
<p> </p>
<p class="MsoNormal" style="margin-top: 0cm; margin-right: 0cm; margin-left: 35.4pt; text-align: justify; text-indent: -35.4pt; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif; color: #000000;" lang="en-us">I hope it helps.<br /></span></p>
<p> </p>
<p class="MsoNormal" style="margin-top: 0cm; margin-right: 0cm; margin-left: 35.4pt; text-align: justify; text-indent: -35.4pt; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif; color: #000000;" lang="en-us"> </span></p>
<p> </p>
<p class="MsoNormal" style="margin-top: 0cm; margin-right: 0cm; margin-left: 35.4pt; text-align: justify; text-indent: -35.4pt; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif; color: #000000;" lang="en-us">Best regards,<br /></span></p>
<p><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif; color: #000000;" lang="en-us">Lukasz </span></p>
<p><span style="font-size: 12pt; line-height: 150%; font-family: 'Times New Roman', serif; color: #000000;" lang="en-us"> </span></p>
<p>Dnia 14-05-2013 o godz. 19:14 Mike Scott napisał(a):</p>
<blockquote>I have had a query about MI (or any other similar statistic) involving more than two elements:<br /> <br /> <span style="color: #222222; font-family: Arial, Helvetica,
      sans-serif; font-size: 13px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; background-color: #ffffff; display: inline !important; float: none;">"I don't know how to calculate the Mutual Information (MI) for these 4-word lexical bundles, 
it seems I can only find the MI score for 2-word collocations."</span><br /> <br /> Can anyone advise please?<br /> <br /> Cheers -- Mike<br /> <br />
<pre class="moz-signature">-- 
Mike Scott

***
If you publish research which uses WordSmith, do let me know so I can include it at
<a class="moz-txt-link-freetext" href="http://www.lexically.net/wordsmith/corpus_linguistics_links/papers_using_wordsmith.htm">http://www.lexically.net/wordsmith/corpus_linguistics_links/papers_using_wordsmith.htm</a>
***
University of Aston and Lexical Analysis Software Ltd.
<a class="moz-txt-link-abbreviated" href="mailto:mike.scott@aston.ac.uk">mike.scott@aston.ac.uk</a>
<a class="moz-txt-link-abbreviated" href="http://www.lexically.net">www.lexically.net</a>
</pre>
</blockquote>
<p><br /><br /></p><br />