<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=us-ascii">
<meta name=Generator content="Microsoft Word 12 (filtered medium)">
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:SimSun;
        panose-1:2 1 6 0 3 1 1 1 1 1;}
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:"\@SimSun";
        panose-1:0 0 0 0 0 0 0 0 0 0;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p.MsoPlainText, li.MsoPlainText, div.MsoPlainText
        {mso-style-priority:99;
        mso-style-link:"Plain Text Char";
        margin:0in;
        margin-bottom:.0001pt;
        font-size:10.5pt;
        font-family:"Verdana","sans-serif";}
span.PlainTextChar
        {mso-style-name:"Plain Text Char";
        mso-style-priority:99;
        mso-style-link:"Plain Text";
        font-family:"Verdana","sans-serif";}
span.EmailStyle19
        {mso-style-type:personal-compose;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page Section1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.Section1
        {page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=EN-US link=blue vlink=purple>

<div class=Section1>

<p class=MsoPlainText>We have just released the final set of word frequency
resources that are based on the 400 million word <a
href="http://www.americancorpus.org/">Corpus of Contemporary American English</a>
(COCA). More information -- including samples of each type of resource -- is
available from <a href="http://www.wordfrequency.info/">http://www.wordfrequency.info</a>.
<o:p></o:p></p>

<p class=MsoPlainText><o:p> </o:p></p>

<p class=MsoPlainText>Now available:<o:p></o:p></p>

<p class=MsoPlainText><o:p> </o:p></p>

<p class=MsoPlainText>1. <a
href="http://www.wordfrequency.info/files/entriesWithCollocates.zip">Top 20,000
lemmas</a>, with the top 200-300 collocates per word -- for a total of more
than 4,300,000 word / collocate pairs. For each pair, it gives:<o:p></o:p></p>

<p class=MsoPlainText>  -- Frequency of the collocate<o:p></o:p></p>

<p class=MsoPlainText>  -- Mutual Information score<o:p></o:p></p>

<p class=MsoPlainText>  -- Pre/post ratio of collocate with regards to
node word<o:p></o:p></p>

<p class=MsoPlainText><o:p> </o:p></p>

<p class=MsoPlainText>2. <a href="http://www.wordfrequency.info/?l=ngrams.asp">N-grams</a>.
All 155,000,000 trigrams in the corpus -- along with their frequency -- linked
to a lexicon with word form (+/- case sensitive), part of speech, and lemma.
Will need to use SQL joins to extract the data. Given the structure of the
data, the bigrams can be easily generated from the trigrams list.<o:p></o:p></p>

<p class=MsoPlainText><o:p> </o:p></p>

<p class=MsoPlainText>3. New <a
href="http://www.wordfrequency.info/files/entries.pdf">eBook</a> version (more
for student / learner use)<o:p></o:p></p>

<p class=MsoPlainText>  -- Top 20,000 words in English in order of
frequency<o:p></o:p></p>

<p class=MsoPlainText>  -- 20-30 collocates (nearby words) and synonyms
for each word<o:p></o:p></p>

<p class=MsoPlainText>  -- Other frequency information, including
indication of variation by genre<o:p></o:p></p>

<p class=MsoPlainText><o:p> </o:p></p>

<p class=MsoPlainText>Formats previously announced:<o:p></o:p></p>

<p class=MsoPlainText><o:p> </o:p></p>

<p class=MsoPlainText>-- Printed book (<a
href="http://www.routledge.com/books/A-Frequency-Dictionary-of-Contemporary-American-English-isbn9780415490634">Routledge</a>,
2010) (top 5,000 entries, collocates, thematic lists)<o:p></o:p></p>

<p class=MsoPlainText>-- <a href="http://www.wordfrequency.info/free">Free</a>
listing of the top 5,000 words (without collocates or synonyms).<o:p></o:p></p>

<p class=MsoPlainText><o:p> </o:p></p>

<p class=MsoPlainText>============================================<o:p></o:p></p>

<p class=MsoPlainText>Mark Davies<o:p></o:p></p>

<p class=MsoPlainText>Professor of (Corpus) Linguistics<o:p></o:p></p>

<p class=MsoPlainText>Brigham Young University<o:p></o:p></p>

<p class=MsoPlainText>(phone) 801-422-9168 / (fax) 801-422-0906<o:p></o:p></p>

<p class=MsoPlainText><o:p> </o:p></p>

<p class=MsoPlainText>http://davies-linguistics.byu.edu<o:p></o:p></p>

<p class=MsoPlainText><o:p> </o:p></p>

<p class=MsoPlainText>** Corpus design and use // Linguistic databases **<o:p></o:p></p>

<p class=MsoPlainText>** Historical linguistics // Language variation **<o:p></o:p></p>

<p class=MsoPlainText>** English, Spanish, and Portuguese **<o:p></o:p></p>

<p class=MsoPlainText>============================================ <o:p></o:p></p>

<p class=MsoPlainText><o:p> </o:p></p>

<p class=MsoPlainText><o:p> </o:p></p>

</div>

</body>

</html>