<div>COCA looks like a good one. But could I have a copy of the corpus and run my own programs on it? The web interface cannot meet my requirement.</div>
<div> </div>
<div>Thanks,</div>
<div> </div>
<div>Lushan Han</div>
<div><br><br> </div>
<div class="gmail_quote">On Mon, Jul 16, 2012 at 5:48 PM, Mark Davies <span dir="ltr"><<a href="mailto:Mark_Davies@byu.edu" target="_blank">Mark_Davies@byu.edu</a>></span> wrote:<br>
<blockquote style="BORDER-LEFT:#ccc 1px solid;MARGIN:0px 0px 0px 0.8ex;PADDING-LEFT:1ex" class="gmail_quote">
<div class="im">>> Does anyone know where or how I can get a well-balanced corpus of modern English, such as BNC, but with a much larger size?  I hope it can have at least 1 billion words<br><br></div>It's only 450 million words, but you might try: <a href="http://corpus.byu.edu/coca" target="_blank">http://corpus.byu.edu/coca</a> (COCA)<br>
<br>It is divided evenly into spoken, fiction, popular magazines, newspapers, and academic, each with 90-95 million words.<br><br>It is also much more recent than the BNC. COCA has 20 million words each year, 1990-2012 (compared to the 1993 end date of the BNC).<br>
<br>Finally, it has the same genre balance each year, which makes it nice for looking at recent changes in English; see:<br><br>Davies, Mark. (2011) "The Corpus of Contemporary American English as the First Reliable Monitor Corpus of English". Literary and Linguistic Computing 25: 447-65.<br>
<br>Best,<br><br>Mark Davies<br><br>============================================<br>Mark Davies<br>Professor of Linguistics / Brigham Young University<br><a href="http://davies-linguistics.byu.edu/" target="_blank">http://davies-linguistics.byu.edu/</a><br>
** Corpus design and use // Linguistic databases **<br>** Historical linguistics // Language variation **<br>** English, Spanish, and Portuguese **<br>============================================<br><br><br><br><br>From: <a href="mailto:corpora-bounces@uib.no">corpora-bounces@uib.no</a> [<a href="mailto:corpora-bounces@uib.no">corpora-bounces@uib.no</a>] on behalf of Lushan Han [<a href="mailto:lushan1@umbc.edu">lushan1@umbc.edu</a>]<br>
Sent: Monday, July 16, 2012 1:10 PM<br>To: <a href="mailto:corpora@uib.no">corpora@uib.no</a><br>Subject: [Corpora-List] ask for very large, well-balanced corpus<br>
<div class="HOEnZb">
<div class="h5"><br><br>Dear all,<br><br>Does anyone know where or how I can get a well-balanced corpus of modern English, such as BNC, but with a much larger size? I hope it can have at least 1 billion words. I tried to assemble a corpus from Wikipedia articles but it turned out that such a corpus is not balanced. Wikipedia contains many repetitions of the same type of articles, for example, films or birds.<br>
<br>A Web corpus should be okay for my purpose as long as it was harvested from balanced domains.<br><br><br>Thanks,<br><br>Lushan Han </div></div></blockquote></div><br>