<div>Dear all,</div>
<div> </div>
<div>Does anyone know where or how I can get a well-balanced corpus of modern English, such as BNC, but with a much larger size? I hope it can have at least 1 billion words. I tried to assemble a corpus from Wikipedia articles but it turned out that such a corpus is not balanced. Wikipedia contains many repetitions of the same type of articles, for example, films or birds.</div>

<div> </div>
<div>A Web corpus should be okay for my purpose as long as it was harvested from balanced domains.</div>
<div> </div>
<div> </div>
<div>Thanks,</div>
<div> </div>
<div>Lushan Han </div>