Dear all,<div><br></div><div>Wikipedia dumps have been popular source of texts for NLP due to its availability and the sheer size.</div><div><br></div><div>I would like to ask whether anyone had conducted quantitative or qualitative survey on </div>
<div><ul><li>how useful are these dumps to NLP and </li><li>what are the issues that will surface when using wikipedia dumps as corpora.</li></ul></div><div><br></div><div>Regards,</div><div>liling</div>