<div>Hi Gemma,</div>
<div> </div>
<div>Thank you for releasing such a great corpus. However, the download link <a href="http://www.lsi.upc.edu/~nlp/wikicorpus" target="_blank">http://www.lsi.upc.edu/~nlp/wikicorpus</a><br>is not working for now.<br></div>

<div>-- <br>
<div>Best regards,</div>
<div>Lushan Han</div>
<div> </div>
<div>PhD Student in Computer Science</div>
<div>University of Maryland, Baltimore County</div><br><br></div>
<div class="gmail_quote">On Mon, Nov 15, 2010 at 6:26 AM, Gemma Boleda <span dir="ltr"><<a href="mailto:gboleda@lsi.upc.edu">gboleda@lsi.upc.edu</a>></span> wrote:<br>
<blockquote style="BORDER-LEFT: #ccc 1px solid; MARGIN: 0px 0px 0px 0.8ex; PADDING-LEFT: 1ex" class="gmail_quote">Wikicorpus, v. 1.0: Catalan, Spanish and English portions of the Wikipedia.<br><br>The Wikicorpus contains portions of the Catalan, Spanish, and English Wikipedias<br>
based on a 2006 dump. The corpora have been automatically tagged with lemma and<br>part of speech information using the open source library FreeLing. Also, they have<br>been WordNet-sense annotated with the state of the art Word Sense Disambiguation<br>
algorithm UKB. In its current version, the corpora have the following sizes:<br><br>* Catalan: around 50 million words<br>* Spanish: around 120 million words<br>* English: around 600 million words<br><br>We provide access to the corpora in their raw text and tagged versions, under the<br>
same license as Wikipedia itself. To our knowledge, these are the largest Catalan<br>and Spanish corpora freely available for download. Moreover, we also provide an<br>open source Java-based parser for Wikipedia pages developed for the construction<br>
of the corpus. For more information and download, please visit the project's page:<br><br><a href="http://www.lsi.upc.edu/~nlp/wikicorpus" target="_blank">http://www.lsi.upc.edu/~nlp/wikicorpus</a><br><br><br><br>_______________________________________________<br>
Corpora mailing list<br><a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br><a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br><br></blockquote></div><br><br clear="all">
<br>