<div>Some tools which may help you:</div><div><br></div><div>wget to download pages or preferably most programming languages have their own url download libraries e.g. Python has urllib2.</div><div>justext to remove boilerplate <a href="http://code.google.com/p/justext/">http://code.google.com/p/justext/</a></div>

<div>Onion for deduplication <a href="http://code.google.com/p/onion/">http://code.google.com/p/onion/</a> </div><div><br></div><div>Sketch Engine (<a href="http://www.sketchengine.co.uk/">http://www.sketchengine.co.uk/</a>) has built WebBootCat which makes corpus collection easy for any language (and has good filtering techniques for removing spam pages). WebBootCat allows you to download domain specific corpus for any language, extract keywords from the downloaded corpus, and repetitively collect more corpora from your new key words. Or you could try BooTCaT <a href="http://bootcat.sslmit.unibo.it/">http://bootcat.sslmit.unibo.it/</a> </div>

<div><br></div><div>For the kind of problems you face while building a corpus for a language, please refer to <a href="http://bit.ly/Mkgv14">A Corpus Factory for many languages</a>.</div><div><br>best regards,</div><div>
Siva<br>
<br><div class="gmail_quote">On Thu, Jun 21, 2012 at 2:55 PM, Imene Bensalem <span dir="ltr"><<a href="mailto:bens.imene@gmail.com" target="_blank">bens.imene@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Dear all, <div>I would build a corpus of Arabic text, and I would ask you about tools you know to  download text (or html pages) form the source websites.</div><div>I tried to use WinHTTrak to download pages form Wikipedia but it always show me an error and did download anything.</div>



<div>Thank you</div><div>Best regards</div><span class="HOEnZb"><font color="#888888"><div><br></div><div>Imene Bensalem</div><div>Mentouri University, Constantine , Algeria </div>
</font></span><br>_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br><br>
</div>