<div class="gmail_quote">Hi Chelo (and colleagues),</div><meta http-equiv="content-type" content="text/html; charset=utf-8"><div class="gmail_quote"><div><br></div><div>You can try BooTCaT <a href="http://bootcat.sslmit.unibo.it/" target="_blank">http://bootcat.sslmit.unibo.it/</a> . You need to provide initial seeds to it. </div>

<div><br>
</div><div>We developed a tool called Corpus Factory for SketchEngine which can download large corpora for any language. But it is a licensed tool. More details about it <a href="http://www.lrec-conf.org/proceedings/lrec2010/pdf/79_Paper.pdf" target="_blank">http://www.lrec-conf.org/proceedings/lrec2010/pdf/79_Paper.pdf</a></div>


<div><br></div><div>Best,</div><div>Siva</div><div><div><div></div><div class="h5"><br><div class="gmail_quote">On Thu, Sep 9, 2010 at 3:34 PM, Chelo Vargas <span dir="ltr"><<a href="mailto:chelo.vargas@ua.es" target="_blank">chelo.vargas@ua.es</a>></span> wrote:<br>


<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Dear colleagues,<br>
I would like to know about software used to build up a corpus of texts by<br>
downloading web pages with the help of a search engine. I already know Webgetter<br>
(a utility in WST), the one in Sketch Engine, and in TERMINUS<br>
(<a href="http://melot.upf.edu/Terminus2009/index_es.html" target="_blank">http://melot.upf.edu/Terminus2009/index_es.html</a>)<br>
<br>
Thank you very much for your help.<br>
<br>
Best wishes,<br>
<br>
****************************<br>
PhD. Ms Chelo Vargas-Sierra<br>
University of Alicante (Spain)<br>
Dpto. de Filología Inglesa<br>
Apdo. 99<br>
03080 Alicante<br>
Tlf. 96 590 3438<br>
<br>
_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote></div><br><br clear="all"><br></div></div>-- <br><a href="http://sivareddy.in" target="_blank">http://sivareddy.in</a><br>
</div>
</div><br><br clear="all"><br>-- <br><a href="http://sivareddy.in">http://sivareddy.in</a><br>