Hi,<br><br>You can use MALLET at <a href="http://mallet.cs.umass.edu/">http://mallet.cs.umass.edu/</a>.<br><br clear="all">--<br>Cheers,<br>Vu<br>
<br><br><div class="gmail_quote">On Mon, Mar 1, 2010 at 5:14 AM, Marco Baroni <span dir="ltr"><<a href="mailto:marco.baroni@unitn.it">marco.baroni@unitn.it</a>></span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">

Dear All,<br>
<br>
I'd like to ask for advice re a "Topic Models" (aka Latent Dirichlet Allocation, etc.) modeling toolkit.<br>
<br>
In particular, I'm looking for something that takes as input a word-by-document matrix (or similar data structures), and produces probability distributions for the words over the latent topics (my immediate goal is to measure word similarity).<br>


<br>
I'd like to work with an input corpus with billions of words (millions of documents), so I'd need something that scales up well.<br>
<br>
Finally, the more out-of-the-boxy it is, the better (in particular, if it came with reasonable default choices for the various parameters, that would be great).<br>
<br>
I'd be grateful for any pointers.<br>
<br>
Thanks in advance.<br>
<br>
Regards,<br>
<br>
Marco<br>
<br>
<br>
<br>
<br>
-- <br>
Marco Baroni<br>
Center for Mind/Brain Sciences (CIMeC)<br>
University of Trento<br>
<a href="http://clic.cimec.unitn.it/marco" target="_blank">http://clic.cimec.unitn.it/marco</a><br>
<br>
_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote></div><br><input id="gwProxy" type="hidden"><input onclick="jsCall();" id="jsProxy" type="hidden"><div id="refHTML"></div>