<div><font face="verdana, sans-serif">Hi Manaal,</font></div><font face="verdana,sans-serif"><div><font face="verdana,sans-serif"><br></font></div><div><font face="verdana,sans-serif">If you have only one document, use this: </font><a href="http://code.google.com/p/semanticvectors/wiki/PositionalIndexes">http://code.google.com/p/semanticvectors/wiki/PositionalIndexes</a> for generating the vectors.</div>

<div><br></div><div>After that, a simple K-means algorithm is implemented at <a href="http://semanticvectors.googlecode.com/svn/javadoc/latest-stable/pitt/search/semanticvectors/ClusterResults.html">http://semanticvectors.googlecode.com/svn/javadoc/latest-stable/pitt/search/semanticvectors/ClusterResults.html</a></div>

<div><br></div><div>The last time I used it, I had to modify it for my own purpose.</div><div><br></div><div>If you want to use a different program for clustering such as WEKA, you need to translate the vectors into text format using <a href="http://semanticvectors.googlecode.com/svn/javadoc/latest-stable/pitt/search/semanticvectors/VectorStoreTranslater.html">http://semanticvectors.googlecode.com/svn/javadoc/latest-stable/pitt/search/semanticvectors/VectorStoreTranslater.html</a></div>

<div><br></div><div>Hope this helps.</div></font><font face="verdana,sans-serif"><br clear="all"></font><span style="font-family:verdana,sans-serif">Sincerely,</span><br style="font-family:verdana,sans-serif"><span style="font-family:verdana,sans-serif">Siddhartha Jonnalagadda, </span>Ph.D.<br style="font-family:verdana,sans-serif">

<span style="font-family:verdana,sans-serif"></span><span style="font-family:verdana,sans-serif"></span><a style="font-family:verdana,sans-serif" href="http://sjonnalagadda.wordpress.com" target="_blank">sjonnalagadda.wordpress.com</a><br style="font-family:verdana,sans-serif">

<br style="font-family:verdana,sans-serif"><br>
<br><br><div class="gmail_quote">On Sun, Feb 12, 2012 at 3:02 AM, manaal faruqui <span dir="ltr"><<a href="mailto:manaalfar@gmail.com">manaalfar@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

I am unable to find out how to make TermVectors, this package seems to take care about the term-document vector, but I need something which captures word co-occurence etc. so that the similar words occur in a single group after clustering. Also, I have only once document as the whole corpus.<span class="HOEnZb"><font color="#888888"><br>



<br>M</font></span><div class="HOEnZb"><div class="h5"><br><br><div class="gmail_quote">On Sun, Feb 12, 2012 at 12:10 AM, manaal faruqui <span dir="ltr"><<a href="mailto:manaalfar@gmail.com" target="_blank">manaalfar@gmail.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">

Hi Siddhartha,<br><br>I have installed semanticvectors package & lucene and also indexed my corpus (single document, around 330mb) using lucene. Now I need to form vectors corressponding to every word and then cluster them using k-means.<br>




<br>Can you let me know the required command for the same ?<br><br>Thanks a lot,<br>Manaal <br><div><div><br><div class="gmail_quote">On Sat, Feb 11, 2012 at 8:36 AM, Siddhartha Jonnalagadda <span dir="ltr"><<a href="mailto:sid.kgp@gmail.com" target="_blank">sid.kgp@gmail.com</a>></span> wrote:<br>




<blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><font face="verdana,sans-serif">Hi Manaal,</font><div><font face="verdana,sans-serif"><br></font></div>




<div><font face="verdana,sans-serif">The Semantic Vectors (</font><span style="line-height:15px;color:rgb(0,153,51);font-family:arial,sans-serif"><a href="http://code.google.com/p/" target="_blank">code.google.com/p/</a></span><b style="line-height:15px;color:rgb(0,153,51);font-family:arial,sans-serif">semanticvectors)</b><span style="font-family:verdana,sans-serif"> package assigns vectors to individual words and then you can use K-means or an algorithm of your choice to cluster. Sahlgren's dissertation (WordSpace...) talks about creating clusters. </span><span style="font-family:verdana,sans-serif">I have done that in my dissertation too (link in my webpage). Contact me if you would like more details.</span></div>







<div><font face="verdana,sans-serif"><br clear="all"></font><span style="font-family:verdana,sans-serif">Sincerely,</span><br style="font-family:verdana,sans-serif"><span style="font-family:verdana,sans-serif">Siddhartha Jonnalagadda, </span>Ph.D.<br style="font-family:verdana,sans-serif">







<span style="font-family:verdana,sans-serif"></span><span style="font-family:verdana,sans-serif"></span><a style="font-family:verdana,sans-serif" href="http://sjonnalagadda.wordpress.com" target="_blank">sjonnalagadda.wordpress.com</a><br style="font-family:verdana,sans-serif">







<br style="font-family:verdana,sans-serif"><br>
<br><br><div class="gmail_quote"><div><div>On Sat, Feb 11, 2012 at 5:23 AM, manaal faruqui <span dir="ltr"><<a href="mailto:manaalfar@gmail.com" target="_blank">manaalfar@gmail.com</a>></span> wrote:<br>
</div></div><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><div>


Hi,<br><br>I need a software (even a raw piece of code) which can cluster words from a large untagged corpus into groups using their distributional and morphological similarity.<br>One such software is provided by Alexander Clark (<a href="http://www.cs.rhul.ac.uk/home/alexc/" target="_blank">http://www.cs.rhul.ac.uk/home/alexc/</a>) but his code works only for ASCII characters. I have used it earlier and it works pretty well.<br>









<br>I need something which can work for Unicode encoding.<br>I can deal with it even if the software doesnt take morphological info into account.<br><br>Thanks !<span><font color="#888888"><br>Manaal Faruqui<br>
IIT Kharagpur, India<br>
</font></span><br></div></div>_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br></div>
</blockquote></div><br>
</div></div></blockquote></div><br>
</div></div></blockquote></div><br>