<html><head><title>Re: [Corpora-List] Distributional and Morphological Word Clustering</title>
<META http-equiv=Content-Type content="text/html; charset=iso-8859-1">
</head>
<body>
<span style=" font-family:'Courier New'; font-size: 9pt;">Hi! <br>
<br>
You can also try CLUTO and SenseClusters toolkit (the letter is an extension of the first). <br>
</span><a style=" font-family:'Courier New'; font-size: 9pt;" href="http://senseclusters.sourceforge.net/">http://senseclusters.sourceforge.net/</a><span style=" font-family:'Courier New'; font-size: 9pt;"> <br>
</span><a style=" font-family:'Courier New'; font-size: 9pt;" href="http://glaros.dtc.umn.edu/gkhome/views/cluto">http://glaros.dtc.umn.edu/gkhome/views/cluto</a><span style=" font-family:'Courier New'; font-size: 9pt;"> <br>
<br>
Actually,  I personally didn't check how it works for Unicode, but it's supposed to work with any language & encoding.<br>
Senseclusters is quite a complete tool, it has everything: various clustering techniques, similarity matrix and vector space, evaluation of results, automatic cluster stopping measures and so on.<br>
<br>
<br>
Good luck! <br>
<br>
Alisa Zhila,  <br>
Centro de Investigación en Computación, <br>
Instituto Politécnico Nacional,<br>
México<br>
<br>
<br>
<br>
<br>
Вы писали 12 февраля 2012 г., 10:51:35:<br>
<br>
</span><table>
<tr>
<td width=10 bgcolor= #0000ff><br>
</td>
<td width=807><span style=" font-family:'verdana'; font-size: 9pt;">Hi Manaal,<br>
<br>
If you have only one document, use this: </span><a style=" font-family:'verdana'; font-size: 9pt;" href="http://code.google.com/p/semanticvectors/wiki/PositionalIndexes">http://code.google.com/p/semanticvectors/wiki/PositionalIndexes</a><span style=" font-family:'verdana'; font-size: 9pt;"> for generating the vectors.<br>
<br>
After that, a simple K-means algorithm is implemented at </span><a style=" font-family:'verdana'; font-size: 9pt;" href="http://semanticvectors.googlecode.com/svn/javadoc/latest-stable/pitt/search/semanticvectors/ClusterResults.html">http://semanticvectors.googlecode.com/svn/javadoc/latest-stable/pitt/search/semanticvectors/ClusterResults.html</a><br>
<br>
<span style=" font-family:'verdana'; font-size: 9pt;">The last time I used it, I had to modify it for my own purpose.<br>
<br>
If you want to use a different program for clustering such as WEKA, you need to translate the vectors into text format using </span><a style=" font-family:'verdana'; font-size: 9pt;" href="http://semanticvectors.googlecode.com/svn/javadoc/latest-stable/pitt/search/semanticvectors/VectorStoreTranslater.html">http://semanticvectors.googlecode.com/svn/javadoc/latest-stable/pitt/search/semanticvectors/VectorStoreTranslater.html</a><br>
<br>
<span style=" font-family:'verdana'; font-size: 9pt;">Hope this helps.<br>
<br>
Sincerely,<br>
Siddhartha Jonnalagadda, <span style=" font-family:'courier new';">Ph.D.<br>
</span></span><a style=" font-family:'verdana'; font-size: 9pt;" href="http://sjonnalagadda.wordpress.com">sjonnalagadda.wordpress.com</a><br>
<br>
<br>
<br>
<br>
<span style=" font-family:'courier new'; font-size: 9pt;">On Sun, Feb 12, 2012 at 3:02 AM, manaal faruqui <</span><a style=" font-family:'courier new'; font-size: 9pt;" href="mailto:manaalfar@gmail.com">manaalfar@gmail.com</a><span style=" font-family:'courier new'; font-size: 9pt;">> wrote:<br>
I am unable to find out how to make TermVectors, this package seems to take care about the term-document vector, but I need something which captures word co-occurence etc. so that the similar words occur in a single group after clustering. Also, I have only once document as the whole corpus.<br>
<br>
<span style=" color: #888888;">M<br>
<br>
<br>
<span style=" color: #000000;">On Sun, Feb 12, 2012 at 12:10 AM, manaal faruqui <</span></span></span><a style=" font-family:'courier new'; font-size: 9pt;" href="mailto:manaalfar@gmail.com">manaalfar@gmail.com</a><span style=" font-family:'courier new'; font-size: 9pt;">> wrote:<br>
Hi Siddhartha,<br>
<br>
I have installed semanticvectors package & lucene and also indexed my corpus (single document, around 330mb) using lucene. Now I need to form vectors corressponding to every word and then cluster them using k-means.<br>
<br>
Can you let me know the required command for the same ?<br>
<br>
Thanks a lot,<br>
Manaal <br>
<br>
On Sat, Feb 11, 2012 at 8:36 AM, Siddhartha Jonnalagadda <</span><a style=" font-family:'courier new'; font-size: 9pt;" href="mailto:sid.kgp@gmail.com">sid.kgp@gmail.com</a><span style=" font-family:'courier new'; font-size: 9pt;">> wrote:<br>
<span style=" font-family:'verdana';">Hi Manaal,<br>
<br>
The Semantic Vectors (</span></span><a style=" color: #009933; font-family:'arial'; font-size: 9pt;" href="http://code.google.com/p/">code.google.com/p/</a><span style=" font-family:'arial'; font-size: 9pt; color: #009933;"><b>semanticvectors)</b><span style=" font-family:'verdana'; color: #000000;"> package assigns vectors to individual words and then you can use K-means or an algorithm of your choice to cluster. Sahlgren's dissertation (WordSpace...) talks about creating clusters. I have done that in my dissertation too (link in my webpage). Contact me if you would like more details.<br>
<br>
Sincerely,<br>
Siddhartha Jonnalagadda, <span style=" font-family:'courier new';">Ph.D.<br>
</span></span></span><a style=" font-family:'verdana'; font-size: 9pt;" href="http://sjonnalagadda.wordpress.com">sjonnalagadda.wordpress.com</a><br>
<br>
<br>
<br>
<br>
<span style=" font-family:'courier new'; font-size: 9pt;">On Sat, Feb 11, 2012 at 5:23 AM, manaal faruqui <</span><a style=" font-family:'courier new'; font-size: 9pt;" href="mailto:manaalfar@gmail.com">manaalfar@gmail.com</a><span style=" font-family:'courier new'; font-size: 9pt;">> wrote:<br>
Hi,<br>
<br>
I need a software (even a raw piece of code) which can cluster words from a large untagged corpus into groups using their distributional and morphological similarity.<br>
One such software is provided by Alexander Clark (</span><a style=" font-family:'courier new'; font-size: 9pt;" href="http://www.cs.rhul.ac.uk/home/alexc/">http://www.cs.rhul.ac.uk/home/alexc/</a><span style=" font-family:'courier new'; font-size: 9pt;">) but his code works only for ASCII characters. I have used it earlier and it works pretty well.<br>
<br>
I need something which can work for Unicode encoding.<br>
I can deal with it even if the software doesnt take morphological info into account.<br>
<br>
Thanks !<br>
<span style=" color: #888888;">Manaal Faruqui<br>
IIT Kharagpur, India<br>
<br>
<span style=" color: #000000;">_______________________________________________<br>
UNSUBSCRIBE from this page: </span></span></span><a style=" font-family:'courier new'; font-size: 9pt;" href="http://mailman.uib.no/options/corpora">http://mailman.uib.no/options/corpora</a><br>
<span style=" font-family:'courier new'; font-size: 9pt;">Corpora mailing list<br>
</span><a style=" font-family:'courier new'; font-size: 9pt;" href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a style=" font-family:'courier new'; font-size: 9pt;" href="http://mailman.uib.no/listinfo/corpora">http://mailman.uib.no/listinfo/corpora</a><br>
</td>
</tr>
</table>
<br><br>
<br>
<br>
<span style=" font-family:'arial'; color: #c0c0c0;"><i>-- <br>
С уважением,<br>
 AlisaZhi                          </i></span><a style=" font-family:'arial';" href="mailto:proloxx@mail.ru">mailto:proloxx@mail.ru</a></body></html>