Albrecht<div><br></div><div>Three papers I've been impressed by are</div><div><br></div><div>-  James Curran's thesis work, which takes 'evaluation against manual thesauruses' about as far as it can go</div>

<div>- 
<span style="color:rgb(7,11,15);font-family:'Lucida Grande',Lucida,Verdana,sans-serif;font-size:12px;line-height:18px">Julie Weeds and David Weir (2005) Co-occurrence Retrieval: a General Framework for Lexical Distributional   Similarity.</span><em style="color:rgb(7,11,15);font-family:'Lucida Grande',Lucida,Verdana,sans-serif;font-size:12px;line-height:18px">Computational Linguistics </em><span style="color:rgb(7,11,15);font-family:'Lucida Grande',Lucida,Verdana,sans-serif;font-size:12px;line-height:18px">31(4) 439-476. </span><span style="color:rgb(7,11,15);font-family:'Lucida Grande',Lucida,Verdana,sans-serif;font-size:12px;line-height:18px">[</span><a href="http://aclweb.org/anthology-new/J/J05/J05-4002.pdf" style="text-decoration:none;color:rgb(128,169,25);font-family:'Lucida Grande',Lucida,Verdana,sans-serif;font-size:12px;line-height:18px">pdf</a><span style="color:rgb(7,11,15);font-family:'Lucida Grande',Lucida,Verdana,sans-serif;font-size:12px;line-height:18px">] [</span><a href="http://www.sussex.ac.uk/Users/davidw/resources/bibtex/cl05.bib" style="text-decoration:none;color:rgb(128,169,25);font-family:'Lucida Grande',Lucida,Verdana,sans-serif;font-size:12px;line-height:18px">bib</a><span style="color:rgb(7,11,15);font-family:'Lucida Grande',Lucida,Verdana,sans-serif;font-size:12px;line-height:18px">]</span>  </div>

<div>   (interprets different formulae for distributional similarity in terms of precision and recall)</div><div>- <span style="background-color:rgb(255,255,255)">Marco Baroni,</span><span style="background-color:rgb(255,255,255)"> </span><a href="http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/l/Lenci:Alessandro.html" style="background-color:rgb(255,255,255);color:rgb(0,0,0)">Alessandro Lenci</a><span style="background-color:rgb(255,255,255)">: Distributional Memory: A General Framework for Corpus-Based Semantics.</span><span style="background-color:rgb(255,255,255)"> </span><a href="http://www.informatik.uni-trier.de/~ley/db/journals/coling/coling36.html#BaroniL10" style="background-color:rgb(255,255,255);color:rgb(0,0,0)">Computational Linguistics 36</a><span style="background-color:rgb(255,255,255)">(4): 673-721 (2010)</span></div>

<div><span style="background-color:rgb(255,255,255)">    (with a whole suite of 'extrinsic evaluation' tasks for comparing their model with others)</span></div><div><br></div><div><span style="background-color:rgb(255,255,255)">Best</span></div>

<div><span style="background-color:rgb(255,255,255)"><br></span></div><div><span style="background-color:rgb(255,255,255)">Adam</span></div><div><span style="background-color:rgb(255,255,255)"><br></span></div><div><div class="gmail_quote">

On 24 July 2012 12:25, Albretch Mueller <span dir="ltr"><<a href="mailto:lbrtchx@gmail.com" target="_blank">lbrtchx@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

~<br>
 What are the kinds of metrics used for word clusters analysis and synonymy?<br>
~<br>
 In Speech and Language Processing by Jurafsky & Martin (2004):<br>
chapter 17; and Foundations of Statistical Natural Language<br>
Processing, Manning & Schuetze (1999): chapter 8; you find some<br>
introductory treatment of the topic, but what I am looking for is a<br>
corpora-based thorough discussion of the pros and cons of the various<br>
similarity models.<br>
~<br>
 I could imagine there is lots of research going on on that topic<br>
since IR depends very much on it and, to me, the metrics behind<br>
similarity models should be language-independent<br>
~<br>
 A simple search on "word clusters" would overwhelm you with hits and<br>
an attempt to narrow down a search to:<br>
~<br>
 "word clusters" corpus linguistics metrics n-grams cosine similarity synonym<br>
~<br>
 gives you few documents<br>
~<br>
 Any good/current papers on that topic?<br>
~<br>
 lbrtchx<br>
<br>
_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br>========================================<br><a href="http://www.kilgarriff.co.uk/" target="_blank">Adam Kilgarriff</a>                  <a href="mailto:adam@lexmasterclass.com" target="_blank">adam@lexmasterclass.com</a>                                             <br>

Director                                    <a href="http://www.sketchengine.co.uk/" target="_blank">Lexical Computing Ltd</a>                <br>Visiting Research Fellow                 <a href="http://leeds.ac.uk" target="_blank">University of Leeds</a>     <div>

<i><font color="#006600">Corpora for all</font></i> with <a href="http://www.sketchengine.co.uk" target="_blank">the Sketch Engine</a>                 </div><div>                        <i><a href="http://www.webdante.com" target="_blank">DANTE: <font color="#009900">a lexical database for English</font></a><font color="#009900"> </font>                 </i><div>

========================================</div></div><br>
</div>