<div dir="ltr"><div>Greetings,<br></div><div><br>The Comprehensive Multiword Expressions (CMWE) Corpus consists of 55,000 words of English web reviews that have been manually annotated for heterogeneous multiword expressions.<br>
<br>Annotations are shallow but comprehensive: proceeding sentence by sentence, our annotators grouped tokens into MWEs according to guidelines that cover a broad range of multiword phenomena—including (but not limited to) compound nominals, light verb constructions, verb-particle constructions, prepositional verbs, and multiword named entities. 3,500 MWE instances are marked, 500 of which are discontinuous (contain a gap). The annotation scheme makes a qualitative distinction between "strong" (highly idiosyncratic) and "weak" (loosely collocational) expressions.<br>
<br>For example,<br><br>    <span style="font-family:courier new,monospace">I will sum_ it _up~with , it was worth_every_penny !</span><br><br>is annotated as containing 2 strong MWEs (<span style="font-family:courier new,monospace">sum_up</span>, <span style="font-family:courier new,monospace">worth_every_penny</span>) and 1 weak MWE (<span style="font-family:courier new,monospace">sum_up~with</span>). Every sentence was reviewed by at least two annotators.<br>
<br>This resource is described in the paper:<br><br><span class="">Nathan Schneider</span>, 
                Spencer Onuffer, 
                Nora Kazour, 
                Emily Danchik, 
                Michael T. Mordowanec, 
                Henrietta Conrad, and
                Noah A. Smith<span class=""><span></span></span>. 
                <span class=""><a href="http://www.cs.cmu.edu/%7Enschneid/mwecorpus.pdf">Comprehensive annotation of multiword expressions in a social web corpus</a>.</span> 
                <span class=""><span class="">LREC 2014</span>.<br></span><br>The annotations can be downloaded from:<br><br>    <a href="http://www.ark.cs.cmu.edu/LexSem/">http://www.ark.cs.cmu.edu/LexSem/</a><br><br>That page also links to annotation guidelines, as well as an open source MWE identification tool trained and evaluated on the corpus.<br>
<br></div><span class="">Cheers,<br>Nathan & collaborators at CMU<br></span><div><span class=""><br></span></div></div>