<div dir="ltr">Hello Corpora List,<br><div class="gmail_quote"><div dir="ltr"><div class="gmail_quote"><div dir="ltr"><div><br></div><div>As you may know, not long ago this article was published:</div><div><div class="h5">

<div><br></div><div>Bos, J., & Spenader, J. (2011). An annotated corpus for the analysis of VP ellipsis. Language Resources and Evaluation, 45(4), 463–494. doi:10.1007/s10579-011-9142-3<br>

</div><div><br></div><div>Along with this, the authors made available a file of standoff annotation based on the raw version (non-parsed, non-tagged) of the WSJ in the Penn Treebank.</div><div><br></div>
<div><a href="http://www.let.rug.nl/bos/vpe/annotations.html" target="_blank">http://www.let.rug.nl/bos/vpe/annotations.html</a><br></div><div><br></div><div>I am currently trying to figure out the best way to merge or align this with the _parsed_ version of the WSJ, and this is turning out to be trickier than I expected. It occurs to me that this might in general be a problem someone else has solved before. </div>



<div><br></div><div>Does anyone know of any code, modules, packages, algorithms, tricks, etc that already do a good job of this type of thing, and which I might modify for this particular task? If it happens to be in Python that is a plus, but just about any language/platform will do.</div>



<div><br></div><div>Thank you!</div><span><font color="#888888"><div><br></div><div>Alan Hogue</div><div>University of Arizona</div><div><br></div><div><br></div></font></span></div></div></div>
</div><br></div>
</div><br></div>