<div dir="ltr"><div><div>Hi Alan,<br><br></div>We needed an alignment between the WSJ raw text and the WSJ .mrg files for our tokenisation work (here: <a href="http://aclweb.org/anthology-new/P/P12/P12-2074.bib">http://aclweb.org/anthology-new/P/P12/P12-2074.bib</a>). It is not exactly what you are after, since I extracting the aligned raw text, rather than calculating stand-off annotations, but I have code (Perl or C++) which might be useful, at least for that data set. I'm happy to share the code, but it is not currently packaged as a general solution. Contact me off-list if you think it could be helpful.<br>
<br></div>Rebecca<br></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Tue, Jun 11, 2013 at 11:04 PM, E. Alan Hogue <span dir="ltr"><<a href="mailto:eahogue@email.arizona.edu" target="_blank">eahogue@email.arizona.edu</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hello Corpora List,<br><div class="gmail_quote"><div dir="ltr"><div><br></div><div>As you may know, not long ago this article was published:</div>
<div><br></div><div>Bos, J., & Spenader, J. (2011). An annotated corpus for the analysis of VP ellipsis. Language Resources and Evaluation, 45(4), 463–494. doi:10.1007/s10579-011-9142-3<br>


</div><div><br></div><div>Along with this, the authors made available a file of standoff annotation based on the raw version (non-parsed, non-tagged) of the WSJ in the Penn Treebank.</div><div><br></div>
<div><a href="http://www.let.rug.nl/bos/vpe/annotations.html" target="_blank">http://www.let.rug.nl/bos/vpe/annotations.html</a><br></div><div><br></div><div>I am currently trying to figure out the best way to merge or align this with the _parsed_ version of the WSJ, and this is turning out to be trickier than I expected. It occurs to me that this might in general be a problem someone else has solved before. </div>



<div><br></div><div>Does anyone know of any code, modules, packages, algorithms, tricks, etc that already do a good job of this type of thing, and which I might modify for this particular task? If it happens to be in Python that is a plus, but just about any language/platform will do.</div>



<div><br></div><div>Thank you!</div><span><font color="#888888"><div><br></div><div>Alan Hogue</div><div>University of Arizona</div><div><br></div><div><br></div></font></span></div>
</div><br></div>
<br>_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br></div>