<div dir="ltr">It'll be much easier to do the feedback from dialog context and real-world situation if you use a parser that is designed, from the outset, to integrate information from multiple levels of representation.<div>
<br></div><div>One such is XLE <a href="http://www2.parc.com/isl/groups/nltt/xle/">http://www2.parc.com/isl/groups/nltt/xle/</a></div><div><br></div><div>To do this with XLE, you would need to have, or write, a grammar that works for your domain of interest. That may be daunting, but actually, I think the representational challenges in retrofitting semantic and pragmatic sensitivity onto present-day statistical parsers are just as daunting, albeit in a different way.Goldberg's parsers are really nice (cf. Honnibal, Goldberg, Johnson, 2013 at CONLL2013 for the latest and greatest), but the problems that they solve are only a subset of what you need to solve your problem.<br>
<br>Do inform the list what approach you decide to take. A good general solution would be wonderful to have.</div><div><br></div><div>Chris</div><div><br></div><div><br></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">
On Fri, Sep 6, 2013 at 11:55 PM, Kais Dukes <span dir="ltr"><<a href="mailto:sckd@leeds.ac.uk" target="_blank">sckd@leeds.ac.uk</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Dear Corpora List,<br>
<br>
Firstly, some good news - The Robot Commands Annotation Corpus (<a href="http://www.trainrobots.com" target="_blank">http://www.trainrobots.com</a>) is growing quite well, and we're getting close to 100,000 words thanks to everyone who's playing. However, before releasing the data, I'm keen to do some annotation, starting with automatic parsing.<br>

<br>
A couple of things have surprised me with this new experiment for crowdsourcing robot commands online. Firstly, a lot of commands can be long and linguistically rich. Forgetting those for a moment, I think even parsing simple commands to start with can be tricky. This is because many commands that players have been typing in are impossible to parse correctly without spatial context. The following is a real example that a player typed in which only makes sense in the context of the images in the game:<br>

<br>
"Place the red block on the yellow block on the blue block in the top left corner."<br>
<br>
This could mean any of these possible moves:<br>
<br>
1. Move red block (on yellow block on blue block), and put this in top left corner.<br>
2. Move red block (on yellow block), and put this on blue block (in top left corner).<br>
3. Move red block, and put this on yellow block (on blue block in top left corner).<br>
<br>
I've been considering several ways to do semantic parsing for the corpus, e.g. CCG parsing, using Stanford dependency parser, etc. My concern with these, as far as I understand, is that they would require a pipeline approach. Making understanding the above sentence quite problematic. However, what it really like to do is to use a parsing algorithm that allows me to incorporate spatial knowledge. I would rather not do a brute-force search of many possible parse trees output by a parser, but would rather do something at parse-time.<br>

<br>
After some consideration I’m thinking of writing a custom statistical parser based on Goldberg and Elhadad's non-directional dependency algorithm (<a href="http://www.aclweb.org/anthology-new/N/N10/N10-1115.pdf" target="_blank">http://www.aclweb.org/anthology-new/N/N10/N10-1115.pdf</a>). My intuition here is that a parser using this sort of algorithm will allow me to tune the scoring function to including spatial knowledge and make it easier to perform correct long-distance PP-attachment at parse-time.<br>

<br>
In a nutshell, I’m looking for any suggestions on how to do joint parsing / spatial disambiguation. Ideally not a pipeline approach, but something integrated. Surely there must be a good way to use spatial knowledge while parsing? Could my idea of modifying the non-directional dependency parser work? The parser could then leverage a relational knowledge base for each scene, e.g. if the parser knew that the red block is on the yellow block, it could produce the correct parse tree for the above example. Hopefully this same approach would reduce error-propagation when I come to the larger more complex sentences in the corpus.<br>

<br>
Feedback or thoughts would be most welcome.<br>
<br>
Regards,<br>
-- Kais<br>
_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote></div><br></div>