<div>The phrase "pure statistical MT" is problematic.  Statistics are something you calculate from data; statistical MT systems use those statistics to decide how to translate.  The range of ways that can happen is wide, but each and every possibility relies on some assumptions about how the symbols get mapped and arranged, just like in a purely symbolic MT system.  Where you draw the line between "pure" and "hybrid" is an arbitrary choice.</div>

<div><br></div><div>Even the "bag of words" model (I take this to mean something like IBM Model 1) makes such assumptions (most obviously, that words translate into other words).  There are certainly SMT model / dataset combinations that could get this right without having seen the exact string before, depending on the relative importance given to matching the input ordering vs. the language model.</div>

<div><br></div><div>For the record, Google's translation system gets this one right:  <a href="http://translate.google.com/#fr|en|homme%20mord%20chien">http://translate.google.com/#fr|en|homme%20mord%20chien</a></div>

<div><br></div><div>Noah</div><div>--<br>Noah Smith<br>Associate Professor<br>School of Computer Science<br>Carnegie Mellon University<br>
<br><br><div class="gmail_quote">On Mon, Nov 21, 2011 at 7:01 AM, Jimmy O'Regan <span dir="ltr"><<a href="mailto:joregan@gmail.com">joregan@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

<div class="im">On 21 November 2011 03:15, Mike Maxwell <<a href="mailto:maxwell@umiacs.umd.edu">maxwell@umiacs.umd.edu</a>> wrote:<br>
> In LILT 6 (<a href="http://elanguage.net/journals/index.php/lilt/issue/current" target="_blank">http://elanguage.net/journals/index.php/lilt/issue/current</a>),<br>
> "Zipf's Law and l'Arbitraire du Signe," Martin Kay discusses statistical MT,<br>
> and says (p.22):<br>
><br>
>   Notice that a language model would, and should, guarantee<br>
>   that the French “homme mord chien” would be translated into<br>
>   English as “dog bites man”, rather than “man bites dog”,<br>
>   which is what it really means.<br>
><br>
> I once proposed this exact example (with Spanish rather than French) to a<br>
> computational linguist who knew more about MT than I do.  (People who know<br>
> more about MT than I do are quite common.  Ok, they're quite common among<br>
> computational linguists :-).)  That person suggested I needed to learn more<br>
> about MT.<br>
><br>
> It would be nice to find myself making the same mistake that Martin Kay<br>
> made.  It would be even nicer if it weren't a mistake.<br>
><br>
> Is Kay's claim correct?  The context is of course pure statistical MT, not<br>
> hybrid rule/ statistical systems.  Assume that the pair "homme mord chien"/<br>
> "man bites dog" never occurs in the training data, but that the reverse does<br>
> (or at least that "dog bites man" appears on the English side, presumably<br>
> with some significant frequency).<br>
<br>
</div>That idea overlooks how statistical reordering works, and assumes a<br>
'bag of words' based method; it also presumes that the bigrams 'man<br>
bites' and 'bites dog' never occur. More importantly, it assumes that<br>
'dog bites man' is a more frequent trigram in English (i.e., the<br>
target language model), which doesn't seem to be true<br>
(<a href="http://books.google.com/ngrams/graph?content=man+bites+dog%2C+dog+bites+man&year_start=1800&year_end=2000&corpus=0&smoothing=3" target="_blank">http://books.google.com/ngrams/graph?content=man+bites+dog%2C+dog+bites+man&year_start=1800&year_end=2000&corpus=0&smoothing=3</a>):<br>


which makes sense in hindsight, when you consider the idiomatic value<br>
of 'man bites dog'.<br>
<br>
It has a sort of metaphorical truth, regarding SMT's difficulties with<br>
novelty, but it's not literally true - file it away with 'the meat is<br>
rotten, but the vodka is good' :).<br>
<font color="#888888"><br>
--<br>
<Sefam> Are any of the mentors around?<br>
<jimregan> yes, they're the ones trolling you<br>
</font><div><div></div><div class="h5"><br>
_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</div></div></blockquote></div><br></div>