<br><br><div class="gmail_quote">On Thu, Mar 11, 2010 at 8:18 AM, Peter Kolb <span dir="ltr"><<a href="mailto:pekoli@gmail.com">pekoli@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
I have three comments:<br><br>1. The text by Kant contains a lot of anaphoric pronouns. From Google's translation it is obvious that their system does not perform any pronoun resolution (or at least none that works better than a random baseline). However, there exist German to English translation engines on the market that incorporate such components.<br>
</blockquote><div><br></div><div>I would moderate that conclusion. If, as I suspect, the Google engine for German to English is a statistical</div><div>one, it will be choosing a translation by optimizing a complex internal criterion that involves tradeoffs between multiple criteria. Because SMT systems are not conventionally modular, it is hard to </div>
<div>say what components they have or do not have. It is completely clear that the system chose translations that</div><div>do violence to the anaphoric relations present in Kant's text. Option one is that nothing in the statistical model is sensitive to these relations. Option two is that there are features available to the system that might potentially</div>
<div>help with pronoun resolution, but for this text these features did not have enough influence. I am not sure which</div><div>option corresponds to the reality.</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

<br>2. Consider the following extract from Kant's text:<br><br>"wo [jedermann]SUBJ, [der sonst in allen übrigen Dingen unwissend ist]REL_CL,<br>[sich]REFLX [ein entscheidendes Urteil]OBJ [anmaßt]PRED"<br><br>

A simple relative clause separates subject from object and predicate. The completely garbled translation that Google delivers can serve as a textbook example to illustrate how n-gram models (even 9-grams in this case) of syntax fail to cope with long range dependencies.<br>

<br></blockquote><div><br></div><div>Again, I'd want to be less certain. My guess is that the Google model is predominantly based on n-grams and</div><div>short contiguous spans of text (which, to compound the distress of classically trained linguists, the SMT</div>
<div>community chooses to call "phrases". irrespective of whether any theorist would ever regard them as a </div><div>constituent). So it pretty surely won't have a sensible notion of "relative clause" to work with. But it will</div>
<div>probably not be restricted to n-grams. Rather, it will be moving around its "phrases" in an attempt (here</div><div>failed) to make something nice.</div><div><br></div><div>So yes, the sentence you give is a textbook example of how an accurate model of the syntax could </div>
<div>help. But it says nothing much about n-gram models per se, since Google is probably not using these.</div><div><br></div><div><br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
3. Another interesting experiment is to let Google translate the German word "Ufer" (meaning "bank", but only in the waterside sense) into Czech. This gives "banky", which means "bank", but only in its financial sense. This can be explained by the observation that Google always uses English as interlingua (Ufer --> bank --> banky). If you directly translate e.g. Spanish to French you will get exactly the same result as when you first translate Spanish into English, and then translate the English output into French.<br>

Obviously, even for Google it is too costly to generate and maintain 52 * 51 = 2651 translation models for all the supported language pairs. Or is it that they have found that X to English to Y always performs better than X to Y because there is so much more data available between English and X or Y than between X and Y?<br>
</blockquote><div><br></div><div>That is a fascinating observation. Conventional wisdom has it that going through a pivot language is a </div><div>poor idea, but that does seem to be what is happening for French-Spanish. Doubly weird because one would hope that the close family relation between French and Spanish would  be helpful.</div>
<div><font class="Apple-style-span" face="Arial, sans-serif" size="6"><span class="Apple-style-span" style="font-size: 16px; line-height: 24px; "><br></span></font></div><div><font class="Apple-style-span" face="Arial, sans-serif" size="6"><span class="Apple-style-span" style="font-size: 19px; line-height: 25px;"><br>
</span></font></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<br>Peter Kolb<br><br>------------------------------------<br>Department Linguistik, University of Potsdam<br>Karl-Liebknecht-Str. 24-25, D-14476 Golm<br>Phone: +49-331-977-2930<br>Fax: +49-331-977-2761<br>E-Mail: <a href="mailto:pekoli@gmail.com" target="_blank">pekoli@gmail.com</a><br>

http: <a href="http://www.ling.uni-potsdam.de/~kolb" target="_blank">www.ling.uni-potsdam.de/~kolb</a><br><br><a href="http://www.linguatools.de" target="_blank">http://www.linguatools.de</a><br><br><div class="gmail_quote">
2010/3/10 John F. Sowa <span dir="ltr"><<a href="mailto:sowa@bestweb.net" target="_blank">sowa@bestweb.net</a>></span><div><div></div><div class="h5"><br>
<blockquote class="gmail_quote" style="border-left:1px solid rgb(204, 204, 204);margin:0pt 0pt 0pt 0.8ex;padding-left:1ex">Following is an article from the New York Times about Google's<br>
translation service:<br>
<br>
<a href="http://www.nytimes.com/2010/03/09/technology/09translate.html?hpw&pagewanted=all" target="_blank">http://www.nytimes.com/2010/03/09/technology/09translate.html?hpw&pagewanted=all</a><br>
<br>
And following is an excerpt:<br>
<br>
<blockquote class="gmail_quote" style="border-left:1px solid rgb(204, 204, 204);margin:0pt 0pt 0pt 0.8ex;padding-left:1ex">
“What you see on Google Translate is state of the art” in computer<br>
translations that are not limited to a particular subject area,<br>
said Alon Lavie, an associate research professor in the Language<br>
Technologies Institute at Carnegie Mellon University.<br>
</blockquote>
<br>
Following is the Google web page for entering text or the URL of<br>
a document to be translated:<br>
<br>
   <a href="http://translate.google.com" target="_blank">http://translate.google.com</a><br>
<br>
So I entered one paragraph by Wittgenstein and one by Kant.<br>
See below for the results.<br>
<br>
I discovered that the translations were sensitive to line breaks.<br>
For each paragraph, there are two translations:  the first of<br>
a "cut and paste" from text files with line breaks; the second<br>
of the same paragraphs as displayed by Firefox from html files.<br>
The html version eliminated the line breaks in the excerpts<br>
copied to Google.<br>
<br>
Does anyone have any comments or observations about the state<br>
of the art?<br>
<br>
John<br>
_________________________________________________________________________<br>
<br>
>From the Preface to Wittgenstein's Tractatus Logico-Philosophicus:<br>
<br>
Dagegen scheint mir die Wahrheit der hier mitgeteilten Gedanken<br>
unantastbar und definitiv.  Ich bin also der Meinung, die Probleme im<br>
Wesentlichen endgültig gelöst zu haben.  Und wenn ich mich hierin nicht<br>
irre, so besteht nun der Wert dieser Arbeit zweitens darin, daß sie<br>
zeigt, wie wenig damit getan ist, daß die Probleme gelöst sind.<br>
<br>
First translation from a text file with line breaks:<br>
<br>
On the other hand seems to me the truth of the thoughts communicated here<br>
unassailable and definitive. I am therefore of the opinion that the problems in<br>
Have solved essentially. And if I'm not in this<br>
mistaken, then, is the value of this work, secondly the fact that they<br>
shows how little has been done that the problems are solved.<br>
<br>
Second translation of the same text entered from an html file:<br>
<br>
On the other hand seems to me the truth of the thoughts communicated here unassailable and definitive. I am therefore of the opinion that the problems largely been finally solved. And if I am not mistaken, so now is the value of this work, secondly the fact that it shows how little has been done that the problems are solved.<br>


<br>
>From the preface to Kant's Prolegomena to any Future Metaphysics:<br>
<br>
Ist sie Wissenschaft, wie kommt es, daß sie sich nicht, wie andre<br>
Wissenschaften, in allgemeinen und daurenden Beifall setzen kann?<br>
Ist sie keine, wie geht es zu, daß sie doch unter dem Scheine einer<br>
Wissenschaft unaufhörlich groß tut, und den menschlichen Verstand mit<br>
niemals erlöschenden, aber nie erfüllten Hoffnungen hinhält? Man mag<br>
also entweder sein Wissen oder Nichtwissen demonstrieren, so muß doch<br>
einmal über die Natur dieser angemaßten Wissenschaft etwas Sicheres<br>
ausgemacht werden; denn auf demselben Fuße kann es mit ihr unmöglich<br>
länger bleiben. Es scheint beinahe belachenswert, indessen daß jede<br>
andre Wissenschaft unaufhörlich fortrückt, sich in dieser, die doch<br>
die Weisheit selbst sein will, deren Orakel jeder Mensch befrägt,<br>
beständig auf derselben Stelle herumzudrehen, ohne einen Schritt<br>
weiterzukommen. Auch haben sich ihre Anhänger gar sehr verloren, und<br>
man siehet nicht, daß diejenigen, die sich stark genug fühlen, in<br>
andern Wissenschaften zu glänzen, ihren Ruhm in dieser wagen wollen,<br>
wo jedermann, der sonst in allen übrigen Dingen unwissend ist, sich<br>
ein entscheidendes Urteil anmaßt, weil in diesem Lande in der Tat<br>
noch kein sicheres Maß und Gewicht vorhanden ist, um Gründlichkeit<br>
von seichtem Geschwätze zu unterscheiden.<br>
<br>
First translation from a text file with line breaks:<br>
<br>
If it is science, how is it that they did not, like other<br>
Share sciences in general and may daurenden applause?<br>
If it is not, how is it that they do under the guise of a<br>
Science constantly doing great, and the human mind with<br>
Never dying, but never fulfilled hopes of holding out? One may<br>
show, so either his knowledge or ignorance, it must nevertheless<br>
Once on the nature of science usurped something secure<br>
be identified, because it can not possibly on the same footing with her<br>
stay longer. It almost seems belachenswert, however, that any<br>
Science fortrückt other incessantly, in this, but the<br>
Wisdom wants to be themselves, whose oracles befrägt every man,<br>
flipped upside resistance at the same spot, without a step<br>
ahead. Even their supporters have not lost much, and<br>
things not seen, that those who feel strong enough to<br>
shine the other sciences, to risk their reputation in this wish<br>
where everyone else is ignorant of all the other things that are<br>
presumes a crucial verdict, because in this country, in fact,<br>
no safe level and weight is available to thoroughness<br>
to be distinguished from shallow chatter.<br>
<br>
Second translation of the same text entered from an html file:<br>
<br>
If it is science, how is it that they do not, you can use like other sciences, in general, and daurenden applause? If it is not, how is it that they do under the guise of a science constantly doing great, and holds out the human mind with never dying, but never fulfilled hopes? One may therefore either demonstrate his knowledge or ignorance, yet he must again about the nature of science usurped something certain to be identified, because on the same footing, it can not possibly stay with her longer. It almost seems belachenswert, however, that every other science fortrückt incessantly, in this, but the wisdom that wants to be themselves, whose oracles befrägt everyone, always on the same spot game instead, move forward without a step. Even their supporters have not lost much, and no one sees that those who want to feel strong enough to shine in other sciences, to risk their glory in this, where everyone else is ignorant of all the other things, a presumes decisive verdict, because there is in this country, in fact, no safe level and weight in order to distinguish detail of shallow chatter about.<br>


<br>
<br>
_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote></div></div></div><br>
<br>_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br> <a href="http://www.google.com/profiles/christopher.brew">http://www.google.com/profiles/christopher.brew</a><br>