Version:1.0
StartHTML:0000000105
EndHTML:0000003864
StartFragment:0000002330
EndFragment:0000003828




<p class="MsoNormal"><span lang="EN-US" style="font-size:10.0pt;font-family:Times;
mso-ansi-language:EN-US">Clearly the massive amount of English training data has
certain extremely unfortunate consequences for the choice of lexical items. It
is amusing, but could be potentially very confusing, when one currency is translated
to another (but not recalculated!). In the following test, I have used three ways
of writing the Norwegian currency (kroner). The first one is translated to US dollars!</span></p>

<p class="MsoNormal"><span lang="EN-US" style="font-size:10.0pt;font-family:Times;
mso-ansi-language:EN-US">Olje koster kr 800 fatet. Gassen koster NOK 400 mens vindkraft
koster seksti kroner.</span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:10.0pt;font-family:Times;
mso-ansi-language:EN-US">Oil costs U.S. $ 800 per barrel. The gas costs NOK 400,
while wind power costs sixty kroner. (Google translate)</span></p>

<p class="MsoNormal"><span lang="EN-US" style="font-size:10.0pt;font-family:Times;
mso-ansi-language:EN-US"> Janne Bondi Johannessen (who is still a Google
Translate fan)</span></p>




<br><div class="gmail_quote">2010/3/15 Jimmy O'Regan <span dir="ltr"><<a href="mailto:joregan@gmail.com">joregan@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

<div class="im">On 11 March 2010 13:18, Peter Kolb <<a href="mailto:pekoli@gmail.com">pekoli@gmail.com</a>> wrote:<br>
> 3. Another interesting experiment is to let Google translate the German word<br>
> "Ufer" (meaning "bank", but only in the waterside sense) into Czech. This<br>
> gives "banky", which means "bank", but only in its financial sense. This can<br>
> be explained by the observation that Google always uses English as<br>
> interlingua (Ufer --> bank --> banky). If you directly translate e.g.<br>
> Spanish to French you will get exactly the same result as when you first<br>
> translate Spanish into English, and then translate the English output into<br>
> French.<br>
> Obviously, even for Google it is too costly to generate and maintain 52 * 51<br>
> = 2651 translation models for all the supported language pairs. Or is it<br>
> that they have found that X to English to Y always performs better than X to<br>
> Y because there is so much more data available between English and X or Y<br>
> than between X and Y?<br>
<br>
</div>Improving Word Alignment with Bridge Languages, Shankar Kumar, Franz<br>
Och, Wolfgang Macherey, Conference on Empirical Methods in Natural<br>
Language Processing and Computational Natural Language Learning, 2007.<br>
<a href="http://www.aclweb.org/anthology-new/D/D07/D07-1005.pdf" target="_blank">http://www.aclweb.org/anthology-new/D/D07/D07-1005.pdf</a><br>
<br>
'   We show that parallel corpora in multiple lan-<br>
guages can be exploited to improve the translation<br>
performance of a phrase-based translation system.<br>
This paper gives specific recipes for using a bridge<br>
language to construct a word alignment and for com-<br>
bining word alignments produced by multiple statis-<br>
tical alignment models.'<br>
<div><div></div><div class="h5"><br>
_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>Janne Bondi Johannessen<br>Professor, The Text Laboratory, ILN, <a href="http://www.hf.uio.no/tekstlab/">http://www.hf.uio.no/tekstlab/</a><br>President, NEALT, <a href="http://omilia.uio.no/nealt/">http://omilia.uio.no/nealt/</a><br>

University of Oslo<br>P.O.Box 1102 Blindern, N-0317 Oslo, Norway<br>Tel: +47 22 85 68 14, mob.: +47 928 966 34<br><br>