<div dir="ltr"><div><div class="gmail_quote"><div dir="ltr"><div>Hi Francis, <br>no I don't have a citation for that, if by citation you mean an empirical study that really measures that. <br>If you press me, I should really say that my experience is based on studying the Portuguese wikipedia, and also my main interest was the cultural domains (and not hard sciences or sports). My impression as a user is that most pages that have equivalents in other languages (so not most pages, but most "parallel" pages) in the Portuguese/English or Norwegian/English pairs have been translated (one way or the other, I mean in one direction or the other). But this is a subjective impression as a user.<br>

<br></div><div>If you mean citation of papers which discuss some of these subjects or look at Wikipedia crosslinguistically, I can offer some:<br>Mota et al. 2012. "Págico: Evaluating Wikipedia-based information retrieval in Portuguese". <a href="http://www.lrec-conf.org/proceedings/lrec2012/pdf/590_Paper.pdf" target="_blank">http://www.lrec-conf.org/proceedings/lrec2012/pdf/590_Paper.pdf</a><br>

</div><div>Santos et al. 2012. Volume of the Linguamática journal dedicated to Págico (in Portuguese). <a href="http://linguamatica.com/index.php/linguamatica/issue/view/8" target="_blank">http://linguamatica.com/index.php/linguamatica/issue/view/8</a><br>

</div><div>Santos et al. 2010. GikiCLEF: Crosscultural issues in multilingual information access. <a href="http://www.lrec-conf.org/proceedings/lrec2010/pdf/272_Paper.pdf" target="_blank">http://www.lrec-conf.org/proceedings/lrec2010/pdf/272_Paper.pdf</a><br>

</div><div><br></div><div>As to the alignment of Wikipedia articles, I do remember a paper on that at LREC 2012 (or LREC 2010?) co-authored by Rob Gaizauskas, that as far as I remember was involved in a EU project that touched upon that.<br>

<br></div><div></div><div>Diana<br></div><div><br></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">2014-06-15 3:58 GMT+02:00 Francis Bond <span dir="ltr"><<a href="mailto:bond@ieee.org" target="_blank">bond@ieee.org</a>></span>:<div>
<div class="h5"><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">G'day.<br>
<div><br>
> No, articles from Wikipedia in different languages are NOT a comparable<br>
> corpus, for many reasons<br>
><br>
</div><div>> First, most of the time they are a (more or less free) translation of a<br>
> master/initial one.<br>
<br>
</div>Do you have a citation for this?   As far as I know it is not<br>
generally true, pages are written pretty much entirely independently<br>
(at least for the English and Japanese Wikipedias which I am<br>
experienced with).  I also clicked a random sample of languages for<br>
the page on tennis, and they are all very differently structured.<br>
<br>
I seem to recall a shared task on aligning sentences in wikipedia<br>
articles that found them not at all similar, but I am afraid I can't<br>
find the paper: does anyone else recall it?<br>
<span><font color="#888888"><br>
--<br>
Francis Bond <<a href="http://www3.ntu.edu.sg/home/fcbond/" target="_blank">http://www3.ntu.edu.sg/home/fcbond/</a>><br>
Division of Linguistics and Multilingual Studies<br>
Nanyang Technological University<br>
</font></span></blockquote></div></div></div><br></div>
</div><br></div></div>