<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><pre id="nonprop"><p align=""><font class="Apple-style-span" face="Helvetica" size="3"><span class="Apple-style-span" style="font-size: 12px; ">------------------------------------------------------------------------
Arabic-L: Wed 09 Sep 2009
Moderator: Dilworth Parkinson <<a href="mailto:dilworth_parkinson@byu.edu">dilworth_parkinson@byu.edu</a>>
[To post messages to the list, send them to <a href="mailto:arabic-l@byu.edu">arabic-l@byu.edu</a>]
[To unsubscribe, send message from same address you subscribed from to
<a href="mailto:listserv@byu.edu">listserv@byu.edu</a> with first line reading:
            unsubscribe arabic-l                                      ]

-------------------------Directory------------------------------------

1) Subject:Free Multiparallel corpus UN GA resolutions (including Arabic)

-------------------------Messages-----------------------------------
1)
Date: 09 Sep 2009
From:reposted from CORPORA (<a href="mailto:arafalov@gmail.com">arafalov@gmail.com</a>)
Subject:Free Multiparallel corpus UN GA resolutions (including Arabic)

<span class="Apple-style-span" style="font-size: medium; white-space: normal; ">A new corpus has just been made available during Machine Translation<br>Summit XII conference. Some of you might be interested in it as well.<br><br>The corpus and related paper are now available from: <a href="http://www.uncorpora.org/">http://www.uncorpora.org</a> .<br><br>Some basic stats:<br><br>*) 6 languages, perfectly aligned on paragraph level: Arabic, Chinese,<br>English, French, Russian, Spanish<br>*) ~74000 paragraphs (* 6 languages)<br>*) ~3M tokens per language<br>*) Derived from the resolutions of the General Assembly of the United Nations.<br>*) The corpus is released in TMX (Translation Memory eXchange) form,<br>ready for processing with Open Source tools like Olifant or by<br>commercial tools like Trados.<br><br>With 3 million tokens per language, the corpus is somewhat small to be<br>a primary corpus for Machine Translation research, but it could be<br>useful as a supplementary one, especially for less-resourced languages<br>like Arabic, Chinese, Russian.<br><br>It is also suitable for terminology extraction, named entity<br>recognition, graph-based analysis techniques and other approaches<br>interesting within restricted-domain corpus.<br><br>It is open for any use (with citation). If you do use it and would<br>like more like this, a letter of appreciation and usage scenario could<br>help.<br><br>I am happy to field any questions about the corpus in private or public emails.<br><br>Regards,<br>   Alex.<br></span>
--------------------------------------------------------------------------
End of Arabic-L:  09 Sep 2009
</span></font></p><div><font class="Apple-style-span" face="Helvetica" size="3"><span class="Apple-style-span" style="font-size: 12px;"><br></span></font></div></pre></body></html>