<div dir="ltr"><div class="gmail_default" style="font-size:large;color:rgb(56,118,29)">Thanks to Dr. Wu; according to (Fung &Cheung, 2004) this is a classification of different degree of comparable corpora:</div><div class="gmail_default" style="font-size:large;color:rgb(56,118,29)">

<br></div><div class="gmail_default" style="font-size:large;color:rgb(56,118,29)"><p class="MsoNormal"></p><ol><li>A <b>parallel corpus</b> is a sentence-aligned corpus containing
bilingual translations of the same document.<br></li><li>A <b>noisy parallel corpus</b>, sometimes also called a “comparable”
corpus, contains non-aligned sentences that are nevertheless mostly bilingual translations
of the same document.<br></li><li>Another type of comparable corpus is one that contains
non-sentence-aligned, non-translated bilingual documents that are
topic-aligned. For example, newspaper articles from two sources in different
languages, within the same window of published dates, can constitute a
comparable corpus.<br></li><li>Finally, a very-non-parallel corpus is one that contains far
more disparate, very-non-parallel bilingual documents that could either be on
the same topic (in-topic) or not (off-topic). <br></li></ol><p></p>

<p class="MsoNormal"></p>

<p class="MsoNormal"></p>

<p class="MsoNormal"></p></div><div class="gmail_default" style="font-size:large;color:rgb(56,118,29)"><br></div><div class="gmail_default" style="font-size:large;color:rgb(56,118,29)">Thanks all,</div><div class="gmail_default" style="font-size:large;color:rgb(56,118,29)">

Best Regards,</div><div class="gmail_default" style="font-size:large;color:rgb(56,118,29)">Somayeh Bakhshaei,</div><div class="gmail_default" style="font-size:large;color:rgb(56,118,29)"><br></div></div><div class="gmail_extra">

<br><br><div class="gmail_quote">On Fri, Aug 8, 2014 at 11:13 AM, S. Bakhshaei <span dir="ltr"><<a href="mailto:s.bakhshaei@gmail.com" target="_blank">s.bakhshaei@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div dir="ltr"><div class="gmail_default" style="font-size:large;color:#38761d">Thanks all,</div><div class="gmail_default" style="font-size:large;color:#38761d"><br></div><div class="gmail_default" style="font-size:large;color:#38761d">


But I am actually looking for some classification like this:</div><div class="gmail_default" style="font-size:large;color:#38761d">comparable corpora are defined as collection of:</div><div class="gmail_default" style="font-size:large;color:#38761d">


<br></div><div class="gmail_default" style="font-size:large;color:#38761d">1. texts that are written about a same event, news, ...</div><div class="gmail_default" style="font-size:large;color:#38761d">2. texts that are written about a same topic in a same period of time,</div>


<div class="gmail_default" style="font-size:large;color:#38761d">3. texts that only have same topic,</div><div class="gmail_default" style="font-size:large;color:#38761d"><br></div><div class="gmail_default" style="font-size:large;color:#38761d">


....</div><div class="gmail_default" style="font-size:large;color:#38761d"><br></div><div class="gmail_default" style="font-size:large;color:#38761d">Are you aware of this kind of classification?</div><div class="gmail_default" style="font-size:large;color:#38761d">


Thank you,</div><div class="gmail_default" style="font-size:large;color:#38761d"><br></div><div class="gmail_default" style="font-size:large;color:#38761d"><br></div></div><div class="gmail_extra"><div><div class="h5"><br>

<br><div class="gmail_quote">
On Fri, Aug 8, 2014 at 7:24 AM, Dekai Wu <span dir="ltr"><<a href="mailto:dekai@cs.ust.hk" target="_blank">dekai@cs.ust.hk</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


<u></u>


  
  

<div bgcolor="#ffffff" text="#000000">
Hi Somayeh, on a related discussion recently I posted a pointer to <a href="http://www.cs.ust.hk/%7Edekai/library/WU_Dekai/nonparallel.html" target="_blank">http://www.cs.ust.hk/~dekai/library/WU_Dekai/nonparallel.html</a>
where you can find an HTML table summarizing the differences between
four different degrees
of (non)parallel corpora, synthesized from some surveys within papers
by
Pascale Fung, including:<br>
<br>
1. parallel corpus<br>
2. noisy parallel corpus<br>
3. comparable corpus<br>
4. quasi-comparable (very-non-parallel) corpus<br>
<br>
References<br>
<br>
Pascale Fung & Percy Cheung (2004). Mining very-non-parallel
corpora: Parallel sentence and lexicon extraction via bootstrapping and
EM. In Dekang Lin and Dekai Wu (editors), Proceedings of the 2004
Conference on Empirical Methods in Natural Language Processing (EMNLP
2004). Barcelona, Spain: July 2004.<br>
<br>
Pascale Fung & Percy Cheung (2004). Multi-level bootstrapping for
extracting parallel sentences from a quasi-comparable Corpus. In
Proceedings of the 20th International Conference on Computational
Linguistics (COLING 2004). Geneva, Switzerland: August 2004.<br>
<br>
Dekai Wu & Pascale Fung (2005). Inversion Transduction Grammar
constraints for mining parallel sentences from quasi-comparable
corpora. In Proceedings of the Second International Joint Conference on
Natural Language Processing (IJCNLP 2005), Lecture Notes in Computer
Science 3651: 257-268.<br>
<br>
<br>
Hope this helps!<span><font color="#888888"><br>
-Dekai<br>
-- <br>
Dekai Wu<br>
Hong Kong University of Science & Technology
(HKUST)<br>
Human Language Technology Center<br>
Department of Computer Science and Engineering<br>
<br>
<br>
S. Bakhshaei wrote:
</font></span><blockquote type="cite"><div><div>
  <div dir="ltr">
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)">Hello all,</div>
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)"><br>
  </div>
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)">As you know
comparable corpora are differ according to the degree of comparability
of their contents. I want to know if there is a standard
definition/classification for them? Can anyone guide me to a reference
paper please?</div>
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)"><br>
  </div>
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)"><br>
  </div>
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)">Best Regards,</div>
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)">Somayeh Bakhshaei</div>
  <div dir="ltr"><br>
  <br>
---------------------<br>
Best Regards,<br>
Somayeh Bakhshaei<br>
  <br>
  <span style="color:rgb(192,192,192)">After All you will come ....</span><br>
  <span style="color:rgb(192,192,192)">And will spread light on the
dark desolate world!</span><br style="color:rgb(192,192,192)">
  <span style="color:rgb(192,192,192)">O' Kind Father! We will be
waiting for your affectionate hands ...</span><br>
  </div>
  </div>
  </div></div><pre><hr size="4" width="90%"><div>
_______________________________________________
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a>
Corpora mailing list
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a>
  </div></pre>
</blockquote>
<br>
</div>

</blockquote></div><br><br clear="all"><div><br></div></div></div>-- <br><div class=""><div dir="ltr"><br><br><br>---------------------<br>Best Regards,<br>Somayeh Bakhshaei<br><br><span style="color:rgb(192,192,192)">After All you will come ....</span><br>


<span style="color:rgb(192,192,192)">And will spread light on the dark desolate world!</span><br style="color:rgb(192,192,192)"><span style="color:rgb(192,192,192)">O' Kind Father! We will be waiting for your affectionate hands ...</span><br>


</div>
</div></div>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div dir="ltr"><br><br><br>---------------------<br>Best Regards,<br>Somayeh Bakhshaei<br><br><span style="color:rgb(192,192,192)">After All you will come ....</span><br>

<span style="color:rgb(192,192,192)">And will spread light on the dark desolate world!</span><br style="color:rgb(192,192,192)"><span style="color:rgb(192,192,192)">O' Kind Father! We will be waiting for your affectionate hands ...</span><br>

</div>
</div>