<div dir="ltr"><div class="gmail_default" style="font-size:large;color:#38761d">Thanks all,</div><div class="gmail_default" style="font-size:large;color:#38761d"><br></div><div class="gmail_default" style="font-size:large;color:#38761d">

But I am actually looking for some classification like this:</div><div class="gmail_default" style="font-size:large;color:#38761d">comparable corpora are defined as collection of:</div><div class="gmail_default" style="font-size:large;color:#38761d">

<br></div><div class="gmail_default" style="font-size:large;color:#38761d">1. texts that are written about a same event, news, ...</div><div class="gmail_default" style="font-size:large;color:#38761d">2. texts that are written about a same topic in a same period of time,</div>

<div class="gmail_default" style="font-size:large;color:#38761d">3. texts that only have same topic,</div><div class="gmail_default" style="font-size:large;color:#38761d"><br></div><div class="gmail_default" style="font-size:large;color:#38761d">

....</div><div class="gmail_default" style="font-size:large;color:#38761d"><br></div><div class="gmail_default" style="font-size:large;color:#38761d">Are you aware of this kind of classification?</div><div class="gmail_default" style="font-size:large;color:#38761d">

Thank you,</div><div class="gmail_default" style="font-size:large;color:#38761d"><br></div><div class="gmail_default" style="font-size:large;color:#38761d"><br></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">

On Fri, Aug 8, 2014 at 7:24 AM, Dekai Wu <span dir="ltr"><<a href="mailto:dekai@cs.ust.hk" target="_blank">dekai@cs.ust.hk</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<u></u>


  
  

<div bgcolor="#ffffff" text="#000000">
Hi Somayeh, on a related discussion recently I posted a pointer to <a href="http://www.cs.ust.hk/%7Edekai/library/WU_Dekai/nonparallel.html" target="_blank">http://www.cs.ust.hk/~dekai/library/WU_Dekai/nonparallel.html</a>
where you can find an HTML table summarizing the differences between
four different degrees
of (non)parallel corpora, synthesized from some surveys within papers
by
Pascale Fung, including:<br>
<br>
1. parallel corpus<br>
2. noisy parallel corpus<br>
3. comparable corpus<br>
4. quasi-comparable (very-non-parallel) corpus<br>
<br>
References<br>
<br>
Pascale Fung & Percy Cheung (2004). Mining very-non-parallel
corpora: Parallel sentence and lexicon extraction via bootstrapping and
EM. In Dekang Lin and Dekai Wu (editors), Proceedings of the 2004
Conference on Empirical Methods in Natural Language Processing (EMNLP
2004). Barcelona, Spain: July 2004.<br>
<br>
Pascale Fung & Percy Cheung (2004). Multi-level bootstrapping for
extracting parallel sentences from a quasi-comparable Corpus. In
Proceedings of the 20th International Conference on Computational
Linguistics (COLING 2004). Geneva, Switzerland: August 2004.<br>
<br>
Dekai Wu & Pascale Fung (2005). Inversion Transduction Grammar
constraints for mining parallel sentences from quasi-comparable
corpora. In Proceedings of the Second International Joint Conference on
Natural Language Processing (IJCNLP 2005), Lecture Notes in Computer
Science 3651: 257-268.<br>
<br>
<br>
Hope this helps!<span class="HOEnZb"><font color="#888888"><br>
-Dekai<br>
-- <br>
Dekai Wu<br>
Hong Kong University of Science & Technology
(HKUST)<br>
Human Language Technology Center<br>
Department of Computer Science and Engineering<br>
<br>
<br>
S. Bakhshaei wrote:
</font></span><blockquote type="cite"><div><div class="h5">
  <div dir="ltr">
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)">Hello all,</div>
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)"><br>
  </div>
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)">As you know
comparable corpora are differ according to the degree of comparability
of their contents. I want to know if there is a standard
definition/classification for them? Can anyone guide me to a reference
paper please?</div>
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)"><br>
  </div>
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)"><br>
  </div>
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)">Best Regards,</div>
  <div class="gmail_default" style="font-size:large;color:rgb(56,118,29)">Somayeh Bakhshaei</div>
  <div dir="ltr"><br>
  <br>
---------------------<br>
Best Regards,<br>
Somayeh Bakhshaei<br>
  <br>
  <span style="color:rgb(192,192,192)">After All you will come ....</span><br>
  <span style="color:rgb(192,192,192)">And will spread light on the
dark desolate world!</span><br style="color:rgb(192,192,192)">
  <span style="color:rgb(192,192,192)">O' Kind Father! We will be
waiting for your affectionate hands ...</span><br>
  </div>
  </div>
  </div></div><pre><hr size="4" width="90%"><div class="">
_______________________________________________
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a>
Corpora mailing list
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a>
  </div></pre>
</blockquote>
<br>
</div>

</blockquote></div><br><br clear="all"><div><br></div>-- <br><div dir="ltr"><br><br><br>---------------------<br>Best Regards,<br>Somayeh Bakhshaei<br><br><span style="color:rgb(192,192,192)">After All you will come ....</span><br>

<span style="color:rgb(192,192,192)">And will spread light on the dark desolate world!</span><br style="color:rgb(192,192,192)"><span style="color:rgb(192,192,192)">O' Kind Father! We will be waiting for your affectionate hands ...</span><br>

</div>
</div>