<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=UTF-8" http-equiv="Content-Type">
  <title></title>
</head>
<body bgcolor="#ffffff" text="#000000">
Hi Somayeh, on a related discussion recently I posted a pointer to <a
 href="http://www.cs.ust.hk/%7Edekai/library/WU_Dekai/nonparallel.html">http://www.cs.ust.hk/~dekai/library/WU_Dekai/nonparallel.html</a>
where you can find an HTML table summarizing the differences between
four different degrees
of (non)parallel corpora, synthesized from some surveys within papers
by
Pascale Fung, including:<br>
<br>
1. parallel corpus<br>
2. noisy parallel corpus<br>
3. comparable corpus<br>
4. quasi-comparable (very-non-parallel) corpus<br>
<br>
References<br>
<br>
Pascale Fung & Percy Cheung (2004). Mining very-non-parallel
corpora: Parallel sentence and lexicon extraction via bootstrapping and
EM. In Dekang Lin and Dekai Wu (editors), Proceedings of the 2004
Conference on Empirical Methods in Natural Language Processing (EMNLP
2004). Barcelona, Spain: July 2004.<br>
<br>
Pascale Fung & Percy Cheung (2004). Multi-level bootstrapping for
extracting parallel sentences from a quasi-comparable Corpus. In
Proceedings of the 20th International Conference on Computational
Linguistics (COLING 2004). Geneva, Switzerland: August 2004.<br>
<br>
Dekai Wu & Pascale Fung (2005). Inversion Transduction Grammar
constraints for mining parallel sentences from quasi-comparable
corpora. In Proceedings of the Second International Joint Conference on
Natural Language Processing (IJCNLP 2005), Lecture Notes in Computer
Science 3651: 257-268.<br>
<br>
<br>
Hope this helps!<br>
-Dekai<br>
-- <br>
Dekai Wu<br>
Hong Kong University of Science & Technology
(HKUST)<br>
Human Language Technology Center<br>
Department of Computer Science and Engineering<br>
<br>
<br>
S. Bakhshaei wrote:
<blockquote
 cite="mid:CAGUKaXQ28jOWSrPinx-zN+Vq8cQOmM42FR2T5MDnJiFY_0=O8w@mail.gmail.com"
 type="cite">
  <div dir="ltr">
  <div class="gmail_default"
 style="font-size: large; color: rgb(56, 118, 29);">Hello all,</div>
  <div class="gmail_default"
 style="font-size: large; color: rgb(56, 118, 29);"><br>
  </div>
  <div class="gmail_default"
 style="font-size: large; color: rgb(56, 118, 29);">As you know
comparable corpora are differ according to the degree of comparability
of their contents. I want to know if there is a standard
definition/classification for them? Can anyone guide me to a reference
paper please?</div>
  <div class="gmail_default"
 style="font-size: large; color: rgb(56, 118, 29);"><br>
  </div>
  <div class="gmail_default"
 style="font-size: large; color: rgb(56, 118, 29);"><br>
  </div>
  <div class="gmail_default"
 style="font-size: large; color: rgb(56, 118, 29);">Best Regards,</div>
  <div class="gmail_default"
 style="font-size: large; color: rgb(56, 118, 29);">Somayeh Bakhshaei</div>
  <div dir="ltr"><br>
  <br>
---------------------<br>
Best Regards,<br>
Somayeh Bakhshaei<br>
  <br>
  <span style="color: rgb(192, 192, 192);">After All you will come ....</span><br>
  <span style="color: rgb(192, 192, 192);">And will spread light on the
dark desolate world!</span><br style="color: rgb(192, 192, 192);">
  <span style="color: rgb(192, 192, 192);">O' Kind Father! We will be
waiting for your affectionate hands ...</span><br>
  </div>
  </div>
  <pre wrap="">
<hr size="4" width="90%">
_______________________________________________
UNSUBSCRIBE from this page: <a class="moz-txt-link-freetext" href="http://mailman.uib.no/options/corpora">http://mailman.uib.no/options/corpora</a>
Corpora mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Corpora@uib.no">Corpora@uib.no</a>
<a class="moz-txt-link-freetext" href="http://mailman.uib.no/listinfo/corpora">http://mailman.uib.no/listinfo/corpora</a>
  </pre>
</blockquote>
<br>
</body>
</html>