<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
  <title></title>
</head>
<body bgcolor="#ffffff" text="#000000">
<font size="+1"><small>I would just like to make a correction to the
earlier post.  You do not need to be a member of the LDC to license the
TDT and Broadcast News data.<br>
<br>
A few LDC corpora that fit the bill include:</small><br>
<br>
</font>LDC94T5 ECI Multilingual Text<br>
LDC94T4A UN Parallel Text (Complete)<br>
LDC95T20 Hansard French/English<br>
LDC2001T57 TDT2 Multilanguage Text Version 4.0<br>
LDC2001T57 TDT3 Multilanguage Text Version 2.0<br>
LDC2004T08  Hong Kong Parallel Text - note - this does require
membership<br>
LDC2004T18 Arabic English Parallel News Part 1<br>
<br>
<font size="+1"><small>Information on the above is available at:<br>
<br>
<a class="moz-txt-link-freetext" href="http://www.ldc.upenn.edu/Catalog/ByYear.jsp">http://www.ldc.upenn.edu/Catalog/ByYear.jsp</a><br>
<br>
Best,<br>
<br>
Ilya</small><br>
<br>
</font><br>
<a class="moz-txt-link-abbreviated" href="mailto:pascale@cs.ust.hk">pascale@cs.ust.hk</a> wrote:<br>
<blockquote cite="mid2487.143.89.88.49.1107361666.squirrel@143.89.88.49"
 type="cite">
  <pre wrap="">Try TDT data and Broadcast News from the LDC. You must be an LDC member to
license the corpora.

However, be reminded that these "comparable" corpora still need to be
topic aligned to make them really comparable as they contain both on-topic
and off-topic documents (i.e. documents not on the same topic and
therefore not comparable).

Our paper on "Mining very non parallel corpora: Parallel sentence and
lexicon extraction by boostraping and EM" (Fung & Cheung 2004) in EMNLP
2004 describes our methodology and contains some usefual references.

Regards,
Pascale
  </pre>
  <blockquote type="cite">
    <pre wrap="">
hi all,

are there multilingual comparable corpora suitable for research on
paraphrases ?
for instance, two collections of articles from different sources
describing
same events *and* in different languages .

Any suggestions on how to build this kind of resources would be helpful
too.

thank you,
Grazia


    </pre>
  </blockquote>
  <pre wrap=""><!---->

  </pre>
</blockquote>
<br>
<pre class="moz-signature" cols="72">--


Ilya Ahtaridis
Membership Coordinator
--------------------------------------------------------------------
Linguistic Data Consortium                     Phone: (215) 573-1275
3600 Market Street                             Fax:   (215) 573-2175
Suite 810                             email: <a class="moz-txt-link-abbreviated" href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>
Philadelphia, PA 19104                 www: <a class="moz-txt-link-freetext" href="http://www.ldc.upenn.edu">http://www.ldc.upenn.edu</a></pre>
</body>
</html>