<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
  <title></title>
</head>
<body bgcolor="#ffffff" text="#000000">
Dear Philip, <br>
<br>
Thanks a lot for your comments and info. You are right that the density
would affect its performance. It is one of the issues that we are very
interested in exploring, and the URL sets you provided will be very
useful. I wish that its in-born mechanism to favor the more powerful
patterns could deal with the density problem successfully to some
extent. Currently we are trying to revive the weak patterns filtered
out by a threshold, by inferring some more general patterns within the
weak patterns. We are also looking into the possibility of extending
this approach to retrieve multilingual grouping (vs. bilingual pairing)
patterns from multilingual Web sites (e.g., many EU sites), to examine
how the number of languages (=another kind of density?) would affect
the performance of this approach. <br>
<br>
Also I want to mention with gratitude that your previous work has given
us so much input. Thanks.<br>
<br>
Best wishes,<br>
Chunyu<br>
<br>
<br>
P Resnik wrote:
<blockquote
 cite="mid323ff7640710120743w68c90749j8c8388572280da1f@mail.gmail.com"
 type="cite">Chunyu, your paper is very nice.  A key to the success of
your approach seems to be the fact that you experimented only on data
from Hong Kong government Web sites, where one could expect both a
higher density of parallel pages and a greater degree of conformity to
URL naming regularities, as compared to the Web sites in general.  The
language independence of your student's approach is attractive and
should make it easy to investigate a broader range of language pairs
and types of Web sites, in order to see how much of a difference that
makes.  Is this a direction you are exploring, or which you plan to
explore?  (If so, the URL sets at <a
 href="http://umiacs.umd.edu/%7Eresnik/strand/">http://umiacs.umd.edu/~resnik/strand/</a>
would make it easy to find hosts already known to contain parallel
pages for several language pairs.)<br>
  <br>
Best regards,<br>
  <br>
  Philip
  <br>
  <br>
  <br>
  <div><span class="gmail_quote">On 10/11/07, <b
 class="gmail_sendername">Kit Chun Yu</b> <<a
 href="mailto:ctckit@cityu.edu.hk">ctckit@cityu.edu.hk</a>> wrote:</span>
  <blockquote class="gmail_quote"
 style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
    <div bgcolor="#ffffff" text="#000000"><tt>Dear Yorick, <br>
    <br>
An MPhil student of mine is currently working on automatic Web page
pairing for bitext mining via automatic URL pairing pattern discovery.
It relies on no pre-defined pattern or any text content/structure
comparison but only on a best-first search for an optimal set of
patterns/keys within the URL strings from a Web site in terms of their
linking power (= the number of possible Web page pairs they can paired
up).  That is, it works on URL strings only (+language identification,
of course). It is so simple that everyone may try, I think. It is so
simple that I've got a piece of comment from a conference reviewer that
it is too simple for publication, although simplicity = beauty, in a
sense. -:)  Our experiments show that it can achieve an </tt><tt>F-score
of 96.4% </tt><tt>on web page pairing for HK bilingual Web sites. I am
not sure if this simple technique could help a bit to get an estimation
of the figures you are interested. <br>
    <br>
    </tt><big><big><span style="font-size: 10pt;" lang="EN-US">Chunyu
Kit and Jessica Y. H.  Ng. 2007. <a
 href="http://personal.cityu.edu.hk/%7Ectckit/papers/Kit-Ng_URLpairing-PID483174.pdf"
 target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">An
intelligent Web agent
to mine bilingual parallel pages via automatic discovery of URL pairing
patterns</a>. To appear in <span style="font-style: italic;"> the
Agents and Data Mining Interaction Workshop </span> (ADMI-07),  Silicon
Valley, California, 
November 2-5, 2007.</span></big></big><tt> (But please mind a flaw in
the formulation part: the search space should be UxU' (not U),
similarly to TxT' for possible token pairs that we fortunately got it
right -:)<br>
    <br>
Best wishes,<br>
Chunyu</tt><br>
    <br>
    <br>
    <br>
Yorick Wilks wrote:
    <blockquote
 cite="http://midE05D3D89-4AF5-4BAF-AECF-0A31D89D511C@dcs.shef.ac.uk"
 type="cite">
      <div><span class="e" id="q_1158eb6fd8f47a64_1">Everyone is aware
that some languages/cultures (e.g.
Swedish, Finnish) tend to have alternative webpages in English, while
others (e.g. Arabic) are much less likely to.
      <div><span>Does anyone have any reliable
figures as to the frequency of appearance   of these parallel-corpora
 (in English)for different (source) languages? I am interested at the
moment in :<font face="Arial" size="4"><span style="font-size: 16px;"></span></font></span></div>
      <div><span><font face="Arial" size="4"><span
 style="font-size: 16px;">Ja</span></font><font face="Arial" size="4"><span
 style="font-size: 16px;">panese, Chinese, Korean, Spanish, Portuguese,
French, German, Italian, Arabic</span></font></span></div>
      <div><font face="Arial" size="4"><span style="font-size: 16px;"><br>
      </span></font></div>
      <div> I would be grateful for any help.</div>
      <div>Regards</div>
      <div>Yorick Wilks</div>
      <div><br>
      </div>
      <div><font face="Arial" size="4"><span style="font-size: 16px;"><br>
      </span></font></div>
      </span></div>
      <pre><hr size="4" width="90%"><span class="q">
_______________________________________________
Corpora mailing list
<a href="mailto:Corpora@uib.no" target="_blank"
 onclick="return top.js.OpenExtLink(window,event,this)">Corpora@uib.no</a>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank"
 onclick="return top.js.OpenExtLink(window,event,this)">http://mailman.uib.no/listinfo/corpora</a>
  </span></pre>
    </blockquote>
    <br>
    <br>
    <pre cols="72">-- 
Chunyu Kit, PhD
Assistant Professor in Computational Linguistics

Dept. of Chinese, Translation & Linguistics
City University of Hong Kong
83 Tat Chee Ave., Kowloon

<a href="mailto:E-mail:ctckit@cityu.edu.hk" target="_blank"
 onclick="return top.js.OpenExtLink(window,event,this)">
E-mail:ctckit@cityu.edu.hk</a>
<a href="http://personal.cityu.edu.hk/%7Ectckit/" target="_blank"
 onclick="return top.js.OpenExtLink(window,event,this)">http://personal.cityu.edu.hk/~ctckit/</a>
Fax: (+852)2788 8706, 2788 8732
Tel: (+852)2788 9310 (O), 9380 1738 (M)
     (+86)136 5881 2972 (China Mobile)</pre>
    </div>
    <br>
_______________________________________________<br>
Corpora mailing list<br>
    <a onclick="return top.js.OpenExtLink(window,event,this)"
 href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
    <a onclick="return top.js.OpenExtLink(window,event,this)"
 href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
    <br>
  </blockquote>
  </div>
  <br>
</blockquote>
<br>
<br>
<pre class="moz-signature" cols="72">-- 
Chunyu Kit, PhD
Assistant Professor in Computational Linguistics

Dept. of Chinese, Translation & Linguistics
City University of Hong Kong
83 Tat Chee Ave., Kowloon

<a class="moz-txt-link-abbreviated" href="mailto:E-mail:ctckit@cityu.edu.hk">E-mail:ctckit@cityu.edu.hk</a>
<a class="moz-txt-link-freetext" href="http://personal.cityu.edu.hk/~ctckit/">http://personal.cityu.edu.hk/~ctckit/</a>
Fax: (+852)2788 8706, 2788 8732
Tel: (+852)2788 9310 (O), 9380 1738 (M)
     (+86)136 5881 2972 (China Mobile)</pre>
</body>
</html>