<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
  <title></title>
</head>
<body bgcolor="#ffffff" text="#000000">
<tt>Dear Yorick, <br>
<br>
An MPhil student of mine is currently working on automatic Web page
pairing for bitext mining via automatic URL pairing pattern discovery.
It relies on no pre-defined pattern or any text content/structure
comparison but only on a best-first search for an optimal set of
patterns/keys within the URL strings from a Web site in terms of their
linking power (= the number of possible Web page pairs they can paired
up).  That is, it works on URL strings only (+language identification,
of course). It is so simple that everyone may try, I think. It is so
simple that I've got a piece of comment from a conference reviewer that
it is too simple for publication, although simplicity = beauty, in a
sense. -:)  Our experiments show that it can achieve an </tt><tt>F-score
of 96.4% </tt><tt>on web page pairing for HK bilingual Web sites. I am
not sure if this simple technique could help a bit to get an estimation
of the figures you are interested. <br>
<br>
</tt><big><big><span
 style="font-size: 10pt; font-family: "Times New Roman";" lang="EN-US">Chunyu
Kit and Jessica Y. H.  Ng. 2007. <a
 href="http://personal.cityu.edu.hk/%7Ectckit/papers/Kit-Ng_URLpairing-PID483174.pdf">An
intelligent Web agent
to mine bilingual parallel pages via automatic discovery of URL pairing
patterns</a>. To appear in <span style="font-style: italic;"> the
Agents and Data Mining Interaction Workshop </span> (ADMI-07),  Silicon
Valley, California, 
November 2-5, 2007.</span></big></big><tt> (But please mind a flaw in
the formulation part: the search space should be UxU' (not U),
similarly to TxT' for possible token pairs that we fortunately got it
right -:)<br>
<br>
Best wishes,<br>
Chunyu</tt><br>
<br>
<br>
<br>
Yorick Wilks wrote:
<blockquote
 cite="midE05D3D89-4AF5-4BAF-AECF-0A31D89D511C@dcs.shef.ac.uk"
 type="cite">Everyone is aware that some languages/cultures (e.g.
Swedish, Finnish) tend to have alternative webpages in English, while
others (e.g. Arabic) are much less likely to.
  <div><span class="Apple-style-span">Does anyone have any reliable
figures as to the frequency of appearance   of these parallel-corpora
 (in English)for different (source) languages? I am interested at the
moment in :<font class="Apple-style-span" face="Arial" size="4"><span
 class="Apple-style-span" style="font-size: 16px;"></span></font></span></div>
  <div><span class="Apple-style-span"><font class="Apple-style-span"
 face="Arial" size="4"><span class="Apple-style-span"
 style="font-size: 16px;">Ja</span></font><font class="Apple-style-span"
 face="Arial" size="4"><span class="Apple-style-span"
 style="font-size: 16px;">panese, Chinese, Korean, Spanish, Portuguese,
French, German, Italian, Arabic</span></font></span></div>
  <div><font class="Apple-style-span" face="Arial" size="4"><span
 class="Apple-style-span" style="font-size: 16px;"><br
 class="khtml-block-placeholder">
  </span></font></div>
  <div> I would be grateful for any help.</div>
  <div>Regards</div>
  <div>Yorick Wilks</div>
  <div><br class="khtml-block-placeholder">
  </div>
  <div><font class="Apple-style-span" face="Arial" size="4"><span
 class="Apple-style-span" style="font-size: 16px;"><br
 class="khtml-block-placeholder">
  </span></font></div>
  <pre wrap="">
<hr size="4" width="90%">
_______________________________________________
Corpora mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Corpora@uib.no">Corpora@uib.no</a>
<a class="moz-txt-link-freetext" href="http://mailman.uib.no/listinfo/corpora">http://mailman.uib.no/listinfo/corpora</a>
  </pre>
</blockquote>
<br>
<br>
<pre class="moz-signature" cols="72">-- 
Chunyu Kit, PhD
Assistant Professor in Computational Linguistics

Dept. of Chinese, Translation & Linguistics
City University of Hong Kong
83 Tat Chee Ave., Kowloon

<a class="moz-txt-link-abbreviated" href="mailto:E-mail:ctckit@cityu.edu.hk">E-mail:ctckit@cityu.edu.hk</a>
<a class="moz-txt-link-freetext" href="http://personal.cityu.edu.hk/~ctckit/">http://personal.cityu.edu.hk/~ctckit/</a>
Fax: (+852)2788 8706, 2788 8732
Tel: (+852)2788 9310 (O), 9380 1738 (M)
     (+86)136 5881 2972 (China Mobile)</pre>
</body>
</html>