<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META http-equiv=Content-Type content="text/html; charset=iso-8859-1">
<META content="MSHTML 6.00.2900.2963" name=GENERATOR></HEAD>
<BODY>
<DIV dir=ltr align=left><SPAN class=656555114-10112006><FONT face=Arial 
color=#0000ff size=2>Hello All</FONT></SPAN></DIV>
<DIV dir=ltr align=left><SPAN class=656555114-10112006><FONT face=Arial 
color=#0000ff size=2>those of us who deal with speech might be also interested 
to know that there are different American and British audio tracks on movies on 
DVD. (There is a version of Zorro with Anthony Hopkins, and I was wondering 
whether he did both versions.) I have no idea whether the differences are only 
in pronunciation or perhaps also lexical and other ones. </FONT></SPAN></DIV>
<DIV dir=ltr align=left><SPAN class=656555114-10112006><FONT face=Arial 
color=#0000ff size=2>However, that means there is quite a lot of material 
waiting to be described.</FONT></SPAN></DIV>
<DIV dir=ltr align=left><SPAN class=656555114-10112006><FONT face=Arial 
color=#0000ff size=2>Best wishes</FONT></SPAN></DIV>
<DIV dir=ltr align=left><SPAN class=656555114-10112006><FONT face=Arial 
color=#0000ff size=2>Tadeusz Piotrowski</FONT></SPAN></DIV><BR>
<BLOCKQUOTE dir=ltr 
style="PADDING-LEFT: 5px; MARGIN-LEFT: 5px; BORDER-LEFT: #0000ff 2px solid; MARGIN-RIGHT: 0px">
  <DIV class=OutlookMessageHeader lang=pl dir=ltr align=left>
  <HR tabIndex=-1>
  <FONT face=Tahoma size=2><B>From:</B> owner-corpora@lists.uib.no 
  [mailto:owner-corpora@lists.uib.no] <B>On Behalf Of </B>Ramesh 
  Krishnamurthy<BR><B>Sent:</B> Friday, November 10, 2006 3:46 PM<BR><B>To:</B> 
  Merle Tenney; Mark P. Line; CORPORA@UIB.NO<BR><B>Subject:</B> Re: 
  [Corpora-List] Parallel corpora and word alignment, WAS: American and British 
  English spelling converter<BR></FONT><BR></DIV>
  <DIV></DIV>Hi Merle<BR>I must admit I hadn't been thinking of "parallel" 
  corpora along such strict-definition lines.<BR><BR>So who is creating large 
  amounts of 'parallel' data (in the technical/translation sense)<BR>for British 
  English and American English? I wouldn't have thought there was a very large 
  <BR>market....?<BR><BR>Noah Smith mentioned Harry Potter, and I must admit I'm 
  quite surprised to discover <BR>that publishers are making such changes as<BR>
  <BLOCKQUOTE class=cite cite="" type="cite">   They had drawn for 
    the house cup<BR>   They had tied for the house 
  cup</BLOCKQUOTE>Perhaps because it's "children's" literature? Or at least read 
  by many children, <BR>who may not be willing/able to cross varietal boundaries 
  with total comfort.<BR><BR>But when I read a novel by an American author, I 
  accept that it's part of my role as reader to <BR>take on board any varietal 
  differences as part of the context. I can't imagine anyone wanting<BR>to 
  translate it into British English for my benefit, and I suspect I would hate 
  to read the resulting <BR>text...<BR><BR>Best<BR>Ramesh<BR><BR><BR>At 18:53 
  09/11/2006, Merle Tenney wrote:<BR>
  <BLOCKQUOTE class=cite cite="" type="cite">Ramesh Krishnamurthy 
    wrote:<BR>> <BR>> ...and there is no obvious parallel corpus of Br-Am 
    Eng to consult...<BR>> Do you know of one by any chance...<BR>> 
    <BR>> And Mark P. Line responded:<BR>> <BR>>Why would it have to be 
    a *parallel* corpus?<BR> <BR>In a word, alignment.  The formative 
    work in parallel corpora has come from the machine translation crowd, 
    especially the statistical machine researchers.  The primary purpose of 
    having a parallel corpus is to align translationally equivalent documents in 
    two languages, first at the sentence level, then at the word and phrase 
    level, in order to establish word and phrase equivalences.  A secondary 
    purpose, deriving from the sentence-level alignment, is to produce source 
    and target sentence pairs to prime the pump for translation memory 
    systems.<BR> <BR>Like you, I have wondered why you couldn't study two 
    text corpora of similar but not equivalent texts and compare them in their 
    totality.  Of course you can, but is there any way in this scenario to 
    come up with meaningful term-level comparisons, as good as you can get with 
    parallel corpora?  I can see two ways you might 
    proceed:<BR> <BR>The first method largely begs the question of term 
    equivalence.  You begin with a set of known related words and you 
    compare their frequencies and distributions.  So if you are studying 
    language models, you compare <I>sheer</I>, <I>complete</I>, and <I>utter 
    </I>as a group.  If you are studying dialect differences, you study 
    <I>diaper</I> and <I>nappy</I> or <I>bonnet</I> and <I>hood</I> (clothing 
    and automotive).  If you are studying translation equivalence in 
    English and Spanish, you study <I>flag</I>, <I>banner</I>, <I>standard</I>, 
    <I>pendant</I> alongside <I>bandera</I>, <I>estandarte</I>, <I>pabellón</I> 
    (and <I>flag</I>, <I>flagstone</I> vs. <I>losa</I>, <I>lancha</I>; 
    <I>flag</I>, <I>fail,</I> <I>languish</I>, <I>weaken</I> vs. 
    <I>flaquear</I>, <I>debilitarse</I>, <I>languidecer</I>; etc.).  The 
    point is, you already have your comparable sets going in, and you study 
    their usage across a broad corpus.  One problem here is that you need 
    to have a strong word sense disambiguation component or you need to work 
    with a word sense-tagged corpus to deal with homophonous and polysemous 
    terms like <I>sheer</I>, <I>bonnet</I>, <I>flat</I>, and <I>flag, </I>so you 
    still have some hard work left even if you start with the related word 
    groups.<BR> <BR>The second method does not begin, a priori, with sets 
    of related words.  In fact, generating synonyms, dialectal variants, 
    and translation equivalents is one of its more interesting challenges.  
    Detailed lexical, collocational, and syntactic characterizations is 
    another.  Again, this is much easier to do if you are working with 
    parallel corpora.  If you are dealing with large, nonparallel texts, 
    this is a real challenge.  Other than inflected and lemmatized word 
    forms, there are a few more hooks that can be applied, including POS tagging 
    and WSD.  Even if both of these technologies perform well, however, 
    that is still not enough to get you to the quality of data that you get with 
    parallel corpora.<BR> <BR>Mark, if you can figure out a way to combine 
    the quality and quantity of data from a very large corpus with the alignment 
    and equivalence power of a parallel corpus without actually having a 
    parallel corpus, I will personally nominate you for the Nobel Prize in 
    Corpus Linguistics.  J<BR> <BR>Merle<BR> <BR>PS and Shameless 
    Microsoft Plug:  In the last paragraph, I accidentally typed “figure 
    out a why to combine” and I got the blue squiggle from Word 2007, which was 
    released to manufacturing on Monday of this week.  It suggested 
    <I>way</I>, and of course I took the suggestion.  I am amazed at the 
    number of mistakes that the contextual speller has caught in my writing 
    since I started using it.  I recommend the new version of Word and 
    Office for this feature alone.  J</BLOCKQUOTE><X-SIGSEP>
  <P></X-SIGSEP>Ramesh Krishnamurthy<BR><BR>Lecturer in English Studies, School 
  of Languages and Social Sciences, Aston University, Birmingham B4 7ET, 
  UK<BR>[Room NX08, North Wing of Main Building] ; Tel: +44 (0)121-204-3812 ; 
  Fax: +44 (0)121-204-3766<BR><A 
  href="http://www.aston.ac.uk/lss/staff/krishnamurthyr.jsp" 
  eudora="autourl">http://www.aston.ac.uk/lss/staff/krishnamurthyr.jsp<BR><BR></A>Project 
  Leader, ACORN (Aston Corpus Network): <A href="http://corpus.aston.ac.uk/" 
  eudora="autourl">http://corpus.aston.ac.uk/</A> </P></BLOCKQUOTE></BODY></HTML>