<div dir="ltr"><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">------------------------------</span><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">------------------------------</span><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">------------</span><br style="font-size:13.333333969116211px;font-family:arial,sans-serif">


<span style="font-size:13.333333969116211px;font-family:arial,sans-serif">Arabic-L: Mon 17 Mar 2014</span><br style="font-size:13.333333969116211px;font-family:arial,sans-serif"><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">Moderator: Dilworth Parkinson <</span><a href="mailto:dilworth_parkinson@byu.edu" style="font-size:13.333333969116211px;font-family:arial,sans-serif" target="_blank">dilworth_parkinson@byu.edu</a><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">></span><br style="font-size:13.333333969116211px;font-family:arial,sans-serif">


<span style="font-size:13.333333969116211px;font-family:arial,sans-serif">[To post messages to the list, send them to </span><a href="mailto:arabic-l@byu.edu" style="font-size:13.333333969116211px;font-family:arial,sans-serif" target="_blank">arabic-l@byu.edu</a><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">]</span><br style="font-size:13.333333969116211px;font-family:arial,sans-serif">


<span style="font-size:13.333333969116211px;font-family:arial,sans-serif">[To unsubscribe, send message from same address you subscribed from to</span><br style="font-size:13.333333969116211px;font-family:arial,sans-serif">


<a href="mailto:listserv@byu.edu" style="font-size:13.333333969116211px;font-family:arial,sans-serif" target="_blank">listserv@byu.edu</a><span style="font-size:13.333333969116211px;font-family:arial,sans-serif"> with first line reading:</span><br style="font-size:13.333333969116211px;font-family:arial,sans-serif">


<span style="font-size:13.333333969116211px;font-family:arial,sans-serif">           unsubscribe arabic-l                                      ]</span><br style="font-size:13.333333969116211px;font-family:arial,sans-serif">


<br style="font-size:13.333333969116211px;font-family:arial,sans-serif"><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">-------------------------</span><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">Directory---------------------</span><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">---------------</span><br style="font-size:13.333333969116211px;font-family:arial,sans-serif">


<br style="font-size:13.333333969116211px;font-family:arial,sans-serif"><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">1) Subject: </span><font face="arial, sans-serif">GALE Arabic-English World Alignment Training Part 1</font><br style="font-size:13.333333969116211px;font-family:arial,sans-serif">


<br style="font-size:13.333333969116211px;font-family:arial,sans-serif"><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">-------------------------</span><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">Messages----------------------</span><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">-------------</span><br style="font-size:13.333333969116211px;font-family:arial,sans-serif">


<span style="font-size:13.333333969116211px;font-family:arial,sans-serif">1)</span><br style="font-size:13.333333969116211px;font-family:arial,sans-serif"><span style="font-size:13.333333969116211px;font-family:arial,sans-serif">Date: </span><span style="font-size:13px;font-family:arial,sans-serif">17 Mar 2014</span><br style="font-size:13.333333969116211px;font-family:arial,sans-serif">


<span style="font-size:13.333333969116211px;font-family:arial,sans-serif">From: </span><span name="Linguistic Data Consortium" style="font-size:13px;font-family:arial,sans-serif">Linguistic Data Consortium</span><span style="font-family:arial,sans-serif;font-size:13px;white-space:nowrap"> <</span><span style="font-family:arial,sans-serif;font-size:13px;white-space:nowrap"><a href="mailto:ldc@ldc.upenn.edu" target="_blank">ldc@ldc.upenn.edu</a>></span><br style="font-size:13.333333969116211px;font-family:arial,sans-serif">

<span style="font-size:13.333333969116211px;font-family:arial,sans-serif">Subject: </span><font face="arial, sans-serif">GALE Arabic-English World Alignment Training Part 1</font><br style="font-size:13.333333969116211px;font-family:arial,sans-serif">


<br style="font-size:13.333333969116211px;font-family:arial,sans-serif"><span style="font-family:arial,sans-serif;font-size:13px">(</span><u style="font-family:arial,sans-serif;font-size:13px"></u><span style="font-family:arial,sans-serif;font-size:13px">1) </span><a href="http://catalog.ldc.upenn.edu/LDC2014T05" style="font-family:arial,sans-serif;font-size:13px" target="_blank">GALE Arabic-English Word Alignment Training Part 1 -- Newswire and Web</a><span style="font-family:arial,sans-serif;font-size:13px"> was developed by LDC and contains 344,680 tokens of word aligned Arabic and English parallel text enriched with linguistic tags. This material was used as training data in the </span><a href="https://www.ldc.upenn.edu/collaborations/past-projects" style="font-family:arial,sans-serif;font-size:13px" target="_blank">DARPA GALE</a><span style="font-family:arial,sans-serif;font-size:13px">(Global Autonomous Language Exploitation) program.</span><u style="font-family:arial,sans-serif;font-size:13px"></u><u style="font-family:arial,sans-serif;font-size:13px"></u><br style="font-family:arial,sans-serif;font-size:13px">

<br style="font-family:arial,sans-serif;font-size:13px"><span style="font-family:arial,sans-serif;font-size:13px">Some approaches to statistical machine translation include the incorporation of linguistic knowledge in word aligned text as a means to improve automatic word alignment and machine translation quality. This is accomplished with two annotation schemes: alignment and tagging. Alignment identifies minimum translation units and translation relations by using minimum-match and attachment annotation approaches. A set of word tags and alignment link tags are designed in the tagging scheme to describe these translation units and relations. Tagging adds contextual, syntactic and language-specific features to the alignment annotation. </span><u style="font-family:arial,sans-serif;font-size:13px"></u><u style="font-family:arial,sans-serif;font-size:13px"></u><br style="font-family:arial,sans-serif;font-size:13px">

<br style="font-family:arial,sans-serif;font-size:13px"><span style="font-family:arial,sans-serif;font-size:13px">This release consists of Arabic source newswire and web data collected by LDC in 2006 - 2008. The distribution by genre, words, character tokens and segments appears below: </span><u style="font-family:arial,sans-serif;font-size:13px"></u><u style="font-family:arial,sans-serif;font-size:13px"></u><br style="font-family:arial,sans-serif;font-size:13px">

<table border="1" cellpadding="0" style="font-family:arial,sans-serif;font-size:13px"><tbody><tr><td style="padding:0.75pt"><br>Language<u></u><u></u><br></td><td style="padding:0.75pt"><br>Genre<u></u><u></u><br></td><td style="padding:0.75pt">

<br>Docs<u></u><u></u><br></td><td style="padding:0.75pt"><br>Words<u></u><u></u><br></td><td style="padding:0.75pt"><br>CharTokens<u></u><u></u><br></td><td style="padding:0.75pt"><br>Segments<u></u><u></u><br></td></tr>

<tr><td style="padding:0.75pt"><br>Arabic<u></u><u></u><br></td><td style="padding:0.75pt"><br>WB<u></u><u></u><br></td><td style="padding:0.75pt"><br>119<u></u><u></u><br></td><td style="padding:0.75pt"><br>59,696<u></u><u></u><br>

</td><td style="padding:0.75pt"><br>81,620<u></u><u></u><br></td><td style="padding:0.75pt"><br>4,383<u></u><u></u><br></td></tr><tr><td style="padding:0.75pt"><br>Arabic<u></u><u></u><br></td><td style="padding:0.75pt">
<br>
NW<u></u><u></u><br></td><td style="padding:0.75pt"><br>717<u></u><u></u><br></td><td style="padding:0.75pt"><br>198,621<u></u><u></u><br></td><td style="padding:0.75pt"><br>263,060<u></u><u></u><br></td><td style="padding:0.75pt">

<br>8,423<u></u><u></u><br></td></tr></tbody></table><br style="font-family:arial,sans-serif;font-size:13px"><span style="font-family:arial,sans-serif;font-size:13px">Note that word count is based on the untokenized Arabic source, and token count is based on the tokenized Arabic source.</span><u style="font-family:arial,sans-serif;font-size:13px"></u><u style="font-family:arial,sans-serif;font-size:13px"></u><br style="font-family:arial,sans-serif;font-size:13px">

<br style="font-family:arial,sans-serif;font-size:13px"><span style="font-family:arial,sans-serif;font-size:13px">The Arabic word alignment tasks consisted of the following components:</span><u style="font-family:arial,sans-serif;font-size:13px"></u><u style="font-family:arial,sans-serif;font-size:13px"></u><br style="font-family:arial,sans-serif;font-size:13px">

<br style="font-family:arial,sans-serif;font-size:13px"><ul style="font-family:arial,sans-serif;font-size:13px"><li style="margin-left:15px">Normalizing  tokenized tokens as needed</li><li style="margin-left:15px">Identifying different types of links</li>

<li style="margin-left:15px">Identifying sentence segments not suitable for annotation</li><li style="margin-left:15px">Tagging unmatched words attached to other words or phrases</li></ul><br style="font-family:arial,sans-serif;font-size:13px">

<span style="font-family:arial,sans-serif;font-size:13px">GALE Arabic-English Word Alignment Training Part 1 -- Newswire and Web is distributed via web download.</span><u style="font-family:arial,sans-serif;font-size:13px"></u><u style="font-family:arial,sans-serif;font-size:13px"></u><br style="font-family:arial,sans-serif;font-size:13px">

<br style="font-family:arial,sans-serif;font-size:13px"><span style="font-family:arial,sans-serif;font-size:13px">2014 Subscription Members will automatically receive two copies of this data on disc. 2014 Standard Members may request a copy as part of their 16 free membership corpora.  Non-members may license this data for US$1750.</span><u style="font-family:arial,sans-serif;font-size:13px"></u><u style="font-family:arial,sans-serif;font-size:13px"></u><br style="font-family:arial,sans-serif;font-size:13px">

<br style="font-family:arial,sans-serif;font-size:13px"><div style="font-size:13.333333969116211px;font-family:arial,sans-serif"><br></div><div style="font-size:13.333333969116211px;font-family:arial,sans-serif">--------------------------------------------------------------------------<br>


End of Arabic-L:<span style="font-size:13.333333969116211px"> </span>17 Mar 2014</div></div>