<div dir="ltr"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">------------------------------</span><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">------------------------------</span><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">------------</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">Arabic-L: Fri 19 Sep 2014</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">Moderator: Dilworth Parkinson <</span><a href="mailto:dilworth_parkinson@byu.edu" style="font-size:13.3333339691162px;font-family:arial,sans-serif" target="_blank">dilworth_parkinson@byu.edu</a><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">></span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">[To post messages to the list, send them to </span><a href="mailto:arabic-l@byu.edu" style="font-size:13.3333339691162px;font-family:arial,sans-serif" target="_blank">arabic-l@byu.edu</a><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">]</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">[To unsubscribe, send message from same address you subscribed from to</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><a href="mailto:listserv@byu.edu" style="font-size:13.3333339691162px;font-family:arial,sans-serif" target="_blank">listserv@byu.edu</a><span style="font-size:13.3333339691162px;font-family:arial,sans-serif"> with first line reading:</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">           unsubscribe arabic-l                                      ]</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">-------------------------</span><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">Directory---------------------</span><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">---------------</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">1) Subject: </span><font face="arial, sans-serif">GALE Word Alignment Broadcast Training Part 1</font><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">-------------------------</span><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">Messages----------------------</span><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">-------------</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">1)</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">Date: </span><span style="font-size:13px;font-family:arial,sans-serif">19 Sep 2014</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">From: </span><font face="arial, sans-serif">reposted from LDC</font><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">Subject: </span><font face="arial, sans-serif">GALE Word Alignment Broadcast Training Part 1</font><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><br><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:12.7272720336914px">(2) <a href="https://catalog.ldc.upenn.edu/LDC2014T19" target="_blank">GALE Arabic-English Word Alignment -- Broadcast Training Part 1</a> was developed by LDC and contains 267,257 tokens of word aligned Arabic and English parallel text enriched with linguistic tags. This material was used as training data in the DARPA GALE (Global Autonomous Language Exploitation) program.<u></u><u></u></p><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:12.7272720336914px">Some approaches to statistical machine translation include the incorporation of linguistic knowledge in word aligned text as a means to improve automatic word alignment and machine translation quality. This is accomplished with two annotation schemes: alignment and tagging. Alignment identifies minimum translation units and translation relations by using minimum-match and attachment annotation approaches. A set of word tags and alignment link tags are designed in the tagging scheme to describe these translation units and relations. Tagging adds contextual, syntactic and language-specific features to the alignment annotation.<u></u><u></u></p><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:12.7272720336914px">This release consists of Arabic source broadcast news and broadcast conversation data collected by LDC from 2007-2009. The distribution by genre, words, tokens and segments appears below:<u></u><u></u></p><table border="1" cellpadding="0" style="font-family:arial,sans-serif;font-size:12.7272720336914px"><tbody><tr><td style="padding:0.75pt"><p class="MsoNormal">Language<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">Genre<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">Files<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">Words<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">Tokens<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">Segments<u></u><u></u></p></td></tr><tr><td style="padding:0.75pt"><p class="MsoNormal">Arabic<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">BC<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">231<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">79,485<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">103,816<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">4,114<u></u><u></u></p></td></tr><tr><td style="padding:0.75pt"><p class="MsoNormal">Arabic<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">BN<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">92<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">131,789<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">163,441<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">7,227<u></u><u></u></p></td></tr><tr><td style="padding:0.75pt"><p class="MsoNormal">Totals<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal"> <u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">323<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">211,274<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">267,257<u></u><u></u></p></td><td style="padding:0.75pt"><p class="MsoNormal">11,341<u></u><u></u></p></td></tr></tbody></table><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:12.7272720336914px">Note that word count is based on the untokenized Arabic source, and token count is based on the tokenized Arabic source.<u></u><u></u></p><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:12.7272720336914px">The Arabic word alignment tasks consisted of the following components:<u></u><u></u></p><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:12.7272720336914px">Normalizing tokenized tokens as needed<u></u><u></u></p><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:12.7272720336914px">Identifying different types of links<u></u><u></u></p><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:12.7272720336914px">Identifying sentence segments not suitable for annotation<u></u><u></u></p><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:12.7272720336914px">Tagging unmatched words attached to other words or phrases<u></u><u></u></p><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:12.7272720336914px">GALE Arabic-English Word Alignment -- Broadcast Training Part 1 is distributed via web download.<u></u><u></u></p><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:12.7272720336914px">2014 Subscription Members will automatically receive two copies of this data on disc.  2014 Standard Members may request a copy as part of their 16 free membership corpora.  Non-members may license this data for US$1750.<br></p><div><br></div><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><div style="font-size:13.3333339691162px;font-family:arial,sans-serif">--------------------------------------------------------------------------<br>End of Arabic-L: 19 Sep 2014</div></div>