<div dir="ltr">------------------------------------------------------------------------<br>Arabic-L: Thu 01 Nov 2012<br>Moderator: Dilworth Parkinson <<a href="mailto:dilworth_parkinson@byu.edu" target="_blank">dilworth_parkinson@byu.edu</a>><br>


[To post messages to the list, send them to <a href="mailto:arabic-l@byu.edu" target="_blank">arabic-l@byu.edu</a>]<br>[To unsubscribe, send message from same address you subscribed from to<br><a href="mailto:listserv@byu.edu" target="_blank">listserv@byu.edu</a> with first line reading:<br>


           unsubscribe arabic-l                                      ]<br><br>-------------------------Directory------------------------------------<br><br>1) Subject:LDC GALE Phase 2 Parallel Text<br><br>-------------------------Messages-----------------------------------<br>


1)<br>Date: 01 Nov 2012<br>From:<span name="Linguistic Data Consortium" style="font-size:13px;font-family:arial,sans-serif">Linguistic Data Consortium</span><span style="font-family:arial,sans-serif;font-size:13px;white-space:nowrap"> </span><span style="font-family:arial,sans-serif;font-size:13px;white-space:nowrap"><a href="mailto:ldc@ldc.upenn.edu" target="_blank">ldc@ldc.upenn.edu</a></span><br>

Subject:LDC GALE Phase 2 Parallel Text<br><br><p style="font-family:arial,sans-serif;font-size:13px">(2) <a href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2012T18" target="_blank">GALE Phase 2 Arabic Broadcast News Parallel Text</a> was developed by LDC, and along with other corpora, the parallel text in this release comprised training data for Phase 2 of the DARPA GALE (Global Autonomous Language Exploitation) Program. This corpus contains Modern Standard Arabic source text and corresponding English translations selected from broadcast news (BN) data collected by LDC between 2005 and 2007 and transcribed by LDC or under its direction.<u></u><u></u></p>

<p style="font-family:arial,sans-serif;font-size:13px">GALE Phase 2 Arabic Broadcast News Parallel Text includes seven source-translation pairs, comprising 29,210 words of Arabic source text and its English translation. Data is drawn from six distinct Arabic programs broadcast between 2005 and 2007 from Abu Dhabi TV, based in Abu Dhabi, United Arab Emirates; Al Alam News Channel, based in Iran; Aljazeera, a regional broadcast programmer based in Doha, Qatar; Dubai TV, based in Dubai, United Arab Emirates; and Kuwait TV, a national television station based in Kuwait. The BN programming in this release focuses on current events topics.<u></u><u></u></p>

<p style="font-family:arial,sans-serif;font-size:13px">The files in this release were transcribed by LDC staff and/or transcription vendors under contract to LDC in accordance with the <a href="http://projects.ldc.upenn.edu/gale/Transcription/Arabic-XTransQRTR.V3.pdf" target="_blank">Quick Rich Transcription</a> guidelines developed by LDC. Transcribers indicated sentence boundaries in addition to transcribing the text. Data was manually selected for translation according to several criteria, including linguistic features, transcription features and topic features. The transcribed and segmented files were then reformatted into a human-readable translation format and assigned to translation vendors. Translators followed LDC's Arabic to English translation guidelines. Bilingual LDC staff performed quality control procedures on the completed translations.<u></u><u></u></p>

<div><br></div>--------------------------------------------------------------------------<br>End of Arabic-L: 01 Nov 2012<br></div>