<div dir="ltr"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">------------------------------</span><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">------------------------------</span><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">------------</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif">


<span style="font-size:13.3333339691162px;font-family:arial,sans-serif">Arabic-L: Mon 18 Aug 2014</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">Moderator: Dilworth Parkinson <</span><a href="mailto:dilworth_parkinson@byu.edu" style="font-size:13.3333339691162px;font-family:arial,sans-serif" target="_blank">dilworth_parkinson@byu.edu</a><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">></span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif">


<span style="font-size:13.3333339691162px;font-family:arial,sans-serif">[To post messages to the list, send them to </span><a href="mailto:arabic-l@byu.edu" style="font-size:13.3333339691162px;font-family:arial,sans-serif" target="_blank">arabic-l@byu.edu</a><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">]</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif">


<span style="font-size:13.3333339691162px;font-family:arial,sans-serif">[To unsubscribe, send message from same address you subscribed from to</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><a href="mailto:listserv@byu.edu" style="font-size:13.3333339691162px;font-family:arial,sans-serif" target="_blank">listserv@byu.edu</a><span style="font-size:13.3333339691162px;font-family:arial,sans-serif"> with first line reading:</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif">


<span style="font-size:13.3333339691162px;font-family:arial,sans-serif">           unsubscribe arabic-l                                      ]</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><br style="font-size:13.3333339691162px;font-family:arial,sans-serif">


<span style="font-size:13.3333339691162px;font-family:arial,sans-serif">-------------------------</span><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">Directory---------------------</span><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">---------------</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif">


<br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">1) Subject: </span><font face="arial, sans-serif">LDC GALE Phase 2 Arabic Broadcast News Speech and Transcripts</font><br style="font-size:13.3333339691162px;font-family:arial,sans-serif">


<br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">-------------------------</span><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">Messages----------------------</span><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">-------------</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif">


<span style="font-size:13.3333339691162px;font-family:arial,sans-serif">1)</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><span style="font-size:13.3333339691162px;font-family:arial,sans-serif">Date: </span><span style="font-size:13px;font-family:arial,sans-serif">18 Aug 2014</span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif">


<span style="font-size:13.3333339691162px;font-family:arial,sans-serif">From: </span><span name="Linguistic Data Consortium" style="font-size:13px;font-family:arial,sans-serif">Linguistic Data Consortium</span><span style="font-family:arial,sans-serif;font-size:13px;white-space:nowrap"> </span><span style="font-family:arial,sans-serif;font-size:13px;white-space:nowrap"><span><</span><a href="mailto:ldc@ldc.upenn.edu" target="_blank">ldc@ldc.upenn.edu</a><span>></span></span><br style="font-size:13.3333339691162px;font-family:arial,sans-serif">

<span style="font-size:13.3333339691162px;font-family:arial,sans-serif">Subject: </span><font face="arial, sans-serif">LDC GALE Phase 2 Arabic Broadcast News Speech and Transcripts</font><br style="font-size:13.3333339691162px;font-family:arial,sans-serif">


<br style="font-size:13.3333339691162px;font-family:arial,sans-serif"><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:13px">(1) <a href="https://catalog.ldc.upenn.edu/LDC2014S07" target="_blank">GALE Phase 2 Arabic Broadcast News Speech Part 1</a> was developed by LDC and is comprised of approximately 165 hours of Arabic broadcast news speech collected in 2006 and 2007 by LDC, MediaNet, Tunis, Tunisia and MTC, Rabat, Morocco during Phase 2 of the DARPA GALE (Global Autonomous Language Exploitation) Program. Corresponding transcripts are released as GALE Phase 2 Arabic Broadcast News Transcripts Part 1 (<a href="http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2014T17" target="_blank">LDC2014T17</a>).<u></u><u></u></p>

<p class="MsoNormal" style="font-family:arial,sans-serif;font-size:13px">Broadcast audio for the GALE program was collected at LDC’s Philadelphia, PA USA facilities and at three remote collection sites: Hong Kong University of Science and Technology, Hong King (Chinese), Medianet (Tunis, Tunisia) (Arabic), and MTC (Rabat, Morocco) (Arabic). The combined local and outsourced broadcast collection supported GALE at a rate of approximately 300 hours per week of programming from more than 50 broadcast sources for a total of over 30,000 hours of collected broadcast audio over the life of the program.<u></u><u></u></p>

<p class="MsoNormal" style="font-family:arial,sans-serif;font-size:13px">The broadcast recordings in this release feature news programs focusing principally on current events from the following sources: Abu Dhabi TV, a televisions station based in Abu Dhabi, United Arab Emirates; Al Alam News Channel, based in Iran; Alhurra, a U.S. government-funded regional broadcaster; Aljazeera, a regional broadcaster located in Doha, Qatar; Dubai TV, a broadcast station in the United Arab Emirates; Al Iraqiyah, an Iraqi television station; Kuwait TV, a national broadcast station in Kuwait; Lebanese Broadcasting Corporation, a Lebanese television station; Nile TV, a broadcast programmer based in Egypt; Saudi TV, a national television station based in Saudi Arabia; and Syria TV, the national television station in Syria.<u></u><u></u></p>

<p class="MsoNormal" style="font-family:arial,sans-serif;font-size:13px">This release contains 200 audio files presented in <a href="http://flac.sourceforge.net/" target="_blank">FLAC</a>-compressed Waveform Audio File format (.flac), 16000 Hz single-channel 16-bit PCM. Each file was audited by a native Arabic speaker following Audit Procedure Specification Version 2.0 which is included in this release. The broadcast auditing process served three principal goals: as a check on the operation of the broadcast collection system equipment by identifying failed, incomplete or faulty recordings; as an indicator of broadcast schedule changes by identifying instances when the incorrect program was recorded; and as a guide for data selection by retaining information about a program’s genre, data type and topic.<u></u><u></u></p>

<p class="MsoNormal" style="font-family:arial,sans-serif;font-size:13px">GALE Phase 2 Arabic Broadcast News Speech Part 1 is distributed on three DVD-ROM.<u></u><u></u></p><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:13px">

2014 Subscription Members will automatically receive two copies of this data.  2014 Standard Members may request a copy as part of their 16 free membership corpora.  Non-members may license this data for US<a style="color:rgb(34,34,34)">$2000. <br>

</a></p><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:13px"><br><u></u><u></u></p><p class="MsoNormal" align="center" style="font-family:arial,sans-serif;font-size:13px">*<u></u><u></u></p><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:13px">

<a name="147e9de4f3aba130_147dad63472916ce_trans" style="color:rgb(34,34,34)"></a>(2) <a href="https://catalog.ldc.upenn.edu/LDC2014T17" target="_blank">GALE Phase 2 Arabic Broadcast News Transcripts Part 1</a> was developed by LDC and contains transcriptions of approximately 165 hours of Arabic broadcast news speech collected in 2006 and 2007 by LDC, MediaNet, Tunis, Tunisia and MTC, Rabat, Morocco during Phase 2 of the DARPA GALE (Global Autonomous Language Exploitation) program. Corresponding audio data is released as GALE Phase 2 Arabic Broadcast News Speech Part 1 (<a href="http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2014S07" target="_blank">LDC2014S07</a>).<u></u><u></u></p>

<p class="MsoNormal" style="font-family:arial,sans-serif;font-size:13px">The transcript files are in plain-text, tab-delimited format (TDF) with UTF-8 encoding, and the transcribed data totals 897,868 tokens. The transcripts were created with the LDC-developed transcription tool, <a href="https://www.ldc.upenn.edu/language-resources/tools/xtrans" target="_blank">XTrans</a>, a multi-platform, multilingual, multi-channel transcription tool that supports manual transcription and annotation of audio recordings. <u></u><u></u></p>

<p class="MsoNormal" style="font-family:arial,sans-serif;font-size:13px">The files in this corpus were transcribed by LDC staff and/or by transcription vendors under contract to LDC. Transcribers followed LDC's quick transcription guidelines (QTR) and quick rich transcription specification (QRTR) both of which are included in the documentation with this release. QTR transcription consists of quick (near-)verbatim, time-aligned transcripts plus speaker identification with minimal additional mark-up. It does not include sentence unit annotation. QRTR annotation adds structural information such as topic boundaries and manual sentence unit annotation to the core components of a quick transcript. Files with QTR as part of the filename were developed using QTR transcription. Files with QRTR in the filename indicate QRTR transcription.<u></u><u></u></p>

<p class="MsoNormal" style="font-family:arial,sans-serif;font-size:13px">GALE Phase 2 Arabic Broadcast News Transcripts Part 1 is distributed via web download.<u></u><u></u></p><p class="MsoNormal" style="font-family:arial,sans-serif;font-size:13px">

2014 Subscription Members will automatically receive two copies of this data on disc.  2014 Standard Members may request a copy as part of their 16 free membership corpora.  Non-members may license this data for US<a style="color:rgb(34,34,34)">$</a>1500.</p>

<div><br></div><div style="font-size:13.3333339691162px;font-family:arial,sans-serif">--------------------------------------------------------------------------<br>
End of Arabic-L: 18 Aug 2014</div></div>