<div dir="ltr"><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">------------------------------</span><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">------------------------------</span><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">------------</span><br style="font-family:arial,sans-serif;font-size:13.333333969116211px">


<span style="font-family:arial,sans-serif;font-size:13.333333969116211px">Arabic-L: Fri 19 Sep 2013</span><br style="font-family:arial,sans-serif;font-size:13.333333969116211px"><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">Moderator: Dilworth Parkinson <</span><a href="mailto:dilworth_parkinson@byu.edu" style="font-family:arial,sans-serif;font-size:13.333333969116211px" target="_blank">dilworth_parkinson@byu.edu</a><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">></span><br style="font-family:arial,sans-serif;font-size:13.333333969116211px">


<span style="font-family:arial,sans-serif;font-size:13.333333969116211px">[To post messages to the list, send them to </span><a href="mailto:arabic-l@byu.edu" style="font-family:arial,sans-serif;font-size:13.333333969116211px" target="_blank">arabic-l@byu.edu</a><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">]</span><br style="font-family:arial,sans-serif;font-size:13.333333969116211px">


<span style="font-family:arial,sans-serif;font-size:13.333333969116211px">[To unsubscribe, send message from same address you subscribed from to</span><br style="font-family:arial,sans-serif;font-size:13.333333969116211px">


<a href="mailto:listserv@byu.edu" style="font-family:arial,sans-serif;font-size:13.333333969116211px" target="_blank">listserv@byu.edu</a><span style="font-family:arial,sans-serif;font-size:13.333333969116211px"> with first line reading:</span><br style="font-family:arial,sans-serif;font-size:13.333333969116211px">


<span style="font-family:arial,sans-serif;font-size:13.333333969116211px">           unsubscribe arabic-l                                      ]</span><br style="font-family:arial,sans-serif;font-size:13.333333969116211px">


<br style="font-family:arial,sans-serif;font-size:13.333333969116211px"><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">-------------------------</span><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">Directory---------------------</span><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">---------------</span><br style="font-family:arial,sans-serif;font-size:13.333333969116211px">


<br style="font-family:arial,sans-serif;font-size:13.333333969116211px"><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">1) Subject: </span><font face="arial, sans-serif">LDC new Arabic publications</font><br style="font-family:arial,sans-serif;font-size:13.333333969116211px">


<br style="font-family:arial,sans-serif;font-size:13.333333969116211px"><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">-------------------------</span><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">Messages----------------------</span><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">-------------</span><br style="font-family:arial,sans-serif;font-size:13.333333969116211px">


<span style="font-family:arial,sans-serif;font-size:13.333333969116211px">1)</span><br style="font-family:arial,sans-serif;font-size:13.333333969116211px"><span style="font-family:arial,sans-serif;font-size:13.333333969116211px">Date: </span><span style="font-family:arial,sans-serif;font-size:13.63636302947998px">19 Sep 2013</span><br style="font-family:arial,sans-serif;font-size:13.333333969116211px">


<span style="font-family:arial,sans-serif;font-size:13.333333969116211px">From: </span><span name="Linguistic Data Consortium" style="font-size:13px;font-family:arial,sans-serif">Linguistic Data Consortium</span><span style="font-family:arial,sans-serif;font-size:13px;white-space:nowrap"> </span><span style="font-family:arial,sans-serif;font-size:13px;white-space:nowrap"><a href="mailto:ldc@ldc.upenn.edu" target="_blank">ldc@ldc.upenn.edu</a></span><span style="font-family:arial,sans-serif;font-size:13px;white-space:nowrap"> </span><span style="font-family:arial,sans-serif;font-size:13px;white-space:nowrap"><a href="http://support.google.com/mail/bin/answer.py?hl=en&ctx=mail&answer=1311182" style="color:rgb(34,34,34)" target="_blank">via</a> <a href="http://byu.edu" target="_blank">byu.edu</a> </span><br style="font-family:arial,sans-serif;font-size:13.333333969116211px">

<span style="font-family:arial,sans-serif;font-size:13.333333969116211px">Subject: </span><font face="arial, sans-serif">LDC new Arabic publications</font><br style="font-family:arial,sans-serif;font-size:13.333333969116211px">


<br><p style="font-family:arial,sans-serif;font-size:13px">(1)<b> </b><a href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2013S07" target="_blank">GALE Phase 2 Arabic Broadcast Conversation Speech Part 2</a> was developed by LDC and is comprised of approximately 128 hours of Arabic broadcast conversation speech collected in 2007 by LDC as part of the DARPA GALE (Global Autonomous Language Exploitation) Program. The data was collected at LDC’s Philadelphia, PA USA facilities and at three remote collection sites. The combined local and outsourced broadcast collection supported GALE at a rate of approximately 300 hours per week of programming from more than 50 broadcast sources for a total of over 30,000 hours of collected broadcast audio over the life of the program.<u></u><u></u></p>

<p style="font-family:arial,sans-serif;font-size:13px">LDC's local broadcast collection system is highly automated, easily extensible and robust and capable of collecting, processing and evaluating hundreds of hours of content from several dozen sources per day. The broadcast material is served to the system by a set of free-to-air (FTA) satellite receivers, commercial direct satellite systems (DSS) such as DirecTV, direct broadcast satellite (DBS) receivers, and cable television (CATV) feeds. The mapping between receivers and recorders is dynamic and modular; all signal routing is performed under computer control, using a 256x64 A/V matrix switch. Programs are recorded in a high bandwidth A/V format and are then processed to extract audio, to generate keyframes and compressed audio/video, to produce time-synchronized closed captions (in the case of North American English) and to generate automatic speech recognition (ASR) output.<u></u><u></u></p>

<p style="font-family:arial,sans-serif;font-size:13px">The broadcast conversation recordings in this release feature interviews, call-in programs and round table discussions focusing principally on current events from several sources. This release contains 141 audio files presented in .wav, 16000 Hz single-channel 16-bit PCM. Each file was audited by a native Arabic speaker following Audit Procedure Specification Version 2.0 which is included in this release.<u></u><u></u></p>

<p style="font-family:arial,sans-serif;font-size:13px">GALE Phase 2 Arabic Broadcast Conversation Speech Part 2 is distributed on 2 DVD-ROM.<br><br>2013 Subscription Members will automatically receive two copies of this data.  2013 Standard Members may request a copy as part of their 16 free membership corpora.  Non-members may license this data for US$2000.<br>

</p><p style="font-family:arial,sans-serif;font-size:13px"><br><u></u><u></u></p><p style="font-family:arial,sans-serif;font-size:13px"><a name="14134abbbafa9251_141281d31c48068d_trans" style="color:rgb(34,34,34)"></a>(2) <a href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2013T17" target="_blank">GALE Phase 2 Arabic Broadcast Conversation Transcripts Part 2</a> was developed by LDC and contains transcriptions of approximately 128 hours of Arabic broadcast conversation speech collected in 2007 by LDC, MediaNet, Tunis, Tunisia and MTC, Rabat, Morocco during Phase 2 of the DARPA GALE (Global Autonomous Language Exploitation) program. The source broadcast conversation recordings feature interviews, call-in programs and round table discussions focusing principally on current events from several sources.<u></u><u></u></p>

<p style="font-family:arial,sans-serif;font-size:13px">The transcript files are in plain-text, tab-delimited format (TDF) with UTF-8 encoding, and the transcribed data totals 763,945 tokens. The transcripts were created with the LDC-developed transcription tool, <a href="http://www.ldc.upenn.edu/tools/XTrans/downloads/" target="_blank">XTrans</a>, a multi-platform, multilingual, multi-channel transcription tool that supports manual transcription and annotation of audio recordings. <u></u><u></u></p>

<p style="font-family:arial,sans-serif;font-size:13px">The files in this corpus were transcribed by LDC staff and/or by transcription vendors under contract to LDC. Transcribers followed LDC’s quick transcription guidelines (QTR) and quick rich transcription specification (QRTR) both of which are included in the documentation with this release. QTR transcription consists of quick (near-)verbatim, time-aligned transcripts plus speaker identification with minimal additional mark-up. It does not include sentence unit annotation. QRTR annotation adds structural information such as topic boundaries and manual sentence unit annotation to the core components of a quick transcript.<u></u><u></u></p>

<p style="font-family:arial,sans-serif;font-size:13px">GALE Phase 2 Arabic Broadcast Conversation Transcripts - Part 2 is distributed via web download.<u></u><u></u></p><p style="font-family:arial,sans-serif;font-size:13px">

2013 Subscription Members will automatically receive two copies of this data on disc.  2013 Standard Members may request a copy as part of their 16 free membership corpora.  Non-members may license this data for US$1500.<br>

</p><div><br></div><br style="font-family:arial,sans-serif;font-size:13.333333969116211px"><div style="font-family:arial,sans-serif;font-size:13.333333969116211px">--------------------------------------------------------------------------<br>


End of Arabic-L: 19 Sep 2013</div></div>