<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><pre id="nonprop"><p align=""><font class="Apple-style-span" face="Helvetica" size="3"><span class="Apple-style-span" style="font-size: 12px; ">------------------------------------------------------------------------
Arabic-L: Tue 29 Dec 2009
Moderator: Dilworth Parkinson <<a href="mailto:dilworth_parkinson@byu.edu">dilworth_parkinson@byu.edu</a>>
[To post messages to the list, send them to <a href="mailto:arabic-l@byu.edu">arabic-l@byu.edu</a>]
[To unsubscribe, send message from same address you subscribed from to
<a href="mailto:listserv@byu.edu">listserv@byu.edu</a> with first line reading:
            unsubscribe arabic-l                                      ]

-------------------------Directory------------------------------------

1) Subject:Arabic Gigaword 4 from LDC

-------------------------Messages-----------------------------------
1)
Date: 29 Dec 2009
From:from LDC
Subject:Arabic Gigaword 4 from LDC

<span class="Apple-style-span" style="font-size: medium; white-space: normal; "><p>(2)  <a name="giga"></a><a href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2009T30">Arabic Gigaword Fourth Edition</a> is a comprehensive archive of Arabic newswire text that has been acquired over several years at LDC. Arabic Gigaword Fourth Edition includes all of the content of <a href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T40">Arabic Gigaword Third Edition (LDC2007T40)</a> as well as newly-collected data. In addition, three new sources have been added in the fourth edition: Al-Ahram, Asharq Al-Awsat and Al-Quds Al-Arabi.<o:p></o:p></p><p>Nine distinct international sources of Arabic newswire are represented here:<o:p></o:p></p><ul type="disc"><li class="MsoNormal">Al-Ahram (ahr_arb)<o:p></o:p></li><li class="MsoNormal">Asharq Al-Awsat (aaw_arb)<o:p></o:p></li><li class="MsoNormal">Agence France Presse (afp_arb)<o:p></o:p></li><li class="MsoNormal">Assabah (asb_arb)<o:p></o:p></li><li class="MsoNormal">Al Hayat (hyt_arb)<o:p></o:p></li><li class="MsoNormal">An Nahar (nhr_arb)<o:p></o:p></li><li class="MsoNormal">Al-Quds Al-Arabi (qds_arb)<o:p></o:p></li><li class="MsoNormal">Ummah Press (umh_arb)<o:p></o:p></li><li class="MsoNormal">Xinhua News Agency (xin_arb)<o:p></o:p></li></ul><p>The seven-character codes shown above represent both the directory names where the data files are found and the 7-letter prefix that appears at the beginning of every file name. The 7-letter codes consist of the three-character source name IDs and the three-character language code ("arb") separated by an underscore ("_") character.<o:p></o:p></p><p>These news services all use Modern Standard Arabic (<st1:stockticker>MSA</st1:stockticker>), so there should be a fairly limited scope for orthographic and lexical variation due to regional Arabic dialects.<o:p></o:p></p><p class="MsoNormal">New in the Fourth Edition<o:p></o:p></p><ul type="disc"><li class="MsoNormal">New Sources<o:p></o:p></li></ul><p class="MsoNormal">      This release marks the first edition of Arabic Gigaword to include content from Al-Ahram, Asharq Al-Awsat and Al-Quds Al-Arabi covering the period from November 2006 through December 2008. <o:p></o:p></p><ul type="disc"><li class="MsoNormal">New Data for Existing Sources<o:p></o:p></li></ul><p class="MsoNormal">      This release contains all data collected by LDC from January 2007 through December 2008, except for Ummah Press for which data from January 2005 through December 2008 is included.<o:p></o:p></p><p>The table below shows data quantity by source under the following categories: data source (Source); the number of files per source (#Files); compressed file size (Gzip-MB); uncompressed file size (Totl-MB); the number of space-separated words tokens in the text (K-words); and the number of documents per source (#DOCs).<o:p></o:p></p><table class="MsoNormalTable" border="1" cellpadding="0" width="75%" style="width: 747px; "><tbody><tr><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal"><strong>Source</strong><o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">#<strong>Files</strong><o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal"><strong>Gzip-MB</strong><o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal"><strong>Totl-MB</strong><o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal"><strong>K-wrds</strong><o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal"><strong>#DOCs</strong><o:p></o:p></p></td></tr><tr><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">aaw_arb<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">26<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">114<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">386<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">36694<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">87506<o:p></o:p></p></td></tr><tr><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">afp_arb<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">176<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">530<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">1979<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">184631<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">930656<o:p></o:p></p></td></tr><tr><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">ahr_arb<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">26<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">114<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">131<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">42265<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">107187<o:p></o:p></p></td></tr><tr><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">asb_arb<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">52<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">45<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">149<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">14322<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">32794<o:p></o:p></p></td></tr><tr><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">hyt_arb<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">166<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">663<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">2224<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">209318<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">448335<o:p></o:p></p></td></tr><tr><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">nhr_arb<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">157<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">784<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">2662<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">253559<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">557151<o:p></o:p></p></td></tr><tr><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">qds_arb<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">26<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">62<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">198<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">18996<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">49352<o:p></o:p></p></td></tr><tr><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">umh_arb<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">68<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">9.3<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">31<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">2995<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">11350<o:p></o:p></p></td></tr><tr><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">xin_arb<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">91<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">245<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">890<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">85689<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; "><p class="MsoNormal">492664<o:p></o:p></p></td></tr><tr style="height: 17.25pt; "><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; height: 17.25pt; "><p class="MsoNormal"><strong>Totals</strong><o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; height: 17.25pt; "><p class="MsoNormal">788<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; height: 17.25pt; "><p class="MsoNormal">5018<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; height: 17.25pt; "><p class="MsoNormal">8650<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; height: 17.25pt; "><p class="MsoNormal">848469<o:p></o:p></p></td><td style="padding-top: 0.75pt; padding-right: 0.75pt; padding-bottom: 0.75pt; padding-left: 0.75pt; height: 17.25pt; "><p class="MsoNormal">2716995<o:p></o:p></p></td></tr></tbody></table><p class="MsoNormal" style="margin-bottom: 12pt; "><br>Arabic Gigaword Fourth Edition is distributed on one <st1:stockticker>DVD</st1:stockticker>-ROM.<br><br>2009 Subscription Members will automatically receive two copies of this corpus.  2009 Standard Members may request a copy as part of their 16 free membership corpora. Non-members may license this data for US$5000.</p></span>
--------------------------------------------------------------------------
End of Arabic-L:  29 Dec 2009
</span></font></p><div><font class="Apple-style-span" face="Helvetica" size="3"><span class="Apple-style-span" style="font-size: 12px;"><br></span></font></div></pre></body></html>