<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">
<pre id="nonprop"><p align=""><font class="Apple-style-span" face="Helvetica" size="3"><span class="Apple-style-span" style="font-size: 12px; ">------------------------------------------------------------------------
Arabic-L: Sat 12 Nov 2011
Moderator: Dilworth Parkinson <<a href="mailto:dilworth_parkinson@byu.edu">dilworth_parkinson@byu.edu</a>>
[To post messages to the list, send them to <a href="mailto:arabic-l@byu.edu">arabic-l@byu.edu</a>]
[To unsubscribe, send message from same address you subscribed from to
<a href="mailto:listserv@byu.edu">listserv@byu.edu</a> with first line reading:
            unsubscribe arabic-l                                      ]

-------------------------Directory------------------------------------

1) Subject:Arabic Gigaword 5th Edition

-------------------------Messages-----------------------------------
1)
Date: </span></font><span class="Apple-style-span" style="font-size: 12px; font-family: Helvetica; ">12 Nov 2011</span><font class="Apple-style-span" face="Helvetica" size="3"><span class="Apple-style-span" style="font-size: 12px; ">
From:Linguistic Data Consortium <<a href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>> (reposted from CORPORA)
Subject:Arabic Gigaword 5th Edition

</span></font></p><p class="MsoNormal" style="font-family: Helvetica; white-space: normal; ">(2) <a href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2011T11">Arabic Gigaword Fifth Edition</a> is a comprehensive archive of newswire text data that has been acquired from Arabic news sources over several years by LDC. Arabic Gigaword Fifth Edition includes all of the content of the fourth edition of Arabic Gigaword (<a href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2009T30">LDC2009T30</a>) plus new data covering the period from January 1, 2009 through December 31, 2010.</p><p class="MsoNormal" style="font-family: Helvetica; white-space: normal; ">Nine distinct sources of Arabic newswire are represented in this distribution:<br></p><blockquote style="font-family: Helvetica; white-space: normal; "><p class="MsoNormal">Asharq Al-Awsat (aaw_arb)</p><p class="MsoNormal">Agence France Presse (afp_arb)</p><p class="MsoNormal">Al-Ahram (ahr_arb)</p><p class="MsoNormal">Assabah (asb_arb)</p><p class="MsoNormal">Al Hayat (hyt_arb)</p><p class="MsoNormal">An Nahar (nhr_arb)</p><p class="MsoNormal">Al-Quds Al-Arabi (qds_arb)</p><p class="MsoNormal">Ummah Press (umh_arb)</p><p class="MsoNormal">Xinhua News Agency (xin_arb)</p></blockquote><p class="MsoNormal" style="font-family: Helvetica; white-space: normal; ">The seven-character codes shown above represent both the directory names where the data files are found, and the 7-letter prefix that appears at the beginning of every file name. The 7-letter codes consist of the three-character source name IDs and the three-character language code ("arb") separated by an underscore ("_") character. The three-character language code conforms to the <a href="http://www.sil.org/iso639-3/default.asp">ISO 639-3</a> standard.</p><p class="MsoNormal" style="font-family: Helvetica; white-space: normal; ">In addition to adding new data, the following updates were made:</p><blockquote style="font-family: Helvetica; white-space: normal; "><p class="MsoNormal">Repeated documents in Asharq Al-Awsat data from 2008 were removed.</p><p class="MsoNormal">Document formatting and docid duplication problems were corrected in Agence France Presse<span> </span>data.</p><p class="MsoNormal">Significant duplication of content in 2007-2008 An Nahar data was detected, and the duplicated documents were removed.</p><div><br></div></blockquote><font class="Apple-style-span" face="Helvetica" size="3"><span class="Apple-style-span" style="font-size: 12px; ">--------------------------------------------------------------------------
End of Arabic-L:  </span></font><span class="Apple-style-span" style="font-size: 12px; font-family: Helvetica; ">12 Nov 2011</span><p></p><div><span class="Apple-style-span" style="font-size: 12px; font-family: Helvetica; "><br></span></div></pre>
</body>
</html>