<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><pre id="nonprop"><p align=""><font class="Apple-style-span" face="Helvetica" size="3"><span class="Apple-style-span" style="font-size: 12px; ">------------------------------------------------------------------------
Arabic-L: Fri 07 Aug 2010
Moderator: Dilworth Parkinson <<a href="mailto:dilworth_parkinson@byu.edu">dilworth_parkinson@byu.edu</a>>
[To post messages to the list, send them to <a href="mailto:arabic-l@byu.edu">arabic-l@byu.edu</a>]
[To unsubscribe, send message from same address you subscribed from to
<a href="mailto:listserv@byu.edu">listserv@byu.edu</a> with first line reading:
            unsubscribe arabic-l                                      ]

-------------------------Directory------------------------------------

1) Subject:LDC Arabic Treebank

-------------------------Messages-----------------------------------
1)
Date: 07 Aug 2010
From:Linguistic Data Consortium <<a href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>>
Subject:LDC Arabic Treebank

<span class="Apple-style-span" style="font-size: medium; white-space: normal; "><p>(1)  <a name="atb"></a><a href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2010T08">Arabic Treebank: Part 3 v 3.2</a> consists of 599 distinct newswire stories from the Lebanese publication An Nahar with part-of-speech (POS), morphology, gloss and syntactic treebank annotation in accordance with the <a href="http://projects.ldc.upenn.edu/ArabicTreebank/">Penn Arabic Treebank (PATB) Guidelines</a> developed in 2008 and 2009. This release represents a significant revision of LDC's previous ATB3 publications: <a href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2004T11">Arabic Treebank: Part 3 v 1.0 LDC2004T11</a> and <a href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2005T20">Arabic Treebank: Part 3 (full corpus) v 2.0 (MPG + Syntactic Analysis LDC2005T20</a>.<o:p></o:p></p><p>ATB3 v 3.2 contains a total of 339,710 tokens before clitics are split, and 402,291 tokens after clitics are separated for the treebank annotation. This release includes all files that were previously made available to the <a href="http://projects.ldc.upenn.edu/gale/index.html">DARPA GALE program</a> community (Arabic Treebank Part 3 - Version 3.1, LDC2008E22). A number of inconsistencies in the 3.1 release data have been corrected here. These include changes to certain POS tags with the resulting tree changes. As a result, additional clitics have been separated, and some previously incorrectly split tokens have now been merged.<o:p></o:p></p><p>One file from ATB3 v 2.0, ANN20020715.0063, has been removed from this corpus as that text is an exact duplicate of another file in this release (ANN20020715.0018). This reduces the number of files from 600 files in ATB3 v 2.0 to 599 files in ATB 3 v 3.2.<o:p></o:p></p><p class="MsoNormal" style="margin-bottom: 12pt; ">Arabic Treebank: Part 3 v 3.2 is distributed on one CD-ROM.<br><br>2010 Subscription Members will automatically receive two copies of this corpus.  2010 Standard Members may request a copy as part of their 16 free membership corpora. Non-members may license this data for US$4500.</p></span>
--------------------------------------------------------------------------
End of Arabic-L:  07 Aug 2010
</span></font></p><div><font class="Apple-style-span" face="Helvetica" size="3"><span class="Apple-style-span" style="font-size: 12px;"><br></span></font></div></pre></body></html>