<HTML><BODY style="word-wrap: break-word; -khtml-nbsp-mode: space; -khtml-line-break: after-white-space; "><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">------------------------------------------------------------------------</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Arabic-L: Thu 28 Aug 2006</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Moderator: Dilworth Parkinson <<A href="mailto:dilworth_parkinson@byu.edu">dilworth_parkinson@byu.edu</A>></DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">[To post messages to the list, send them to <A href="mailto:arabic-l@byu.edu">arabic-l@byu.edu</A>]</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">[To unsubscribe, send message from same address you subscribed from to</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><A href="mailto:listserv@byu.edu">listserv@byu.edu</A> with first line reading:</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">           unsubscribe arabic-l                                      ]</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">-------------------------Directory------------------------------------</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">1) Subject:new from LDC</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">-------------------------Messages-----------------------------------</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">1)</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Date: 28 Aug 2006</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">From:<A href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</A></DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Subject:new from LDC</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">LDC2006S43</DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><A href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006S43"><B>Gulf Arabic Conversational Telephone Speech</B></A></DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">LDC2006T15</DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><A href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T15"><B>Gulf Arabic Conversational Telephone Speech, Transcripts</B></A></DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">LDC2006T13  </DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><A href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13"><B>Web 1T 5-gram Version 1</B></A> </DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">The Linguistic Data Consortium (LDC) is pleased to announce the availability of three new publications.</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><B>New Publications</B></DIV><DIV style="text-align: auto;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">(1)  <A href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006S43"><FONT class="Apple-style-span" color="#0000EC">Gulf Arabic Conversational Telephone Speech</FONT></A> contains 975 Gulf Arabic speakers taking part in spontaneous telephone conversations in Colloquial Gulf Arabic. A total of 976 conversation sides are provided (one speaker appears on two distinct calls). The average duration per side is about 5.7 minutes.  This corpus was collected and transcribed in 2004 by Appen Pty Ltd. (Appen), Syndey, Australia, working under a U.S. Government contract.</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">The single-channel files represent just one side of a normal conversation. The "devtest" set represents a relatively balanced (representative) sample drawn from the total pool of collected calls, based on a test-set selection process applied by the National Institute of Standards and Technology (NIST) and based on demographic, phone and audit information as provided by Appen.  </DIV><P align="center" style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 12px; margin-left: 0px; ">*</P><P style="text-align: auto;margin-top: 0px; margin-right: 0px; margin-bottom: 12px; margin-left: 0px; ">(2)  <A href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T15"><FONT class="Apple-style-span" color="#0000EC">Gulf Arabic Conversational Telephone Speech, Transcripts</FONT></A> contains transcripts of 975 Gulf Arabic speakers taking part in spontaneous telephone conversations in Colloquial Gulf Arabic. A total of 976 conversation sides are provided (one speaker appears on two distinct calls).  The data was collected and transcribed in 2004 by Appen Pty Ltd., Sydney, Australia, working under a U.S. Government contract.</P><P style="margin: 0.0px 0.0px 12.0px 0.0px">Each transcript file is a tab-delimited flat table, where each line contains information and text for a single contiguous utterance, presented via the following fields:</P><OL><LI style="margin: 0.0px 0.0px 0.0px 0.0px">beginning time stamp in seconds, in square brackets ("[5.7189]")</LI><LI style="margin: 0.0px 0.0px 0.0px 0.0px">ending time stamp in seconds, in square brackets</LI><LI style="margin: 0.0px 0.0px 0.0px 0.0px">channel/speaker-ID ("A:" or "B:")</LI><LI style="margin: 0.0px 0.0px 0.0px 0.0px">"consonant skeleton" orthography for the utterance, in UTF-8</LI><LI style="margin: 0.0px 0.0px 0.0px 0.0px">"diacritized" orthography for the utterance, in ASCII</LI></OL><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">*</DIV><P style="text-align: auto;margin-top: 0px; margin-right: 0px; margin-bottom: 12px; margin-left: 0px; ">(3)  <A href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13"><FONT class="Apple-style-span" color="#0000EC">Web 1T 5-gram Version 1</FONT></A> contains English word n-grams and their observed frequency counts. The length of the n-grams ranges from unigrams (single words) to five-grams. This data will be useful for statistical language modeling, e.g., for machine translation or speech recognition, as well as for other uses.  The n-gram counts were generated from approximately 1 trillion word tokens of text from publicly accessible web pages. </P><P style="margin: 0.0px 0.0px 12.0px 0.0px">The input encoding of documents was automatically detected, and all text was converted to UTF8.  The data was tokenized in a manner similar to the tokenization of the Wall Street Journal portion of the Penn Treebank. Notable exceptions include the following:</P><UL><LI style="margin: 0.0px 0.0px 0.0px 0.0px">Hyphenated word are usually separated, and hyphenated numbers usually form one token.</LI><LI style="margin: 0.0px 0.0px 0.0px 0.0px">Sequences of numbers separated by slashes (e.g. in dates) form one token.</LI><LI style="margin: 0.0px 0.0px 0.0px 0.0px">Sequences that look like urls or email addresses form one token.</LI></UL><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Times New Arabic; min-height: 15px; "><BR></DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><FONT class="Apple-style-span" face="Times New Arabic">If you need further information, or would like to inquire about membership to the LDC, please email </FONT><A href="mailto:ldc@ldc.upenn.edu"><FONT class="Apple-style-span" face="Times New Arabic"><FONT class="Apple-style-span" color="#0000EC">ldc@ldc.upenn.edu</FONT></FONT></A><FONT class="Apple-style-span" face="Times New Arabic"> or call +1 215 573 1275.</FONT></DIV><P style="margin: 0.0px 0.0px 12.0px 0.0px"><FONT class="Apple-style-span" face="Courier New" size="2"><SPAN class="Apple-style-span" style="font-size: 10px;"><BR></SPAN></FONT></P><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">--------------------------------------------------------------------</DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Linguistic Data Consortium                     Phone: (215) 573-1275</DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">University of Pennsylvania                       Fax: (215) 573-2175</DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">3600 Market St., Suite 810                         <A href="mailto:ldc@ldc.upenn.edu"><FONT class="Apple-style-span" color="#0000EC">ldc@ldc.upenn.edu</FONT></A></DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Philadelphia, PA 19104 USA                  <A href="http://www.ldc.upenn.edu/"><FONT class="Apple-style-span" color="#0000EC">http://www.ldc.upenn.edu</FONT></A></DIV><DIV style="text-align: center;margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><BR></DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">--------------------------------------------------------------------------</DIV><DIV style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">End of Arabic-L:  28 Aug 2006</DIV></BODY></HTML>