<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
  <title></title>
</head>
<body bgcolor="#ffffff" text="#000000">
<div class="moz-text-html" lang="x-western">
<p align="center"><b>-  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13">Free
Google Data (Web 1T 5-gram) Available</a>  -<br>
</b></p>
<p align="center">LDC2007T40 <br>
<b>-  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T40">Arabic
Gigaword Third Edition</a></b>   -<br>
</p>
<p align="center">LDC2007S18<b><br>
-  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007S18">CSLU
Kid's Speech Version 1.1</a>  -<br>
</b></p>
<p align="center">LDC2007T20<br>
<b>-  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T20">GALE
Phase 1 Distillation Training</a>  -<br>
<br>
</b></p>
<p align="center"><b>The Linguistic Data Consortium (LDC) is pleased to
announce the availability of free Web 1T 5-gram data as well as the
release of three new publications.<br>
</b></p>
<hr size="2" width="100%">
<p><br>
</p>
<p class="MsoNormal" style="margin-bottom: 12pt; text-align: center;"
 align="center"><b>Free
Google Data (Web 1T 5-gram) Available  <br>
</b></p>
<p>We are pleased to announce that Google Inc. is once again providing
financial support for the distribution of its Web 1T 5-gram
(LDC2006T13) corpus
to universities. As a result, LDC will make the corpus available at no
charge
to 100 non-member universities requesting a copy.  Shipping
and
handling fees are also being covered by Google.  We appreciate Google's
continued generosity and its interest in supporting language research. 
<o:p></o:p></p>
<p>To obtain a free copy, universities will need to sign and submit a
copy of
the <a
 href="http://www.ldc.upenn.edu/Catalog/nonmem_agree/Web_1T_5gram_V1_User_Agreement.html">User
License Agreement for Web 1T 5-gram Version </a><a
 href="http://www.ldc.upenn.edu/Catalog/nonmem_agree/Web_1T_5gram_V1_User_Agreement.html">1</a><b>
</b>.  This can be faxed to +1 215 573 2175 or scanned and emailed to
<a class="moz-txt-link-abbreviated" href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>. 
Complete contact details, including shipping address, phone number, and
email
are also required.<o:p></o:p></p>
<p><o:p> </o:p></p>
<p style="margin-bottom: 12pt; text-align: center;" align="center"><b>New
Publications<br>
<br>
</b></p>
<p>(1) <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T40">Arabic
Gigaword Third Edition</a> is a comprehensive archive of newswire text
data
acquired from Arabic news sources by the LDC at the <st1:place><st1:placetype>University</st1:placetype>
of <st1:placename>Pennsylvania</st1:placename></st1:place>. Arabic
Gigaword
Third Edition includes all of the content of <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T02">Arabic
Gigaword Second Edition (LDC2006T02)</a> as well as new data collected
after
the publication of that edition. Also, an archive from a new newswire
source --
Assabah -- has been included in the third edition.<o:p></o:p></p>
<p>The six distinct sources of Arabic newswire represented in the third
edition
are: <o:p></o:p></p>
<ul type="disc">
  <li class="MsoNormal" style="">Agence France Presse (afp_arb) <o:p></o:p></li>
  <li class="MsoNormal" style="">Assabah (asb_arb) <o:p></o:p></li>
  <li class="MsoNormal" style="">Al Hayat (hyt_arb) <o:p></o:p></li>
  <li class="MsoNormal" style="">An Nahar (nhr_arb) <o:p></o:p></li>
  <li class="MsoNormal" style="">Ummah Press (umh_arb) <o:p></o:p></li>
  <li class="MsoNormal" style="">Xinhua News Agency (xin_arb) <o:p></o:p></li>
</ul>
<p>The seven-character codes in the parantheses above consist of the
three-character
source name IDs and the three-character language code ("arb")
separated by an underscore ("_") character.<o:p></o:p></p>
<p>The epochs and document counts for the data in the third edition are
set
forth below: <o:p></o:p></p>
<table class="MsoNormalTable" style="" border="0" cellpadding="0">
  <tbody>
    <tr style="">
      <td colspan="4" style="padding: 0.75pt;">
      <p class="MsoNormal" style="text-align: center;" align="center">Newly
Added Data<o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal"><o:p> </o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal"><span style="font-size: 10pt;"><o:p> </o:p></span></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal"><span style="font-size: 10pt;"><o:p> </o:p></span></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal"><span style="font-size: 10pt;"><o:p> </o:p></span></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">Source<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">Date Span<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">Document Count<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal"><o:p> </o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">Agence <st1:country-region><st1:place>France</st1:place></st1:country-region>
Presse<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">2005.01 - 2006.12<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">137815<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal"><span style="font-size: 10pt;"><o:p> </o:p></span></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">Assabah News Agency<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">2004.09 - 2006.12<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">15410<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">(new source)<o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">Al Hayat News Agency<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">2005.01 - 2006.1<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">8799<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">(no data for 2004)<o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">An Nahar News Agency<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">2005.01 - 2006.12<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">104950<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">(no data for 2004)<o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">Xinhua News Agency<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">2005.01 - 2006.12<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">135472<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal"><o:p> </o:p></p>
      </td>
    </tr>
  </tbody>
</table>
<p>This release contains 547 files, totaling approximately 1.8GB in
compressed
form (6,673 MB uncompressed) and 1,994,735 K-words.  <o:p></o:p></p>
<p style="text-align: center;" align="center"><b>*</b><o:p></o:p></p>
<p>(2) <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007S18">CSLU:
Kids' Speech Version 1.1</a> is a collection of spontaneous and
prompted speech
from 1100 children between Kindergarten and Grade 10 in the <st1:place><st1:placetype>Forest</st1:placetype>
<st1:placetype>Grove</st1:placetype> <st1:placetype>School District</st1:placetype></st1:place>
in <st1:state><st1:place>Oregon</st1:place></st1:state>. All children
--
approximately 100 children at each grade level -- read approximately 60
items
from a total list of 319 phonetically-balanced but simple words,
sentences or
digit strings. Each utterance of spontaneous speech begins with a
recitation of
the alphabet and contains a monologue of about one minute in duration.
This
release consists of 1017 files containing approximately 8-10 minutes of
speech
per speaker. Corresponding word-level transcriptions are also included.
<o:p></o:p></p>
<p>This corpus was developed to facilitate research about the
characteristics
of children's speech at different ages and to train and evaluate
recognizers
for use in language training and other interactive tasks involving
children,
including to train recognizers used in language development with deaf
children.  Information about the subject's age, gender, languages
spoken
and physical conditions affecting speech was also collected.   <o:p></o:p></p>
<p style="text-align: center;" align="center"><b>*</b><o:p></o:p></p>
<p>(3) <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T20">GALE
Phase 1 Distillation Training</a> constitutes the final release of
training
data created by LDC for the DARPA GALE Program Phase 1 Distillation
technology
evaluation. Distillation is one of three primary technology components
for the
DARPA GALE Program, along with Transcription and Translation.
Distillation
engines respond to queries from English-speaking users, delivering
pertinent,
consolidated information in easy-to-understand forms. The distillation
engine
processes English and foreign language material, both speech and text,
from
multiple sources and documents, removing redundancy and presenting an
integrated response to the user. <o:p></o:p></p>
<p>This release consists of 248 English, Chinese and/or Arabic queries
and
their responses created by LDC annotators. Queries conform to one of
ten
template types. Query responses may include document and snippet
relevance
judgments, nuggets, nugs and supernugs. 158 of the 248 queries have
been
annotated for all features, while the remainder are labeled for only
some
features. <o:p></o:p></p>
<p>The annotation task involves responding to a series of user queries.
For
each query, annotators first find relevant documents and identify
snippets
(strings of contiguous text that answer the query) in the Arabic,
Chinese or
English source document. Annotators then create a nugget for each fact
expressed in the snippet. Semantically equivalent nuggets are grouped
into
cross-language, cross-document "supernugs".<o:p></o:p></p>
<p>Queries in this release have been annotated for the following tasks:
<o:p></o:p></p>
<ul type="disc">
  <li class="MsoNormal" style="">searching for relevant documents and
providing yes/no judgments <o:p></o:p></li>
  <li class="MsoNormal" style="">extracting snippets <o:p></o:p></li>
  <li class="MsoNormal" style="">resolution of pronouns, and certain
types of temporal and locative expressions contained in the snippets <o:p></o:p></li>
  <li class="MsoNormal" style="">creating nuggets, i.e. atomic pieces
of information that an annotator considers a valid answer to the query <o:p></o:p></li>
  <li class="MsoNormal" style="">building nugs, i.e. clusters of
semantically-equivalent nuggets for each language <o:p></o:p></li>
  <li class="MsoNormal" style="">building supernugs, i.e. clusters of
semantically-equivalent nugs across languages<o:p></o:p></li>
</ul>
<div align="center">
<hr size="2" width="100%"><small><font
 face="Courier New, Courier, monospace"><br>
Ilya
Ahtaridis<br>
Membership Coordinator</font></small><br>
--------------------------------------------------------------------
<font face="Courier New, Courier, monospace"><br>
</font></div>
<div align="center">
<pre class="moz-signature" cols="72"><b><small><font
 face="Courier New, Courier, monospace">
</font></small>Linguistic Data Consortium                     Phone: (215) 573-1275
University of Pennsylvania                       Fax: (215) 573-2175
3600 Market St., Suite 810                         <a
 class="moz-txt-link-abbreviated" href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>
Philadelphia, PA 19104 USA                  <a
 class="moz-txt-link-freetext" href="http://www.ldc.upenn.edu">http://www.ldc.upenn.edu</a></b></pre>
</div>
</div>
</body>
</html>