<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
<div class="moz-text-html" lang="x-western">
<div class="moz-text-html" lang="x-western">
<p align="center">LDC2006S26<b><br>
<a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006S26">CSLU:
Speaker Recognition Version 1.1</a><br>
</b></p>
<p align="center">LDC2006T10<br>
<b><a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T10">English-Arabic
Treebank V1.0</a><br>
</b></p>
<p align="center">LDC2006S33<b><br>
<a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006S33">Middle
East Technical University Turkish Microphone Speech V 1.0</a><br>
</b></p>
<p align="center"><b><br>
</b><font face="Times New Roman, Times, serif">In this month's
newsletter,
the Linguistic Data Consortium (LDC) would
like to announce the availability of three new publications.<br>
</font></p>
<hr size="2" width="100%">
<p align="center"><font face="Times New Roman, Times, serif"><b>New
Publications</b><br>
</font></p>
<p>(1)  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006S26">CSLU:
Speaker Recognition Version 1.1</a> consists of
telephone
speech from 91 participants. Each participant has recorded speech in
twelve sessions over a two-year period answering questions like "what
is your eye color" or respond to prompts like "describe a typical day
in your life." Most of the utterances in the corpus have
corresponding non-time-aligned word level transcriptions. </p>
<p>The goal of Speaker Recognition data collection was to collect
speech from each
participant over a two year period. Each participant called the
data collection system twelve times over the two-year period and said
the same utterances each time.  <br>
</p>
<p align="center">*<br>
</p>
<p>(2)  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T10">English-Arabic
Parallel Treebank V1.0</a> consists of 52,238 words
in
224 files of individual Agence France Presse (AFP) news stories
(corresponding to approximately the first 50K words of the Arabic
Treebank: Part 1 v 3.0 -- LDC Catalog No.: LDC2005T02). The English
translation was provided by LDC, and was
part-of-speech tagged and treebanked for this project. </p>
The guidelines followed for both part-of-speech and treebank annotation
are essentially Penn Treebank II style, with two notable differences:
<ol>
  <li>POS: tokenization of hyphenated items ("New York-based" has been
replaced by "New York - based" for example), and the addition of HYPH
and AFX tags necessitated by this change in tokenization </li>
  <li>TreeBank: the addition of the node label NML for sub-NP nominal
constituents (replacing NX and most NP-internal NAC) </li>
</ol>
<p align="center">*<br>
</p>
<p>(3)  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006S33">Middle
East Technical University Turkish Microphone Speech V 1.0</a>
corpus has been collected at the Middle East Technical
University (METU) as part of a collaborative work between the
Department of Electrical and Electronics Engineering of the Middle East
Technical University in Turkey and the Center for Spoken Language
Research (CSLR) of the University of Colorado at Boulder, USA.  The
corpus was used to port the Speech Recognition
System of CSLR, SONIC, to Turkish. </p>
<p>The corpus contains text, speech, and alignment files.  120 speakers
(60 male and 60 female) spoke 40
sentences each for a total of approximately 500 minutes of speech. The
40 sentences were
selected randomly for each speaker from a triphone-balanced set of 2462
Turkish sentences. All participants were native speakers of Turkish. <br>
<br>
</p>
<hr size="2" width="100%">
<div align="center"><font face="Courier New"><small><big><font
 face="Times New Roman"><br>
If you need further
information, or would like to inquire about
membership to the LDC, please email <a class="moz-txt-link-abbreviated"
 href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a> or call +1 215
573 1275.</font></big></small></font><br>
</div>
<p><font face="Courier New"><small><br>
<br>
</small></font>
</p>
<div align="center">--------------------------------------------------------------------<br>
</div>
<div align="center">
<pre class="moz-signature" cols="72">Linguistic Data Consortium                     Phone: (215) 573-1275
3600 Market Street                             Fax:   (215) 573-2175
Suite 810                                          <a
 class="moz-txt-link-abbreviated" href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>
Philadelphia, PA 19104                      <a
 class="moz-txt-link-freetext" href="http://www.ldc.upenn.edu">http://www.ldc.upenn.edu</a></pre>
</div>
</div>
</div>
</body>
</html>