<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
<div class="moz-text-html" lang="x-western">
<p align="center">LDC2007S10<br>
<b>-  </b><a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007S10"><b>2003
NIST Rich Transcription Evaluation Data</b></a><b>  -  </b></p>
<div align="center">LCD2007T38<br>
<b>-  </b><b><a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T38">
Chinese Gigaword Third Edition</a>  </b><b>- <br>
<br>
</b></div>
<div align="center">The Linguistic Data Consortium (LDC) is pleased to
announce the availability of two new publications.<br>
<b><br>
</b><b></b></div>
<b></b>
<hr size="2" width="100%"><br>
<div align="center">
<div align="left"><font face="Times New Roman, Times, serif"><big><b><small></small></b></big></font>
<div align="center"><font face="Times New Roman, Times, serif"><big><b><small>New
Publications<br>
<br>
</small></b></big></font></div>
<p>(1)  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007S10">2003
NIST Rich Transcription Evaluation Data</a> [note: this link takes you
to ARL
Urdu Speech 2007S03] contains the test material used in the 2003 Rich
Transcription Spring and Fall evaluations administered by the <a
 href="http://www.nist.gov/speech">NIST (National Institute of
Standards and
Technology) Speech Group</a>. The Spring evaluation (RT-03S) focused on
Speech-To-Text (STT) tasks for broadcast news speech and conversational
telephone speech in three languages: English, Mandarin Chinese and
Arabic. That
evaluation also included one Metadata Extraction (MDE) task, speaker
diarization
for broadcast news speech and conversational telephone speech in
English. The
Fall evaluation (RT-03F) focused on MDE tasks including speaker
diarization,
speaker-attributed STT, SU (sentence/semantic unit) detection and
disfluency
detection for broadcast news speech and conversational telephone speech
in
English. For complete information about the evaluations, see the <a
 href="http://www.nist.gov/speech/tests/rt/rt2003/spring">RT-03 Spring
Evaluation Website</a> and the <a
 href="http://www.nist.gov/speech/tests/rt/rt2003/fall/index.htm">RT-03
Fall
Evaluation Website</a>. <o:p></o:p></p>
<p>The English Broadcast News (BN) dataset is approximately three hours
long
and composed of 30-minute excerpts from six different broadcasts.  The
Mandarin Chinese BN dataset is approximately one hour long and composed
of
12-minute excerpts from five different broadcasts.  The Arabic BN
dataset
is also approximately one hour long; it is composed of 30-minute
excerpts from
two different broadcasts.  For all BN datasets, the broadcast were
selected from TDT-4 sources and the evaluation excerpts were
transcribed to the
nearest story boundary. <o:p></o:p></p>
<p class="MsoNormal">The English Conversational Telephone Speech (CTS)
dataset is
approximately 6 hours long. It is composed of 5-minute excerpts from 72
different conversations: 36 from the <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2001S13">Switchboard
Cellular</a> collection and 36 from the <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2004S13">Fisher
collection</a>. The Mandarin Chinese CTS dataset is approximately one
hour long
and composed of 5-minute excerpts from 12 different conversations from
the <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC96S55">CallFriend
Mandarin Chinese data</a>.  The Arabic CTS set is also approximately
one
hour long. It is composed of 5-minute excerpts from 12 different
conversations
from the <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S45">CallHome
Egyptian Arabic data</a>.  For all CTS datasets, the evaluation
excerpts
were transcribed to the nearest turn. <o:p></o:p></p>
<p>No manual (human-annotated) segmentations are provided. Sites were
required
to generate their own segmentations automatically.  Unlike the BN audio
files where the full broadcasts were provided, the CTS audio files
contain only
the evaluation excerpts. <o:p></o:p></p>
<p style="text-align: center;" align="center"><b>*</b><o:p></o:p></p>
<p>(2) <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T38">Chinese
Gigaword Third Edition</a> is a comprehensive archive of newswire text
data
that has been acquired over several years by the LDC. This edition
includes all
of the contents in <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2005T14">Chinese
Gigaword Second Edition (LDC2005T14)</a> as well as new data collected
after
the publication of that edition. Also, an archive of articles from a
new
newswire source (Agence France Presse) has been added in the third
edition.<o:p></o:p></p>
<p>The four distinct international sources of Chinese newswire included
in this
edition are the following: <o:p></o:p></p>
<ul type="disc">
  <li class="MsoNormal" style="">Agence France Presse (afp_cmn) <o:p></o:p></li>
  <li class="MsoNormal" style="">Central <st1:place><st1:city>News
Agency</st1:city>, <st1:country-region>Taiwan</st1:country-region></st1:place>
(cna_cmn) <o:p></o:p></li>
  <li class="MsoNormal" style="">Xinhua News Agency (xin_cmn) <o:p></o:p></li>
  <li class="MsoNormal" style="">Zaobao Newspaper (zbn_cmn) <o:p></o:p></li>
</ul>
<p>All text files in this corpus have been converted to UTF-8 character
encoding. <o:p></o:p></p>
<p class="MsoNormal">New in the Third Edition:<o:p></o:p></p>
<ul type="disc">
  <li class="MsoNormal" style="">Over six years worth of articles
(October 2000 through December 2006) from Agence France Presse are
being released for the first time. <o:p></o:p></li>
  <li class="MsoNormal" style="">Two years worth of new articles
(January 2005 through December 2006) have been added to the Xinhua data
set. <o:p></o:p></li>
  <li class="MsoNormal" style="">Nearly two years worth of content was
added to the CNA data set.  <o:p></o:p></li>
  <li class="MsoNormal" style="">A small set of older stories (October
through December 1998) have been added from Zaobao; these were
previously published by LDC as part of <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2001T58">TDT3
Multilanguage Text Version 2.0 (LDC2001T58)</a> and are being included
in Gigaword for the first time.<o:p></o:p></li>
</ul>
<p class="MsoNormal" style="margin-bottom: 12pt;"><br>
<o:p></o:p></p>
</div>
<hr size="2" width="100%"><br>
</div>
<div align="center"><small><font face="Courier New, Courier, monospace"><br>
Ilya
Ahtaridis<br>
Membership Coordinator</font></small><br>
--------------------------------------------------------------------
<font face="Courier New, Courier, monospace"><br>
</font></div>
<div align="center">
<pre class="moz-signature" cols="72"><b><small><font
 face="Courier New, Courier, monospace">
</font></small>Linguistic Data Consortium                     Phone: (215) 573-1275
University of Pennsylvania                       Fax: (215) 573-2175
3600 Market St., Suite 810                         <a
 class="moz-txt-link-abbreviated" href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>
Philadelphia, PA 19104 USA                  <a
 class="moz-txt-link-freetext" href="http://www.ldc.upenn.edu">http://www.ldc.upenn.edu</a></b></pre>
</div>
</div>
</body>
</html>