<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
</head>
<body bgcolor="#ffffff" text="#000000">
<p style="text-align: center;" align="center"><b>-
<a href="#2010">LDC
Incentives: Early Renewal Discounts for Membership Year (MY) 2010</a> -</b><br>
<b><br>
</b><b>- <a href="#LRE">2007
NIST Language Recognition Evaluation Supplemental Training Set</a> -</b><br>
<br>
<b>- <a href="#french">French
Gigaword Second Edition</a> -</b><o:p></o:p></p>
<p style="text-align: center;" align="center">- <b><a href="#NXT">NXT
Switchboard Annotations</a></b> -<br>
</p>
<hr size="2" width="100%">
<p class="MsoNormal" style="margin-bottom: 12pt; text-align: center;"
 align="center"><b><a name="2010"></a></b><b>LDC
Incentives:  Early Renewal Discounts for Membership Year (MY) 2010<br>
</b></p>
<p class="MsoNormal" style="text-align: justify;"><span
 style="font-size: 11pt;">We
would like to invite all current and previous members of LDC to renew,
as well as new members to join, for Membership Year (MY) 2010.  For
MY2010, LDC is pleased to maintain membership fees at last year’s rates
– membership fees will not increase.  Additionally, in last month's
newsletter, we announced an LDC Incentives Package which will include a
host of incentives to help lower the cost of LDC membership and data
licensing fees.  As part of this package, LDC will extend discounts to
members who keep their membership current and who join early in the
year.<br>
</span></p>
<p class="MsoNormal" style="text-align: justify;"><span
 style="font-size: 11pt;">The
details of our <a
 href="http://www.ldc.upenn.edu/Membership/Agreements/member_announcement.shtml#1"><b>Early
Renewal Discounts</b></a> for MY2010 are as
follows: </span><o:p></o:p></p>
<ul type="disc">
  <li class="MsoNormal" style="text-align: justify;"><span
 style="font-size: 11pt;">Organizations who joined for MY2009, will
receive a 5% discount when renewing. This discount will apply
throughout 2010, regardless of time of renewal. MY2009 members renewing
before </span><st1:date year="2010" day="1" month="3"><span
 style="font-size: 11pt;">March 1, 2010</span></st1:date><span
 style="font-size: 11pt;"> will receive an additional 5% discount, for
a total 10% discount off the membership fee.</span><o:p></o:p></li>
  <li class="MsoNormal" style="text-align: justify;"><span
 style="font-size: 11pt;">New members as well as organizations who did
not join for MY2009, but who held membership in any of the previous
MY's (1993-2008), will also be eligible for a 5% discount provided that
they join/renew before </span><st1:date year="2010" day="1" month="3"><span
 style="font-size: 11pt;">March 1, 2010</span></st1:date><span
 style="font-size: 11pt;">.</span><o:p></o:p></li>
</ul>
<p class="MsoNormal" style="margin-bottom: 12pt;"><span
 style="font-size: 11pt;">The Membership Fee Table provides exact
pricing
information. <br style="">
<!--[if !supportLineBreakNewLine]--><br style="">
<!--[endif]--></span><o:p></o:p></p>
<div align="center">
<table class="MsoNormalTable"
 style="border: 1.5pt double windowtext; width: 438.75pt;" border="1"
 cellpadding="0" width="585">
  <tbody>
    <tr style="">
      <td colspan="2"
 style="border: 1pt solid windowtext; padding: 0in;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: green;"> </span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><b><span
 style="font-size: 11pt; color: rgb(0, 51, 0);">MY2010 Fee</span></b><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><b><span
 style="font-size: 11pt; color: navy;">MY2010 Fee<br>
with 5% Discount </span></b><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><b><span
 style="font-size: 11pt; color: maroon;">MY2010 Fee <br>
with 10% Discount </span></b><o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td colspan="2"
 style="border: 1pt solid windowtext; padding: 0in;">
      <p class="MsoNormal" style=""><strong><span
 style="font-size: 11pt;">Not-for-Profit</span></strong><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: rgb(0, 51, 0);"> </span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: navy;"> </span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: maroon;"> </span><o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: green;"> </span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style="text-align: right;" align="right"><span
 style="font-size: 11pt;">Standard</span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: rgb(0, 51, 0);">US$2400</span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: navy;">US$2280</span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: maroon;">US$2160</span><o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: green;"> </span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style="text-align: right;" align="right"><span
 style="font-size: 11pt;">Subscription</span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: rgb(0, 51, 0);">US$3850</span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: navy;">US$3657.50</span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: maroon;">US$3465</span><o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td colspan="2"
 style="border: 1pt solid windowtext; padding: 0in;">
      <p class="MsoNormal" style=""><strong><span
 style="font-size: 11pt;">For-Profit</span></strong><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: rgb(0, 51, 0);"> </span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: navy;"> </span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: maroon;"> </span><o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: green;"> </span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style="text-align: right;" align="right"><span
 style="font-size: 11pt;">Standard</span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: rgb(0, 51, 0);">US$24000</span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: navy;">US$22800</span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: maroon;">US$21600</span><o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: green;"> </span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style="text-align: right;" align="right"><span
 style="font-size: 11pt;">Subscription</span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: rgb(0, 51, 0);">US$27500</span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: navy;">US$26125</span><o:p></o:p></p>
      </td>
      <td style="border: 1pt solid windowtext; padding: 0.75pt;">
      <p class="MsoNormal" style=""><span
 style="font-size: 11pt; color: maroon;">US$24750</span><o:p></o:p></p>
      </td>
    </tr>
  </tbody>
</table>
</div>
<p><st1:date year="2010" day="1" month="3"><span
 style="font-size: 11pt; color: rgb(102, 0, 0);"></span></st1:date><span
 style="font-size: 11pt; color: rgb(102, 0, 0);"><br style="">
<!--[endif]--></span><o:p></o:p></p>
<p><span style="font-size: 11pt;">Publications for MY2010 are still
being
planned but it will be another productive year with a broad selection
of
publications.  The working titles of data sets we intend to provide
include:</span> <o:p></o:p></p>
<table class="MsoNormalTable" style="width: 397.5pt;" border="1"
 cellpadding="0" width="530">
  <tbody>
    <tr style="height: 3.75pt;">
      <td style="padding: 1.5pt; width: 300pt; height: 3.75pt;"
 valign="top" width="400">
      <p class="MsoNormal" style=""><span style="font-size: 11pt;">Arabic
Treebank: Part 2 v 4.0</span><o:p></o:p></p>
      </td>
      <td style="padding: 1.5pt; width: 300pt; height: 3.75pt;"
 valign="top" width="400">
      <p class="MsoNormal" style=""><span style="font-size: 11pt;">Fisher
Spanish</span><o:p></o:p></p>
      </td>
    </tr>
    <tr style="height: 3.75pt;">
      <td style="padding: 1.5pt; width: 300pt; height: 3.75pt;"
 valign="top" width="400">
      <p class="MsoNormal" style=""><span style="font-size: 11pt;">Chinese
Treebank 7.0</span> <o:p></o:p></p>
      </td>
      <td style="padding: 1.5pt; width: 300pt; height: 3.75pt;"
 valign="top" width="400">
      <p class="MsoNormal" style=""><span style="font-size: 11pt;">LCTL
Bengali</span><o:p></o:p></p>
      </td>
    </tr>
    <tr style="height: 3.75pt;">
      <td style="padding: 1.5pt; width: 300pt; height: 3.75pt;"
 valign="top" width="400">
      <p class="MsoNormal" style=""><span style="font-size: 11pt;">Chinese
Web N-gram Version 1.0</span><o:p></o:p></p>
      </td>
      <td style="padding: 1.5pt; width: 300pt; height: 3.75pt;"
 valign="top" width="400">
      <p class="MsoNormal" style=""><span style="font-size: 11pt;">NPS
Chat Corpus</span><o:p></o:p></p>
      </td>
    </tr>
  </tbody>
</table>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal" style="text-align: justify;"><span
 style="font-size: 11pt;">In
addition to receiving new publications, current year members of the LDC
also
enjoy the benefit of licensing older data at reduced costs; current
year
for-profit members may use most data for commercial applications.</span><o:p></o:p></p>
<p class="MsoNormal" style="margin-bottom: 12pt;"><span
 style="font-size: 11pt;">This
past year, </span>nearly 100 organizations who renewed membership or
joined
early received a discount on membership fees for MY2009.  Taken
together,
these members saved over US$50,000!  B<span style="font-size: 11pt;">e
sure to keep an eye out on your mail - all LDC members have been sent
an
invitation to join letter and renewal invoice for MY2010.  Renew early
for
MY2010 and save today!</span><o:p></o:p></p>
<br>
[<a href="#top">
top </a>]
<p style="margin-bottom: 12pt; text-align: center;" align="center"><b>New
Publications<br>
</b><o:p></o:p></p>
<p><a name="LRE">(1)</a> <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2009S05">2007
NIST Language Recognition Evaluation Supplemental Training Set</a>
consists of
118 hours of conversational telephone speech segments in the following
languages and dialects: Arabic (Egyptian colloquial), Bengali, Min Nan
Chinese,
Wu Chinese, Taiwan Mandarin, Cantonese, Russian, Mexican Spanish, Thai,
Urdu
and Tamil. <o:p></o:p></p>
<p>The goal of the <a href="http://www.itl.nist.gov/iad/">NIST
(National
Institute of Standards and Technology)</a> <a
 href="http://www.itl.nist.gov/iad/mig/tests/lre/">Language Recognition
Evaluation (LRE)</a> is to establish the baseline of current
performance
capability for language recognition of conversational telephone speech
and to
lay the groundwork for further research efforts in the field. NIST
conducted
three previous language recognition evaluations, in <a
 href="http://www.itl.nist.gov/iad/mig/tests/lre/1996/">1996</a>, <a
 href="http://www.itl.nist.gov/iad/mig/tests/lre/2003/">2003</a> and <a
 href="http://www.itl.nist.gov/iad/mig/tests/lre/2005/">2005</a>. The
most
significant differences between those evaluations and the 2007 task
were the
increased number of languages and dialects, the greater emphasis on a
basic
detection task for evaluation and the variety of evaluation conditions.
Thus,
in 2007, given a segment of speech and a language of interest to be
detected
(i.e., a target language), the task was to decide whether that target
language
was in fact spoken in the given telephone speech segment (yes or no),
based on
an automated analysis of the data contained in the segment. <o:p></o:p></p>
<p>The supplemental training material in this release consists of the
following: <o:p></o:p></p>
<ul type="disc">
  <li class="MsoNormal" style="">Approximately 53 hours of
conversational telephone speech segments in Arabic (Egyptian
colloquial), Bengali, Cantonese, Min Nan Chinese,Wu Chinese, Russian,
Thai and Urdu. This material is taken from LDC's CALLHOME, CALLFRIEND
and Mixer collections.<o:p></o:p></li>
  <li class="MsoNormal" style="">Approximately 65 hours of full
telephone conversations in Mandarin Chinese (<st1:country-region><st1:place>Taiwan</st1:place></st1:country-region>),
Spanish (Mexican) and Tamil. This material was collected by Oregon
Health and Science University (OHSU), <st1:place><st1:city>Beaverton</st1:city>,
    <st1:state>Oregon</st1:state></st1:place>. The test segments used
in the <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008S05">2005
NIST Language Recognition Evaluation</a> were derived from these full
conversations.<o:p></o:p></li>
</ul>
<p>In addition to the supplemental material contained in this release,
the
training data for the <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2009S04">2007
NIST Language Recognition Evaluation</a> consisted of data from
previous LRE
evaluation test sets, namely, <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006S31">2003
NIST Language Recognition Evaluation</a> and <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008S05">2005
NIST Language Recognition Evaluation</a>.<o:p></o:p></p>
<br>
<p>[<a href="#top">
top </a>]<br>
<o:p></o:p></p>
<p style="text-align: center;" align="center"><b>*</b><o:p></o:p></p>
<p><a name="french">(2)</a> <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2009T28">French
Gigaword Second Edition</a> is a comprehensive archive of newswire text
data
that has been acquired over several years by LDC. This second edition
updates <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T17">French
Gigaword First Edition (LDC2006T7)</a> and adds material collected from
<st1:date year="2006" day="1" month="8">August 1, 2006</st1:date>
through <st1:date year="2008" day="31" month="12">December 31, 2008</st1:date>.
<o:p></o:p></p>
<p>The two distinct international sources of French newswire in this
edition,
and the time spans of collection covered for each, are as follows: <o:p></o:p></p>
<ul type="disc">
  <li class="MsoNormal" style="">Agence France-Presse (afp_fre) May
1994 - Dec 2008<o:p></o:p></li>
  <li class="MsoNormal" style="">Associated Press Worldstream, French
(apw_fre) Nov 1994 - Dec 2008<o:p></o:p></li>
</ul>
<p>The seven-letter codes in parentheses include the three-character
source
name abbreviations and the three-character language code ("fre")
separated by an underscore ("_") character. The three-letter language
code conforms to LDC's internal convention based on the ISO 639-3
standard.
These codes are used in the directory names where the data files are
found and
in the prefix that appears at the beginning of every data file name.
They are
also used (in all UPPER CASE) as the initial portion of the DOC "id"
strings that uniquely identify each news story.<o:p></o:p></p>
<p style="margin-bottom: 12pt;">The overall totals for each source are
summarized below. The "Totl-MB" numbers show the amount of data
obtained when the files are uncompressed (i.e., approximately 15
gigabytes,
total); the "Gzip-MB" column shows totals for compressed file sizes
as stored on the <st1:stockticker>DVD</st1:stockticker>-ROM; and the
"K-wrds" numbers are the number of whitespace-separated tokens (of
all types) after all SGML tags are eliminated.<o:p></o:p></p>
<table class="MsoNormalTable" style="" border="1" cellpadding="0">
  <tbody>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">Source<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">#Files<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">Gzip-MB<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">Totl-MB<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">K-wrds<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">#DOCs<o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">AFP_FRE<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">172<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">2408<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">4079<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">560000<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">2060803<o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">APW_FRE<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">171<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">2280<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">1719<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">241324<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">0872573<o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">TOTAL<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">343<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">4688<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">5789<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">801324<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal">2933376<o:p></o:p></p>
      </td>
    </tr>
  </tbody>
</table>
<p>The data has undergone a consistent extent of quality control to
eliminate
out-of-band content and other obvious forms of corruption. Since the
source
data is generated manually on a daily basis, there will be a small
percentage
of human errors common to all sources: missing whitespace, incorrect or
variant
spellings, badly formed sentences, and so on, as are normally seen in
newspapers.
No attempt has been made to address this property of the data.<o:p></o:p></p>
<br>
<p>[<a href="#top">
top </a>]<br>
<o:p></o:p></p>
<p style="text-align: center;" align="center"><b>*</b><o:p></o:p></p>
<p><a name="NXT">(3)</a> <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2009T26">NXT
Switchboard Annotations</a>, brings together in <a
 href="http://groups.inf.ed.ac.uk/nxt/">NITE XML</a>, a single XML
format, the
multiple layers of annotation performed on a transcript subset from <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S62">Switchboard
1- Release 2, LDC97S62</a>. NXT Switchboard Annotations was developed
in a
collaboration among researchers from <st1:place><st1:placename>Edinburgh</st1:placename>
<st1:placetype>University</st1:placetype></st1:place>, <st1:place><st1:placename>Stanford</st1:placename>
<st1:placetype>University</st1:placetype></st1:place> and the <st1:place><st1:placetype>University</st1:placetype>
of <st1:placename>Washington</st1:placename></st1:place>. <o:p></o:p></p>
<p>The original Switchboard corpus is a collection of spontaneous
telephone
conversations between previously unacquainted speakers of American
English on a
variety of topics chosen from a pre-determined list. A subset of one
million
words from those conversations was annotated for syntactic structure
and
disfluencies as part of the <a
 href="http://www.cis.upenn.edu/%7Etreebank/">Penn
Treebank project</a>. Phonetic transcripts were generated by the <a
 href="http://www.icsi.berkeley.edu/">International Computer Science
Institute</a>,
<st1:place><st1:placetype>University</st1:placetype> of <st1:placename>California
Berkeley</st1:placename></st1:place> and later corrected by the
Institute for
Signal Information Processing, Mississippi State Univeristy. The Penn
Treebank
transcripts provided the basis for the NXT Switchboard corpus, and the
noun
phrases from that subset were annotated for animacy. The Treebank
transcript
was then aligned with the corresponding subset from the corrected <a
 href="http://www.isip.piconepress.com/projects/switchboard/">Mississippi
State
(MS-State) transcript</a> in order to provide word timing information.
Focus/contrast and prosodic annotations, as well as phone/syllable
alignment
were next added to the annotations. The previous annotations of dialog
acts and
prosody were converted to NITE XML. Lastly, hand annotations for
markables were
added to provide information about their animacy and information
structure,
including coreferential links. <o:p></o:p></p>
<p>NXT is an open source toolkit that enables multiple linguistic
annotations
to be assembled into a unified database. It uses a stand-off XML data
format
that consists of several XML files that point to each other. The NXT
format provides
a data model that describes how the various annotations for a corpus
relate to
one another. For that reason, it does not impose any particular
linguistic
theory or any particular markup structure. Instead, users define their
annotations in a "metadata" file that expresses their contents and
how they relate to each other in terms of the graph structure for the
corpus
annotations overall. The relationships that can be defined in the data
model
draw annotations together into a set of intersecting trees, but also
allow
arbitrary links between annotations over the top of this structure,
giving a
representation that is highly expressive, easier to process than
arbitrary
graphs and structured in a way that helps data users. NXT's other core
component is a query language designed specifically for working with
data
conforming to this data model. Together, the data model and query
language
allow annotations to be treated as one coherent set containing both
structural
and timing information.<o:p></o:p></p>
[<a href="#top">
top </a>]
<hr size="2" width="100%">
<p><font face="Courier New, Courier, monospace"><small><small><big><br>
<br>
</big></small></small></font></p>
<div align="center"><font face="Courier New, Courier, monospace"><small><small><big>Ilya
Ahtaridis</big></small></small></font><br>
<font face="Courier New, Courier, monospace"><small><small><big>Membership
Coordinator</big></small></small></font><br>
<br>
<font face="Courier New, Courier, monospace"><small>--------------------------------------------------------------------</small></font><br>
</div>
<div align="center">
<pre class="moz-signature" cols="72"><font
 face="Courier New, Courier, monospace">Linguistic Data Consortium                     Phone: (215) 573-1275
University of Pennsylvania                       Fax: (215) 573-2175
3600 Market St., Suite 810                         <a
 class="moz-txt-link-abbreviated" href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>
 Philadelphia, PA 19104 USA                   <a
 class="moz-txt-link-freetext" href="http://www.ldc.upenn.edu">http://www.ldc.upenn.edu</a></font></pre>
</div>
<pre class="moz-signature" cols="72">
</pre>
</body>
</html>