<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
</head>
<body bgcolor="#ffffff" text="#000000">
<p align="center">LDC2008T07<b><br>
</b><b><a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008T07">Chinese
Proposition Bank 2.0 (CPB2.0)</a><br>
</b></p>
<p align="center">LDC2008L02<b><br>
</b><b><a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008L02">Hindi
WordNet</a><br>
<br>
</b>LDC2008S04<br>
<a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008S04"><b>West
Point Brazilian Portuguese Speech</b></a><br>
<br>
</p>
<p align="center"><b>The Linguistic Data
Consortium (LDC) would like to announce the availability of three
new publications.<br>
<br>
</b></p>
<hr size="2" width="100%">
<o:p></o:p>
<p style="margin-bottom: 12pt; text-align: center;" align="center"><b>New
Publications<br>
<br>
</b></p>
<p>(1) <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008T07">Chinese
Proposition Bank 2.0 (CPB2.0)</a> is a continuation of the <a
 href="http://verbs.colorado.edu/chinese/cpb">Chinese Proposition Bank
project</a>,
which aims to create a corpus of Chinese text annotated with
information about
basic semantic propositions. <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2005T23">Chinese
Proposition Bank 1.0</a> consists of predicate-argument annotation on
250,000
words from <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2005T01">Chinese
Treebank 5.0</a>. Chinese Proposition Bank 2.0 adds predicate-argument
annotation on 500,000 words from <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T36">Chinese
Treebank 6.0</a>. The data sources include newswire from Xinhua News
Agency,
articles from Sinorama Magazine, news from the website of the Hong Kong
Special
Administrative Region and transcripts from various Chinese broadcast
news
programs. <o:p></o:p></p>
<p>This release contains the predicate-argument annotation of 81,009
verb
instances (11,171 unique verbs) and 14,525 noun instances (1,421 unique
nouns).
The annotation of nouns is limited to nominalizations that have a
corresponding
verb. The general annotation guidelines and the lexical guidelines
(called
frame files) for each verbal and nominal predicate are included in this
release.  <o:p></o:p></p>
<p style="text-align: center;" align="center"><b>*</b><o:p></o:p></p>
<p>(2)  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008L02">Hindi
WordNet</a> was developed by researchers at the Center for Indian
Language
Technology, Computer Science and Engineering Department, IIT Bombay. 
Wordnets are systems for analyzing the different lexical and semantic
relations
between words. Specifically, a wordnet is a word sense network in which
words
are grouped into semantically equivalent units called synsets. Each
synset
represents a lexical concept, and synsets are linked to each other by
semantic
relations (between synsets) and lexical relations (between words).
Similar in
design to the <st1:place>Princeton</st1:place> <a
 href="http://wordnet.princeton.edu/">Wordnet</a> for English, Hindi
Wordnet
incorporates additional features to capture the complexities of Hindi.
This
release of Hindi Wordnet consists of 56,928 unique words and 26,208
synsets.<o:p></o:p></p>
<p>Additional information about the development of Hindi Wordnet is
available
at the <a href="http://www.cfilt.iitb.ac.in/wordnet/webhwn/">Hindi
WordNet </a>web
site. <o:p></o:p></p>
<p>Hindi WordNet contains nouns, verbs, adjectives and adverbs. Each
entry
consists of the following elements:<o:p></o:p></p>
<p style="margin: 5pt 0in 0.0001pt 0.5in; text-indent: -0.25in;"><!--[if !supportLists]--><span
 style="">1.<span
 style="font-family: "Times New Roman"; font-style: normal; font-variant: normal; font-weight: normal; font-size: 7pt; line-height: normal; font-size-adjust: none; font-stretch: normal;">     
</span></span><!--[endif]-->Synset:
a set of synonymous words. The words in the synset are arranged
according to
the frequency of usage.<o:p></o:p></p>
<p class="western"
 style="margin: 5pt 0in 0.0001pt 0.5in; text-indent: -0.25in;"><!--[if !supportLists]--><span
 style="">2.<span
 style="font-family: "Times New Roman"; font-style: normal; font-variant: normal; font-weight: normal; font-size: 7pt; line-height: normal; font-size-adjust: none; font-stretch: normal;">     
</span></span><!--[endif]-->Gloss:
the concept. It consists of two parts:<o:p></o:p></p>
<p class="western" style="margin: 5pt 0in 0.0001pt 1in;"><i>Text
definition</i>: explains the
concept denoted by the synset. <o:p></o:p></p>
<p class="western" style="margin: 5pt 0in 0.0001pt 1in;"><i>Example
sentence</i>: gives the
usage of the words in the sentence.<o:p></o:p></p>
<p class="western"
 style="margin: 5pt 0in 0.0001pt 0.5in; text-indent: -0.25in;"><!--[if !supportLists]--><span
 style="">3.<span
 style="font-family: "Times New Roman"; font-style: normal; font-variant: normal; font-weight: normal; font-size: 7pt; line-height: normal; font-size-adjust: none; font-stretch: normal;">     
</span></span><!--[endif]-->Position
in Ontology: An ontology is a hierarchical organization of concepts, or
more
specifically, a categorization of entities and actions. A separate
ontological
hierarchy exists for each syntactic category (noun, verb, adjective
adverb).
Each synset is mapped into some place in the ontology.. <o:p></o:p></p>
<p>This release of Hindi WordNet is made available as a complete Java
application along with an API to facilitate further development.  <br>
<o:p></o:p></p>
<p style="margin-bottom: 12pt; text-align: center;" align="center"><b>*</b><o:p></o:p></p>
<p>(3) <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008S04">West
Point Brazilian Portuguese Speech</a> is a database of digital
recordings of
spoken Brazilian Portuguese designed and collected by staff and faculty
of the
Department of Foreign Languages (DFL) and Center for Technology
Enhanced
Language Learning (CTELL) to develop acoustic models for speech
recognition
systems. The <st1:country-region><st1:place>U.S.</st1:place></st1:country-region>
government uses such systems to provide speech-recognition enhanced
language
learning course ware to government linguists and students enrolled in
various
government language programs. <o:p></o:p></p>
<p>The data in this corpus was collected in March 1999 in <st1:place><st1:city>Brasilia</st1:city>,
<st1:country-region>Brazil</st1:country-region></st1:place> using
informants
from a Brazilian military academy. The corpus consists of read speech
from 60
female and 68 male native and non-native speakers.  The speech was
elicited from a prompt script containing 296 sentences and phrases
typically
used in language learning situations. <o:p></o:p></p>
<p>The speech was collected using four laptop computers running MS
Windows.
Three of the computers recorded with a 16 bit data size and sampling
rate of
22050 Hz, the other laptop recorded with an 8 bit data size at a
sampling rate
of 11025 Hz. The recording script presented a visual display of the
sentence to
be recorded. The informant pressed a key and spoke the sentence. The
recording
was played back for review, allowing the utterance to be re-recorded. <br>
<br>
</p>
<hr size="2" width="100%">
<p><br>
</p>
<div align="center"><font face="Courier New, Courier, monospace"><small><small><big>Ilya
Ahtaridis<br>
Membership Coordinator</big><br>
<br>
</small>--------------------------------------------------------------------</small><small><br>
</small></font></div>
<div align="center">
<pre class="moz-signature" cols="72"><font
 face="Courier New, Courier, monospace">Linguistic Data Consortium                     Phone: (215) 573-1275
University of Pennsylvania                       Fax: (215) 573-2175
3600 Market St., Suite 810                         <a
 class="moz-txt-link-abbreviated" href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>
 Philadelphia, PA 19104 USA                   <a
 class="moz-txt-link-freetext" href="http://www.ldc.upenn.edu">http://www.ldc.upenn.edu</a></font></pre>
</div>
</body>
</html>