<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
</head>
<body bgcolor="#ffffff" text="#000000">
<p align="center">LDC2008T04<br>
<b>-  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008T04">OntoNotes
Release 2.0</a>  -</b><br>
<br>
LDC2008T05<br>
<b>-  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008T05">Penn
Discourse Treebank Version 2.0</a>  -</b><br>
<br>
<b>-  2007 Member Survey Responses  -</b><br>
<b><br>
-  2008 Publications Pipeline  -<br>
<br>
</b></p>
<hr size="2" width="100%">
<p align="center"><b><br>
New Publications<br>
</b></p>
<p><br>
(1) The OntoNotes project is a collaborative effort between BBN
Technologies,
the <st1:place><st1:placetype>University</st1:placetype> of <st1:placename>Colorado</st1:placename></st1:place>,
the <st1:place><st1:placetype>University</st1:placetype> of <st1:placename>Pennsylvania</st1:placename></st1:place>,
and the <st1:place><st1:placetype>University</st1:placetype> of <st1:placename>Southern
California</st1:placename></st1:place>'s Information Sciences
Institute. The
goal of the project is to annotate a large corpus comprising various
genres of
text (news, conversational telephone speech, weblogs, use net,
broadcast, talk
shows) in three languages (English, Chinese, and Arabic) with
structural
information (syntax and predicate argument structure) and shallow
semantics
(word sense linked to an ontology and coreference). <o:p></o:p></p>
<p class="MsoNormal" style="margin-bottom: 12pt;"><a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T21">OntoNotes
Release 1.0</a> contains 400k words of Chinese newswire data and 300k
words of
English newswire data. The current release, <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008T04">OntoNotes
Release 2.0</a>, adds the following to the corpus: 274k words of
Chinese
broadcast news data and 200k words of English broadcast news data. The
current
goals call for annotation of over a million words each of English and
Chinese,
and half a million words of Arabic over five years. OntoNotes builds on
two
time-tested resources, following the Penn Treebank for syntax and the
Penn
PropBank for predicate-argument structure. Its semantic representation
will
include word sense disambiguation for nouns and verbs, with each word
sense
connected to an ontology, and coreference.  </p>
<p class="MsoNormal" style="text-align: center;" align="center">*<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p>(2) The <a href="http://www.seas.upenn.edu/%7Epdtb">Penn Discourse
Treebank
(PDTB)</a> Project is located at the Institute for Research in
Cognitive
Science at the University of <st1:state><st1:place>Pennsylvania</st1:place></st1:state>. 
The goal of the project is to develop a large scale corpus annotated
with
information related to discourse structure. <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008T05">Penn
Discourse Treebank Version 2.0</a> contains annotations of discourse
relations
and their arguments on the one million word Wall Street Journal (WSJ)
data in <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC95T7">Treebank-2
(LDC95T7).</a><o:p></o:p></p>
<p>The PDTB focuses on encoding discourse relations associated with
discourse
connectives, adopting a lexically grounded approach for the annotation.
The
corpus provides annotations for the argument structure of Explicit and
Implicit
connectives, the senses of connectives and the attribution of
connectives and
their arguments. The lexically grounded approach exposes a clearly
defined
level of discourse structure which will support the extraction of a
range of
inferences associated with discourse connectives.<o:p></o:p></p>
<p>The PDTB annotates semantic or informational relations holding
between two
(and only two) Abstract Objects (AOs), expressed either explicitly via
lexical
items or implicitly via adjacency. For the former, the lexical items
anchoring
the relation are annotated as Explicit connectives. For the latter, the
implicit inferable relations are annotated by inserting an Implicit
connective
that best expresses the inferred relation.<o:p></o:p></p>
<p>Explicit connectives are identified from three grammatical classes:
subordinating conjunctions (e.g., because, when), coordinating
conjunctions
(e.g., and, or), and discourse adverbials (e.g., however, otherwise).
Arguments
of connectives are simply labeled Arg2 for the argument appearing in
the clause
syntactically bound to the connective, and Arg1 for the other
argument. 
In addition to the argument structure of discourse relations, the PDTB
also
annotates the attribution of relations (both explicit and implicit) as
well as
of each of their arguments. <o:p></o:p></p>
<p>The current release contains 40600 discourse relations annotations,
distributed into the following five types: Explicit Relations, Implicit
Relations, Alternative Lexicalizations, Entity Relations, and No
Relations.  <br>
</p>
<br>
<div align="center"><b>2007 Member Survey Responses<br>
<br>
</b></div>
<p class="MsoNormal" style="margin-bottom: 12pt;">Please click <a
 href="https://secure.ldc.upenn.edu/intranet/surveyStatsPublic_2007.jsp?survey_id=1">here</a>
to access a summary of the responses to Questions 1-15 of the 2007
Member Survey. These questions were sent to all survey recipients.
<br>
<br>
We also received many suggestions for future releases, among them:
<br>
<br>
   * More African language publications
<br>
   * Gigaword corpora in additional languages
<br>
   * More annotated data for a greater variety of uses
<br>
   * More parallel text corpora
<br>
   * Web blogs and chat room data <br>
</p>
<p class="MsoNormal" style="margin-bottom: 12pt;">
Several corpora that
would satisfy these needs are prospective 2008 publications.
<br>
<br>
The winner of the blind drawing for the $500 benefit for survey
responses received by January 14, 2008 is Richard Rose of McGill
University. Congratulations!
<br>
<br>
<br>
<br>
<o:p></o:p></p>
<p class="MsoNormal" style="margin-bottom: 12pt; text-align: center;"
 align="center"><b>2008
Publications Pipeline<br>
</b></p>
<p class="MsoNormal" style="margin-bottom: 12pt; text-align: center;"
 align="center"><br>
<o:p></o:p></p>
<p class="MsoNormal" style="">Membership
Year (MY) 2008 is shaping up to be another productive one for the LDC.
We
anticipate releasing a balanced and exciting selection of
publications. 
Here is a glimpse of what is in the pipeline for MY2008<span
 style="font-size: 10pt;">.</span> (Disclaimer:  unforeseen
circumstances may lead to
modifications of our plans.  Please regard this list as tentative).<span
 style="font-size: 10pt; font-family: "Courier New";"> </span><o:p></o:p></p>
<ul type="disc">
  <li class="MsoNormal" style="">BLLIP 1994-1997 News Text Release 1 -
automatic parses for the North American News Text Corpus - NANT
(LDC95T21). The parses were generated by the Charniak and Johnson
Reranking Parser which was trained on Wall Street Journal (WSJ) data
from Treebank 3 (LDC99T42). Each file is a sequence of n-best lists
containing the top n parses of each sentence with the corresponding
parser probability and reranker score.  The parses may be used in
systems that are trained off labeled parse trees but require more data
than found in WSJ.  Two versions will be released:  a complete
'Members-Only' version which contains parses for the entire NANT Corpus
and a 'Non Member' version for general licensing which includes all
news text except data from the Wall Street Journal.<o:p></o:p></li>
</ul>
<ul type="disc">
  <li class="MsoNormal" style="">Chinese Proposition Bank -  the goal
of this project is to create a corpus of text annotated with
information about basic semantic propositions. Predicate-argument
relations are being added to the syntactic trees of the Chinese
Treebank Data. This release contains the predicate-argument annotation
of 81,009 verb instances (11,171 unique verbs) and 14,525 noun
instances (1,421 unique nouns). The annotation of nouns are limited to
nominalizations that have a corresponding verb.<o:p></o:p></li>
</ul>
<ul type="disc">
  <li class="MsoNormal" style="">English Dictionary of the Tamil Verb -
contains translations for 6597 English verbs and defines 9716 Tamil
verbs. Each entry contain the following: the English entry or head
word; the Tamil equivalent (in Tamil script and transliteration); the
verb class and transitivity specification; the spoken Tamil
pronunciation (audio files in mp3 format); the English definition(s);
additional Tamil entries (if applicable); example sentences or phrases
in Literary Tamil, Spoken Tamil (with a corresponding audio file) and
an English translation; and Tamil synonyms or near-synonyms, where
appropriate.<o:p></o:p></li>
</ul>
<ul type="disc">
  <li class="MsoNormal" style="">GALE Phase 1 Arabic Blog Parallel Text
-  contains a total of 102K words (222 files) of Arabic blog text
selected from 33 sources. Blogs consist of posts to informal web-based
journals of varying topical content. Manual sentence units/segments
(SU) annotation was also performed on a subset of files following LDC's
Quick Rich Transcription specification.  Files were translated
according to LDC's GALE Translation guidelines.<o:p></o:p></li>
</ul>
<ul type="disc">
  <li class="MsoNormal" style="">GALE Phase 1 Chinese Blog Parallel
Text - contains a total of 313K characters (277 files) of Chinese blog
text selected from 8 sources. Blogs consist of posts to informal
web-based journals of varying topical content. Manual sentence
units/segments (SU) annotation was also performed on a subset of files
following LDC's Quick Rich Transcription specification.  Files were
translated according to the LDC's GALE Translation guidelines.<o:p></o:p></li>
</ul>
<ul type="disc">
  <li class="MsoNormal" style="">GALE Phase 1 Arabic Newsgroup Parallel
Text - contains a total of 178K words (264 files) of Arabic newsgroup
text selected from 35 sources. Newsgroups consist of posts to
electronic bulletin boards, Usenet newsgroups, discussion groups and
similar forums. Manual sentence units/segments (SU) annotation was also
performed on a subset of files following LDC's Quick Rich Transcription
specification.  Files were translated according to LDC's GALE
Translation guidelines.<o:p></o:p></li>
</ul>
<ul type="disc">
  <li class="MsoNormal" style="">GALE Phase 1 Chinese Newsgroup
Parallel Text - contains a total of 240K characters (112 files) of
Chinese newsgroup text selected from 25 sources. Newsgroups consist of
posts to electronic bulletin boards, Usenet newsgroups, discussion
groups and similar forums. Manual sentence units/segments (SU)
annotation was also performed on a subset of files following LDC's
Quick Rich Transcription specification.  Files were translated
according to the LDC's GALE Translation guidelines.<o:p></o:p></li>
</ul>
<ul type="disc">
  <li class="MsoNormal" style="">Hindi WordNet -  first wordnet for an
Indian language. Similar in design to the Princeton Wordnet for
English, it incorporates additional semantic relations to capture the
complexities of  Hindi.  The WordNet contains 28604 synsets and 63436
unique words. Created by the NLP group at Indian Institute of
Technology <st1:city><st1:place>Bombay</st1:place></st1:city>, it is
inspiring construction of wordnets for many other Indian languages,
notably Marathi.<o:p></o:p></li>
</ul>
<ul type="disc">
  <li class="MsoNormal" style="">LCTL Bengali Language Pack  - a set of
linguistic resources to support technological improvement and
development of new technology for the Bengali language created in the
Less Commonly Taught Languages (LCTL) project which covered a total of
_ languages. Package components are: 2.6 million tokens of monolingual
text, 500,000 tokens of parallel text, a bilingual lexicon with 48,000
entries, sentence and word segmenting tools, an encoding converter, a
part of speech tagger, a morphological analyzer, a named entity tagger
and 136,000 tokens of named entity tagged text, a Bengali-to-English
name transliterator, and a descriptive grammar created by a PhD
research linguist. About 30,000 tokens of the parallel text are
English-to-LCTL translations of a "Common Subset" corpus, which will be
included in all additional LCTL Language Packs.<o:p></o:p></li>
</ul>
<ul type="disc">
  <li class="MsoNormal" style="">North American News Text Corpus (NANT)
Reissue - as a companion to BLLIP 1994-1997 News Text Release 1, LDC
will reissue the North American News Text Corpus (LDC95T21).  Data
includes news text articles from several sources (L.A.Times/Washington
Post, Reuters General News, Reuters Financial News, Wall Street
Journal, New York Times) that has been formatted with TIPSTER-style
SGML tags to indicate article boundaries and organization of
information within each article.  Two versions will be released:  a
complete 'Members-Only' version which contains all previously released
NANT articles and a 'Non Member' version for general licensing which
includes all news text except data from the Wall Street Journal.<o:p></o:p></li>
</ul>
<br>
<br>
<hr size="2" width="100%">
<div align="center"><small><font face="Courier New, Courier, monospace"><br>
Ilya
Ahtaridis</font></small><br>
<small><font face="Courier New, Courier, monospace">Membership
Coordinator</font></small><br>
--------------------------------------------------------------------
<br>
</div>
<div align="center">
<pre class="moz-signature" cols="72"><b><small><font
 face="Courier New, Courier, monospace">
</font></small>Linguistic Data Consortium                     Phone: (215) 573-1275
University of Pennsylvania                       Fax: (215) 573-2175
3600 Market St., Suite 810                         <a
 class="moz-txt-link-abbreviated" href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>
Philadelphia, PA 19104 USA                  <a
 class="moz-txt-link-freetext" href="http://www.ldc.upenn.edu">http://www.ldc.upenn.edu</a></b></pre>
</div>
<br>
<pre class="moz-signature" cols="72">
</pre>
</body>
</html>