<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
  <title></title>
</head>
<body bgcolor="#ffffff" text="#000000">
<div align="center"><b><br>
-  LDC at Interspeech
2009 in </b><st1:place><st1:city><b>Brighton</b></st1:city><b>, </b><st1:country-region><b>UK</b></st1:country-region></st1:place><st1:date
 month="9" day="6" year="2009"><b>  -</b></st1:date><br>
<st1:date month="9" day="6" year="2009"><b></b></st1:date></div>
<p class="MsoNormal" style="text-align: center;" align="center"><b><st1:date
 month="7" day="11" year="2009">-  </st1:date><span
 style="color: rgb(153, 0, 0);"></span><span style="color: black;"><a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2009T22">Arabic
English Newswire Translation Collection</a></span><st1:date month="7"
 day="11" year="2009">   - <br>
</st1:date></b></p>
<p class="MsoNormal" style="text-align: center;" align="center"><b><st1:date
 month="7" day="11" year="2009">-  </st1:date><a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2009T04">BioProp
Version 1.0</a>  <st1:date month="7" day="11" year="2009">-<br>
</st1:date></b></p>
<p class="MsoNormal" style="text-align: center;" align="center"><st1:date
 month="7" day="11" year="2009">The
Linguistic Data Consortium (LDC) would like to provide information on
our upcoming conference participation and announce the availability of
two new
publications.</st1:date><b><st1:date month="7" day="11" year="2009"><br>
</st1:date></b></p>
<hr size="2" width="100%">
<div align="left"><br>
</div>
<div align="left">
<div align="center"><b>LDC at Interspeech
2009 in </b><st1:place><st1:city><b>Brighton</b></st1:city><b>, </b><st1:country-region><b>UK</b></st1:country-region></st1:place><b>,
</b><st1:date month="9" day="6" year="2009"><b>September 6-10, 2009</b></st1:date><br>
</div>
<st1:date month="9" day="6" year="2009"></st1:date></div>
<p class="MsoNormal" style="text-align: center;" align="center"><st1:date
 month="9" day="6" year="2009"></st1:date><st1:date month="9" day="6"
 year="2009"></st1:date><o:p></o:p></p>
<p style="margin-bottom: 12pt;"><br>
LDC is pleased to announce its participation at Interspeech 2009 in <st1:place><st1:city>Brighton</st1:city>,
<st1:country-region>UK</st1:country-region></st1:place>. LDC
researchers will
present papers <span style=""></span>on the following topics
(conveniently<span style=""> </span>in the same session):<o:p></o:p></p>
<ul type="disc">
  <li class="MsoNormal" style="">XTrans: A Speech Annotation and
Transcription Tool<o:p></o:p></li>
</ul>
<p class="MsoNormal">           
    <st1:date month="9" day="10" year="2009">Thursday 10 September 2009</st1:date>,
Session 2-O4, 13.30 (paper #3) <o:p></o:p></p>
<ul type="disc">
  <li class="MsoNormal" style="">The Broadcast Narrow Band Speech
Corpus: A New Resource Type for Large Scale Language Recognition <o:p></o:p></li>
</ul>
<p class="MsoNormal">            <st1:date month="9" day="10"
 year="2009">Thursday 10 September 2009</st1:date>, Session
2-O4, 13.30 (paper #6)<br>
</p>
<p class="MsoNormal"> Two papers co-authored by LDC's director, Mark
Liberman, will also be presented:<br>
</p>
<ul>
  <li>Automatic Formant Extraction for Sociolinguistic Analysis of
Large Corpora (co-authors Keelan Evanini, Stephen Isard)'</li>
</ul>
                Wednesday 9 September 2009, Session 1-P1 10:00 (paper
#3)
<ul>
  <li> Investigating /l/ Variation in English through Forced Alignment
(co-author Jiahong Yuan)</li>
</ul>
                Wednesday 9 September 2009, Session 3-O2 16:00 (paper
#5)<br>
<p style="margin-bottom: 12pt;">
Visit our display in the exhibition hall at the Brighton Centre on
Kings’ Road
for a special giveaway or just to <span style=""></span>say hello.
<br>
<br>
Follow the link for more information on <a
 href="http://www.interspeech2009.org/">Interspeech 2009</a>.<br>
</p>
<p style="margin-bottom: 12pt;"><br>
<o:p></o:p></p>
<p style="text-align: center;" align="center"><b>New Publications</b><o:p></o:p></p>
<p><br>
<span style="color: black;">(1) The</span><span
 style="color: rgb(153, 0, 0);"> </span><span style="color: black;"><a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2009T22">Arabic
English Newswire Translation Collection</a></span> consists of
approximately
550,000 words of Arabic newswire text and its English translation from
Agence
France Presse (France), An Nahar (<st1:country-region><st1:place>Lebanon</st1:place></st1:country-region>)
and Assabah (<st1:country-region><st1:place>Tunisia</st1:place></st1:country-region>).
The source Arabic text was used in LDC's Arabic Treebank, specifically,
in Part
1 (<a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2003T06">Part
1 v. 2.0</a>; <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2005T02">Part
1 v. 3.0</a>), Part 3 (<a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2004T11">Part
3 v. 1.0</a>; <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2005T20">Part
3 v. 2.0</a>) and Part 4 (<a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2005T30">Part
4 v. 1.0</a>). A subset of Agence France Presse (AFP) source text from
Arabic
Treebank: Part 1 v. 2.0 was previously translated and released by LDC
in <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2003T07">Arabic
Treebank: Part 1 - 10K-word English Translation, LDC2003T07</a>. The
English
translations in this corpus were provided by translation agencies using
LDC's
Arabic Translation Guidelines. <o:p></o:p></p>
<p>The number of stories and their epochs for each source are as
follows: <o:p></o:p></p>
<table class="MsoNormalTable" style="" border="0" cellpadding="0">
  <tbody>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">AFP<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">734 stories; July 2000 - November
2000<o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">An Nahar<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">600 stories; January 2002 -
December 2002<o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">Assabah<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">397 stories; September 2004 -
November 2004<o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">Total<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">1731 stories<o:p></o:p></p>
      </td>
    </tr>
  </tbody>
</table>
<p>Word count of Arabic tokens by source is shown in the following
table: <o:p></o:p></p>
<table class="MsoNormalTable" style="" border="0" cellpadding="0">
  <tbody>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">AFP<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">102,564<o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">An Nahar<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">299,681<o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">Assabah<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">149,259<o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td colspan="2" style="padding: 0.75pt;">
      <div class="MsoNormal" style="text-align: center;" align="center">
      <hr align="center" size="2" width="100%"> </div>
      <p class="MsoNormal" style="text-align: center;" align="center"><o:p></o:p></p>
      </td>
    </tr>
    <tr style="">
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">Total<o:p></o:p></p>
      </td>
      <td style="padding: 0.75pt;">
      <p class="MsoNormal" style="">551,504<o:p></o:p></p>
      </td>
    </tr>
  </tbody>
</table>
<p>The original source files used different encodings for the Arabic
characters, including UTF8 and ASMO. SGML tags were used for marking
sentence
and paragraph boundaries and for annotating other information about
each story.
All Arabic source data was converted to UTF and most SGML tags were
removed or
replaced by "plain text" markers. <o:p></o:p></p>
<p><br>
<o:p></o:p></p>
<p style="text-align: center;" align="center">*<o:p></o:p></p>
<p> <o:p></o:p></p>
<p> (2) <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2009T04">BioProp
Version 1.0</a> was developed by researchers at <a
 href="http://www.sinica.edu.tw/main_e.shtml">Academia Sinica</a>, <st1:place><st1:city>Taipei</st1:city>,
<st1:country-region>Taiwan</st1:country-region></st1:place>. It
consists of
proposition bank-style annotations for approximately 500 English
biomedical
journal abstracts. The source abstracts, annotated in accordance with <a
 href="http://www.cis.upenn.edu/%7Etreebank/">Penn Treebank II</a>
guidelines,
are contained in the GENIA Treebank (GTB). The GTB was developed at the
<a href="http://www-tsujii.is.s.u-tokyo.ac.jp/">Tsujii Laboratory</a>
at the <a href="http://www.u-tokyo.ac.jp/index_e.html">University of
Tokyo</a>. <o:p></o:p></p>
<p>The purpose of the <a
 href="http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA">GENIA
Project</a> is to develop tools and resources for automatic information
extraction of biomedical information. One result of that work is the
GENIA
corpus, a collection of 2000 biomedical journal abstracts containing
semantic
class annotation for biomedical terms, part-of-speech (POS) tags and
coreferences. The GTB is a subset of that corpus. BioProp Version 1.0
adds a
proposition bank to the GTB. <o:p></o:p></p>
<p><a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2004T14">Proposition
Bank</a> (PropBank) contains annotations of predicate argument
structures and
semantic roles in a treebank schema in the newswire domain. To
construct
BioProp Version 1.0, a semantic role labeling (SRL) system trained on
PropBank
was used to annotate the GTB. SRL, also called shallow semantic
parsing, is a
popular semantic analysis technique. In SRL, sentences are represented
by one
or more predicate-argument structures (PAS), also known as
propositions. Each
PAS is composed of a predicate (e.g., a verb) and several arguments
(e.g., noun
phrases) that have different semantic roles, including main arguments
such as
agent and patient, and adjunct arguments, such as time, manner and
location.
The term "argument" refers to a syntactic constituent of the sentence
related to the predicate, and the term "semantic role" refers to the
semantic relationship between a sentence's predicate and argument. <o:p></o:p></p>
<p>BioProp Version 1.0 consists of approximately 150,000 words. Each
line in
the corpus provides a PAS annotation that can be mapped to a sentence
in the
GTB. <o:p></o:p></p>
<hr size="2" width="100%"><br>
<div align="center"><font face="Courier New, Courier, monospace"><small><small><big>Ilya
Ahtaridis<br>
Membership Coordinator</big><br>
<br>
</small>--------------------------------------------------------------------</small><small><br>
</small></font></div>
<div align="center">
<pre class="moz-signature" cols="72"><font
 face="Courier New, Courier, monospace">Linguistic Data Consortium                     Phone: (215) 573-1275
University of Pennsylvania                       Fax: (215) 573-2175
3600 Market St., Suite 810                         <a
 class="moz-txt-link-abbreviated" href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>
 Philadelphia, PA 19104 USA                   <a
 class="moz-txt-link-freetext" href="http://www.ldc.upenn.edu">http://www.ldc.upenn.edu</a></font></pre>
</div>
<pre class="moz-signature" cols="72">
</pre>
</body>
</html>