<html>
  <head>

    <meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    <p class="MsoNormal"><i>New </i><i>publications:</i></p>
    <p class="MsoNormal"><b>-  <a href="#ace">ACE 2007 Multilingual
          Training Corpus</a>  -<br>
      </b></p>
    <p class="MsoNormal"><b>-  <a href="#galeae">GALE Arabic-English
          Word Alignment -- Broadcast Training Part 1</a></b><b>  -<br>
      </b></p>
    <p class="MsoNormal"><b>-  <a href="#gale2">GALE Phase 2 Chinese
          Newswire Parallel Text Part 2</a>  -</b></p>
    <hr size="2" width="100%"><o:p></o:p>
    <p class="MsoNormal"><b>New publications</b><br>
      <br>
      <a name="ace"></a>(1) <a
        href="https://catalog.ldc.upenn.edu/LDC2014T18">ACE 2007
        Multilingual Training Corpus</a> was developed by LDC and
      contains the complete set of Arabic and Spanish training data for
      the <a href="http://www.itl.nist.gov/iad/mig/tests/ace/2007/">2007


        Automatic Content Extraction</a> (ACE) technology evaluation,
      specifically, Arabic and Spanish newswire data and Arabic weblogs
      annotated for entities and temporal expressions. The objective of
      the ACE program was to develop automatic content extraction
      technology to support automatic processing of human language in
      text form from a variety of sources including newswire, broadcast
      programming and weblogs. In the 2007 evaluation, participants were
      tested on system performance for the recognition of entities,
      values, temporal expressions, relations, and events in Chinese and
      English and for the recognition of entities and temporal
      expressions in Arabic and Spanish. LDC's work in the ACE program
      is described in more detail on the LDC <a
        href="https://www.ldc.upenn.edu/collaborations/past-projects/ace">ACE


        project</a> pages.<o:p></o:p></p>
    <p class="MsoNormal">The Arabic data is composed of newswire (60%)
      published in October 2000-December 2000 and weblogs (40%)
      published during the period November 2004-February 2005. The
      Spanish data set consists entirely of newswire material from
      multiple sources published in January 2005-April 2005. A document
      pool was established for each language based on genre and epoch
      requirements. Humans reviewed the pool to select individual
      documents suitable for ACE annotation, such as documents that were
      representative of their genre and contained targeted ACE entity
      types. One annotator completed the entity and temporal expression
      (TIMEX2) markup in the first pass annotation. This work was
      reviewed in the second pass by a senior annotator. TIMEX2 values
      were normalized by an annotator specifically trained for that
      task.<o:p></o:p></p>
    <p class="MsoNormal">The table below describes the amount of data
      included in the current release and its annotation status. Corpus
      content for each language and data type is represented in the
      three stages of annotation: first pass annotation (1P), second
      pass annotation (2P) and TIMEX2 normalization and additional
      quality control (NORM).<o:p></o:p></p>
    <table class="MsoNormalTable" style="mso-cellspacing:1.5pt;
      mso-yfti-tbllook:1184" border="1" cellpadding="0">
      <tbody>
        <tr style="mso-yfti-irow:0;mso-yfti-firstrow:yes">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Arabic<o:p></o:p></p>
          </td>
        </tr>
        <tr style="mso-yfti-irow:1">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Words<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal"> <o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal"> <o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Files<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal"> <o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal"> <o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal"> <o:p></o:p></p>
          </td>
        </tr>
        <tr style="mso-yfti-irow:2">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal"> <o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">1P<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">2P<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">NORM<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">1P<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">2P<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">NORM<o:p></o:p></p>
          </td>
        </tr>
        <tr style="mso-yfti-irow:3">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">NW<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">58,015<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">58,015<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">58,015<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">257<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">257<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">257<o:p></o:p></p>
          </td>
        </tr>
        <tr style="mso-yfti-irow:4">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">WL<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">40,338<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">40,338<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">40,338<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">121<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">121<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">121<o:p></o:p></p>
          </td>
        </tr>
        <tr style="mso-yfti-irow:5">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Total<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">98,353<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">98,353<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">98,353<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">378<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">378<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">378<o:p></o:p></p>
          </td>
        </tr>
        <tr style="mso-yfti-irow:6">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Spanish<o:p></o:p></p>
          </td>
          <td style="border:none;padding:.75pt .75pt .75pt .75pt"><br>
          </td>
          <td style="border:none;padding:.75pt .75pt .75pt .75pt"><br>
          </td>
          <td style="border:none;padding:.75pt .75pt .75pt .75pt"><br>
          </td>
          <td style="border:none;padding:.75pt .75pt .75pt .75pt"><br>
          </td>
          <td style="border:none;padding:.75pt .75pt .75pt .75pt"><br>
          </td>
          <td style="border:none;padding:.75pt .75pt .75pt .75pt"><br>
          </td>
        </tr>
        <tr style="mso-yfti-irow:7">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Words<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal"> <o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal"> <o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Files<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal"> <o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal"> <o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal"> <o:p></o:p></p>
          </td>
        </tr>
        <tr style="mso-yfti-irow:8">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal"> <o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">1P<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">2P<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">NORM<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">1P<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">2P<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">NORM<o:p></o:p></p>
          </td>
        </tr>
        <tr style="mso-yfti-irow:9">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">NW<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">100,401<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">100,401<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">100,401<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">352<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">352<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">352<o:p></o:p></p>
          </td>
        </tr>
        <tr style="mso-yfti-irow:10;mso-yfti-lastrow:yes">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Total<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">100,401<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">100,401<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">100,401<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">352<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">352<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">352<o:p></o:p></p>
          </td>
        </tr>
      </tbody>
    </table>
    <p class="MsoNormal">For a given document, there is a source .sgm
      file together with the .ag.xml and .apf.xml annotation files in
      each of the three directories "1p", "2p" and "timex2norm". In
      other words, for each newswire story or weblog entry, the three
      annotation directories each contain an identical copy of the
      source text (SGML .sgm file) along with distinct versions of the
      associated annotations (XML .ag.xml, apf.xml files and plain text
      .tab files). All files are presented in UTF-8.<o:p></o:p></p>
    <br>
    <p class="MsoNormal" align="center">*<o:p></o:p></p>
    <p class="MsoNormal"><a name="galeae"></a>(2) <a
        href="https://catalog.ldc.upenn.edu/LDC2014T19">GALE
        Arabic-English Word Alignment -- Broadcast Training Part 1</a>
      was developed by LDC and contains 267,257 tokens of word aligned
      Arabic and English parallel text enriched with linguistic tags.
      This material was used as training data in the DARPA GALE (Global
      Autonomous Language Exploitation) program.<o:p></o:p></p>
    <p class="MsoNormal">Some approaches to statistical machine
      translation include the incorporation of linguistic knowledge in
      word aligned text as a means to improve automatic word alignment
      and machine translation quality. This is accomplished with two
      annotation schemes: alignment and tagging. Alignment identifies
      minimum translation units and translation relations by using
      minimum-match and attachment annotation approaches. A set of word
      tags and alignment link tags are designed in the tagging scheme to
      describe these translation units and relations. Tagging adds
      contextual, syntactic and language-specific features to the
      alignment annotation.<o:p></o:p></p>
    <p class="MsoNormal">This release consists of Arabic source
      broadcast news and broadcast conversation data collected by LDC
      from 2007-2009. The distribution by genre, words, tokens and
      segments appears below:<o:p></o:p></p>
    <table class="MsoNormalTable" style="mso-cellspacing:1.5pt;
      mso-yfti-tbllook:1184" border="1" cellpadding="0">
      <tbody>
        <tr style="mso-yfti-irow:0;mso-yfti-firstrow:yes">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Language<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Genre<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Files<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Words<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Tokens<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Segments<o:p></o:p></p>
          </td>
        </tr>
        <tr style="mso-yfti-irow:1">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Arabic<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">BC<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">231<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">79,485<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">103,816<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">4,114<o:p></o:p></p>
          </td>
        </tr>
        <tr style="mso-yfti-irow:2">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Arabic<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">BN<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">92<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">131,789<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">163,441<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">7,227<o:p></o:p></p>
          </td>
        </tr>
        <tr style="mso-yfti-irow:3;mso-yfti-lastrow:yes">
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">Totals<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal"> <o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">323<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">211,274<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">267,257<o:p></o:p></p>
          </td>
          <td style="padding:.75pt .75pt .75pt .75pt">
            <p class="MsoNormal">11,341<o:p></o:p></p>
          </td>
        </tr>
      </tbody>
    </table>
    <p class="MsoNormal">Note that word count is based on the
      untokenized Arabic source, and token count is based on the
      tokenized Arabic source.<o:p></o:p></p>
    <p class="MsoNormal">The Arabic word alignment tasks consisted of
      the following components:<o:p></o:p></p>
    <ul>
      <li>Normalizing tokenized tokens as needed</li>
      <li>Identifying different types of links</li>
      <li>Identifying sentence segments not suitable for annotation</li>
      <li>Tagging unmatched words attached to other words or phrases<o:p></o:p></li>
    </ul>
    <br>
    <o:p></o:p>
    <p class="MsoNormal" align="center">*<o:p></o:p></p>
    <p class="MsoNormal"><a name="gale2"></a>(3) <a
        href="https://catalog.ldc.upenn.edu/LDC2014T20">GALE Phase 2
        Chinese Newswire Parallel Text Part 2</a> was developed by LDC.
      Along with other corpora, the parallel text in this release
      comprised training data for Phase 2 of the DARPA GALE (Global
      Autonomous Language Exploitation) Program. This corpus contains
      117,895 tokens of Chinese source text and corresponding English
      translations selected from newswire data collected by LDC in 2007
      and translated by LDC or under its direction.<o:p></o:p></p>
    <p class="MsoNormal">This release includes 177 source-translation
      document pairs, comprising 117,895 tokens of translated data. Data
      is drawn from four distinct Chinese newswire sources: China News
      Service, Guangming Daily, People's Daily and People's Liberation
      Army Daily.<o:p></o:p></p>
    <p class="MsoNormal">Data was manually selected for translation
      according to several criteria, including linguistic features and
      topic features. The files were formatted into a human-readable
      translation format and assigned to translation vendors.
      Translators followed LDC's Chinese to English translation
      guidelines. Bilingual LDC staff performed quality control
      procedures on the completed translations.<o:p></o:p></p>
    <p class="MsoNormal">Source data and translations are distributed in
      TDF format. TDF files are tab-delimited files containing one
      segment of text along with meta information about that segment.
      Each field in the TDF file is described in TDF_format.text. All
      data are encoded in UTF-8.<o:p></o:p></p>
    <br>
    <hr size="2" width="100%"> <br>
    <pre class="moz-signature" cols="72">-- 
--

Ilya Ahtaridis
Membership Coordinator
--------------------------------------------------------------------
Linguistic Data Consortium                  Phone: 1 (215) 573-1275
University of Pennsylvania                    Fax: 1 (215) 573-2175
3600 Market St., Suite 810                        <a class="moz-txt-link-abbreviated" href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>
Philadelphia, PA 19104 USA                 <a class="moz-txt-link-freetext" href="http://www.ldc.upenn.edu">http://www.ldc.upenn.edu</a>
</pre>
  </body>
</html>