<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
</head>
<body bgcolor="#ffffff" text="#000000">
<div align="center">LDC2008T25<br>
<b>
-  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008T25">AQUAINT-2
Information-Retrieval Text Research Collection</a>  -</b><br>
<b></b><br>
<b></b><b>
</b>LDC2008L03<br>
<b>
-  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008L03">Global
Yoruba Lexical Database v. 1.0</a>  </b>-<br>
<br>
The Linguistic Data Consortium (LDC) would like to announce the
availability of two new publications.<br>
<hr size="2" width="100%"></div>
<br>
<div align="center"><b>New Publications</b><br>
</div>
<p>(1) <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008T25">AQUAINT-2
Information-Retrieval Text Research Collection </a>was developed by
LDC for
NIST's (National Institute for Standards and Technology) <a
 href="http://www-nlpir.nist.gov/projects/aquaint/">AQUAINT 2007
Question-Answer
(QA) track</a>. It consists of approximately 2.5 GB of English news
text from
six distinct sources collected by LDC (Agence France Presse, Associated
Press,
Central News Agency (Taiwan), Los Angeles Times-Washington Post, New
York Times
and Xinhua News Agency) covering the period from October 2004 through
March
2006. The AQUAINT-2 collection is the second part of a series intended
to
provide data useful for developing, evaluating and testing information
extraction and retrieval systems. It follows the publication of <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2002T31">The
AQUAINT Corpus of English News Text (LDC2002T31)</a>.<br>
</p>
<p>The AQUAINT (Advanced
Question-Answering for Intelligence)  program addresses interactivity
with
scenarios or tasks. The scenario provides a context in which questions
will be
asked and answered, and the task reflects the overall assignment. The
program
is committed to solve a single problem: how to find topically relevant,
semantically related, timely information in massive amounts of data in
diverse
languages, formats, and genres. <br>
<br>
For each source, all of the usable data collected by LDC was processed
into a
consistent XML format in which the stories for a given month are
concatenated
in chronological order into a single "DOCSTREAM" element; each story
is a single "DOC" element within that stream and has a globally
unique "id" attribute. <o:p></o:p></p>
<p class="MsoNormal" align="center"><o:p>* </o:p></p>
<p>(2) The <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008L03">Global
Yoruba Lexical Database v. 1.0</a> is a set of related dictionaries
providing
definitions and translations for over 450,000 words from the Yoruba
language
and its variants: Standard Yoruba (over 368,000 words), Gullah (over
3,600
words), Lucumí (over 8,000 words) and Trinidadian (over 1,000 words). <o:p></o:p></p>
<p>Yoruba is a Niger-Congo language (sub classification: Kwa >
Yoruboid)
spoken natively by nearly 20 million people, the vast majority of them
in
southwestern <st1:country-region><st1:place>Nigeria</st1:place></st1:country-region>. 
The <span style=""> </span>Yoruba language diaspora is wide,
stretching from southwestern <st1:country-region><st1:place>Nigeria</st1:place></st1:country-region>
and <st1:country-region><st1:place>Benin</st1:place></st1:country-region>
westward to the <st1:place>Caribbean</st1:place> and islands along the
southeastern <st1:country-region><st1:place>United States</st1:place></st1:country-region>
coast.  Throughout the region, Yoruba dialects blended with each other
and
with languages like Spanish and French to form a variety of creoles
such as
Gullah in the <st1:country-region><st1:place>United States</st1:place></st1:country-region>
and Nagô in <st1:country-region><st1:place>Brazil</st1:place></st1:country-region>. 
The ultimate goal of this dictionary is to provide coverage for all
Yoruba
dialects across the globe. For that reason, it will continue to be a
work in
progress. <o:p></o:p></p>
<p>The Yoruba dialect continuum consists of over fifteen varieties,
with
considerable phonological and lexical differences among them and some
grammatical ones as well. Peripheral areas of dialectal regions often
have some
similarities to adjoining dialects. <i>Standard Yoruba</i> is a koine
used for
education, writing, broadcasting, and contact between speakers of
different
dialects.<o:p></o:p></p>
The dictionaries in this publication are presented in two formats,
Toolbox
databases and XML. Short for The <a
 href="http://www.sil.org/computing/catalog/show_software.asp?id=79">Field
Linguist's Toolbox,</a> Toolbox is a lexicographical database system
published
by <a href="http://www.sil.org/">SIL</a>. SIL makes Toolbox freely
available
for <a href="http://www.sil.org/computing/toolbox/downloads.htm">download</a>.
In order to use the Global Yoruba Lexical Database v. 1.0, Toolbox must
first
be installed on the user's local computer.<br>
<hr size="2" width="100%"><br>
<div align="left">
<div align="center"><font face="Courier New, Courier, monospace"><small><small><br>
<br>
</small>--------------------------------------------------------------------</small><small><br>
</small></font></div>
<div align="center">
<pre class="moz-signature" cols="72"><font
 face="Courier New, Courier, monospace">Linguistic Data Consortium                     Phone: (215) 573-1275
University of Pennsylvania                       Fax: (215) 573-2175
3600 Market St., Suite 810                         <a
 class="moz-txt-link-abbreviated" href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>
 Philadelphia, PA 19104 USA                   <a
 class="moz-txt-link-freetext" href="http://www.ldc.upenn.edu">http://www.ldc.upenn.edu</a></font></pre>
</div>
</div>
<br>
<pre class="moz-signature" cols="72">
</pre>
</body>
</html>