<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
<div align="center"> LDC2007T22<br>
<b>*  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T22">2001
Topic Annotated Enron Email Data Set</a>  *</b><br>
<br>
LDC2007T03<br>
<b>*  <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T03">Tagged
Chinese Gigaword</a>  *</b><br>
<b><br>
</b></div>
<div align="center">The Linguistic Data Consortium (LDC) is pleased to
announce the availability of two new publications.<b><br>
<br>
</b></div>
<hr size="2" width="100%">
<p align="center"><b>New Publications<br>
<br>
</b></p>
<p>(1) The <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T22">2001
Topic Annotated Enron Email Data Set </a>contains approximately
5000 (4936) emails from Enron Corporation (Enron) manually indexed into
32 topics. It is a subset of the original Enron Email Data Set of 1.5
million emails that was posted on the <a
 href="http://www.ferc.gov/industries/electric/indus-act/wec/enron/info-release.asp#">Federal
Energy Regulatory Commission website</a> as a matter of public record
during the investigation of Enron. The original set suffered from
document integrity problems; attempts were made to improve the quality
of the data and to remove some sensitive and private information. Dr.
William Cohen of <a href="http://www.cs.cmu.edu/%7Eenron">Carnegie
Mellon University</a> took the lead in distributing the improved
corpus, consisting of 517,431 Enron employee emails that covered the
period 1999-2002.</p>
<p>This corpus is a subset of the Carnegie Mellon data set and covers
the period from January 2001 to December 2001. The email topics reflect
the business activities and interests of Enron employees in that year:
California energy problems and the subsequent state and Federal
investigations, Enron's downfall (newsfeeds and interoffice
communications), Enron's venture with the Dabhol India Power Company,
Enrononline (Enron's trading infrastructure), competitors (Dynegy, El
Paso Pipeline) and even fantasy football and college football. The
manual indexing was performed in the summer of 2006 by two people who
worked closely together.</p>
<p>Having an annotated subset such as this one should provide text
mining researchers with a way to evaluate the accuracy of new
algorithms for clustering and classification. This data set can also be
used to provide communication context for researchers using the Enron
Email Data Set in social network analysis. This annotation can be used
to qualify the discussion topics between individuals and groups
comprising a social network of Enron employees.<br>
</p>
<div align="center"><b>*</b><br>
</div>
<p><br>
</p>
<p>(2) <a
 href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007T03">Tagged
Chinese Gigaword</a> is the part-of-speech tagged version of the
LDC's Chinese Gigaword Second Edition LDC2005T14. It contains all of
the data in Chinese Gigaword Second Edition -- from Central News Agency
(Taiwan), Xinhua News Agency and Lianhe Zaobao -- annotated with full
part of speech tags. </p>
<p>All sources have been categorized into four distinct "types":</p>
<ul>
  <li><strong>story</strong>: This type of DOC represents a coherent
report on a particular topic or event, consisting of paragraphs and
full sentences. </li>
  <li><strong>multi</strong>: This type of DOC contains a series of
unrelated "blurbs," each of which briefly describes a particular topic
or event; examples include "summaries of today's news," "news briefs in
..." (some general area like finance or sports), and so on. </li>
  <li><strong>advis</strong>: These are DOCs which the news service
addresses to news editors; they are not intended for publication to the
"end users." </li>
  <li><strong>other</strong>: These DOCs clearly do not fall into any
of the above types; they include items such as lists of sports scores,
stock prices, temperatures around the world, and so on.</li>
</ul>
<hr size="2" width="100%">
<div align="center"><small><font face="Courier New, Courier, monospace"><br>
Ilya
Ahtaridis<br>
Membership Coordinator</font></small><br>
--------------------------------------------------------------------
<font face="Courier New, Courier, monospace"><br>
</font></div>
<div align="center">
<pre class="moz-signature" cols="72"><b><small><font
 face="Courier New, Courier, monospace">
</font></small>Linguistic Data Consortium                     Phone: (215) 573-1275
University of Pennsylvania                       Fax: (215) 573-2175
3600 Market St., Suite 810                         <a
 class="moz-txt-link-abbreviated" href="mailto:ldc@ldc.upenn.edu">ldc@ldc.upenn.edu</a>
Philadelphia, PA 19104 USA                  <a
 class="moz-txt-link-freetext" href="http://www.ldc.upenn.edu">http://www.ldc.upenn.edu</a></b></pre>
</div>
<p><br>
</p>
</body>
</html>