<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<style type="text/css" style="display:none"><!-- p { margin-top: 0px; margin-bottom: 0px; }--></style>
</head>
<body dir="ltr" style="font-size:12pt;color:#000000;background-color:#FFFFFF;font-family:Calibri,Arial,Helvetica,sans-serif;">
<div dir="ltr" style="font-size:12pt; color:#000000; background-color:#FFFFFF; font-family:Calibri,Arial,Helvetica,sans-serif">

<div>
<div>Dear Members,<br>
</div>
<div><br>
</div>
<div>We are pleased to announce the release of SciSumm14, an annotated corpus for scientific summarization. </div>
<div>SciSumm14 is an open repository with a corpus of ACL Computational Linguistics research papers and their annotations, contributed to the public by the Web IR / NLP Group at the National University of Singapore (WING-NUS).  This corpus is offered as a part
 of the SciSumm Shared Task in TAC 2014. The SciSumm Shared Task is organized under the BiomedSumm track. It follows the basic structure and guidelines of the Biomedical Summarization Track and adapts them for annotating and creating a corpus of training topics
 from computational linguistics (CL) research papers. 
<div><br>
<span style="font-size:12pt">The purpose behind the release of this corpus is to highlight the challenges and relevance of the scientific summarization problem, support research in automatic scientific document summarization and provide evaluation resources
 to push the current state of the art. This corpus offers a "community" summary of a reference paper based on its collection of citing sentences, called citances. Furthermore, each of the citances is mapped to referenced text in the reference paper and tagged
 with the information facet it represents.</span></div>
</div>
<div><br>
</div>
<div>This corpus is expected to be of interest to a broad community including those working in computational linguistics NLP, text summarization, discourse structure in scholarly discourse, paraphrase, textual entailment, and/or text simplification.<br>
</div>
<div><br>
</div>
<div>WEBSITE AND COMPLETE CALL:<br>
</div>
<div>https://github.com/WING-NUS/scisumm-corpus</div>
<div><br>
</div>
<div>CORPUS MAINTENANCE:<br>
</div>
<div>Dr. Kokil Jaidka (Wee Kim Wee School of Communication and Information, Nanyang Technological University) koki0001@e.ntu.edu.sg</div>
<div>Dr. Min-Yen Kan (Dept. of Computer Science, School of Computing, National University of Singapore) kanmy@comp.nus.edu.sg</div>
<div>Muthu Kumar Chandrasekaran (Dept. of Computer Science, School of Computing, National University of Singapore) muthu.chandra@comp.nus.edu.sg</div>
<div>Ankur Khanna (Web, IR/NLP group, National University of Singapore) khanna89ankur@gmail.com</div>
<div><br>
</div>
<div><br>
</div>
<div>SUMMARY OF CORPUS PROPERTIES:<br>
</div>
<div>​1. Created by randomly sampling ten documents from the ACL Anthology corpus and selecting their citing papers. It is available for download at https://github.com/WING-NUS/scisumm-corpus</div>
<div>2. Organized into "topic" folders. Each "topic" is the Reference Paper, and the folder contains upto ten Citing Papers (CPs) that all contain citations to the RP. In each CP, the text spans (i.e., citances) have been identified that pertain to a particular
 citation to the RP.</div>
<div>3. Most text files were created from the pdf files obtained above by using Adobe Acrobat. The remaining were converted using the GATE 8.0 open source software. For more details, see the README at https://github.com/WING-NUS/scisumm-corpus</div>
<div>4. Inter-annotator agreement was used to assess the homogeneity and quality of the coding of citances and references, and disagreements were resolved through discussion.</div>
<div>5. The ACL ids and the titles of reference papers are given below:</div>
<div>--------------------------------------</div>
<div>ACL-anthology-id<span class="Apple-tab-span" style="white-space:pre">     </span>Tile of the paper</div>
<div>--------------------------------------</div>
<div>H89-2014                   Augmenting a Hidden Markov Model for Phrase-Dependent Word Tagging</div>
<div>X96-1048                    OVERVIEW OF RESULTS OF THE MUC-6 EVALUATION </div>
<div>C94-2154                    THE CORRECT AND EFFICIENT IMPLEMENTATION OF APPROPRIATENESS SPECIFICIATIONS FOR TYPED FEATURE STRUCTURES</div>
<div>E03-1020                    Discovering Corpus-Specific Word Senses</div>
<div>C90-2039                    Strategic Lazy Incremental Copy Graph Unification</div>
<div>J00-3003                     Dialogue Act Modeling for Automatic Tagging and Recognition of Conversational Speech</div>
<div>P98-1081                    Improving Data Driven Wordclass Tagging by System Combination</div>
<div>N01-1011                    A Decision Tree of Bigrams is an Accurate Predictor of Word Sense</div>
<div>H05-1115                    Using Random Walks for Question-focused Sentence Retrieval</div>
<div>J98-2005                     Estimation of Probabilistic Context-Free Grammars</div>
<div>-------------------------------------------------------------------------<br>
</div>
<p><br>
</p>
</div>
</div>
</body>
</html>