<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=utf-8"><meta name=Generator content="Microsoft Word 15 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri",sans-serif;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link="#0563C1" vlink="#954F72"><div class=WordSection1><p class=MsoNormal>(Apologies for cross-postings)<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><b>*** The GUM Corpus - Release 8.0.0 ***<o:p></o:p></b></p><p class=MsoNormal><b>*** Georgetown University Multilayer corpus ***<o:p></o:p></b></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><a href="https://corpling.uis.georgetown.edu/corpling/">Corpling@GU</a> is happy to announce the first release of series 8 of the Georgetown University Multilayer corpus (GUM V8.0.0):<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><a href="https://corpling.uis.georgetown.edu/gum/">https://corpling.uis.georgetown.edu/gum/</a> <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>New in this version: <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>- 25 documents added including more conversational data (total tokens: 180,849):<o:p></o:p></p><p class=MsoNormal>- New RST discourse relations, now covering 32 labels in a two level hierarchy, as discourse constituent and dependency trees<o:p></o:p></p><p class=MsoNormal>- More fine-grained, 6-way information status annotations for all entity mentions<o:p></o:p></p><p class=MsoNormal>- Now distinguishing 7 types of coreference relations, incl. new discourse deixis and non-identity predication in addition to older types (apposition, cataphora, etc.) and explicit annotation of singletons<o:p></o:p></p><p class=MsoNormal>- More consistent UD syntax, including a new obl:agent relation for passive agents<o:p></o:p></p><p class=MsoNormal>- New Wikidata identifiers for wikification layer (including nested and pronominal mentions)<o:p></o:p></p><p class=MsoNormal>- More comprehensive conllu format now includes TEI XML structure, information status, coref types and more<o:p></o:p></p><p class=MsoNormal>- Many corrections to all annotation layers<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>GUM is an open source corpus of richly annotated English texts from multiple genres: academic, bio, conversation, fiction, interview, news, speeches, textbooks, travel, vlogs, how-to and Reddit forum discussions. The corpus is created by students as part of the Computational Linguistics curriculum at Georgetown University and is available under Creative Commons licenses.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>This is the first version of GUM series 8, containing roughly 180K tokens annotated for:<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>- Multiple POS tags (100% manual gold PTB, extended PTB, converted CLAWS5 and UPOS) and UD morphological features<o:p></o:p></p><p class=MsoNormal>- Manually corrected lemmatization<o:p></o:p></p><p class=MsoNormal>- Sentence segmentation and rough speech act (manual)<o:p></o:p></p><p class=MsoNormal>- Document structure using TEI tags (paragraphs, headings, figures, captions etc., all manual)<o:p></o:p></p><p class=MsoNormal>- Constituent and dependency syntax (manually corrected Universal Dependencies, and PTB parses from gold tags with function labels)<o:p></o:p></p><p class=MsoNormal>- Information status (given-active/inactive, accessible-inferable/common ground/aggregate, and new)<o:p></o:p></p><p class=MsoNormal>- Entity and coreference annotation (including non-named entities, singletons, appositions, cataphora and several types of bridging)<o:p></o:p></p><p class=MsoNormal>- Entity linking (Wikification) of all named entities with Wikipedia articles, including their non-named and pronominal mentions<o:p></o:p></p><p class=MsoNormal>- Discourse parses in Rhetorical Structure Theory and discourse dependencies<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Note on Reddit data: token text is not contained in the release but can be downloaded with an included script.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>For more information and to search or download the corpus online, see <a href="https://corpling.uis.georgetown.edu/gum/">the corpus website</a>.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Best wishes,<o:p></o:p></p><p class=MsoNormal>The GUM team<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p></div></body></html>