<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=utf-8"><meta name=Generator content="Microsoft Word 15 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri",sans-serif;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link="#0563C1" vlink="#954F72"><div class=WordSection1><p class=MsoNormal>(Apologies for cross-postings)<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><b>*** The GUM Corpus - Release 10.0.0 ***<o:p></o:p></b></p><p class=MsoNormal><b>*** Georgetown University Multilayer corpus ***<o:p></o:p></b></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><a href="https://gucorpling.org/corpling/">Corpling@GU</a> is happy to announce the first release of series 10 of the Georgetown University Multilayer corpus (GUM V10.0.0):<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><a href="https://gucorpling.org/gum/">https://gucorpling.org/gum/</a><o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>New in this version: <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>- 4 new genres with 22 new documents: (total tokens: 228,399)<o:p></o:p></p><p class=MsoNormal>  - Courtroom transcripts<o:p></o:p></p><p class=MsoNormal>  - Essays<o:p></o:p></p><p class=MsoNormal>  - Letters (on paper, not e-mails)<o:p></o:p></p><p class=MsoNormal>  - Podcasts<o:p></o:p></p><p class=MsoNormal>- Expansions to the discourse annotation layer<o:p></o:p></p><p class=MsoNormal>  - Enhanced RST parses with additional, non-projective tree-breaking relations (multiple relations per node)<o:p></o:p></p><p class=MsoNormal>  - Complete signaling annotation including discourse markers and other discourse signals following the Signaling Corpus<o:p></o:p></p><p class=MsoNormal>  - PDTB-style connective annotation and DISRPT style relation classification data<o:p></o:p></p><p class=MsoNormal>- Morphological segmentation following UniMorph<o:p></o:p></p><p class=MsoNormal>- Annotation of select constructions based on Construction Grammar (e.g. resultatives, NPN, causal-excess)<o:p></o:p></p><p class=MsoNormal>- Many corrections to all annotation layers<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>GUM is an open source corpus of richly annotated English texts from <b>16 genres</b>: academic, bio, courtroom, conversation, essay, fiction, interview, letters, news, podcasts, speeches, textbooks, travel, vlogs, how-to and Reddit forum discussions. The corpus is created by students as part of the Computational Linguistics curriculum at Georgetown University and is available under Creative Commons licenses.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>This is the first version of GUM series 10, containing roughly 228K tokens annotated for:<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>- Multiple POS tags (100% manual gold PTB, extended PTB, converted CLAWS5 and UPOS) and UD morphological features<o:p></o:p></p><p class=MsoNormal>- Manually corrected lemmatization and morphological segmentation<o:p></o:p></p><p class=MsoNormal>- Sentence segmentation and rough speech act (manual)<o:p></o:p></p><p class=MsoNormal>- Document structure using TEI tags (paragraphs, headings, figures, captions etc., all manual)<o:p></o:p></p><p class=MsoNormal>- Constituent and dependency syntax (manually corrected Universal Dependencies, and PTB parses from gold tags with function labels and enhanced dependencies)<o:p></o:p></p><p class=MsoNormal>- Information status (given-active/inactive, accessible-inferable/common ground/aggregate, and new)<o:p></o:p></p><p class=MsoNormal>- Entity type, salience and coreference annotation (including non-named entities, singletons, appositions, cataphora and several types of bridging), as well as Centering Theory annotations<o:p></o:p></p><p class=MsoNormal>- Entity linking (Wikification) of all named entities with Wikipedia articles, including their non-named and pronominal mentions<o:p></o:p></p><p class=MsoNormal>- Discourse parses in enhanced Rhetorical Structure Theory (eRST) and discourse dependencies<o:p></o:p></p><p class=MsoNormal>- Discourse signal annotations classified into 9 major and 45 minor types indicating how the presence of a relation is marked (based on the Signaling Corpus scheme)<o:p></o:p></p><p class=MsoNormal>- Abstractive summaries for each document (two summaries per document in the test set)<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Note on Reddit data: token text is not contained in the release but can be downloaded with an included script.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>For more information and to search or download the corpus online, see <a href="https://gucorpling.org/gum/">the corpus website</a>.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Best wishes,<o:p></o:p></p><p class=MsoNormal>The GUM team<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>PS – if you like GUM, check out our ‘extreme genre test set’ <a href="https://github.com/gucorpling/gentle/">GENTLE</a>, and the larger, automatically annotated <a href="https://github.com/gucorpling/amalgum/">AMALGUM</a> corpus!<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p></div></body></html>