<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=utf-8"><meta name=Generator content="Microsoft Word 15 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri",sans-serif;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link="#0563C1" vlink="#954F72"><div class=WordSection1><p class=MsoNormal>(Apologies for cross-postings)<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><b>*** The GUM Corpus - Release 7.0.0 ***<o:p></o:p></b></p><p class=MsoNormal><b>*** Georgetown University Multilayer corpus ***<o:p></o:p></b></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><a href="https://corpling.uis.georgetown.edu/corpling/">Corpling@GU</a> is happy to announce the first release of series 7 of the Georgetown University Multilayer corpus (GUM V7.0.0):<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><a href="https://corpling.uis.georgetown.edu/gum/">https://corpling.uis.georgetown.edu/gum/</a> <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>New in this version: <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>- 20 documents added from four new genres (total tokens: 150,756):<o:p></o:p></p><p class=MsoNormal>  - Face to face conversation (material from the Santa Barbara Corpus courtesy of John Du Bois, UCSB)<o:p></o:p></p><p class=MsoNormal>  - Political speeches (public domain data)<o:p></o:p></p><p class=MsoNormal>  - Open access text books from OpenStax<o:p></o:p></p><p class=MsoNormal>  - YouTube Creative Commons-licensed vlogs<o:p></o:p></p><p class=MsoNormal>- New Wikification layer covering all named entities, including nested and pronominal mentions (work by Yi-Ju Lin)<o:p></o:p></p><p class=MsoNormal>- Added function labels to constituent trees<o:p></o:p></p><p class=MsoNormal>- Added addressee information for speakers in UD data<o:p></o:p></p><p class=MsoNormal>- Complete overhaul of date/time normalization (work by Nitin Venkateswaran)<o:p></o:p></p><p class=MsoNormal>- Complete overhaul of entity and coreference annotations, incl. separate annotation of split antecedents (work by Yi-Ju Lin and Amir Zeldes)<o:p></o:p></p><p class=MsoNormal>- Increased consistency with other UD corpora, incl. new and more comprehensive morphological features<o:p></o:p></p><p class=MsoNormal>- Many corrections to all annotation layers<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>GUM is an open source corpus of richly annotated English texts from multiple genres: academic, bio, conversation, fiction, interview, news, speeches, textbooks, travel, vlogs, how-to and Reddit forum discussions. The corpus is created by students as part of the Computational Linguistics curriculum at Georgetown University and is available under Creative Commons licenses.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>This is the first version of GUM series 7, containing roughly 150K tokens annotated for:<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>- Multiple POS tags (100% manual gold PTB, extended PTB, converted CLAWS5 and UPOS) and UD morphological features<o:p></o:p></p><p class=MsoNormal>- Manually corrected lemmatization<o:p></o:p></p><p class=MsoNormal>- Sentence segmentation and rough speech act (manual)<o:p></o:p></p><p class=MsoNormal>- Document structure using TEI tags (paragraphs, headings, figures, captions etc., all manual)<o:p></o:p></p><p class=MsoNormal>- Constituent and dependency syntax (manually corrected Universal Dependencies, and PTB parses from gold tags with function labels)<o:p></o:p></p><p class=MsoNormal>- Information status (given, accessible, new, split antecedent)<o:p></o:p></p><p class=MsoNormal>- Entity and coreference annotation (including non-named entities, singletons, appositions, cataphora and several types of bridging)<o:p></o:p></p><p class=MsoNormal>- Entity linking (Wikification) of all named entities with Wikipedia articles, including their non-named and pronominal mentions<o:p></o:p></p><p class=MsoNormal>- Discourse parses in Rhetorical Structure Theory and discourse dependencies<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Note on Reddit data: token text is not contained in the release but can be downloaded with an included script.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>For more information and to search or download the corpus online, see <a href="https://corpling.uis.georgetown.edu/gum/">the corpus website</a>.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Best wishes,<o:p></o:p></p><p class=MsoNormal>The GUM team<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p></div></body></html>