<html><head><meta http-equiv="Content-Type" content="text/html charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">Hello,<div class=""><br class=""></div><div class="">I would like to announce the availability of an approximately 15 million word corpus of Hmong (mostly Hmong Daw/White Hmong but white some Mong Leng/Green Hmong).</div><div class=""><br class=""></div><div class="">* It was “scraped" from the long-running soc.culture.hmong (SOC) Usenet group, which is still used today (primarily through the Google Groups interface)</div><div class="">* It consists of 13,355 plain text files with no annotations.</div><div class="">* This corpus is most useful if you know Hmong or are performing an analysis that doesn’t require labelled data.</div><div class="">* Each file consists of all or part of a thread.</div><div class="">* Measures were taken to automatically filter out English and Lao posts. These measures were largely, but not completely, successful.</div><div class="">* Measures were also take to eliminate quoted text (that resulted in a high level of redundancy in the raw data files). These measures were much more successful than the language filtering attempts.</div><div class=""><br class=""></div><div class="">A small number of investigators have already used this corpus and found it useful. I am making it available to you to use in your research free of charge but with no warranty regarding its usefulness for any purpose. It can be downloaded at the following link:</div><div class=""><br class=""></div><div class=""><a href="http://www.davidmortensen.org/corpora/sch_corpus-2.zip" class="">http://www.davidmortensen.org/corpora/sch_corpus-2.zip</a><br class=""><div apple-content-edited="true" class="">
<div style="color: rgb(0, 0, 0); letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><span class="Apple-style-span" style="border-collapse: separate; border-spacing: 0px;"><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; border-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-stroke-width: 0px;"><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><br class=""></div><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">Even with compression, the file is large. Let me know if you have difficulty downloading it.</div><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><br class=""></div><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">Best<br class="Apple-interchange-newline">David R. Mortensen</div></span></span></div>
</div>
<br class=""></div></body></html>