<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div><div>On 3 Sep 2011, at 23:05, Yorick Wilks wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Is anyone aware of an easily obtained corpus of (semi!!)English SMS messages?</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Id be grateful for pointers.</div></blockquote><div><br></div></div><div>A quick and naive search with Google found me the Singapore corpus that  has already been mentioned in response to your question. Several others seem to be available too. The last time someone asked here for an SMS corpus I suggested the pager messages of 9/11 available from WikiLeaks.  They are one-sided "conversations" rather than bi-lateral discourse.</div><div><br></div><div>You might also have success on the text mining page(s) of the knowledge discovery nuggets web site at <a href="http://www.kdnuggets.com">www.kdnuggets.com</a> They have a dataset of almost 6,000 SMS spam messages available. </div><div><br></div><div>Recently the Guardian constructed a "database" of Tweets sent during the recent riots in Britain. If that becomes available it might also serve your purpose(s). There are hooks in Twitter to extract volume text so constructing such corpora becomes easier.</div><div><br></div><div>I wonder how convergent technology now affects SMS messages. Are Tweets/tumbles and other social networking restricted-length cmments any different from SMS messages these days? As someone who uses neither methods (a few SMS messages to Deaf colleagues) my observation is that of an outsider.  </div><div><br></div><div>And even when you've found.established your corpus of messages how will you deal with the lexical issues of  l33t and txt spk? Does the ue of l33t and txt spk affect your definition of semi-English?</div><br><div> <span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; font-size: medium; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; font-size: medium; "><div>Regards, Trevor.</div><div><br></div><div><>< Re: deemed!</div><div><br></div></span></span></div></body></html>