<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><br><div><div>On 16.12.2010, at 07:06, Adam Kilgarriff wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div>It's all about getting the right corpus.  It's almost always harder to get informal than formal text types.  The spoken-conversation part of the BNC is a great role-model.</div></blockquote><div><br></div><div>It might be all about creating your own right corpus...</div><br><blockquote type="cite"><div>A delight of the web is that it has lots of informal language in it, specially in blogs and similar, so, with a little application, we can gather text of informal types.  Our work on web corpus collection always has that in mind.</div></blockquote><div><br></div><div>The problem with the web is the source limitation. Even in highly developed countries with the highest internet penetration there might be 2/3 of the population being internet users (US for example), it tends to go down to 1/4 in most of the developed countries, and towards 0 in the regions that might interest us most (say Pakistan). But, the problem everywhere is, only a small portion of internet users per language will be creative wrt. content contribution in form of text and language data, and the "informal language" being rather specific, not necessarily colloquial (at least I haven't seen enough colloquial Ruhrpott data online, neither Zagreb-slang, or Chakavian, or Arbanasi).</div><br><blockquote type="cite">

<div>> saying that corpus linguistics was exactly the wrong way to build a dictionary</div><div><br></div><div>That's just a counsel of failure.  What does she propose doing instead? Guess (sorry, introspect - mustn't be rude)? Copy existing? Ask her friends?</div></blockquote><div><br></div><div>I think this is rather right in the sense of: using existing corpora for the generation of colloquial language dictionaries. Creating corpora from data collected via transcripts of questionnaires, recordings, interviews etc. to get some quantities out of it might be helpful. But, qualitative data is what counts most in common such compilations, corpora are less relevant here, fieldwork is crucial, in particular in what Mike mentions, a diglossic situation. Corpora might be helpful as organizations of the collected data for extraction of further details, but they do not seem to be at the core of such an endeavor.</div><div><br></div><div>Damir</div><div><br></div></div><br><div>
<span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; font-size: medium; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; font-size: medium; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; font-size: medium; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; font-size: medium; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">--<br>Dr. Damir Cavar<br><a href="http://ling.unizd.hr/~dcavar/">http://ling.unizd.hr/~dcavar/</a><br>Uni Konstanz: mobile +49 176 60928748 - office: +49 7531 885357<br>Uni Zadar: mobile +385 91 8837344<br>fax (e-mail): +385 23 400063<br>FaceTime: <a href="mailto:dcavar@me.com">dcavar@me.com</a><br><br></div></span></div></span></div></span></span>
</div>
<br></body></html>