Mike<div><br></div><div>It's all about getting the right corpus.  It's almost always harder to get informal than formal text types.  The spoken-conversation part of the BNC is a great role-model.</div><div><br></div>

<div>A delight of the web is that it has lots of informal language in it, specially in blogs and similar, so, with a little application, we can gather text of informal types.  Our work on web corpus collection always has that in mind.</div>

<div><br></div><div>> saying that corpus linguistics was exactly the wrong way to build a dictionary</div><div><br></div><div>That's just a counsel of failure.  What does she propose doing instead? Guess (sorry, introspect - mustn't be rude)? Copy existing? Ask her friends?</div>

<div><br></div><div>adam<br><br><div class="gmail_quote">On 15 December 2010 23:40, Mike Maxwell <span dir="ltr"><<a href="mailto:maxwell@umiacs.umd.edu">maxwell@umiacs.umd.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

I was talking this afternoon with a lexicographer who is working on western Panjabi (the variety--or varieties--spoken in Pakistan, and written in a Perso-Arabic script).  She was saying that corpus linguistics was exactly the wrong way to build a dictionary of colloquial Panjabi, because of a somewhat diglossic situation: the written/ standardized language is not what most people speak.<br>


<br>
There are of course many diglossic language situations around the world, particularly in situations where a single "language" has been written for centuries or millenia.  I put "language" in scare quotes because of course all languages will have changed over that period of time, to the point of non-mutual intelligibility (if you can find any 2000 year old speakers :-)).<br>


<br>
At any rate, this certainly matters if you're trying to do dictionaries--or any other study of the spoken or colloquial language, or non-standard dialects.  I don't recall seeing much discussion of the issues of doing corpus linguistics in diglossic languages, the following being one exception:<br>


@article{fonseca2003radical,<br>
  title={{On the radical difference between the subject personal pronouns in written and spoken European French}},<br>
  author={Fonseca-Greber, B. and Waugh, L.R.},<br>
  journal={Language and Computers},<br>
  volume={46},<br>
  number={1},<br>
  pages={225--240},<br>
  issn={0921-5034},<br>
  year={2003},<br>
  publisher={Rodopi}<br>
}<br>
They resort to some small corpora of transcribed spoken French, and remark that they know about some usages that are not attested in these corpora.<br>
-- <br>
        Mike Maxwell<br>
        <a href="mailto:maxwell@umiacs.umd.edu" target="_blank">maxwell@umiacs.umd.edu</a><br>
        "A library is the best possible imitation, by human beings,<br>
        of a divine mind, where the whole universe is viewed and<br>
        understood at the same time... we have invented libraries<br>
        because we know that we do not have divine powers, but we<br>
        try to do our best to imitate them." --Umberto Eco<br>
<br>
_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote></div><br><br clear="all"><br>-- <br>========================================<br><a href="http://www.kilgarriff.co.uk/" target="_blank">Adam Kilgarriff</a>                  <a href="mailto:adam@lexmasterclass.com" target="_blank">adam@lexmasterclass.com</a>                                             <br>

Director                                    <a href="http://www.sketchengine.co.uk/" target="_blank">Lexical Computing Ltd</a>                <br>Visiting Research Fellow                 <a href="http://leeds.ac.uk" target="_blank">University of Leeds</a>     <div>

<i><font color="#006600">Corpora for all</font></i> with <a href="http://www.sketchengine.co.uk" target="_blank">the Sketch Engine</a>                 </div><div>                        <i><a href="http://www.webdante.com" target="_blank">DANTE: <font color="#009900">a lexical database for English</font></a><font color="#009900"> </font>                 </i><div>

========================================</div></div><br>
</div>