It's quite plausible that the distribution of peaks and valleys is the result of historical accidents <br>or arbitrary editorial decisions (the preference for citing Shakespeare being a well-known bias),<br>but it's also quite possible that were real cultural trends in place during these periods. Shakespeare<br>

was hardly unique among the Elizabethan literati in his enthusiasm for neologism, and this enthusiasm<br>was probably fed by the ways English had begun to encroach on Latin in a variety of domains, driven by the<br>increase in the availability of print and a corresponding rise in literacy.<br>

<br>By the mid 18th century, however, English was thought by many of the English literati to have more or less<br>fully
 matured, and the concern had shifted from expanding the language to 
make it suitable for use in more domains, to refining and stabilizing 
(or as Swift put it, "fixing") the language and preserving its "purity".
 No doubt <br>
there was a profusion of new words entering from all over the world at this time, but this trend probably only <br>exacerbated
 the considerable anxiety on the part of English authorities as to the 
need to protect the language from corruption and decay.<br>
<br>Of course, to the degree that these cultural factors are responsible
 for the 1600 peak or the 1750 valley they likely to be magnified (if 
not entirely caused) by a focus on canonical literature — that is, these
 were trends in what was and was not considered acceptable and desirable
 literary usage. They thus may not reflect the "true" state of the 
language at either time (if by "language" one includes all of spoken and
 written usage in all classes and all regions); but they are not 
necessarily mere artifacts of sampling either. <br><br><div class="gmail_quote">On Tue, Apr 26, 2011 at 10:26 AM, Graham White <span dir="ltr"><<a href="mailto:graham@eecs.qmul.ac.uk">graham@eecs.qmul.ac.uk</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">I think that the effects of sources and sampling are quite large here,<br>
and it's something that happens in a lot of fields (for example,<br>
the history of philosophy). What tends to happen is that a small number<br>
of authors get established as canonical, and then others are<br>
investigated because of their connection with the canonical ones.<br>
Thus, for example, Brentano and Schleiermacher are both missing from<br>
all but the specialised histories of philosophy, even though they are<br>
both interesting and also influential: the standard histories, though,<br>
tell the story of nineteenth century German philosophy in terms of<br>
a narrative involving Kant and the idealists who followed him, and<br>
people who don't fit into that narrative are simply ignored, by and<br>
large.<br>
<br>
Similarly with dictionaries: they concentrate on the canon (and enough<br>
other authors to be able to illuminate the meaning of the canon), and<br>
why shouldn't they? Most users of dictionaries use them to read the<br>
canon. Hence the peaks. And these effects get compounded when you look<br>
at literature from the past, because the canon survives preferentially:<br>
there are more copies of the canon, and people value the canon more,<br>
so more of it survives. I do not think that the OED, even though it is<br>
admirably non-normative and comprehensive and so on, is immune to these<br>
effects (it is very hard to avoid them when dealing with historical<br>
texts). But it's not a corpus, it's a dictionary.<br>
<font color="#888888"><br>
Graham<br>
</font><div><div></div><div class="h5"><br>
On Tue, Apr 26, 2011 at 09:51:26AM -0400, John F. Sowa wrote:<br>
> On 4/25/2011 5:12 PM, chris brew wrote:<br>
> >I think  part of the 1600 bump must correspond to William Shakespeare<br>
> >(1564-1616, first folio published 1623, second folio published 1632)<br>
> >and that a corresponding bump from 1380-1400 corresponds to Chaucer (you<br>
> >have to set the granularity to 10 years to see it clearly)<br>
> ><br>
> >Something else happened in the 1650-1659 decade. I have a plausible<br>
> >hypothesis but no more...<br>
><br>
> Those are interesting hypotheses about the effects of literature<br>
> and the methods of recording, distribution, and preservation.<br>
><br>
> Some of those effects are probably distorted by historical accidents<br>
> of loss and preservation.  But the decisions of editors about which<br>
> sources to consider would also influence the results.<br>
><br>
> Ted Pedersen:<br>
> >... there are local peaks around the years 1400, 1600, and 1900,<br>
> >with valleys around 1500, 1750, and the present day.<br>
><br>
> I can't believe that the present day with the huge expansion<br>
> of the WWW is a true valley.  And the valley around 1750 was<br>
> a period of active colonization that may have produced many<br>
> words that weren't recorded in the OED sources.<br>
><br>
> It would be interesting to to do a more detailed study of word<br>
> creation and disuse by going back to the original documents,<br>
> when more of them become digitized.<br>
><br>
> John Sowa<br>
><br>
> _______________________________________________<br>
> UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
> Corpora mailing list<br>
> <a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
> <a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br>
_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</div></div></blockquote></div><br>