<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">I dont think the dating of "corpora and grammar" so early is right. I recall a very small and self-serving paper:<div><br></div><div><span class="Apple-style-span" style="font-family: Times; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; ">A. Krotov, M. Hepple, R. Gaizauskas and Y. Wilks. 1998. Compacting the Penn Treebank Grammar. <cite>Proceedings of the COLING-ACL'98 Joint Conference (The 17th International Conference on Computational Linguistics, and 36th Annual Meeting of the Association for Computational Linguistics).</cite> pp 699-703. Montreal, Canada. August 1998.</span></div><div><font class="Apple-style-span" face="Times"><span class="Apple-style-span" style="-webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px;"><br></span></font></div><div><font class="Apple-style-span" face="Times"><span class="Apple-style-span" style="-webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px;">In this work my student Alex Krotov found that if you induced the PS grammar rules from the PTB, in a pretty straightforward way from the trees, then the number of rules was enormous and, most significantly, I thought,  still rising linearly at the end of the PTB corpus, which didnt prove anything but made one wonder about all the claims of finite grammar and infinite language that we had all been indoctrinated with. Hepple showed in that paper that the huge set could be compressed to a smaller (but still very large) rule set without loss of coverage of data---but I dont think this kind of analysis was being done by corpus people much earlier than this date.</span></font></div><div><font class="Apple-style-span" face="Times"><span class="Apple-style-span" style="-webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px;">YW</span></font></div><div><font class="Apple-style-span" face="Times"><span class="Apple-style-span" style="-webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px;"><br></span></font></div><div><font class="Apple-style-span" face="Times"><span class="Apple-style-span" style="-webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px;"><br></span></font></div><div><font class="Apple-style-span" face="Times"><span class="Apple-style-span" style="-webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px;"><br></span></font></div><div><font class="Apple-style-span" face="Times"><span class="Apple-style-span" style="-webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px;"><br></span></font></div><div><font class="Apple-style-span" face="Times"><span class="Apple-style-span" style="-webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px;"><br></span></font></div><div><font class="Apple-style-span" face="Times"><span class="Apple-style-span" style="-webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px;"><br></span></font><div><div>On 21 Nov 2010, at 12:20, <a href="mailto:amsler@cs.utexas.edu">amsler@cs.utexas.edu</a> wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div>However, corpora were well established as the basis for lexicography in the US by the 1970s with books such as the American Heritage Word Frequency Book serving as the basis for the "American Heritage Dictionary of the English Language" (Houghton MIfflin Co, 1969) (see foreword essay of the dictonary by Henry Kucera on "Computers in Language Analysis and in Lexicography"). This of course followed his significant "Computational Analysis of Present-Day American English" (Kucera & Francis, Brown U. Press, 1967).<br><br>Just out of curiosity, what were the discoveries about grammar and linguistics that have come from corpora that were not marketed in the US before 1970? Or is this just a philosophical attitude?  Note: I'm not taking sides here, I just don't know what grammatical/linguistic rules came from corpora studies that linguists were ignoring in the US before 1970.<br><br><br><br><blockquote type="cite">On 11/20/2010 10:36 AM, chris brew wrote:<br></blockquote><blockquote type="cite"><blockquote type="cite">it's safe to assume that most things about corpora were discovered and<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">carefully documented (but not necessarily marketed in the US) before 1970<br></blockquote></blockquote><blockquote type="cite"><br></blockquote><br><br>_______________________________________________<br>Corpora mailing list<br><a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>http://mailman.uib.no/listinfo/corpora<br></div></blockquote></div><br></div></body></html>