If someone is interested in German data: I have been sifting through data of online journals for over 10 years now, on a daily basis. This sums up to 1,9 billion words. For space and copyright reasons I do not  archive the original documents but also the word type lists. German is nice to look at because most compounds from one string. The data are not downloadable publicly, but if you are interested in seeing them just drop me a line.<br>
<br>Regards<br><br>Lothar Lemnitzer<br>(<a href="http://www.wortwarte.de">www.wortwarte.de</a>)<br><br><div class="gmail_quote">2011/1/21  <span dir="ltr"><<a href="mailto:amsler@cs.utexas.edu">amsler@cs.utexas.edu</a>></span><br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">The comments re: 'shopping cart' and 'shopping trolley' seem to me to reinforce a problem that keeps the field of lexical semantics as alchemy rather than as a more scientific pursuit. We just don't have enough data about compound nouns to be certain of what they are doing in the language overall; to know whether they are manifestations of underlying rules or happenstance creations. The OED provides us with some historical dates for first occurrences of open compounds and large contemporary corpora provide us with statistics on the extant forms in use today, but until now we've lacked the access to the statistical (frequency) history of the open compounds over time. Fortunately, now the Google nGrams from Google books has filled in that void.<br>

<br>
The reason compounds are important is that while we also have access to isolated words, those can't easily be automatically disambiguated, so knowing their frequencies over time doesn't tell us as much as we need to know about what they meant in context. Most (not all) open compounds are unambigious (I still get taken in by 'solar system' when it is used to refer to a bank of solar panels!), but mostly we can depend on open comounds being unambiguous.<br>

<br>
To me, that means the next big advance in lexical semantics could come from a large database of statistics by language variant and yearly chronology of the frequencies of open compounds. I'd like to be able to easily compare the historical frequency record of 'shopping cart' and 'shopping trolley' in British and American (and Australian and ...) English to watch the growth of the terms in frequency year-by-year AS WELL AS to be able to easily find a list of all the other open compounds formed from 'shopping', 'cart' and 'trolley' over the same chronology.<br>

<br>
Until such time as we can reliably disambiguate the isolated word forms in histrical corpora, the open compounds may provide the next best clue to the discovery of the facts on which a science of lexical semantics can be built.<br>

<br>
... P.S. Anyone have some other ambiguous open compounds they are familiar with, besides 'solar system'?<br>
<br>
_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote></div><br><br clear="all"><br>-- <br>Lothar Lemnitzer<br>DWDS<br>Berlin-Brandenburgische Akademie der Wissenschaften<br>Jägerstr. 22/23<br>10117 Berlin<br>