<div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Pada Sen, 6 Nov 2023 pukul 12.44 Simon Greenhill <<a href="mailto:simon.greenhill@auckland.ac.nz">simon.greenhill@auckland.ac.nz</a>> menulis:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi Juergen,<br>
<br>
The key problem we need to solve here is that languages are not statistically independent. They share similarity due to inheritance or contact. This is what statisticians call autocorrelation in general, and phylogenetic and spatial autocorrelation more specifically. <br>
<br>
There are many ways to deal with this in the literature, and we often can't separate them neatly into stratified vs. phylogenetic methods as they overlap. However, I'm a phylogenetics hard-liner, I guess, so let me give you that hardline response: <br>
<br>
I see three major reasons for preferring phylogenetic methods over stratified sampling. One is practical, one is theoretical, one is methodological.<br>
<br>
1. Practical: Stratified sampling does not remove the auto-correlation caused by inheritance and contact. <br>
<br>
Look at the anthropological literature. They spent a long time trying to come up with a "standard cross-cultural sample" to avoid the problem of autocorrelation. They eventually came up with a rule of selecting societies more than '200 miles and 200 years' apart. It failed -- this sample still shows strong autocorrelation:<br>
<br>
<a href="https://www.researchgate.net/publication/242148557_Does_Mr_Galton_Still_Have_a_Problem_Autocorrelation_in_the_Standard_Cross-Cultural_Sample" rel="noreferrer" target="_blank">https://www.researchgate.net/publication/242148557_Does_Mr_Galton_Still_Have_a_Problem_Autocorrelation_in_the_Standard_Cross-Cultural_Sample</a><br>
<br>
...and I'm sure that linguistics has this problem worse than anthropology because linguistic data seems to change slower than cultural data. <br>
<br>
What this means is that any statistical that assumes the data points are independent will give incorrect results. If you want to get the right answer you need to deal with this. Pretending it's solved by stratification and crossing your fingers is not a solution.<br></blockquote><div><br></div><div>(Sorry for late responding to an old thread --- someone raised this issue<br>with me the other day citing the thread).<br><br>Actually typological data from a simple genealogically stratified<br>sample usually does not exhibit strong (spatial) autocorrelation,<br>although this of course depends on what one means by "strong".<br><br>For example, if you just take one (random) language per Glottolog<br>family, i.e., stratifying by family, and check, e.g., Grambank data,<br>and the spatial weights formula from the cited Eff 2004 paper, this<br>gives samples of 200-300 datapoints depending on GB feature. Most<br>features exhibit a rather low Moran's I (see attached histogram). One<br>can probably improve on this by thinning the sample to get larger<br>geographical distances or by selecting geographically distant<br>languages from different families, rather than random ones.<br><br>Eff (2004) uses an (arbitrary) threshold of 0.1 and finds that 44% of<br>the studied variables on the SCCS exhibits spatial autocorrelation,<br>which is similar to one-per-family on Grambank data (49% of the<br>features, or slightly lower, 46%, with row-normalization of the<br>spatial weights). Instead using a threshold value it may be more<br>revealing to gauge significance by permutation tests. Then only 51 GB<br>features show significant spatial autocorrelation at the level of 0.05<br>and only 21 at the level of 0.001 --- and that's before correcting for<br>multiple testing.<br><br>So for many typological features one can indeed just stratify by<br>family and expect the remaining areal effects not to be very strong<br>or, better, also address the remaining areal effects. Phylogenetic<br>methods do not address areality at all so cannot be a solution<br>and typically suffer a worse version of Galton's problem anyway. In<br>a genealogically stratified world-wide sample, the areal effects will<br>be *different* across the datapoints (and one might hope they<br>even cancel out) but on phylogenetic study on one or a few families it<br>can be *one and the same* areal effect that targets the datapoints.</div><div><br></div><div>all the best, H</div></div></div>