<HTML>
<BODY BGCOLOR="#FFFFFF">
 Larry Trask wrote:
<BLOCKQUOTE TYPE=CITE>I will therefore content myself with reporting that
no one
<BR>who has so far replied has expressed any great sympathy with
<BR>any version of the 'only six' argument, and several people
<BR>have been openly hostile.

<P>These negative responses don't surprise me at all.  I am
<BR>certainly not sympathetic to the 'only six' argument.  It's
<BR>just that I keep coming across claims of this sort every now
<BR>and again, and I was beginning to wonder if a significant
<BR>number of historical linguists were embracing such arguments.
<BR>Apparently not.</BLOCKQUOTE>
Wait just a second there. I may have sounded negative myself. But when
I thought about it a little more, I realized that there is a legitimate
and  interesting argument there, and it ought to be in historical
linguistics textbooks if it isn't. ( I don't know if this is the argument
you have seen, but I'd be interested to know if it IS any textbooks?).

<P>Basically, IF one has set up the question properly and IF one has carried
out the comparison with discipline and honesty (big ifs, of course), then
a very small number of examples of a single sound correspondence is sufficient
to demonstrate a historical (not necessarily a genetic) relationship beyond
any reasonable doubt. Practically speaking, given the sample sizes we usually
work with and the way that phonological systems are set up, in most cases,
the necessary number is indeed around six or not much more. This isn't
anything for anyone to be hostile to (or sympathetic to, for that matter);
it simply follows necessarily from the logic of probability. I'll explain,
but first a clarification.

<P>When you ask about numerical criteria for a genetic relationship, you
are asking (at least) two separate questions. Most of the respondents addressed
the second question-- what are the criteria for determing if two historically
related languages are related genetically-- as opposed to being related
by contact or borrowing, or by being in a lexifier-creole relationship.
Some respondents addressed the question of what criteria are relevant for
subclassifying genetically related languages. As far as I can see (and
as most of the respondents said), numerical criteria simply are not relevant
for making these kinds of judgements. It's the nature of the similarities
or commonalities, not the number of them that count. In any case probability
theory doesn't come into play because in all these cases we have already
ruled out coincidence as an explanation.

<P>But when approaching unclassified languages or languages which haven't
been compared to each other before, the first question we have to ask is
whether these languages have something in common which cannot be due to
chance or coincidence. Numerical criteria and probability theory are the
most reliable means for making judgements of this type.
<BR> 
<BR> Here's how you end up with only six: First the average expected
number of chance matches between any two consonants in any two languages
(that is the expected number of times the consonants will appear in the
same position in a word with the same meaning) is the frequency of the
first consonant in its language times the frequency of the second consonant
in its language times the number of word pairs available for comparison.
Thus if ten percent of the words start with /t/ in one language and ten
percent of the words in the other language start with /b/ then in a hundred
word sample, there should be (by chance) one case where the translation
of a word starting with /t/ in the first language starts with  /b/
in the second.  In a 1000 word sample there should be about ten such
cases. One rough guide to frequency of a consonant is simply 1 over the
number of consonants in the inventory. So if you have twenty consonants
the average frequency of each consonant is 1/20 or .05. If you have a Macintosh
with a graph calculator try entering this formula 1/x^2*n100 (one over
x squared times n times 100). This gives you the expected number of
 correspondences,
in a sample with n100 word pairs, of two languages both with x number of
consonants, evenly distributed. You can see from this that as long as the
average size of the consonant inventory is greater than 10 (or put another
way, where no consonant occupies more than ten percent of the word positions
being compared) the expected number of chance matches in a 100 wd sample
is between 1 and 0. That is in a 100 word sample you expect that each consonant
(in initial position) in one language will match up with each consonant
in the other in one word or not at all. In a 1000 word sample the expected
chance avgs. are not all that much higher-- basically if the average size
of the consonant inventories is 14 (or the avg. frequency no more thant
1/14), you only expect to get 5 chance correspondences, though below 14
the expected number starts to climb dramatically. (At 5 the expected number
is 40).
<BR> 
<BR> The next question is how far above the average do we have to
get before coincidence becomes an absurdly unlikely explanation. There
is a formula for this, but I won't go through it since this post has gotten
long. But here is one example: In the case where two langauges both have
20 consonants evenly distributed (or more realistically in comparing two
consonants in two languages both of which have a frequency of 5% in the
word-position being compared in their respective languages), the probabilty
of finding more than 5 correspondences (i.e. 6 or more) in a 100 wd. sample
is 0.000000356, or roughly 1 in 2.8 million. (The chance of finding 5 or
more is roughly 1 in 163,000.) So in this set of circumstances "6 or more"
(i.e a single correspondence set occuring in a given position-- say
 word-initially--
in 6 or more words) should be pretty well conclusive for demonstrating
a non-chance and hence almost certainly historical (genetic or contact)
relationship.
<BR> 
<BR> I think that working all this out mathematically is interesting
and important for compartive linguistics for two reasons. First it means
that if you apply the comparison strictly (allow only one-to-one word
 comparisons,
and one-to-one phoneme comparisons) you can get more knowledge from less
information-- you can potentially demonstrate a relationship with much
less data than comparativists have traditionally thought necessary. This
is important to me, because I work in Afroasiatic, where the perpetual
concern is exactly how to get more knowledge with less information (few
old texts for most langauges).

<P>    But the other side of this is that the mathematics
makes it perfectly clear that if you relax the semantic and phonemic criteria
far enough, you quickly come to a point where the expected number of chance
correspondences becomes so high, that it becomes practically impossible
to mount an effective demonstration of a relationship. The relevant parameters
are number of comparisons and frequency of consonants. If you allow for
comparison of each word with a wide range of semantically close words you
multiply the number of comparisons and effectively increase the sample
size. (A pair of 1000 wd-lists with one-to-one matching is the same
 mathematically
as two 100 wd. lists with each word compared with 10 words in the other
language-- both give 1000 pairs or trials).  Going back to the previous
example with frequency of 5% for each consonant the number of matches you
need to get to the 1 in a million or better range for different samples
sizes are: 200-8, 500-10, 1000-14, 2000-19. In other words although the
average number of expected chance correspondences increases geometrically
with sample size, the number needed for reasonable certainty of non-chance
goes up at a higher rate. If you are considering each word in a 1000 wd
list against 20 or 30 semantically close words, the effective sample size--
and hence the number of matches needed to demonstrate a non-chance
 relationship--
becomes gigantic. (I don't have a calculator powerful enough to calculate
it though, sorry.) Similarly If you allow many-to-many phoneme matchings,
you effectively increase the frequency. If you compare two systems of 15
consonants at 3 points of articulation one-to-one the chance of a match
is on average 1/15 squared. The expected number of chance matches in a
1000 word sample is between 4 and 5 (4.44)-- reasonable. The chance of
matching any two consonants at the same point of articulation  is
1/3 squared. In a 1000 wd. sample the expected number of chance matches
is 111-- a big jump.

<P>Thus with very loose criteria, the comparatist is in the paradoxical
position of having to prove the existence of hundreds of "bad" (random)
correspondences in order to have any confidence of having found in any
good ones (ones which actually reflect language history). And if there
really are any good correspondences, the problem of how to pick them out
from all the random "noise" which is certain to be there is daunting.
<BR> 
<BLOCKQUOTE TYPE=CITE> </BLOCKQUOTE>
  -- <FONT FACE="Times New
 Roman,Times">-----------------------------------------------------------</FONT>
<BR><FONT FACE="Times New Roman,Times">Robert R. Ratcliffe</FONT>
<BR><FONT FACE="Times New Roman,Times">Associate Professor, Arabic and
Linguistics,</FONT>
<BR><FONT FACE="Times New Roman,Times">Dept. of Linguistics and Information
Science</FONT>
<BR><FONT FACE="Times New Roman,Times">Tokyo University of Foreign
 Studies</FONT>
<BR><FONT FACE="Times New Roman,Times">Asahi-machi 3-11-1,</FONT>
<BR><FONT FACE="Times New Roman,Times">Fuchu-shi, Tokyo</FONT>
<BR><FONT FACE="Times New Roman,Times">183-8534 Japan</FONT>
<BR> 
</BODY>
</HTML>