John,<br><br>On 9/11/07, <b class="gmail_sendername">John F. Sowa</b> <<a href="mailto:sowa@bestweb.net">sowa@bestweb.net</a>> wrote:<div><span class="gmail_quote"></span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Rob,<br><br>I'll admit that something along those lines could be done:<br><br> > When I say "generalize grammar ad-hoc from examples as you go"<br> > I don't mean "as you develop your grammar". I mean "from
<br> > sentence-to-sentence."<br><br>But I don't believe that every sentence has a unique pattern.</blockquote><div><br>Thank you. This is a relevant objection I can argue against.<br><br>It is indeed hard to imagine you need to be able to make grammatical generalizations at the level of each use of each word. Nevertheless, I think it is so.
<br><br>There is nothing like an example.<br><br>Look at these "errors" made by ESL students (Peter Howarth, Phraseology and Second Language Acquisition, 1998<font size="-1"><span class="a">)</span></font>:<br><br>
"*Those learners usually _pay_ more _efforts_ in adopting a new language..." <br><br>"*_attempts_ and researches have been _done_ by psychologist..."<br><br>'*appropriate _policy_ to be _taken_ with regard to inspections'
<br><br>What is wrong with these if not generalization inappropriate to the context?<br><br>Note, we are used to this level of selection for lexicon. But here we see it in syntax, new combinations. We can see how the language gradually generalizes, but in a context specific way. In another context "done" and "made" would have been in the same class, but not in the context of "attempt" (
i.e. "done" and "made" are in the same class in the context of "study": "do/make a study", but they are not the same class in the context of "attempt".)<br></div><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
I used the term "nonce grammar" for a pattern that is unique<br>to a particular document (a much smaller corpus than a genre).<br>Following is an example:<br><br>     For this process the following transaction codes are used:
<br>     32 — loss on unbilled, 72 — gain on uncollected, and<br>     85 — loss on uncollected.  Any of these records that are<br>     actually taxes are bypassed.  Only client types 01 — Mar,<br>     05 — Internal Non/Billable, 06 — Internal Billable, and
<br>     08 — BAS are selected. This is determined by a GETBDATA<br>     call to the client file. The unit that the gain or loss<br>     is assigned to is supplied at the time of its creation in EBT.<br><br>This text came from a description of the data formats that were
<br>used by a certain program.  It's unlikely that any "broad coverage"<br>parser ever had a grammar rule of the following kind:<br><br>    S -> Integer "—" Phrase<br><br>But this short paragraph had seven occurrences of that peculiar
<br>sentence type.  A single occurrence of that pattern is extremely<br>unlikely, but if that pattern occurs once, then it is highly<br>likely that it will occur again.  The same principle applies<br>to a large number occurrences of what I call "nonce grammar":
<br><br>    A syntactic pattern that is highly unlikely, but if it occurs<br>    once in any document, it is likely to occur many times in that<br>    document.<br><br>This is an example of the kind of short-term extension to a
<br>natural language that people invent many, many times.  And<br>this kind of rare, but repeated pattern is something for<br>which suitable machine-learning programs could be written.</blockquote><div><br>If a usage repeats you don't want to generalize grammar for it each time, I agree. I think in this case it does become fixed in the grammar. I think that is what we call lexicon.
<br><br>-Rob</div></div>