<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=iso-8859-1">
<meta name=Generator content="Microsoft Word 11 (filtered medium)">
<!--[if !mso]>
<style>
v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style>
<![endif]-->
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:"Trebuchet MS";
        panose-1:2 11 6 3 2 2 2 2 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman";}
p.MsoToc1, li.MsoToc1, div.MsoToc1
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman";}
a:link, span.MsoHyperlink
        {color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {color:purple;
        text-decoration:underline;}
p.Disscorpusexamples, li.Disscorpusexamples, div.Disscorpusexamples
        {margin-top:6.0pt;
        margin-right:0cm;
        margin-bottom:0cm;
        margin-left:0cm;
        margin-bottom:.0001pt;
        text-align:justify;
        line-height:150%;
        font-size:11.0pt;
        font-family:"Times New Roman";}
p.Disscorpusexamplenotfirst, li.Disscorpusexamplenotfirst, div.Disscorpusexamplenotfirst
        {margin-top:0cm;
        margin-right:0cm;
        margin-bottom:0cm;
        margin-left:35.45pt;
        margin-bottom:.0001pt;
        text-align:justify;
        text-indent:-35.45pt;
        line-height:150%;
        font-size:11.0pt;
        font-family:"Times New Roman";}
p.Disscorpusexamplesfirst, li.Disscorpusexamplesfirst, div.Disscorpusexamplesfirst
        {margin-top:6.0pt;
        margin-right:0cm;
        margin-bottom:0cm;
        margin-left:35.45pt;
        margin-bottom:.0001pt;
        text-align:justify;
        text-indent:-35.45pt;
        line-height:150%;
        font-size:11.0pt;
        font-family:"Times New Roman";}
p.Disscorpusexamplelast, li.Disscorpusexamplelast, div.Disscorpusexamplelast
        {margin-top:0cm;
        margin-right:0cm;
        margin-bottom:6.0pt;
        margin-left:35.45pt;
        text-align:justify;
        text-indent:-35.45pt;
        line-height:150%;
        font-size:11.0pt;
        font-family:"Times New Roman";}
p.Disscorpusexampleonlyone, li.Disscorpusexampleonlyone, div.Disscorpusexampleonlyone
        {margin-top:6.0pt;
        margin-right:0cm;
        margin-bottom:6.0pt;
        margin-left:35.45pt;
        text-align:justify;
        text-indent:-35.45pt;
        line-height:150%;
        font-size:11.0pt;
        font-family:"Times New Roman";}
p.dissreferences, li.dissreferences, div.dissreferences
        {margin-top:0cm;
        margin-right:0cm;
        margin-bottom:0cm;
        margin-left:35.45pt;
        margin-bottom:.0001pt;
        text-align:justify;
        text-indent:-35.45pt;
        font-size:12.0pt;
        font-family:"Times New Roman";}
p.TOCEbene1, li.TOCEbene1, div.TOCEbene1
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:14.0pt;
        font-family:"Times New Roman";
        font-weight:bold;}
p.Formatvorlage1, li.Formatvorlage1, div.Formatvorlage1
        {margin-top:0cm;
        margin-right:35.45pt;
        margin-bottom:6.0pt;
        margin-left:35.45pt;
        text-align:justify;
        font-size:10.0pt;
        font-family:"Times New Roman";}
span.E-MailFormatvorlage26
        {mso-style-type:personal-reply;
        font-family:Arial;
        color:navy;
        font-weight:normal;
        font-style:normal;
        text-decoration:none none;}
@page Section1
        {size:595.3pt 841.9pt;
        margin:70.85pt 70.85pt 2.0cm 70.85pt;}
div.Section1
        {page:Section1;}
-->
</style>

</head>

<body lang=DE link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal><font size=3 face="Times New Roman"><span lang=EN-GB
style='font-size:12.0pt'>I think what Belén refers to is Chomsky's criticism
(in <i><span style='font-style:italic'>Aspects of the Theory of Syntax</span></i>,
1965) of the 'defective' kind of (E-)language corpora may contain. I quote from
a recent article by Jan Aarts (entitled "</span></font><span lang=EN-US>Does
corpus linguistics exist? Some old and new issues", published in
Anna-Brita Stenström's festschrift, 2002?; sorry, I don't have the exact
reference at hand)</span><span lang=EN-US> </span><span lang=EN-GB>which
includes the Chomsky 1965 quote:<o:p></o:p></span></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span lang=EN-GB
style='font-size:12.0pt'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span lang=EN-GB
style='font-size:12.0pt'>"At the same time it must be said that there is a
not inconsiderable number of utterances that one comes across in corpora but
will look in vain for in descriptive grammars of language use. Among them are
broken-off sentences, false starts, repetitions of phonemes, morphemes, words
and (parts of) larger constituents, anacolutha, stretches of text from other
languages or from sub-standard varieties, as well as utterances that the
speaker or writer <i><span style='font-style:italic'>intended</span></i> to be
ungrammatical; in short, corpora contain among other things evidence of
“such grammatically irrelevant conditions as memory limitations,
distractions, shifts of attention and interest and errors ...” Chomsky
1965: 3)."<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span lang=EN-GB
style='font-size:12.0pt'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span lang=EN-GB
style='font-size:12.0pt'>Best wishes... Ute<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span lang=EN-GB
style='font-size:12.0pt'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span lang=EN-GB
style='font-size:12.0pt'>Just found the reference on the Rodopi website: <o:p></o:p></span></font></p>

<p class=MsoNormal><font size=1 color=black face="Trebuchet MS"><span
lang=EN-GB style='font-size:9.0pt;font-family:"Trebuchet MS";color:black'>From
the COLT’s mouth ... and others’.<br>
Language Corpora Studies. In honour of Anna-Brita Stenström.<br>
BREIVIK, Leiv Egil and Angela HASSELGREN (Eds.)<br>
</span></font><font size=1 color=black face="Trebuchet MS"><span
style='font-size:9.0pt;font-family:"Trebuchet MS";color:black'>Amsterdam/New
York, NY, 2002, X, 260 pp.<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span lang=EN-GB
style='font-size:12.0pt'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
11.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
11.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>

<p class=MsoNormal><font size=2 color=navy face=Arial><span style='font-size:
11.0pt;font-family:Arial;color:navy'><o:p> </o:p></span></font></p>

<div style='border:none;border-left:solid blue 1.5pt;padding:0cm 0cm 0cm 4.0pt'>

<div>

<div class=MsoNormal align=center style='text-align:center'><font size=3
face="Times New Roman"><span style='font-size:12.0pt'>

<hr size=2 width="100%" align=center tabindex=-1>

</span></font></div>

<p class=MsoNormal><b><font size=2 face=Tahoma><span style='font-size:10.0pt;
font-family:Tahoma;font-weight:bold'>From:</span></font></b><font size=2
face=Tahoma><span style='font-size:10.0pt;font-family:Tahoma'> owner-corpora@lists.uib.no
[mailto:owner-corpora@lists.uib.no] <b><span style='font-weight:bold'>On Behalf
Of </span></b>Shlomo Izre'el<br>
<b><span style='font-weight:bold'>Sent:</span></b> Thursday, October 14, 2004
6:00 PM<br>
<b><span style='font-weight:bold'>To:</span></b> Corpora list<br>
<b><span style='font-weight:bold'>Subject:</span></b> [Corpora-List] Re:
Chomsky</span></font><o:p></o:p></p>

</div>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'><o:p> </o:p></span></font></p>

<p class=MsoNormal style='margin-bottom:12.0pt'><font size=3
face="Times New Roman"><span style='font-size:12.0pt'>I don't have the original
by Leech, but here is what I have in my files:<br>
<?fontfamily><?param Arial>"Any natural corpus will be skewed. Some
sentences won't occur because they are obvious, others because they are false,
still others because they are impolite. The corpus, if natural, will be so
wildly skewed that the description would be no more than a mere list."<br>
(Chomsky in Leech, The State of the Art in Corpus Linguistics, 1991, p. 8)<br>
Shlomo Izre'el<br>
<br>
<?/fontfamily>On Oct 14, 2004, at 4:08 PM, Bob Knippen wrote:<o:p></o:p></span></font></p>

<p class=MsoNormal style='margin-bottom:12.0pt'><font size=3
face="Times New Roman"><span style='font-size:12.0pt'><br>
<br>
Mª Belén Díez Bedmar wrote:<br>
<br>
> I'm looking for the exact bibliographical reference where we can find<br>
> Chomsky's idea that a corpus presents a language that is defective or<br>
> corrupted.<br>
<br>
To my knowledge, he never says any such thing.<br>
<br>
He does say, in several places (Syntactic Structures, 1957 comes to<br>
mind), that corpora do not provide the kind of information about<br>
linguistic competence that Linguistics ought to be after.<br>
<br>
In particular, he says that corpora do not provide information about<br>
what is ungrammmatical, and he says something to the effect that<br>
corpora, being finite, do not shed light on the infinite generative<br>
capacity of language. (That is, a statistical model based on a<br>
particular corpus is not a model of the language in general).<br>
<br>
I very much doubt he wrote that a corpus presents a language that is<br>
defective or corrupted.<br>
<br>
Bob<br>
<br>
<br>
-- <br>
Bob Knippen <br>
Computer Science Department<br>
110 Volen Center<br>
Mail Stop 018<br>
Brandeis University <br>
415 South Street <br>
Waltham, MA 02254-9110 <br>
781-736-2745 <br>
http://www.cs.brandeis.edu/~knippen<br>
<br>
<br>
<br>
+++++++++++++++++++++++++++++++++++++++++++<br>
This Mail Was Scanned By Mail-seCure System<br>
at the Tel-Aviv University CC.<br>
<br>
<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 face="Times New Roman"><span style='font-size:
12.0pt'>_______________________________________________________<br>
Shlomo Izre'el<br>
Professor of Semitic Linguistics<br>
Department of Hebrew and Semitic Languages<br>
Webb Building #516<br>
Tel Aviv University Home address:<br>
POB 39040 Simtat Neve-Tsedek 7<br>
IL-61390 Tel Aviv IL-65154 Tel Aviv<br>
Israel Israel<br>
Tel. +972-3-640 5016 Tel. +972-3-517 5341<br>
Fax. +972-3-640 7031 Fax. +972-3-510 1867<br>
+972-3-640 9457 <br>
izreel@post.tau.ac.il<br>
http://www.tau.ac.il/humanities/semitic/izreel.html<br>
<br>
The Corpus of Spoken Israeli Hebrew:<br>
http://www.tau.ac.il/humanities/semitic/maamad.html (Hebrew text)<br>
http://www.tau.ac.il/humanities/semitic/cosih.html (English text)<o:p></o:p></span></font></p>

</div>

</div>

</body>

</html>