Sinclair was wrong.<div><br></div><div>For the argument in more detail see the opening section of <span class="Apple-style-span" style="font-family: 'Times New Roman'; font-size: medium; ">Kilgarriff and Grefenstette 2003 <a href="http://kilgarriff.co.uk/Publications/2003-KilgGrefenstette-WACIntro.pdf">Introduction to the Special Issue on Web as Corpus.</a> <em>Computational Linguistics</em> 29 (3)</span></div>

<div>(which I wrote before reading Sinclair's revised version: since reading that, I use Sinclair as my protaganist (much more suitable than McEnery and Wilson, whom I quote but who, unlike Sinclair, don't really say anything I disagree with). </div>

<div><br></div><div>Adam</div><div><br><br><div class="gmail_quote">On 3 March 2010 06:45, Geoffrey Williams <span dir="ltr"><<a href="mailto:geoffrey.williams@univ-ubs.fr">geoffrey.williams@univ-ubs.fr</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">Dear Adam,<br>
<br>
Watering down of a discipline in order to take on board all comers is not<br>
a good thing. Far from strangling corpus linguistics Martin is reaffirming<br>
its very basis. Sinclair et al's OSTI report laid down the basics. These<br>
have been improved over the years, gaining greater clarity, until the 1996<br>
EAGLES definition was published. This was a benchmark until Sinclair's<br>
2005 revised version, discussed in detail in the book edited by Martin.<br>
<br>
Dumps are about rubbish, either legal or fly dumping. The results is still<br>
rubbish in rubbish out. Corpus linguistics has to have a benchmark,<br>
otherwisde it would cease to exist.<br>
<br>
However corpus linguistics does not have a monopoly on the word corpus<br>
which is somewhat polysemic. If a Wikipedia or other dump works for<br>
testing some commercial application or NLP project, then why not use it.<br>
On the other hand, don't say that corpus linguistics is being done.<br>
<br>
Corpora list is wealthy through the experience of many who use corpora in<br>
different ways. Not all are corpus linguists, neither should they be. It<br>
is esential however that those disciplines involved know their research<br>
protocols. This is what Martin's timely reminder is about.<br>
<br>
Perfection is difficult to achieve, but that does not make it a less<br>
worthwhile goal.<br>
<br>
Best<br>
<br>
Geoffrey<br>
<div><div></div><div class="h5"><br>
<br>
>> ...and a "dump" such as this couldn't be further from qualifying as a<br>
> corpus, if defined as "a > collection of pieces of language, selected and<br>
> ordered according to explicit linguistic criteria > in order to be used as<br>
> a<br>
> sample of the language.”<br>
><br>
> Sorry, Martin, but your definition of 'corpus' reads like it's designed to<br>
> strangle the life out of corpus linguistics. It begs questions about<br>
> selection and ordering (?? how does ordering come into it?) and explicit<br>
> linguistic criteria, and demotes many things that people refer to as<br>
> 'corpora' to a lower form of life.   Lexicographically, bad.<br>
><br>
> I think it's a dream of some corpus linguists as to what they think a<br>
> corpus<br>
> should be, not a fact about how the word is used.  But, delete the middle<br>
> clause and we're in agreement:<br>
>    "a collection of pieces of language, used as a sample of the language"<br>
><br>
> Adam<br>
><br>
> On 2 March 2010 22:55, Martin Wynne <<a href="mailto:martin.wynne@oucs.ox.ac.uk">martin.wynne@oucs.ox.ac.uk</a>> wrote:<br>
><br>
>> Francis Tyers wrote:<br>
>><br>
>>> El dt 02 de 03 de 2010 a les 12:38 +0100, en/na Xin Yan va escriure:<br>
>>><br>
>>><br>
>>><br>
>>>> Hello,<br>
>>>><br>
>>>> can anyone tell me, if there are some free text corpora for commercial<br>
>>>> purpose?<br>
>>>> Thank you in advance!<br>
>>>><br>
>>>><br>
>>><br>
>>> You can download dumps of Wikipedia from <a href="http://download.wikimedia.org" target="_blank">http://download.wikimedia.org</a><br>
>>> -- they are licensed under the CC-BY-SA or GFDL -- both of which allow<br>
>>> commercial use, providing changes made are redistributed under the same<br>
>>> licence.<br>
>>><br>
>>> Best regards,<br>
>>><br>
>>> Fran<br>
>>><br>
>>><br>
>>><br>
>>> _______________________________________________<br>
>>> Corpora mailing list<br>
>>> <a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
>>> <a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
>>><br>
>>><br>
>><br>
>> Dumps of wikipedia may be an interesting electronic text collection that<br>
>> can be used to help address various linguistic research questions, but I<br>
>> think that the request was for a corpus...and a "dump" such as this<br>
>> couldn't<br>
>> be further from qualifying as a corpus, if defined as "a collection of<br>
>> pieces of language, selected and ordered according to explicit<br>
>> linguistic<br>
>> criteria in order to be used as a sample of the language.”<br>
>><br>
>> The good news is that corpora are available. If you let us know what<br>
>> sort<br>
>> of corpus you are looking for and for what sort of commercial uses you<br>
>> intend to put them to, I am sure that there are plenty of people here on<br>
>> the<br>
>> mailing list who can help you.<br>
>><br>
>> Martin<br>
>> Oxford Text Archive<br>
>><br>
>><br>
>> _______________________________________________<br>
>> Corpora mailing list<br>
>> <a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
>> <a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
>><br>
><br>
><br>
><br>
> --<br>
> ================================================<br>
> Adam Kilgarriff<br>
> <a href="http://www.kilgarriff.co.uk" target="_blank">http://www.kilgarriff.co.uk</a><br>
> Lexical Computing Ltd                   <a href="http://www.sketchengine.co.uk" target="_blank">http://www.sketchengine.co.uk</a><br>
> Lexicography MasterClass Ltd      <a href="http://www.lexmasterclass.com" target="_blank">http://www.lexmasterclass.com</a><br>
> Universities of Leeds and Sussex       <a href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a><br>
> ================================================<br>
> _______________________________________________<br>
> Corpora mailing list<br>
> <a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
> <a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
><br>
<br>
<br>
</div></div>--<br>
Prof. Geoffrey Williams,<br>
Vice Président des Relations Internationales<br>
Professeur des universités en sciences du langage<br>
Directeur du département d'ingénierie du document<br>
UFR de Lettres, Sciences Humaines et Sociales<br>
Université de Bretagne-Sud<br>
4 rue Jean Zay,<br>
BP92116<br>
F-56321 LORIENT Cedex<br>
<br>
tél: +33 (0) 2 97 87 29 20<br>
fax: +33 (0) 2 97 87 65 25<br>
<br>
</blockquote></div><br><br clear="all"><br>-- <br>================================================<br>Adam Kilgarriff                                      <a href="http://www.kilgarriff.co.uk">http://www.kilgarriff.co.uk</a>              <br>

Lexical Computing Ltd                   <a href="http://www.sketchengine.co.uk">http://www.sketchengine.co.uk</a><br>Lexicography MasterClass Ltd      <a href="http://www.lexmasterclass.com">http://www.lexmasterclass.com</a><br>

Universities of Leeds and Sussex       <a href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a><br>================================================<br>
</div>