<html>

<head>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">


<meta name=Generator content="Microsoft Word 10 (filtered)">

<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        text-align:justify;
        font-size:10.0pt;
        font-family:Verdana;}
a:link, span.MsoHyperlink
        {color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {font-family:Arial;
        color:windowtext;}
@page Section1
        {size:595.3pt 841.9pt;
        margin:72.0pt 90.0pt 72.0pt 90.0pt;}
div.Section1
        {page:Section1;}
 /* List Definitions */
 ol
        {margin-bottom:0cm;}
ul
        {margin-bottom:0cm;}
-->
</style>

</head>

<body lang=EN-US link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal><font size=2 face=Verdana><span lang=EN-GB style='font-size:
10.0pt'>I, like a lot of people, am interested in the idea of using the web as
a data source for corpus construction.</span></font></p>

<p class=MsoNormal><font size=2 face=Verdana><span lang=EN-GB> </span></font></p>

<p class=MsoNormal><font size=2 face=Verdana><span lang=EN-GB style='font-size:
10.0pt'>Saying that, I have some basic questions that I’d really
appreciate hearing views on.</span></font></p>

<p class=MsoNormal><font size=2 face=Verdana><span lang=EN-GB> </span></font></p>

<ol start=1 type=1>
 <li class=MsoNormal><font size=2 face=Verdana><span lang=EN-GB
     style='font-size:10.0pt'>What do (various groups of) users of corpora
     actually want, need or wish for from a corpus: and, would ‘web-text’
     meet these requirements?</span></font></li>
 <li class=MsoNormal><font size=2 face=Verdana><span lang=EN-GB
     style='font-size:10.0pt'>What are user’s selection criteria –
     in choosing a corpus?</span></font></li>
 <li class=MsoNormal><font size=2 face=Verdana><span lang=EN-GB
     style='font-size:10.0pt'>Does anyone know: what kinds of texts are
     available on the web, of what quality, and in what quantities (is there any
     data on this)?</span></font></li>
 <li class=MsoNormal><font size=2 face=Verdana><span lang=EN-GB
     style='font-size:10.0pt'>How would one estimate the necessary size of a
     corpus (to be useful for some purpose) built from web-texts using sampling
     theory etc?</span></font></li>
</ol>

<p class=MsoNormal style='margin-left:18.0pt'><font size=2 face=Verdana><span
lang=EN-GB> </span></font></p>

<p class=MsoNormal style='margin-left:18.0pt'><font size=2 face=Verdana><span
lang=EN-GB style='font-size:10.0pt'>If anyone knows of any papers on any/all of
this – please do tell!</span></font></p>

<p class=MsoNormal style='margin-left:18.0pt'><font size=2 face=Verdana><span
lang=EN-GB> </span></font></p>

<p class=MsoNormal style='margin-left:18.0pt'><font size=2 face=Verdana><span
lang=EN-GB style='font-size:10.0pt'>I’d also be interested in opinions on
the statement (in answer to ‘3’), ‘who can tell?’, i.e.
it’s nonsensical  to even ask ‘3’, because, as the web
is constantly changing, what can really be said about quantity, quality and the
text-types available etc??  Does this also invalidate the second part of ‘1’
– if one cannot tell what one might find, how could one judge ahead of
time whether or not it’d meet ‘any’ requirement?</span></font></p>

<p class=MsoNormal style='margin-left:18.0pt'><font size=2 face=Verdana><span
lang=EN-GB> </span></font></p>

<p class=MsoNormal style='margin-left:18.0pt'><font size=2 face=Verdana><span
lang=EN-GB style='font-size:10.0pt'>Lastly, I think that the web contains some text-types
that are unique to it, e.g., chat-room and blog texts.  However, I’m
on a sticky wicket as I have no proof that that such text-types actually differ
from texts found in conventional corpora.  Does anyone know if there has
been any examination of this type of prose at all?  OR, if there hasn’t,
can someone suggest how such an examination could be achieved?</span></font></p>

<p class=MsoNormal style='margin-left:18.0pt'><font size=2 face=Verdana><span
lang=EN-GB> </span></font></p>

<p class=MsoNormal style='margin-left:18.0pt'><font size=2 face=Verdana><span
lang=EN-GB style='font-size:10.0pt'>Many thanks,</span></font></p>

<p class=MsoNormal><font size=2 color=blue face="Courier New"><span lang=EN-GB
style='font-size:10.0pt;font-family:"Courier New";color:blue'>peetm</span></font></p>

<p class=MsoNormal><font size=2 color=blue face="Courier New"><span lang=EN-GB
style='font-size:10.0pt;font-family:"Courier New";color:blue'>email:
peet.morris@clg.ox.ac.uk</span></font></p>

<p class=MsoNormal><font size=2 color=blue face="Courier New"><span lang=EN-GB
style='font-size:10.0pt;font-family:"Courier New";color:blue'>addr:
Computational Linguistics Group</span></font></p>

<p class=MsoNormal><font size=2 color=blue face="Courier New"><span lang=EN-GB
style='font-size:10.0pt;font-family:"Courier New";color:blue'>     
</span></font><font color=blue face="Courier New"><span lang=EN-GB
  style='font-family:"Courier New";color:blue'>University</span></font><font
 color=blue face="Courier New"><span lang=EN-GB style='font-family:"Courier New";
 color:blue'> of </span></font><font color=blue face="Courier New"><span
  lang=EN-GB style='font-family:"Courier New";color:blue'>Oxford</span></font></p>

<p class=MsoNormal><font size=2 color=blue face="Courier New"><span lang=EN-GB
style='font-size:10.0pt;font-family:"Courier New";color:blue'>     
The Clarendon Institute</span></font></p>

<p class=MsoNormal><font size=2 color=blue face="Courier New"><span lang=EN-GB
style='font-size:10.0pt;font-family:"Courier New";color:blue'>     
</span></font><font color=blue face="Courier New"><span lang=EN-GB
  style='font-family:"Courier New";color:blue'>Walton Street</span></font></p>

<p class=MsoNormal><font size=2 color=blue face="Courier New"><span lang=EN-GB
style='font-size:10.0pt;font-family:"Courier New";color:blue'>     
</span></font><font color=blue face="Courier New"><span lang=EN-GB
  style='font-family:"Courier New";color:blue'>Oxford</span></font></p>

<p class=MsoNormal><font size=2 color=blue face="Courier New"><span lang=EN-GB
style='font-size:10.0pt;font-family:"Courier New";color:blue'>     
OX1 2HG</span></font></p>

<p class=MsoNormal><font size=2 color=navy face="Courier New"><span lang=EN-GB
style='font-size:10.0pt;font-family:"Courier New";color:navy'>=======================================</span></font></p>

<p class=MsoNormal><font size=1 color=navy face="Courier New"><span lang=EN-GB
style='font-size:8.0pt;font-family:"Courier New";color:navy'>Important: This
email is intended for the use of the individual addressee(s) named above and
may contain information that is confidential, privileged or unsuitable for
overly sensitive persons with low self-esteem, no sense of humour or irrational
religious beliefs.</span></font></p>

<p class=MsoNormal><font size=1 color=navy face="Courier New"><span lang=EN-GB
style='font-size:8.0pt;font-family:"Courier New";color:navy'>If you are not the
intended recipient, then social etiquette demands that you fully appropriate
the message without trace of the former sender and triumphantly claim it as
your own. Leaving a former sender's signature on a "forwarded" email
is very bad form and, while being only a technical breach of the Olympic ideal,
does in fact constitute an irritating social faux pas.</span></font></p>

<p class=MsoNormal><font size=1 color=navy face="Courier New"><span lang=EN-GB
style='font-size:8.0pt;font-family:"Courier New";color:navy'>Further, sending
this email to a colleague does not appear to breach the provisions of the
Copyright Amendment (Digital Agenda) Act 2000 of the Commonwealth, because
chances are none of the thoughts contained in this email are in any sense
original...</span></font></p>

<p class=MsoNormal><font size=1 color=navy face="Courier New"><span lang=EN-GB
style='font-size:8.0pt;font-family:"Courier New";color:navy'>Finally, if you
have received this email in error, shred it immediately, then add it to some
nutmeg, egg whites and caster sugar. Whisk until stiff peaks form, then place it
in a warm oven for 40 minutes. Remove promptly and let it stand for 2 hours
before adding the decorative kiwi fruit and cream. Then notify me immediately
by return email and eat the original message.</span></font></p>

<p class=MsoNormal><font size=2 face=Verdana><span lang=EN-GB> </span></font></p>

</div>

</body>

</html>