<html>
  <head>
    <meta content="text/html; charset=ISO-8859-1"
      http-equiv="Content-Type">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    <div class="moz-cite-prefix">On 10/08/2012 09:15 AM, Trevor Jenkins
      wrote:<br>
    </div>
    <blockquote
      cite="mid:0616A5B6-E840-4EB4-9881-D3CD1BA5C7C9@suneidesis.com"
      type="cite">
      <div>At the moment we can't even measure the completeness of
        corpora for Dickens and Hemingway. This past year has been the
        200th anniversary of his birth and it is only now that much of
        his ephemera has become available through the Dickens Journals
        Online project <a moz-do-not-send="true"
          href="http://www.djo.org.uk/">http://www.djo.org.uk/</a> (to
        which I have no real connection other than being one of the team
        of volunteer proof-readers/copy-editors that worked on
        correcting the OCR errors in the online texts). Until that
        project we pretty much had only his fiction to analyse now we
        have his social observations too.<br>
        <font color="#0f61c8"><br>
        </font>Do we have a *<i>complete</i>* corpus for Hemingway?<br>
      </div>
    </blockquote>
    <br>
        We certainly have complete corpora of the widely published
    fictional works of Dickens and Hemingway.  Do we need to take
    Dickens' social observations into account?  Maybe, maybe not. 
    Completeness and representativeness all depend on your purpose.<br>
    <br>
        Yuri asked about homogeneity.  What are the implications for
    "more homogeneous" versus "less homogeneous"?  Could it just mean
    that Dickens had more careful (or scrupulous, rigid, or
    anal-retentive) editors than Hemingway?  I think "homogeneous" is
    too vague a term to be useful without further context.<br>
    <br>
    <pre class="moz-signature" cols="72">-- 
Angus B. Grieve-Smith
<a class="moz-txt-link-abbreviated" href="mailto:grvsmth@panix.com">grvsmth@panix.com</a></pre>
  </body>
</html>