<div dir="ltr">Dear Brian,<div><br></div><div>Are the 300-400 texts from 300-400 different people?  If yes, then, if you use document frequencies ("how many documents does this word/construction/... occur in") rather than "how many times does it occur" you will cancel out skews based on particular people.  </div>

<div><br></div><div>If the texts are all the result of the same essay question, or a limited number of essay questions, then of course you have the bias related to what the students were being asked to write about.</div>
<div>
<br></div><div>I'm a sceptic about statistical significance testing (for the full argument see<a href="http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.100.6901&rep=rep1&type=pdf"> here</a>)  - the main thing is to have a good understanding of the structure of your sample, and the ways that is likely to introduce bias</div>

<div><br></div><div>Adam</div><div><br></div><div> </div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On 3 March 2014 11:02, Don Tuggener <span dir="ltr"><<a href="mailto:tuggener@cl.uzh.ch" target="_blank">tuggener@cl.uzh.ch</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi Brian,<br>
<br>
I'm guessing you're looking for tests that help you identify statistical significance of your query results?<br>
A good starting point may be:<br>
2010f. Gries, Stefan Th. Useful statistics for corpus linguistics. In Aquilino Sánchez & Moisés Almela (eds.), A mosaic of corpus linguistics: selected approaches, 269-291. Frankfurt am Main: Peter Lang.<br>
(<a href="http://www.linguistics.ucsb.edu/faculty/stgries/research/overview-research.html" target="_blank">http://www.linguistics.ucsb.edu/faculty/stgries/research/overview-research.html</a>)<br>
<br>
Best,<br>
Don<br>
<br>
On Mon, 03 Mar 2014 11:28:35 +0100<br>
<a href="mailto:corpora-request@uib.no">corpora-request@uib.no</a> wrote:<br>
<br>
> Message: 3<br>
> Date: Fri, 28 Feb 2014 11:16:11 -0500<br>
> From: Brian Schanding <<a href="mailto:bschanding@gmail.com">bschanding@gmail.com</a>><br>
> Subject: [Corpora-List] Considering Distributions Across Texts<br>
> To: <a href="mailto:corpora@uib.no">corpora@uib.no</a><br>
<div class="HOEnZb"><div class="h5">><br>
> Hello,<br>
><br>
> I'm working on research with learner corpora. My corpora aren't that big<br>
> (approx. 250,000 wds with about 300-400 text files). I wonder what<br>
> research/textbook sources anyone can point me to that discuss the<br>
> importance of considering how many texts in the corpus a language feature<br>
> occurs in (as opposed to merely considering overall frequency of a language<br>
> feature within a corpus).<br>
><br>
> Many Thanks!<br>
> Brian<br>
<br>
_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br>========================================<br><a href="http://www.kilgarriff.co.uk/" target="_blank">Adam Kilgarriff</a>                  <a href="mailto:adam@lexmasterclass.com" target="_blank">adam@lexmasterclass.com</a>                                             <br>

Director                                    <a href="http://www.sketchengine.co.uk/" target="_blank">Lexical Computing Ltd</a>                <br>Visiting Research Fellow                 <a href="http://leeds.ac.uk" target="_blank">University of Leeds</a>     <div>

<i><font color="#006600">Corpora for all</font></i> with <a href="http://www.sketchengine.co.uk" target="_blank">the Sketch Engine</a>                 </div><div>                        <i><a href="http://www.webdante.com" target="_blank">DANTE: <font color="#009900">a lexical database for English</font></a><font color="#009900"> </font>                 </i><div>

========================================</div></div>
</div>