<HTML dir=ltr><HEAD>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.3132" name=GENERATOR></HEAD>
<BODY text=#000000 bgColor=#ffffff>
<DIV id=idOWAReplyText47373 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>Hi Mike,</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>Thanks for this-I have heard you mention a few of these points at conferences etc so it is good to have them in a written form I can refer to and take time to consider carefully.</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>I noted the appearance of the document frequency column in WS4 (in which one is it- Wordlist?) -a real advantage for researchers, I think. it would be great to have that same column of data available in all of the WS apps, IMO, but that might just selfishly refelct the purpose of my research! </FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>Your observation;</FONT></DIV>
<DIV dir=ltr><EM>The keyness as a number is not a very good indicator since terms which are rare in the language come out more key than those which are more frequent</EM></DIV>
<DIV dir=ltr> </DIV>
<DIV dir=ltr>which you mentioned at the recent 'Keyness in Texts' conference in Siena is what has made me think so carefully about other ways of sorting/ evaluating the data.</DIV>
<DIV dir=ltr> </DIV>
<DIV dir=ltr>Many thanks,</DIV>
<DIV dir=ltr> </DIV>
<DIV dir=ltr>Duncan </DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr> </DIV></DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> Mike Scott [mailto:mike@lexically.net]<BR><B>Sent:</B> Mon 09/07/2007 16:49<BR><B>To:</B> corpora@uib.no<BR><B>Cc:</B> Hunter, Duncan<BR><B>Subject:</B> Re: [Corpora-List] Keyness across Texts<BR></FONT><BR></DIV>
<DIV>Dear Duncan<BR><BR>NLP researchers prefer a statistic based on the "document-frequency" of a term as opposed to its "corpus frequency". When I originally built a keywords procedure for WordSmith, however, I used "corpus frequency". (If we take a hypothetical example of a text about elephants, the idea is to compare the frequency of the term elephant in that text and compare it not with the number of documents in the corpus which contain that term whether once or more often, but with the total accumulated frequency in the reference corpus of that term.) <BR>Since WordSmith 4, however, there has been the possibility of knowing each key-word's document frequency (the header column of the word-list from which it is derived calls this "Texts"), so I could incorporate a chance for users a) to see this for each KW, b) to sort on it. <BR><BR>I doubt whether the current keyness multiplied by the Texts column ("consistency" as I otherwise call it, and Nation calls it "range") would be useful though; I would think it better to consider keyness as a feature of the term in that sub-corpus or single text, with the chance to filter or re-sort according to consistency. For example as you know I find IT and DO to be key in certain Shakespeare texts. They are both extremely consistent terms. The keyness as a number is not a very good indicator since terms which are rare in the language come out more key than those which are more frequent. I regard it more like a threshold. If it gets over, it's key. Then we can secondarily sort eg. alphabetically. by consistency, by frequency in the sub-corpus or text, etc.<BR><BR>Cheers -- Mike<BR><BR>Hunter, Duncan wrote: 
<BLOCKQUOTE cite="" type="cite">
<DIV id=idOWAReplyText50502 dir=ltr>
<DIV dir=ltr><FONT color=#0000ff>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT face="Times New Roman" color=#000000>Hello Colleagues! </FONT></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT face="Times New Roman" color=#000000>A question about ‘key-ness’, and key words, in a group of texts…</FONT></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN></SPAN> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT face="Times New Roman" color=#000000>I’ve been mulling over some ‘key-ness’ statistics for a selection of texts I’ve been studying and a rather odd question has occurred to me….</FONT></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT face="Times New Roman" color=#000000>I’ve been attempting to discover something of the thematic content or ‘about-ness’ of a group of texts by using a keywords analysis, comparing the word frequency profile of the selection of texts with a comparative group to derive ‘key-ness’ (via log-likelihood) stats for each word. </FONT></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT face="Times New Roman"><FONT color=#000000>The key-ness value returned by such a procedure can be misleading because of the problem of dispersal; is the word <SPAN style="COLOR: black">‘key’ because it occurs in a lot of text samples in the corpus or because of a very high usage in only a single text or small group of texts?</SPAN></FONT></FONT></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"></SPAN> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000>It occurs to me; would it be possible to formulate some kind of measure of a word’s ‘overall key-ness’ in the set of texts we are studying? By multiplying together the word’s key score by the number of texts in which it is key, for example. Of course the resulting figure in this case would be totally arbitrary in a sense-even in the non-parametric realm of corpus comparison measurement it would not really ‘mean’ anything beyond its own description...</FONT></SPAN></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"></SPAN> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000>However it seems to me useful to have some kind of quantitative means of describing a word’s significance across a range of texts in some way…</FONT></SPAN><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000>Any ideas?  <SPAN style="COLOR: black">I am a relative 'newbie' in this field, surely this issue has been tackled by somebody else somewhere?</SPAN><SPAN style="COLOR: black"> !</SPAN></FONT></SPAN></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000><SPAN style="COLOR: black"></SPAN></FONT></SPAN> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000><SPAN style="COLOR: black">All the best,</SPAN></FONT></SPAN></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000><SPAN style="COLOR: black"></SPAN></FONT></SPAN> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000><SPAN style="COLOR: black">Duncan Hunter</SPAN></FONT></SPAN></P></FONT></DIV></DIV></BLOCKQUOTE><BR><PRE class=moz-signature cols="72">-- 
Mike Scott

***
If you publish research which uses WordSmith, do let me know so I can include it at
<A class=moz-txt-link-freetext href="http://www.lexically.net/wordsmith/corpus_linguistics_links/papers_using_wordsmith.htm">http://www.lexically.net/wordsmith/corpus_linguistics_links/papers_using_wordsmith.htm</A>
***
School of English
University of Liverpool
Liverpool L69 3BX, UK.
<A class=moz-txt-link-abbreviated href="http://www.lexically.net/">www.lexically.net</A>
<A class=moz-txt-link-abbreviated href="http://www.liv.ac.uk/~ms2928">www.liv.ac.uk/~ms2928</A></PRE></DIV></BODY></HTML>