<HTML dir=ltr><HEAD>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.3132" name=GENERATOR></HEAD>
<BODY>
<DIV id=idOWAReplyText9239 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>
<DIV id=idOWAReplyText11777 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>Yes, thanks for this...</FONT></DIV>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>I've seem the discussion in Scott and Tribble, including (I think this is what you're referring to) Key-key words et al. The authors here obviously recognise the 'problem', and key key words lists, which indicate how many texts terms are key in, are certainly helpful in identifying problems of dispersion 'by eye'.</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>I am now really looking for the 'next step', a measurement which treats the number of texts as an important value in its own right, since from a common sense perspective the number of texts a word is key in seems a more powerful predicor of of its overall significance in a <EM>collection</EM> of texts than a 'raw' keyness (log-like, chi square, whatever) statistic that doesn't take it into account. What do others think?</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>thanks though-the Scott and tribble book is a goody...</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV></DIV></FONT></DIV></DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> Ute Römer [mailto:ute.roemer@engsem.uni-hannover.de]<BR><B>Sent:</B> Mon 09/07/2007 13:49<BR><B>To:</B> Hunter, Duncan; corpora@uib.no<BR><B>Subject:</B> RE: [Corpora-List] Keyness across Texts<BR></FONT><BR></DIV>
<DIV dir=ltr>
<DIV dir=ltr align=left><SPAN class=517153912-09072007><FONT color=#000080>Dear Duncan, </FONT></SPAN></DIV>
<DIV dir=ltr align=left><SPAN class=517153912-09072007><FONT color=#000080></FONT></SPAN> </DIV>
<DIV dir=ltr align=left><SPAN class=517153912-09072007><FONT color=#000080>You may want to check Mike Scott's and Christopher Tribble's book <EM>Textual Patterns</EM> (Benjamins, 2006, browsable at <A href="http://site.ebrary.com/pub/benjamins/Doc?isbn=9789027222930">http://site.ebrary.com/pub/benjamins/Doc?isbn=9789027222930</A>) which contains some very useful chapters on keyness and aboutness (chs. 4 and 5 if I remember correctly) and discusses different ways of identifying keywords in texts and corpora, and of interpreting the search output. </FONT></SPAN></DIV>
<DIV dir=ltr align=left><SPAN class=517153912-09072007><FONT color=#000080></FONT></SPAN> </DIV>
<DIV dir=ltr align=left><SPAN class=517153912-09072007><FONT color=#000080>Best wishes... Ute</FONT></SPAN></DIV>
<DIV dir=ltr align=left><SPAN class=517153912-09072007><FONT color=#000080></FONT></SPAN> </DIV>
<DIV><FONT color=#000080></FONT> </DIV>
<DIV>
<DIV align=left>************************************************************</DIV>
<DIV> </DIV>
<DIV>Dr. Ute Römer<BR>English Department<BR>Leibniz University of Hanover<BR>Königsworther Platz 1<BR>30167 Hannover<BR>Germany</DIV>
<DIV> </DIV>
<DIV>Phone: +49 (0)511 762 2997<BR>Fax: +49 (0)511 762 2996<BR>Please note NEW e-mail address: <A title=mailto:ute.roemer@engsem.uni-hannover.de href="">ute.roemer@engsem.uni-hannover.de</A><BR><A title=http://www.uteroemer.com/ href="">http://www.uteroemer.com</A><BR><A href="">http://www.engsem.uni-hannover.de/angli/</A><BR></DIV></DIV><BR>
<BLOCKQUOTE dir=ltr style="PADDING-LEFT: 5px; MARGIN-LEFT: 5px; BORDER-LEFT: #000080 2px solid; MARGIN-RIGHT: 0px">
<DIV class=OutlookMessageHeader lang=de dir=ltr align=left>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> owner-corpora@lists.uib.no [mailto:owner-corpora@lists.uib.no] <B>On Behalf Of </B>Hunter, Duncan<BR><B>Sent:</B> Monday, July 09, 2007 2:30 PM<BR><B>To:</B> corpora@uib.no<BR><B>Subject:</B> [Corpora-List] Keyness across Texts<BR></FONT><BR></DIV>
<DIV></DIV>
<DIV id=idOWAReplyText50502 dir=ltr>
<DIV dir=ltr><FONT color=#0000ff>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT face="Times New Roman" color=#000000>Hello Colleagues! </FONT></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT face="Times New Roman" color=#000000></FONT> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT face="Times New Roman" color=#000000>A question about ‘key-ness’, and key words, in a group of texts…</FONT></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN><FONT face="Times New Roman" color=#000000></FONT></SPAN> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT face="Times New Roman" color=#000000>I’ve been mulling over some ‘key-ness’ statistics for a selection of texts I’ve been studying and a rather odd question has occurred to me….</FONT></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT face="Times New Roman" color=#000000>I’ve been attempting to discover something of the thematic content or ‘about-ness’ of a group of texts by using a keywords analysis, comparing the word frequency profile of the selection of texts with a comparative group to derive ‘key-ness’ (via log-likelihood) stats for each word. </FONT></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT face="Times New Roman" color=#000000></FONT> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT face="Times New Roman"><FONT color=#000000>The key-ness value returned by such a procedure can be misleading because of the problem of dispersal; is the word <SPAN style="COLOR: black">‘key’ because it occurs in a lot of text samples in the corpus or because of a very high usage in only a single text or small group of texts?</SPAN></FONT></FONT></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000></FONT></SPAN> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000>It occurs to me; would it be possible to formulate some kind of measure of a word’s ‘overall key-ness’ in the set of texts we are studying? By multiplying together the word’s key score by the number of texts in which it is key, for example. Of course the resulting figure in this case would be totally arbitrary in a sense-even in the non-parametric realm of corpus comparison measurement it would not really ‘mean’ anything beyond its own description...</FONT></SPAN></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"></SPAN> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000>However it seems to me useful to have some kind of quantitative means of describing a word’s significance across a range of texts in some way…</FONT></SPAN><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000>Any ideas?  <SPAN style="COLOR: black">I am a relative 'newbie' in this field, surely this issue has been tackled by somebody else somewhere?</SPAN><SPAN style="COLOR: black"> !</SPAN></FONT></SPAN></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000><SPAN style="COLOR: black"></SPAN></FONT></SPAN> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000><SPAN style="COLOR: black">All the best,</SPAN></FONT></SPAN></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000><SPAN style="COLOR: black"></SPAN></FONT></SPAN> </P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="COLOR: black"><FONT face="Times New Roman" color=#000000><SPAN style="COLOR: black">Duncan Hunter</SPAN></P></FONT></SPAN><A href="http://valibel.fltr.ucl.ac.be/"></A></FONT></DIV></DIV></BLOCKQUOTE></DIV></BODY></HTML>