<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
Thanks to Adam for remembering my interest in content analysis (CA).<br>
<br>
More than anything else, CA is intended to provide a comparative
analysis of the content of several texts, from open-ended questions in
questionnaires with 2 or 3 word answers to full texts. Quantitative CA
received its most prominent recognition when it was used to identify
the authors of the US Federalist papers, where distinctions among the
texts could be identified from the relative frequencies of function
words, including 'the'. CA is not used to "understand" texts; for this
we use the full range of techniques in NLP.<br>
<br>
CA has an extensive suite of methods, all of which depend on some
categorization of words. With a good underlying dictionary allowing
"polysemous" entries, a CA is capable of performing excellent
disambiguation. Quantitative profiles of texts essentially characterize
the "domain" of the text; this is a reflection of Yarowsky's principle
of "one sense per discourse." (Note that such profiles can actually be
used as a retrieval mechanism to identify similar texts.)<br>
<br>
Interrater reliability (particularly as initiated by Krippendorf) is
intended to assure reproducibility of results among subjective raters
(less of a problem when quantitative methods are used). Over 15 years
ago, I mentioned Krippendorf's alpha to Becky Passonneau and she became
an ardent supporter for this in CL studies. This has now received full
endorsement in our community via the recent CL paper.<br>
<br>
    Ken<br>
<br>
Hongyin Tao wrote:
<blockquote
 cite="mid:896cef8b0901251731l93f358bu761ac9cd4b875459@mail.gmail.com"
 type="cite">
  <p>Thanks to Adam and everyone for the useful references. Perhaps I
should clarify my subject line a bit. When I read passages like the
following as reported by the journalist (of course without checking the
actual study), it made me to think that a corpus linguist would do more
than just looking at individual words alone:<br>
  </p>
  <p>"The researchers read through the conversations, noting the
context of
the IM threads. Then, they used a linguistic word count program to
analyze the conversations' pronouns and words with emotional content. </p>
  <p>
Among pronouns in IMs, couples used "I" nearly 20 times more frequently
than "we." And of the emotion words, all couples were most likely to
use positive words. </p>
  <p>
"We found that the extent to which people used positive emotion words
like 'great,' 'happy,' 'love,' tended to be happier in their
relationships and to stay in their relationships for a longer period of
time," Slatcher said." </p>
While individual words are useful to look into,
combinations/collocations would be equally, if not more, important in
understanding texts. This is of course not exactly an earth-shattering
discovery to folks on this list. <br>
  <br>
Hongyin<br>
  <br>
  <div class="gmail_quote">On Sat, Jan 24, 2009 at 10:55 PM, Adam
Kilgarriff <span dir="ltr"><<a moz-do-not-send="true"
 href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a>></span>
wrote:<br>
  <blockquote class="gmail_quote"
 style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
    <div>Dear Hongyin Tao</div>
    <div> </div>
    <div>this isn't layperson's corpus linguistics, it's another
discipline called Content Analysis, which has been around for longer
than corpus linguistics but has remarkably little crossover of
references and interest despite simialrity of methods - the only person
I know of who has explicitly linked the two approaches is Ken Litkowski.</div>
    <div> </div>
    <div>From the little I know, CA blossomed as a method of propoganda
analysis in the US in the 60s, and now lives on particularly in
psychotherapy and related areas, as in the news clip you show.  One big
famous system was called General Enquirer.  They developed very large
lexicons withe words marked up for whether they were positive or
negative, etc, adn also did lots of work on WSD, as polysemy was
aproblem for their method.</div>
    <div> </div>
    <div>Refs</div>
    <div> </div>
    <div>Harvard IV Psycho-Sociological Dictionary (<b>Kelly</b> & <b>Stone</b>,
1975).</div>
    <div> </div>
    <div><a moz-do-not-send="true"
 href="http://en.wikipedia.org/wiki/Content_analysis" target="_blank">http://en.wikipedia.org/wiki/Content_analysis</a><br>
    </div>
    <div>or for the abstract of a psychological piece using it, with a
decent intro, see <a moz-do-not-send="true"
 href="http://www.informaworld.com/smpp/content%7Econtent=a785037098%7Edb=all"
 target="_blank">http://www.informaworld.com/smpp/content~content=a785037098~db=all</a><br>
    </div>
    <div>Or here:</div>
    <div> </div>
    <div>
    <div>The assessment of psychological states through content
analysis of verbal communications. </div>
    <div>Viney, Linda L. </div>
    <div>Psychological Bulletin. Vol 94(3), Nov 1983, 542-563.</div>
    <h3>Abstract</h3>
    <div>
    <ol>
      <li>Presents a history of the use of content analysis in
psychology and describes the development of CA scales, including an
example of a scale in construction. The variety of verbal
communications to which CA is applicable is also considered. Issues of
reliability and validity were considered in a survey of the literature
on a sample of 10 relatively well-developed CA scales. Some of the
theoretical and practical advantages of the technique over other
methods of assessing psychological states are also examined, as well as
some of its problems and limitations. Information about available CA
scales is included. Applications of CA in personality, developmental,
and social psychology are considered, together with others in clinical,
community, and health psychology. The scoring of CA scales by computer
is also discussed, as is their contribution to an ethical relationship
between researcher and research participant. The viability of CA as an
aid in psychological research is evaluated. (158 ref) (PsycINFO
Database Record (c) 2008 APA, all rights reserved)</li>
    </ol>
    </div>
    </div>
    <div>(which scarcely looks layperson-like to me!)</div>
    <div> </div>
    <div>Regards,</div>
    <div> </div>
    <div>Adam Kilgarriff</div>
    <div> </div>
    <div class="gmail_quote">2009/1/24 Hongyin Tao <span dir="ltr"><<a
 moz-do-not-send="true" href="mailto:bbs.lists@gmail.com"
 target="_blank">bbs.lists@gmail.com</a>></span><br>
    <blockquote class="gmail_quote"
 style="border-left: 1px solid rgb(204, 204, 204); margin: 0px 0px 0px 0.8ex; padding-left: 1ex;">
      <div class="Ih2E3d"> A recent example that just came up...<br>
      <br>
      <a moz-do-not-send="true"
 href="http://www.livescience.com/culture/090123-instant-message-couples.html"
 target="_blank">http://www.livescience.com/culture/090123-instant-message-couples.html</a><br>
      <br>
      </div>
_______________________________________________<br>
Corpora mailing list<br>
      <a moz-do-not-send="true" href="mailto:Corpora@uib.no"
 target="_blank">Corpora@uib.no</a><br>
      <a moz-do-not-send="true"
 href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
      <br>
    </blockquote>
    </div>
    <font color="#888888"><br>
    <br clear="all">
    <br>
-- <br>
================================================<br>
Adam Kilgarriff                                      <a
 moz-do-not-send="true" href="http://www.kilgarriff.co.uk"
 target="_blank">http://www.kilgarriff.co.uk</a>              <br>
Lexical Computing Ltd                   <a moz-do-not-send="true"
 href="http://www.sketchengine.co.uk" target="_blank">http://www.sketchengine.co.uk</a><br>
Lexicography MasterClass Ltd      <a moz-do-not-send="true"
 href="http://www.lexmasterclass.com" target="_blank">http://www.lexmasterclass.com</a><br>
Universities of Leeds and Sussex       <a moz-do-not-send="true"
 href="mailto:adam@lexmasterclass.com" target="_blank">adam@lexmasterclass.com</a><br>
================================================<br>
    </font></blockquote>
  </div>
  <br>
  <pre wrap="">
<hr size="4" width="90%">
_______________________________________________
Corpora mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Corpora@uib.no">Corpora@uib.no</a>
<a class="moz-txt-link-freetext" href="http://mailman.uib.no/listinfo/corpora">http://mailman.uib.no/listinfo/corpora</a>
  </pre>
</blockquote>
<br>
<pre class="moz-signature" cols="72">-- 
Ken Litkowski                     TEL.: 301-482-0237
CL Research                       EMAIL: <a class="moz-txt-link-abbreviated" href="mailto:ken@clres.com">ken@clres.com</a>
9208 Gue Road
Damascus, MD 20872-1025 USA       Home Page: <a class="moz-txt-link-freetext" href="http://www.clres.com">http://www.clres.com</a>
</pre>
</body>
</html>