<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 12 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Consolas;
        panose-1:2 11 6 9 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p.MsoPlainText, li.MsoPlainText, div.MsoPlainText
        {mso-style-priority:99;
        mso-style-link:"Plain Text Char";
        margin:0cm;
        margin-bottom:.0001pt;
        font-size:10.5pt;
        font-family:Consolas;}
p.MsoAcetate, li.MsoAcetate, div.MsoAcetate
        {mso-style-priority:99;
        mso-style-link:"Balloon Text Char";
        margin:0cm;
        margin-bottom:.0001pt;
        font-size:8.0pt;
        font-family:"Tahoma","sans-serif";}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
span.PlainTextChar
        {mso-style-name:"Plain Text Char";
        mso-style-priority:99;
        mso-style-link:"Plain Text";
        font-family:Consolas;}
span.BalloonTextChar
        {mso-style-name:"Balloon Text Char";
        mso-style-priority:99;
        mso-style-link:"Balloon Text";
        font-family:"Tahoma","sans-serif";}
.MsoChpDefault
        {mso-style-type:export-only;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-GB" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal">Counting ‘number of words’ to measure sentence-length surely ignores compounding and agglutinative tendencies?<o:p></o:p></p>
<p class="MsoNormal">Counting morphemes might be a more accurate lexico-grammatical measure, but is not yet feasible computationally?<o:p></o:p></p>
<p class="MsoNormal">I’m not sure whether counting characters would be an adequate approximation?<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">To illustrate the problem, the following comparisons of George Orwell’s 1984 came from TELRI, perhaps via Multext-East:<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<table class="MsoNormalTable" border="0" cellspacing="0" cellpadding="0" style="border-collapse:collapse">
<tbody>
<tr style="height:8.5pt">
<td valign="top" style="border-top:2.25pt;border-left:2.25pt;border-bottom:1.0pt;border-right:1.0pt;border-color:black;border-style:solid;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
</td>
<td valign="top" style="border-top:solid black 2.25pt;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal"><i>Sentences</i><o:p></o:p></p>
</td>
<td valign="top" style="border-top:solid black 2.25pt;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal"><i>Paragraphs</i><o:p></o:p></p>
</td>
<td valign="top" style="border-top:solid black 2.25pt;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 2.25pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal"><i>Words</i><o:p></o:p></p>
</td>
</tr>
<tr style="height:8.5pt">
<td valign="top" style="border-top:none;border-left:solid black 2.25pt;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">English<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">6701<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">1286<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 2.25pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">104,302<o:p></o:p></p>
</td>
</tr>
<tr style="height:8.5pt">
<td valign="top" style="border-top:none;border-left:solid black 2.25pt;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">Bulgarian<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">6649<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">1321<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 2.25pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">87,235<o:p></o:p></p>
</td>
</tr>
<tr style="height:8.5pt">
<td valign="top" style="border-top:none;border-left:solid black 2.25pt;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">Czech<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">6714<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">1285<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 2.25pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">80,366<o:p></o:p></p>
</td>
</tr>
<tr style="height:8.5pt">
<td valign="top" style="border-top:none;border-left:solid black 2.25pt;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">Estonian<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">6658<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">1289<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 2.25pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">79,334<o:p></o:p></p>
</td>
</tr>
<tr style="height:8.5pt">
<td valign="top" style="border-top:none;border-left:solid black 2.25pt;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">Hungarian<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">6732<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">1292<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 2.25pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">81,147<o:p></o:p></p>
</td>
</tr>
<tr style="height:8.5pt">
<td valign="top" style="border-top:none;border-left:solid black 2.25pt;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">Romanian<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">6487<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">1335<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 1.0pt;border-right:solid black 2.25pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">101,460<o:p></o:p></p>
</td>
</tr>
<tr style="height:8.5pt">
<td valign="top" style="border-top:none;border-left:solid black 2.25pt;border-bottom:solid black 2.25pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">Slovene<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 2.25pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">6689<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 2.25pt;border-right:solid black 1.0pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">1288<o:p></o:p></p>
</td>
<td valign="top" style="border-top:none;border-left:none;border-bottom:solid black 2.25pt;border-right:solid black 2.25pt;padding:3.6pt 7.2pt 3.6pt 7.2pt;height:8.5pt">
<p class="MsoNormal">91,619<o:p></o:p></p>
</td>
</tr>
</tbody>
</table>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">best<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Ramesh Krishnamurthy<o:p></o:p></p>
<p class="MsoNormal">Visiting Academic Fellow, School of Languages and Social Sciences, Aston University, Birmingham B4 7ET<o:p></o:p></p>
<p class="MsoNormal">Room: NX01. Tel: 0121-204-3812. <br>
Director, ACORN (Aston Corpus Network project): <a href="http://acorn.aston.ac.uk/">
<span style="color:blue">http://acorn.aston.ac.uk/</span></a> <o:p></o:p></p>
<p class="MsoNormal">Corpus Consultant, GeWiss (Volkswagen Foundation) project: <a href="http://www1.aston.ac.uk/lss/research/research-projects/gewiss-spoken-academic-discourse/">
<span style="color:blue">http://www1.aston.ac.uk/lss/research/research-projects/gewiss-spoken-academic-discourse/</span></a><o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoPlainText">Message: 7<o:p></o:p></p>
<p class="MsoPlainText">Date: Wed, 5 Oct 2011 19:39:51 +0100<o:p></o:p></p>
<p class="MsoPlainText">From: Trevor Jenkins <<a href="mailto:trevor.jenkins@suneidesis.com">trevor.jenkins@suneidesis.com</a>><o:p></o:p></p>
<p class="MsoPlainText">Subject: Re: [Corpora-List] How long is the sentence?<o:p></o:p></p>
<p class="MsoPlainText">To: Corpora List <Corpora list <<a href="mailto:corpora@uib.no">corpora@uib.no</a>>><o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">It depends upon many factors not all of which fall within your categories rather it is possible the detailed argument that the sentence(s) are intended to convey to the reader/speaker requires long or longer sentences instead of shorter
 ones than might normally be expected so that the meaning is given. The foregoing being a deliberately long sentence as an exemplar. Some authors will use different length sentences to provide pace and variety to their writing.  Short sentences are boring.
 Short sentences do not help. Sequences of short sentences lack flavour. There is no colour. The discourse becomes stilted.<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">Some languages seem to encourage the use of long languages. The Anglo-Irish author George Bernard Shaw wrote an English example that parodied what he perceived to be the Gemanic style of very long sentences. His sample contained in excess
 of 140 words. My opening sentence is an attempt to mimic his critique within the context of answering your question. Personally I allow a little more lattitude in this by saying that some cultures have writings that are paratactic while others are hypotactic.
 The argumentation style is different. And the culture of the each re-inforces the para-/hypotaxic style of authors, which might be seen as a taught trait. Sentences in one therefore could be longer than those in another. Lopez Guix and Wilinkinson argue this
 explicitly when comparing English and Spanish (see their 1997 text Manual de Traducion).<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">In addition to Shaw's Germanic parody there are real examples of long, very long sentences in literature. The Apostle Paul writing in Koine Greek during the first century AD commonly constructs long and intricate sentences. In one of
 his epistles he exceeds Shaw's word count. Whereas the writer of the gospel of Mark uses shorter sentences, principally because he is writing in a second language not in his native tongue. Indeed his shorter sentences mark him out as a second language user
 as a result. <o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">Which authors did you look at? What genre(s) were they writing in? Writing for fiction could produce different length sentences than if one were writing non-fiction. What periods did the writers live between? Dickens, as an example of
 19th century English writing, appears to construct much longer sentences than do contemporary English writers. One might also ask another chronologic focused question, what age were the writers whose examples you analysed? Younger writers, children especially,
 pen short sentences. The elongation of sentences is regarded as an indication of maturity in language use and ability. How did you define "word"? Some people count hyphenated words as a single lexeme whereas others consider them to be two distinct lexemes.
 Numbers can also cause word count "inaccuracies". The European convention of using space between three digit groups would give a different count from the English or American convention of using the comma to separate those same groups. All of those questions
 and their consequent answers may well have affected your results.<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">Regards, Trevor.<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText"><>< Re: deemed!<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">Sent from my iPad<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">On 5 Oct 2011, at 11:25, "Yuri Tambovtsev" <<a href="mailto:yutamb@mail.ru">yutamb@mail.ru</a>> wrote:<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">> Dear colleagues, how long is the sentence of every writer? I measured how many words the sentence contains. I took British and American writers. Really I cannot understand why different writers have different length of sentences. Is
 it connected with their brains? Or is it because they were taught differently? Are there many articles published on that? Looking forward to hearing from you to
<a href="mailto:yutamb@mail.ru">yutamb@mail.ru</a>  Be well, Yuri Tambovtsev, Novosibirsk, Russia<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
</body>
</html>