<span class="Apple-style-span" style="font-family: arial, sans-serif; font-size: 13px; background-color: rgb(255, 255, 255); ">Hi Ramesh,<div><br></div><div>I'm afraid we are still talking about different things: I talk about similarity of frequency lists (whatever source) and what properties of their languages influence the word choice, for example, geopolitical; you talk about difficulties of collecting corpora what I don't dispute because it is irrelevant.</div>
<div><br></div><div>However, I can comment on your list to clarify the problem I discuss.</div><div>a) "corpora are tiny samples" yes, they are. However, both the BNC frequency list and, for example, the Weka stopwords list contain word "the". Intuitively, I would also include "the". And you probably also. What can be the reason that some words are included in a frequency list and some not? Is the reason only grammatical or there are also other reasons, for example, sociological?</div>
<div>b) "the corpora you are comparing...". As I said, I am not comparing corpora. I am analyzing frequency lists of languages. I simply ignore the source of the lists to simplify discussion.</div><div>c) "the top 1000 words would not give you sufficient content words..." - the number is irrelevant. I could have taken 10.000 or 100.000. In my case, I wonder what reasons can be significant for some particular compilation of a frequency list. You mention content words what implies that you identify grammar as a reason of influence. However, I assume that it is not exhaustive and there are also other reasons of influence such as demographic.</div>
<div>d) "unfortunately, frequency lists are not always publicly available..." yes, it is no good. That's why I simplify the discussion and study ready frequency lists and not their origin.</div><div>e) "different corpus software will yield..." yes. However, I assume that whatever method is chosen for calculating frequency lists the main conclusions can be drawn -- intuitively, word "the" will be always present in a frequency list. Otherwise, such frequency list cant be considered as trustworthy.</div>
<div>f) "and of course you would need to be a reasonably expert user" yes, it would be nice. However, initially we can hypothesize about possible reasons of similarities also without having such knowledge :)</div>
<div><br></div><div>A practical example. You have a text in language C and you want to find out what languages can be destination languages for translation of this text. You have two sets: a set with words from geographical region A and a set with words from geographical area B. These sets PERFECTLY represent the frequency lists of A and B. For instance, you want to translate a text originally composed in German and have to decide what languages are most appropriate for translation. You have to choose among two destination languages: English (A) or a language of Indigenous peoples in Brazil (B). What will be the reasons of the choice?</div>
<div><br></div><div>You will probably translate German text in English due to numerous reasons, for example, because 1) grammar of both languages is similar; 2) both countries have the same political organization: both England and Germany are governed by a parliament (even if England is formally a monarchy); 3) both countries are EU members; etc.  Hence, you would make life easier for yourself and never experience problems in choice of appropriate words such as car or airport: there are cars both in Germany and England, there are airports both in Germany and England etc. In contrast, if you choose as destination language a language of Indigenous peoples in Brazil you would experience problems to explain basic notions. For example, what word would you use in the language of Indigenous peoples in Brazil for federal republic, or for monarchy? Conclusion: German text is more beneficial to translate in English and a text of Indigenous peoples in Brazil should be better translated in other language of Indigenous peoples in Brazil.</div>
<div><br></div><div>I hoped that somebody has already answered my question or can recommend me something about it because I want to find all indicators of influence and not the most evident that I mentioned (grammar, political organization). Can you follow? Anyway, sooner or later (probably after collecting corpora ;-) ) this question will become emergent.</div>
<div><br></div><div>Best</div><div>Alexander</div></span><br><div class="gmail_quote">2011/10/12 Krishnamurthy, Ramesh <span dir="ltr"><<a href="mailto:r.krishnamurthy@aston.ac.uk">r.krishnamurthy@aston.ac.uk</a>></span><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">





<div lang="EN-GB" link="blue" vlink="purple">
<div>
<p class="MsoNormal">Hi Alexander<u></u><u></u></p>
<p class="MsoNormal">I think you may be underestimating the complexity of the problems involved in comparing frequency lists:<u></u><u></u></p>
<p class="MsoNormal">a) no corpus can be truly representative of any language; corpora are tiny samples<u></u><u></u></p>
<p class="MsoNormal">b) the corpora you are comparing would need to be reasonably similar in terms of size, contents, variety, vintage, etc<u></u><u></u></p>
<p class="MsoNormal">- there are very few such corpora publicly available, so you would probably have to create them;<u></u><u></u></p>
<p class="MsoNormal">you might find the BYU corpora - <a href="http://corpus.byu.edu/" target="_blank">
http://corpus.byu.edu/</a> - a useful place to start<u></u><u></u></p>
<p class="MsoNormal">c) the top 1000 words would not give you sufficient content words to make the kind of statements (about<u></u><u></u></p>
<p class="MsoNormal">level of development, education etc) that you aspire to; perhaps you might glance at
<u></u><u></u></p>
<p class="MsoNormal"><a href="http://acorn.aston.ac.uk/SummerSchool2011/001-ramesh-sheffield-workshop2002.pdf" target="_blank">http://acorn.aston.ac.uk/SummerSchool2011/001-ramesh-sheffield-workshop2002.pdf</a><u></u><u></u></p>

<p class="MsoNormal">for some issues that would arise from just one corpus (the Bank of English): tokenization, lemmatization, neologisms, etc<u></u><u></u></p>
<p class="MsoNormal">d) unfortunately, frequency lists are not always publicly available , even for publicly available corpora<u></u><u></u></p>
<p class="MsoNormal">e) different corpus software will yield different frequency counts (dependent on tokenisation)<u></u><u></u></p>
<p class="MsoNormal">f) and of course you would need to be a reasonably expert user of each of the languages you are comparing<u></u><u></u></p>
<p class="MsoNormal">best<u></u><u></u></p>
<p class="MsoNormal">Ramesh Krishnamurthy<u></u><u></u></p>
<p class="MsoNormal">Visiting Academic Fellow, School of Languages and Social Sciences, Aston University, Birmingham B4 7ET<u></u><u></u></p>
<p class="MsoNormal">Room: NX01. Tel: 0121-204-3812. <br>
Director, ACORN (Aston Corpus Network project): <a href="http://acorn.aston.ac.uk/" target="_blank">
<span style="color:blue">http://acorn.aston.ac.uk/</span></a> <u></u><u></u></p>
<p class="MsoNormal">Corpus Analyst:<u></u><u></u></p>
<p class="MsoNormal">(a) GeWiss (Volkswagen Foundation) project: <a href="http://www1.aston.ac.uk/lss/research/research-projects/gewiss-spoken-academic-discourse/" target="_blank">
<span style="color:blue">http://www1.aston.ac.uk/lss/research/research-projects/gewiss-spoken-academic-discourse/</span></a><u></u><u></u></p>
<p class="MsoNormal">(b) Discourse of Climate Change: <a href="http://www1.aston.ac.uk/lss/research/research-projects/discourse-of-climate-change-project/" target="_blank">
<span style="color:blue">http://www1.aston.ac.uk/lss/research/research-projects/discourse-of-climate-change-project/</span></a><u></u><u></u></p>
<p class="MsoNormal">(c) Feminism: <a href="http://acorn.aston.ac.uk/projects.html" target="_blank">
<span style="color:blue">http://acorn.aston.ac.uk/projects.html</span></a><u></u><u></u></p>
<p class="MsoNormal">(d) COMENEGO (Corpus Multilingüe de Economía y Negocios) - Multilingual Corpus of Business and Economics:
<a href="http://dti.ua.es/comenego" target="_blank"><span style="color:blue">http://dti.ua.es/comenego</span></a><u></u><u></u></p>
<p class="MsoNormal">(e) European Phraseology Project: <a href="http://labidiomas3.ua.es/phraseology/login/login.php" target="_blank">
<span style="color:blue">http://labidiomas3.ua.es/phraseology/login/login.php</span></a><u></u><u></u></p>
<p class="MsoNormal">-----------------------------<u></u><u></u></p>
<p><br></p><div><div class="h5">
</div></div></div>
</div>

</blockquote></div><br>