<html><body>


<DIV><BR><BR>
<BLOCKQUOTE class=replbq style="PADDING-LEFT: 5px; MARGIN-LEFT: 5px; BORDER-LEFT: #1010ff 2px solid">
<P>Right. That is the answer I expected. However, the question becomes more complex. </P>
<P>1)To create a big general bilingual dictionary  should we start from the number of lemmas which are most frequent in the wordlist extracted from our corpus and then increase or decrease their quantity according to the space available in the dictionary, or should we start from the number of entries generally needed in a dictionary of that size and than extract from the corpus the needed number of most frequent corpus lemmas? </P>
<P>2)If we start from the most frequent corpus lemmas, how should we establish which is the minimum frequency necessary to select a lemma? </P>
<P>In "Corpus and Text - Basic Principles" Sinclair writes that a frequency of two is the minimum to consider a linguistic item an independent unit of the language, but two occurrences are not sufficient to describe how a lemma is used. To describe the behaviour of a word we need at least 20 instances. But a lemma may represent more than a word. For example in Italian some adjectives have 4 different forms and to describe them the corpus should provide us at least 80 instances,  20 occurrences for each form. Moreover, if a lemma is a polysemic one, we should have 20 instances for each form of the lemma in each meaning. </P>
<P>If I am not wrong, a section of a big general bilingual dictionary may contain around 75 000 entries. As some entries are characterised by homonyms, the number of lemmas may be lower than 75000, imagine 60 000. </P>
<P>If all lemmas were monosemic and had a single form, to extract and describe 60 000 lemmas we should use a corpus of at least 1 200 000 words. </P>
<P>In fact, to be representative, a corpus should contain more than 1 200 000 words, because languages (at least those I know) are made of many lemmas with more than a morphological form and with more than a meaning. </P>
<P>Hence, how is it possible to establish the minimum size of a corpus in order to be sure that it is really representative?</P>
<P>Regards</P>
<P>Mery </P>
<P>Message: 4<BR>Date: Wed, 10 Mar 2004 12:18:30 -0700<BR>From: "Wayne Leman" <WAYNE_LEMAN@SIL.ORG><BR>Subject: How to select words for a bilingual dictionary<BR><BR>Mery, I would try to practice corpus linguistics, using a computer to search<BR>large corpuses of natural text (newspapers, conversations, etc.) then do<BR>word counts (with the computer) to find the most commonly used words.<BR><BR>Wayne Leman<BR>Cheyenne dictionary project<BR><BR>> Dear all,<BR>> in my MA thesis on bilingual lexicography I am describing the ways in<BR>which dictionary words can be selected. I know that it depends on the<BR>variety of language treated in the dictionary. Imagine that you had to<BR>select form your own language the words to treat in a big general language<BR>bilingual dictionary and those for a pocket one, how would you do it?<BR>> Regards,<BR>> Mery Martinelli<BR>> SSLMIT, Bologna
 (Italy)<BR><BR><BR><BR><mailto:lexicographylist-unsubscribe@yahoogroups.com?subject=Unsubscribe></P></BLOCKQUOTE></DIV></mailto:lexicographylist-unsubscribe@yahoogroups.com?subject=Unsubscribe><p><br><hr size=1><A HREF="http://it.yahoo.com/mail_it/foot/?http://it.mail.yahoo.com/"><b>Yahoo! Mail</a></b>: 6MB di spazio gratuito, 30MB per i tuoi allegati, l'antivirus, il filtro Anti-spam



<!-- |**|begin egp html banner|**| -->

<br>
<tt><hr width="500">
<b>Yahoo! Groups Links</b><br>
<ul>
<li>To visit your group on the web, go to:<br><a href="http://groups.yahoo.com/group/lexicographylist/">http://groups.yahoo.com/group/lexicographylist/</a><br> 
<li>To unsubscribe from this group, send an email to:<br><a href="mailto:lexicographylist-unsubscribe@yahoogroups.com?subject=Unsubscribe">lexicographylist-unsubscribe@yahoogroups.com</a><br> 
<li>Your use of Yahoo! Groups is subject to the <a href="http://docs.yahoo.com/info/terms/">Yahoo! Terms of Service</a>.
</ul>
</tt>
</br>

<!-- |**|end egp html banner|**| -->


</body></html>