<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META http-equiv=Content-Type content="text/html; charset=iso-8859-1">
<META content="MSHTML 6.00.2800.1479" name=GENERATOR>
<STYLE></STYLE>
</HEAD>
<BODY bgColor=#ffffff>



<DIV><FONT color=#0000ff><STRONG><FONT color=#00007f>Thapelo Otlogetswe
said:</FONT></STRONG></FONT></DIV>
<DIV><FONT color=#0000ff></FONT> </DIV>
<DIV><FONT color=#0000ff>>What are good corpora for lexicography?
</FONT></DIV>
<DIV><FONT color=#0000ff></FONT> </DIV>
<DIV><FONT color=#0000ff>Fred Jelinek (or was it Bob Mercer? -- one of those
guys at IBM)</FONT></DIV>
<DIV><FONT color=#0000ff>used to say, "More data is better data."</FONT></DIV>
<DIV><FONT color=#0000ff></FONT> </DIV>
<DIV><FONT color=#0000ff>I think we're still at the stage where we need more
data, </FONT></DIV>
<DIV><FONT color=#0000ff>even in English, for which big corpora, both
</FONT><FONT color=#0000ff>"balanced" and </FONT></DIV>
<DIV><FONT color=#0000ff>"unbalanced", exist. For example, we </FONT><FONT
color=#0000ff>still need many more </FONT></DIV>
<DIV><FONT color=#0000ff>texts </FONT><FONT color=#0000ff>for historical
</FONT><FONT color=#0000ff>corpora. </FONT></DIV>
<DIV><FONT color=#0000ff></FONT> </DIV>
<DIV><FONT color=#0000ff>> Hanks takes a position that is common amongst
corpora-dependent </FONT></DIV>
<DIV><FONT color=#0000ff>> lexicographers - if it's very rare or doesn't
exist in broad-based </FONT></DIV>
<DIV><FONT color=#0000ff>> corpora like the BNC one would be inclined not to
include it as </FONT></DIV>
<DIV><FONT color=#0000ff>> a dictionary entry</FONT></DIV>
<DIV><FONT color=#0000ff></FONT> </DIV>
<DIV><FONT color=#0000ff>Actually I take a sort of Popperian variant of this
position, viz.: </FONT></DIV>
<DIV><FONT color=#0000ff></FONT> </DIV>
<DIV><FONT color=#0000ff>> if it's very commonly used (in a corpus,
or in conversation, or ...</FONT></DIV>
<DIV><FONT color=#0000ff>> anywhere),<FONT color=#0000ff> one may be
reluctantly forced to include it </FONT></DIV>
<DIV><FONT color=#0000ff>> as a dictionary entry. Otherwise, I'd prefer to
leave it out.</FONT></DIV>
<DIV><FONT face=Arial color=#000000 size=2></FONT> </DIV>
<DIV>Patrick </DIV>
<DIV><FONT face=Arial color=#000000 size=2></FONT> </DIV>
<DIV><FONT face=Arial color=#000000 size=2></FONT> </DIV></FONT><!-- |**|end egp html banner|**| -->



<!-- |**|begin egp html banner|**| -->

<br>
<tt><hr width="500">
<b>Yahoo! Groups Links</b><br>
<ul>
<li>To visit your group on the web, go to:<br><a href="http://groups.yahoo.com/group/lexicographylist/">http://groups.yahoo.com/group/lexicographylist/</a><br> 
<li>To unsubscribe from this group, send an email to:<br><a href="mailto:lexicographylist-unsubscribe@yahoogroups.com?subject=Unsubscribe">lexicographylist-unsubscribe@yahoogroups.com</a><br> 
<li>Your use of Yahoo! Groups is subject to the <a href="http://docs.yahoo.com/info/terms/">Yahoo! Terms of Service</a>.
</ul>
</tt>
</br>

<!-- |**|end egp html banner|**| -->


</BODY></HTML>