<div class="gmail_quote">On Wed, Jan 4, 2012 at 11:57 PM, True Friend <span dir="ltr"><<a href="mailto:true.friend2004@gmail.com">true.friend2004@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div dir="ltr"><font size="4"><font face="tahoma,sans-serif">Hi<br>I've a large text archive of 100+ million words in utf8 encoding (non-English text archive). Sometimes i need to get concordance, or word list but its size creates problem. I've tried AntConc (always hangs when I open the text files in it), as well as TextSTAT (works fine for concordance usually but hangs when a word list task is given). Any good free alternative to handle big text archives? Or any efficient way to handle such a large collection?<br>


Thanks a lot for taking time and reading this email. Your response will be highly appreciated.<br>Regards<span class="HOEnZb"><font color="#888888"><br clear="all"></font></span></font></font><span class="HOEnZb"></span><br>

</div></blockquote><div><br>Hi,<br><br>AntConc is really designed for just a few million-word corpora. Also, it assumes that each corpus file is quite small. That's why you will find it hangs on 100+ word corpora. Saying that, I'm now working on a new version that will (hopefully) handle 100+ corpora smoothly. I'll announce it here when its ready.<br>

<br>Laurence Anthony<br></div></div>