Check out the website for the "Words in a Haystack" course that Katrin Erk taught in Fall 2007 on methods and tools for working with corpora (and using a lot of Python to do it): <br><br><a href="http://comp.ling.utexas.edu/courses/2007/corpora07/schedule.html">http://comp.ling.utexas.edu/courses/2007/corpora07/schedule.html</a><br>
<br>See the slides and links on the schedule page.<br><br>Also, we have a wiki page for Python tips (both simple and more advanced stuff):<br><br><a href="http://comp.ling.utexas.edu/wiki/doku.php/python_tips">http://comp.ling.utexas.edu/wiki/doku.php/python_tips</a><br>
<br>Jason<br><br><div class="gmail_quote">On Feb 18, 2008 10:03 AM, True Friend <<a href="mailto:true.friend2004@gmail.com">true.friend2004@gmail.com</a>> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Thnx I'd like to learn something specially Python related stuff.<div><div></div><div class="Wj3C7c"><br><br><div class="gmail_quote">On Feb 18, 2008 8:16 PM, Jason Baldridge <<a href="mailto:jbaldrid@mail.utexas.edu" target="_blank">jbaldrid@mail.utexas.edu</a>> wrote:<br>

<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">If you'd like to learn more detail about the *nix commands and learn how to roll your own, check out Chapter 3 of Chris Brew and Mark Moens book draft: <a href="http://www.ling.ohio-state.edu/%7Ecbrew/2007/spring/684.02/dilbook.pdf" target="_blank">http://www.ling.ohio-state.edu/~cbrew/2007/spring/684.02/dilbook.pdf</a><br>


<br>We also have a tips and tricks wiki for UT Austin's compling lab that includes some notes on Unix commands: <br><br><a href="http://comp.ling.utexas.edu/wiki/doku.php/tips_and_tricks#handy_unix_commands" target="_blank">http://comp.ling.utexas.edu/wiki/doku.php/tips_and_tricks#handy_unix_commands</a><br>


<br>Also, on a related note, we put Peyton Todd's corpus linguistics compilation (posted to corpora list some time ago) on our wiki and added to it:<br><br><a href="http://comp.ling.utexas.edu/wiki/doku.php/corpus_linguistics" target="_blank">http://comp.ling.utexas.edu/wiki/doku.php/corpus_linguistics</a><br>


<br>Others are welcome to add to the wiki if they wish.<br><br>Jason<div><div></div><div><br><br><div class="gmail_quote">On Feb 18, 2008 8:44 AM, Trevor Jenkins <<a href="mailto:trevor.jenkins@suneidesis.com" target="_blank">trevor.jenkins@suneidesis.com</a>> wrote:<br>


<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">On Mon, 18 Feb 2008, True Friend <<a href="mailto:true.friend2004@gmail.com" target="_blank">true.friend2004@gmail.com</a>> asked for<br>


help:<br><br>Antconc has a word frequency count feature. Why not use that?<br><br>Ben Allison has given you a UNIX solution. Here's mine<br><br>tr "[:space:]" "\n" <Sense\ and\ Sensibility.txt|tr "[:upper:]" "[:lower:]"|tr -d "[:punct:]"|sort|uniq -c|sort > SS-list<br>


<br>Change "Sense\ and\ Sensibility.txt" and "SS-list" to what ever your own<br>files are call. You can tell what I've been playing with recently. ;-)<br><br>The difference between mine and Ben's is mine relies solely upon standard<br>


filters that should be available on every UNIX machine. You might not have<br>Perl installed, which is required by Ben's version. Of course, you might<br>not have the GNU version of textutils, which I'm relying upon. We're both<br>


sorting on ascending frequency.<br><div><br>> Hi Folks<br>I need a a programm/script (even of *nix) that can provide frequency of a<br>wordlist from two corpora. Actually I have made this list by comparing two<br>
word lists one from general english (specifically from Pakistani Origin) and<br>law english (also of Pakistani origin). I know want to present these<br>keywords with their frequencies in both corpora as a proof that these words<br>


are more frequent in law. Keywords are generated by Antconc.<br>Is there any script/tool that can generate a parallel list of frequencies of<br>each word in both corpora?<br>Regards<br>M Shakir Aziz<br>A Corpus Linguistics Student<br>


Pakistan<br><br>--<br>محمد شاکر عزیز<br><br><br></div>Regards, Trevor<br><br><>< Re: deemed!<br><div><div></div><div><br><br><br><br><br><br>_______________________________________________<br>Corpora mailing list<br>


<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br><a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br></div></div></blockquote></div><br><br clear="all">

<br></div></div><font color="#888888">-- <br>
Jason Baldridge<br>Assistant Professor, Department of Linguistics<br>The University of Texas at Austin<br><a href="http://comp.ling.utexas.edu/jbaldrid" target="_blank">http://comp.ling.utexas.edu/jbaldrid</a>
</font><br>_______________________________________________<br>Corpora mailing list<br><a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br><a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>

<br></blockquote></div><br><br clear="all"><br>-- <br></div></div>محمد شاکر عزیز
<br>_______________________________________________<br>Corpora mailing list<br><a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br><a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br>Jason Baldridge<br>Assistant Professor, Department of Linguistics<br>The University of Texas at Austin<br><a href="http://comp.ling.utexas.edu/jbaldrid">http://comp.ling.utexas.edu/jbaldrid</a>