I agree entirely with Miles, although I think the big win is in the parallelism, along with moving the data to the computation.   I'd say you are likely to get more bang for your buck by parallelizing your code for a cluster than by porting it to a more efficient programming language, all other things being equal.  It's also worth mentioning that many NLP tasks are quite amenable to very simple coarse-grained parallelism, not requiring a lot of fancy algorithmic re-thinking. <br>

<br>This discussion is also a nice opportunity to mention an upcoming book by Jimmy Lin and
Chris Dyer, entitled "Data-Intensive Text Processing with MapReduce". 
It's slated for publication by Morgan & Claypool in mid-2010. <br><br>  Philip<br><br><br><div class="gmail_quote">On Thu, Mar 18, 2010 at 7:17 AM, Miles Osborne <span dir="ltr"><<a href="mailto:miles@inf.ed.ac.uk">miles@inf.ed.ac.uk</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">ok, i will bite.<br>
<br>
the key insights behind high-performance computing and (certain kinds)<br>
of NLP is that you need to move the data to the computation and do it<br>
over a cliuster of machines.  you also need to write code in languages<br>
such as C++ or C.<br>
<br>
here in Edinburgh for our most demanding jobs, we use Hadoop:<br>
<br>
<a href="http://hadoop.apache.org/" target="_blank">http://hadoop.apache.org/</a><br>
<br>
we are not alone here;  i think you will find that serious groups do likewise.<br>
<br>
Miles<br>
<font color="#888888"><br>
--<br>
The University of Edinburgh is a charitable body, registered in<br>
Scotland, with registration number SC005336.<br>
</font><div><div></div><div class="h5"><br>
_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br>
</div></div></blockquote></div><br>