<HTML dir=ltr><HEAD><TITLE>Re: [Corpora-List] Application for lemmatising corpora</TITLE>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.3059" name=GENERATOR></HEAD>
<BODY>
<DIV id=idOWAReplyText82496 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>Hi all,</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>Thanks, I  have been looking at the applications suggested. Unfortunately, what I'm looking for is so simple that it might not be something that many people actually use. My texts are untagged, and I'd like to keep them that way for the moment. I actually want the lemmas to be inserted right there in the text, so you get for example; 'Yesterday I<EM> GO to the market.</EM>'  </FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>I guess what I'm looking for is a kind of find/replace application that can read off a file of (lemmatising) replacements like GO>go, went, gone, going...!</FONT></DIV>
<DIV dir=ltr> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>Apologies for not making this clearer!</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>Duncan Hunter</FONT> </DIV></DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> owner-corpora@lists.uib.no on behalf of jasper holmes<BR><B>Sent:</B> Fri 23/03/2007 09:58<BR><B>To:</B> corpora@uib.no<BR><B>Subject:</B> Re: [Corpora-List] Application for lemmatising corpora<BR></FONT><BR></DIV>
<DIV>
<P><FONT size=2>You could try WMatrix: <A href="http://www.comp.lancs.ac.uk/ucrel/wmatrix/">http://www.comp.lancs.ac.uk/ucrel/wmatrix/</A><BR>You need to get a username (one month free trial), and then you do it<BR>online. This does tagging and lemmatising and also some analysis<BR>(frequencies, concordances, key words).<BR><BR>Jasper<BR><A href="http://go.warwick.ac.uk/BAWE">http://go.warwick.ac.uk/BAWE</A><BR><BR><BR>On 3/22/07, Oliver Strunk <strunk@ub.edu> wrote:<BR>><BR>><BR>><BR>> Maybe the TreeTagger from IMS Stuttgart?<BR>><BR>><BR>><BR>> <A href="http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html">http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html</A><BR>><BR>><BR>><BR>> It is available for linux and windows; the output includes POS and<BR>> lemmatized text and can easily be converted.<BR>><BR>><BR>><BR>> Oliver Strunk<BR>><BR>> LADA – University of Barcelona<BR>><BR>><BR>><BR>><BR>> From: owner-corpora@lists.uib.no [<A href="mailto:owner-corpora@lists.uib.no">mailto:owner-corpora@lists.uib.no</A>] On<BR>> Behalf Of Hunter, Duncan<BR>> Sent: Thursday, March 22, 2007 11:45 PM<BR>> To: corpora@uib.no<BR>> Subject: [Corpora-List] Application for lemmatising corpora<BR>><BR>><BR>><BR>><BR>><BR>> Hi All,<BR>><BR>><BR>><BR>><BR>><BR>> Could anybody suggest a small, downloadable and free application for<BR>> lemmatising texts? For various reasons I need the texts I am examining to be<BR>> in lemmatised form before analysis with corpus tools. It's a small<BR>> collection of texts, a few hundred shortish (article -sized) ones in text<BR>> format.<BR>><BR>><BR>><BR>><BR>><BR>> I've had some trouble with the software I'm using at the moment. It tends to<BR>> 'stick' when given a formidable lemma list to process (I'm using Yasumasa<BR>> Someya's fairly lengthy one).<BR>><BR>><BR>><BR>><BR>><BR>> All the best,<BR>><BR>><BR>><BR>><BR>><BR>> Duncan Hunter<BR><BR></FONT></P></DIV></BODY></HTML>