<table cellspacing="0" cellpadding="0" border="0" ><tr><td valign="top" style="font: inherit;"><DIV>Hi, Irina</DIV>
<DIV> </DIV>
<DIV> I have just made a tool  for keyword extraction (LanA-Key)  which includes collapsing n-grams.  It outputs up to 4-grams, but it can be updated to any "n"</DIV>
<DIV> </DIV>
<DIV>The tool can be downloaded for a 3 day free trial from</DIV>
<DIV> </DIV>
<DIV><A href="http://lanaconsult.com/">http://lanaconsult.com</A></DIV>
<DIV><BR>Regards,</DIV>
<DIV>                    Svetlana Sheremetyeva</DIV>
<DIV>               </DIV><BR><BR>--- On <B>Mon, 10/27/08, Dahlmann Irina <I><aexid@nottingham.ac.uk></I></B> wrote:<BR>
<BLOCKQUOTE style="PADDING-LEFT: 5px; MARGIN-LEFT: 5px; BORDER-LEFT: rgb(16,16,255) 2px solid">From: Dahlmann Irina <aexid@nottingham.ac.uk><BR>Subject: [Corpora-List] Reducing n-gram output<BR>To: CORPORA@uib.no<BR>Date: Monday, October 27, 2008, 1:07 PM<BR><BR><PRE>Dear all,

I was wondering whether anybody is aware of ideas and/or automated
processes to reduce n-gram output by solving the common problem that
shorter n-grams can be fragments of larger structures (e.g. the 5-gram
'at the end of the' as part of the 6-gram 'at the end of the
day')

I am only aware of Paul Rayson's work on c-grams (collapsed-grams).

Many thanks,

Irina Dahlmann
 
PhD student
School of English Studies
University of Nottingham
aexid@nottingham.ac.uk

This message has been checked for viruses but the contents of an attachment
may still contain software viruses, which could damage your computer system:
you are advised to perform your own checks. Email communications with the
University of Nottingham may be monitored as permitted by UK legislation.


_______________________________________________
Corpora mailing list
Corpora@uib.no
http://mailman.uib.no/listinfo/corpora
</PRE></BLOCKQUOTE></td></tr></table><br>