<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=us-ascii">
<meta name=Generator content="Microsoft Word 12 (filtered medium)">
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page Section1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.Section1
        {page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=EN-US link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Hi Adam,<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Presumably you are intending to be provocative there! It is
difficult for universities to get research funding to improve POS taggers for
English in particular. Why would funding agencies provide resources for this?
It is a solved problem isn’t it!! :-) The last time UCREL had large
funding indirectly for CLAWS was on the BNC enhancement project in 1996: <a
href="http://ucrel.lancs.ac.uk/projects.html#bnce">http://ucrel.lancs.ac.uk/projects.html#bnce</a>
In that project we also developed the template tagger as a more powerful
patching tool for CLAWS, see papers listed at  <a
href="http://ucrel.lancs.ac.uk/claws/">http://ucrel.lancs.ac.uk/claws/</a>  <o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>It is certainly feasible for users of CLAWS to add their own
supplementary rule files and dictionary files in order to improve the tagging.
Email me off list for info.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>We are still interested in receiving feedback from users of
CLAWS and this has resulted in a number of papers recently as follows. I think
the interesting stuff happens when you try to apply standard tools to non-standard
language e.g. learner data, historical text, dialect corpora:<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Beal, J., Corrigan, K., Smith, N. and Rayson, P. (2007) Writing
the Vernacular: Transcribing and Tagging the Newcastle Electronic Corpus of
Tyneside English. Studies in Variation, Contacts and Change in English. Volume
1. Research Unit for Variation, Contacts and Change in English (VARIENG),
University of Helsinki. <a
href="http://www.helsinki.fi/varieng/journal/volumes/01/beal_et_al/">http://www.helsinki.fi/varieng/journal/volumes/01/beal_et_al/</a><o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Rayson, P., Archer, D., Baron, A., Culpeper, J. and Smith, N.
(2007). Tagging the Bard: Evaluating the accuracy of a modern POS tagger on
Early Modern English corpora. In proceedings of Corpus Linguistics 2007, July
27-30, University of Birmingham, UK. <a
href="http://ucrel.lancs.ac.uk/people/paul/publications/RaysonEtAl_CL2007.pdf">http://ucrel.lancs.ac.uk/people/paul/publications/RaysonEtAl_CL2007.pdf</a><o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>We’ve also got a forthcoming paper at the ICAME pre-conference
workshop on ‘Errors and disfluencies in spoken corpora’ with Joanna
Jendryczka-Wierszycka titled “Applying native language trained annotation
tools to non-native spoken corpora” relating to applying CLAWS to spoken learner
(LINDSEI) material.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>For completeness, there are other papers that I refer to in my
reply to a previous question of yours about tagging spoken data on the Corpora
list:<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><a
href="http://www.uib.no/mailman/public/corpora/2005-July/001363.html">http://www.uib.no/mailman/public/corpora/2005-July/001363.html</a><o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Regards,<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Paul.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span lang=EN-GB style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:navy'>Dr. Paul Rayson<o:p></o:p></span></p>

<p class=MsoNormal><span lang=EN-GB style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:navy'>Director of UCREL<o:p></o:p></span></p>

<p class=MsoNormal><span lang=EN-GB style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:navy'>Computing Department, Infolab21, South Drive, Lancaster University,
Lancaster, LA1 4WA, UK.<o:p></o:p></span></p>

<p class=MsoNormal><span lang=EN-GB style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:navy'>Web: <a href="http://www.comp.lancs.ac.uk/computing/users/paul/"><span
style='color:purple'>http://www.comp.lancs.ac.uk/computing/users/paul/</span></a><o:p></o:p></span></p>

<p class=MsoNormal><span lang=EN-GB style='font-size:10.0pt;font-family:"Arial","sans-serif";
color:navy'>Tel: +44 1524 510357 Fax: +44 1524 510492<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<div style='border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in'>

<p class=MsoNormal><b><span style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'>From:</span></b><span
style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'>
corpora-bounces@uib.no [mailto:corpora-bounces@uib.no] <b>On Behalf Of </b>Adam
Kilgarriff<br>
<b>Sent:</b> 25 February 2009 11:16<br>
<b>To:</b> Corpora List<br>
<b>Cc:</b> Sue Atkins; Valerie GRUNDY; Patrick Hanks<br>
<b>Subject:</b> [Corpora-List] POS-tagger maintenance and improvement<o:p></o:p></span></p>

</div>

<p class=MsoNormal><o:p> </o:p></p>

<div>

<p class=MsoNormal>All,<o:p></o:p></p>

</div>

<div>

<p class=MsoNormal> <o:p></o:p></p>

</div>

<div>

<p class=MsoNormal>My lexicography colleagues and I use POS-tagged
corpora all the time, every day, and very frequently spot systematic
errors.  (This is for a range of languages, but particularly
English.)   We would dearly like to be in a dialogue with the
developers of the POS-tagger and/or the relevant language models so
the tagger+model could be improved in response to our feedback. (We have
been using standard models rather than training our own.)   However
it seems, for the taggers and language models we use (mainly TreeTagger,
also CLAWS) and also for other market leaders, all of which seem to be from
Universities, the developers have little motivation for continuing the
improvement of their tagger, since incremental improvements do not
make for good research papers, so there is nowhere for our feedback to go,
nor any real prospect of these taggers/models improving.<o:p></o:p></p>

</div>

<div>

<p class=MsoNormal> <o:p></o:p></p>

</div>

<div>

<p class=MsoNormal>Am I too pessimistic?  Are there ways of improving
language models other than developing bigger and better training corpora - not
an exercise we have the resources to invest in?  Are there commercial
taggers I should be considering (as, in the commercial world, there is
motivation for incremental improvements and responding to customer feedback)?<br
clear=all>
<o:p></o:p></p>

</div>

<div>

<p class=MsoNormal>Responses and ideas most welcome<o:p></o:p></p>

</div>

<div>

<p class=MsoNormal> <o:p></o:p></p>

</div>

<div>

<p class=MsoNormal>Adam Kilgarriff<br>
-- <br>
================================================<br>
Adam Kilgarriff                  
                   <a
href="http://www.kilgarriff.co.uk">http://www.kilgarriff.co.uk</a>  
           <br>
Lexical Computing Ltd                
  <a href="http://www.sketchengine.co.uk">http://www.sketchengine.co.uk</a><br>
Lexicography MasterClass Ltd      <a
href="http://www.lexmasterclass.com">http://www.lexmasterclass.com</a><br>
Universities of Leeds and Sussex       <a
href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a><br>
================================================<o:p></o:p></p>

</div>

</div>

</body>

</html>