<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
  <title></title>
</head>
<body bgcolor="#ffffff" text="#000000">
Hello all,<br>
<br>
It's the same as with technical books. Many authors conscientious keep
an errata on their web page. The better authors make a second printing
or a second edition of the book. But in the real world, not every
author is going to do this. So if the book is important enough to you,
then you'd  better make your own errata. <br>
<br>
If the errors that your tagger makes are systematic enough, then I
suppose that the corrections could be applied with a transducer. If you
think this is feasible, then collect a bunch of your errors and send
them to me, and I will see if I can get a student interested in working
on the problem. Starting in April, I'm teaching a B.A. thesis seminar
on finite state methods in NLP, and all of my students need projects.
So there's a good chance that one of them would be interested in your
problem.<br>
<br>
Best Regards,<br>
<br>
Dale Gerdemann<br>
<br>
<br>
Adam Kilgarriff wrote:
<blockquote
 cite="midbd24ab310902250315r1fa236c5i95cd10653ca0bb9d@mail.gmail.com"
 type="cite">
  <div>All,</div>
  <div> </div>
  <div>My lexicography colleagues and I use POS-tagged corpora all the
time, every day, and very frequently spot systematic errors.  (This is
for a range of languages, but particularly English.)   We would dearly
like to be in a dialogue with the developers of the POS-tagger and/or
the relevant language models so the tagger+model could be improved in
response to our feedback. (We have been using standard models rather
than training our own.)   However it seems, for the taggers and
language models we use (mainly TreeTagger, also CLAWS) and also for
other market leaders, all of which seem to be from Universities, the
developers have little motivation for continuing the improvement of
their tagger, since incremental improvements do not make for good
research papers, so there is nowhere for our feedback to go, nor any
real prospect of these taggers/models improving.</div>
  <div> </div>
  <div>Am I too pessimistic?  Are there ways of improving language
models other than developing bigger and better training corpora - not
an exercise we have the resources to invest in?  Are there commercial
taggers I should be considering (as, in the commercial world, there is
motivation for incremental improvements and responding to customer
feedback)?<br clear="all">
  </div>
  <div>Responses and ideas most welcome</div>
  <div> </div>
  <div>Adam Kilgarriff<br>
-- <br>
================================================<br>
Adam Kilgarriff                                      <a
 href="http://www.kilgarriff.co.uk">http://www.kilgarriff.co.uk</a>    
         <br>
Lexical Computing Ltd                   <a
 href="http://www.sketchengine.co.uk">http://www.sketchengine.co.uk</a><br>
Lexicography MasterClass Ltd      <a
 href="http://www.lexmasterclass.com">http://www.lexmasterclass.com</a><br>
Universities of Leeds and Sussex       <a
 href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a><br>
================================================<br>
  </div>
  <pre wrap="">
<hr size="4" width="90%">
_______________________________________________
Corpora mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Corpora@uib.no">Corpora@uib.no</a>
<a class="moz-txt-link-freetext" href="http://mailman.uib.no/listinfo/corpora">http://mailman.uib.no/listinfo/corpora</a>
  </pre>
</blockquote>
<br>
</body>
</html>