<HTML><HEAD>
<META name=GENERATOR content="MSHTML 8.00.6001.19088"></HEAD>
<BODY>
<DIV>Kevin,</DIV>
<DIV> </DIV>
<DIV>Re:</DIV>
<DIV>> Does anyone know of any tricks for automatically checking a Penn<BR>> Treebank-style corpus for obvious errors? </DIV>
<DIV><BR>One possibility is to strip the tags but maintain the dependency-based indentation, and visually check the results for obvious dependency errors,<BR><BR>This suggestion comes from my work in generating quickly-scanned parser results for English documents.  The format is similar to that of the Penn Treebank, but even more flattened, and without tags.   For example:<BR><BR>Stokely<BR>says<BR>      {stores<BR>        revive<BR>             specials<BR>                   like three cans<BR>                               of peas<BR>                                for 99 cents}<BR><BR><BR>See  <A href="http://www.aclweb.org/anthology-new/W/W05/W05-1101.pdf">http://www.aclweb.org/anthology-new/W/W05/W05-1101.pdf</A><BR>for more info.<BR><BR>Paula<BR><BR>> [Original Message]<BR>> From: Kevin B. Cohen <kevin.cohen@gmail.com><BR>> To: Corpora List <corpora@uib.no><BR>> Date: 6/17/2011 4:47:59 PM<BR>> Subject: [Corpora-List] Automatically checking a treebank for errors<BR>><BR>> Does anyone know of any tricks for automatically checking a Penn<BR>> Treebank-style corpus for obvious errors?  I've done some simple stuff<BR>> in the past for checking POS tags, like looking for punctuation marks<BR>> with non-punctuation tags, which turned out to be really fruitful, but<BR>> I can't think of anything clever to do for the syntactic structures.<BR>><BR>> Kev<BR>><BR>> -- <BR>> Kevin Bretonnel Cohen, PhD<BR>> Biomedical Text Mining Group Lead, Computational Bioscience Program,<BR>> U. Colorado School of Medicine<BR>> 303-916-2417 (cell) 303-377-9194 (home)<BR>> http://compbio.ucdenver.edu/Hunter_lab/Cohen<BR>><BR></DIV></BODY></HTML>