<HTML dir=ltr><HEAD><TITLE>RE: [Corpora-List] 'imperfect' corpora</TITLE>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.2963" name=GENERATOR></HEAD>
<BODY>
<DIV id=idOWAReplyText20553 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>These responses have been incredibly helpful! Thanks especially to Eric and Mirko for the references-I'll certainly check these out!</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>Duncan Hunter</FONT></DIV></DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> Eric Ringger [mailto:ringger@cs.byu.edu]<BR><B>Sent:</B> Thu 16/11/2006 22:52<BR><B>To:</B> 'Mirko Tavosanis'; Hunter, Duncan; corpora@lists.uib.no<BR><B>Subject:</B> RE: [Corpora-List] 'imperfect' corpora<BR></FONT><BR></DIV>
<DIV>
<P><FONT size=2>Thanks to all for the interesting references.<BR><BR>As a Ph.D. student, I conducted some related research on the post-correction<BR>of speech recognition results.  Here is the briefest noteworthy reference:<BR><BR>Eric K. Ringger and James F. Allen. "A Fertility Channel Model for<BR>Post-Correction of Continuous Speech Recognition." Proceedings of the Fourth<BR>International Conference on Spoken Language Processing (ICSLP'96).<BR>Philadelphia, PA. October 1996.<BR><BR><A href="http://www.cs.rochester.edu/u/ringger/research/icslp-96.html">http://www.cs.rochester.edu/u/ringger/research/icslp-96.html</A><BR><BR>As no automatic post-correction technique will itself be perfect, I agree<BR>with Sravana Reddy that there is much to be said for corpus analysis<BR>techniques that are robust to the errors which inevitably occur in the<BR>process of automatic document acquisition (OCR, speech recognition, ...).<BR><BR>Many of the automatic post-correction techniques referenced in this thread<BR>leverage common error instances and types.  One would expect robust corpus<BR>analysis techniques at least to be able to see through the infrequent,<BR>random errors.<BR><BR>Regards,<BR>--Eric<BR><A href="http://faculty.cs.byu.edu/~ringger/">http://faculty.cs.byu.edu/~ringger/</A><BR><BR>-----Original Message-----<BR>From: owner-corpora@lists.uib.no [<A href="mailto:owner-corpora@lists.uib.no">mailto:owner-corpora@lists.uib.no</A>] On<BR>Behalf Of Mirko Tavosanis<BR>Sent: Thursday, November 16, 2006 10:25 AM<BR>To: Hunter, Duncan; corpora@lists.uib.no<BR>Subject: Re: [Corpora-List] 'imperfect' corpora<BR><BR>Hi, Duncan,<BR><BR>as for OCR problems, you can probably use:<BR><BR>1. Christoph Ringlstetter, Klaus U. Schulz and<BR>Stoyan Mihov: Orthographic Errors in Web Pages -<BR>Towards Cleaner Web Corpora. Computational Linguistics 32(3): 295-340.<BR><BR>2. Strohmaier, Christian, Christoph Ringlstetter,<BR>Klaus U. Schulz, and Stoyan Mihov. 2003a.<BR>Lexical postcorrection of OCR-results: The<BR>web as a dynamic secondary dictionary?<BR>In Proceedings of the Seventh International<BR>Conference on Document Analysis and<BR>Recognition (ICDAR 03), pages 1133-1137,<BR>Edinburgh.<BR><BR>3. Strohmaier, Christian, Christoph Ringlstetter,<BR>Klaus U. Schulz, and Stoyan Mihov.<BR>A visual and interactive tool for<BR>optimizing lexical postcorrection of<BR>OCR results. In Proceedings of the IEEE<BR>Workshop on Document Image Analysis<BR>and Recognition, DIAR'03, Madison, WI.<BR><BR>4. Ringlstetter, Christoph. 2003. OCRKorrektur<BR>und Bestimmung von<BR>Levenshtein-Gewichten. Master's<BR>thesis, LMU, University of Munich.<BR><BR><BR><BR>Mirko Tavosanis<BR>Dipartimento di Studi italianistici<BR>Universita' di Pisa<BR><A href="http://www.humnet.unipi.it/ital/">http://www.humnet.unipi.it/ital/</A><BR><BR><BR><BR></FONT></P></DIV></BODY></HTML>