<HTML dir=ltr><HEAD><TITLE>Re: [Corpora-List] pdfs/ OCR question</TITLE>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.2963" name=GENERATOR></HEAD>
<BODY>
<DIV id=idOWAReplyText65311 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>Thanks for this Alexandre.</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>
<DIV dir=ltr><FONT face=Arial size=2>interesting to know that pdf files store text info separately! .... that makes sense-and also means that the errors have already occured (at the stage of pdf creation).</FONT></DIV>
<DIV dir=ltr> </DIV>It looks like the job of fixing the textual errors is a big one. I think it may simply be a question of accepting the limitations of the corpus we've generated by 'ripping' text from the imperfect pdf files?</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>Many thanks,</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>Duncan</FONT></DIV></DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>From:</B> owner-corpora@lists.uib.no on behalf of Alexandre Rafalovitch<BR><B>Sent:</B> Mon 11/12/2006 16:21<BR><B>To:</B> corpora@uib.no<BR><B>Subject:</B> Re: [Corpora-List] pdfs/ OCR question<BR></FONT><BR></DIV>
<DIV>
<P><FONT size=2>I would guess that the OCR had been done by the software that<BR>generated the PDF. You might be able to check what it is by looking at<BR>PDF document's properties. The text is stored on a separate layer from<BR>the image and the reader just does region matching for the selection<BR>purposes.<BR><BR>If you need to have this fixed, you probably will need to burst out<BR>the PDF into its page images and have those re-OCRed.<BR><BR>Software you might find useful include PDFBox (<A href="http://www.pdfbox.org/">http://www.pdfbox.org/</A>)<BR>and Gamera (<A href="http://ldp.library.jhu.edu/projects/gamera/">http://ldp.library.jhu.edu/projects/gamera/</A>)<BR><BR>You can also look at the Distributed Proofreaders to see if there is<BR>anything to be learned from their experience: <A href="http://www.pgdp.net/">http://www.pgdp.net/</A><BR><BR>Regards,<BR>   Alex.<BR><BR>On 12/11/06, Hunter, Duncan <D.I.Hunter@warwick.ac.uk> wrote:<BR>> Quick question about pdfs/ OCR:<BR>><BR>> Some text is copied and from a pdf file and pasted into a text or Word file.<BR>> It contains errors- say, for example, 'the' has become 'die' (you notice<BR>> that in the original pdf the 't' and 'h' are quite close together). At what<BR>> stage has this misrecognition/ miscopying occured?<BR>> Where does the OCR take place? The OCR functionality is, presumably,  part<BR>> of of the .pdf reader software itself?<BR>><BR>> Can anything be done to deal with the problem?<BR>><BR>> Duncan Hunter<BR>><BR>><BR><BR></FONT></P></DIV></BODY></HTML>