<div dir="ltr">Hi Nick,<div><br></div><div>I agree with Paul, Tesseract is worth looking into.</div><div><br></div><div>For context, there have been quite many changes in OCR technology in last years. Tesseract, since version 4, uses line based training data, so the model is trained with line images and corresponding text. So it doesn't learn exact characters, but uses the whole line and its content. I don't think it is possible to teach any of these systems superscript at the moment, as they learn from plain character string with no formatting, but mapping superscript w into some arbitrary placeholder that keeps it distinct should work really well. You get the output as XML anyway so you can process it then.</div><div><br></div><div>When I was training Tesseract last time I was using this:</div><div><br></div><div><a href="https://github.com/tesseract-ocr/tesstrain">https://github.com/tesseract-ocr/tesstrain</a><br></div><div><br></div><div>There are also other systems, i.e. Calamari is actively developed and I have had really good experiences with it:</div><div><br></div><div><a href="https://github.com/Calamari-OCR/calamari">https://github.com/Calamari-OCR/calamari</a><br></div><div><br></div><div>What makes Tesseract more practical at the moment is that it does also the layout detection. If Tesseract gives you decent layout and line detection results, then working onward with that is an option. With Calamari and others one has to build bit more complex pipelines to run different tools.</div><div><br></div><div>The problem which will remain is that these tools aren't very good for proofreading the text and correcting manually the mistakes in layout detection. For this reason I would suggest that you look into Transkribus as well. It is mainly open source, but there are some components that are not publicly available. Anyway it isn't really a commercial tool either in the typical sense. It has really good interfaces, both as the Transkribus program and web editor, whick makes collaborative editing of materials really easy.</div><div><br></div><div>The tool is designed for hand written text, but it works extremely well with printed text too.</div><div><br></div><div><a href="https://transkribus.eu/">https://transkribus.eu/</a><br></div><div><br></div><div>To train Transkribus models you need to contact the developers so they add those rights to your profile.</div><div><br></div><div>I'm involved in several projects around OCR and HTR, so if there are some new questions I probably have some ideas and examples to share. Good luck with your OCR task!</div><div><br></div><div>Best wishes,</div><div><br></div><div>Niko</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Dec 6, 2019 at 9:18 AM Trilsbeek, Paul <<a href="mailto:Paul.Trilsbeek@mpi.nl">Paul.Trilsbeek@mpi.nl</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div style="overflow-wrap: break-word;">Hi Nick,<div><br></div><div>Perhaps you could give Tesseract a try. No idea whether that would do any better, but it seems to be used a lot nowadays and it's free and open source.</div><div><br></div><div><a href="https://github.com/tesseract-ocr/tesseract" target="_blank">https://github.com/tesseract-ocr/tesseract</a></div><div><br></div><div>Best,</div><div><br></div><div>Paul<br>
<div><br><blockquote type="cite"><div>On 5 Dec 2019, at 21:16, Nick Thieberger <<a href="mailto:thien@unimelb.edu.au" target="_blank">thien@unimelb.edu.au</a>> wrote:</div><br><div><div dir="ltr"><div>Has anyone had experience of successful OCR of ŋ and superscript w? I have tried in ABBYY and OmniPage with no success. This is to produce a new version of an existing print dictionary for which we havea pdf.</div><div><br></div><div>Thanks,</div><div><br></div><div>Nick<br></div></div>
</div></blockquote></div><br></div></div></blockquote></div>