Modern MS Word .docx files are ZIPs with XML documents, which don't require much scripting to extract plain text from.<br><br>Older .doc files will need a trip through some tool. It is possible to use OpenOffice/LibreOffice in headless mode for this, and OOo/LO's Office reader gets most of the doc format right.<br>
<br>-- Tino Didriksen<br><br><div class="gmail_quote">On Thu, Feb 9, 2012 at 12:38, Josep M. Fontana <span dir="ltr"><<a href="mailto:josepm.fontana@upf.edu">josepm.fontana@upf.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Does anyone here know of a good free application to batch convert Word documents to UTF-8? (Linux, OS X or Windows, it doesn't matter)<br></blockquote></div><br>