Dear Josep,<div>there exists a quite universal solution, namely using OpenOffice's “UNO” API. This can be done in Python. There are existing Python scripts that do this. The advantage is that you can convert this way any type of text document that OpenOffice is able to open. Typical session will require to have an OO instance running, e.g.</div>

<div><br></div><div>$ <a href="http://openoffice.org">openoffice.org</a> "-accept=socket,host=localhost,port=2002;urp;"</div><div><br></div><div>I can't find the script I was using originally, something similar can be found here: <a href="http://rajeeshknambiar.wordpress.com/tag/pyuno/">http://rajeeshknambiar.wordpress.com/tag/pyuno/</a></div>

<div><br></div><div>If you're interested, I've got a modified version of the original script I found — this version outputs in very simple XML format, where each paragraphs is written separately (variant of XCES, as employed in the IPI PAN Corpus of Polish). If you're interested, I'll share the script (it's able to process all the text files in a given directory).</div>

<div><br></div><div>Best,</div><div>Adam Radziszewski</div><div><br></div>