<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">
<div><br>
</div>
You could also try pdf2xml that combines Apache Tika, pdftotext and other tools
<div><a href="https://bitbucket.org/tiedemann/pdf2xml/">https://bitbucket.org/tiedemann/pdf2xml/</a></div>
<div>It also integrates a language identifier to automatically filter out some garbage.</div>
<div>
<div apple-content-edited="true">
<div><br>
</div>
<div>Best,</div>
<div>Jörg</div>
<div><br>
</div>
<div><br>
</div>
<div>**********************************************************************************<br>
 Jörg Tiedemann                                          <a href="mailto:jorg.tiedemann@lingfil.uu.se">jorg.tiedemann@lingfil.uu.se</a><br>
 Dep. of Linguistics and Philology            <a href="http://stp.lingfil.uu.se/~joerg/">http://stp.lingfil.uu.se/~joerg/</a><br>
 Uppsala University                                     tel:  +46 (0)18 - 471 1412<br>
 Box 635, SE-751 26 Uppsala/Sweden   fax: +46 (0)18 - 471 1094</div>
</div>
<br>
<div>
<div>On Sep 11, 2014, at 7:29 PM, Craig Pfeifer wrote:</div>
<br class="Apple-interchange-newline">
<blockquote type="cite">
<div dir="ltr">Another option is the open source Apache Tika project:
<div><a href="https://tika.apache.org/">https://tika.apache.org/</a><br>
</div>
<div><br>
</div>
<div>It *should* handle arabic properly, with the standard caveats about needing OCR for image PDFs.</div>
<div><br>
</div>
<div>Craig</div>
</div>
<div class="gmail_extra"><br clear="all">
<div>______________<br>
<a href="mailto:craig.pfeifer@gmail.com">craig.pfeifer@gmail.com</a></div>
<br>
<div class="gmail_quote">On Thu, Sep 11, 2014 at 6:45 AM, Eric Atwell <span dir="ltr">
<<a href="mailto:E.S.Atwell@leeds.ac.uk" target="_blank">E.S.Atwell@leeds.ac.uk</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Can anyone recommend PDF-to=txt (or PDF-to=xml) tools for Arabic?<br>
I have had enquiries from several Arabic corpus linguistics researchers,<br>
example below from Anastasiya Andrusenko in Valencia<br>
<br>
thanks - Eric Atwell, Leeds University<br>
 WWW: <a href="http://www.comp.leeds.ac.uk/eric" target="_blank">http://www.comp.leeds.ac.uk/<u></u>eric</a><br>
      <a href="http://www.comp.leeds.ac.uk/arabic" target="_blank">http://www.comp.leeds.ac.uk/<u></u>arabic</a><br>
<br>
---------- Forwarded message ----------<br>
Date: Thu, 11 Sep 2014 10:50:36 +0100<br>
From: Anastasiya Andrusenko <<a href="mailto:anisika2002@gmail.com" target="_blank">anisika2002@gmail.com</a>><br>
To: Eric Atwell <<a href="mailto:E.S.Atwell@leeds.ac.uk" target="_blank">E.S.Atwell@leeds.ac.uk</a>><br>
Subject: Converting PDFs in Arabic to txt. for further corpus analysis<br>
<br>
<br>
Hi,<br>
<br>
I saw your profile in internet and thought may be you can help me.<br>
My name is Anastasiia Andrusenko, currently I am doing research on<br>
metadiscourse features in Arabic Research Articles (Analysis of Arabic corpus)<br>
at the Department of Applied Linguistics of the Universitat Politècnica de<br>
València.<br>
I have PDF files in Arabic. I need them to be in txt. format. But the problem<br>
is that by converting them with Adobe Acrobat Prof. the txt. files are not<br>
readible.<br>
<br>
Could you please advice any solution to this problem or may be you know any<br>
tool for text analysis for Arabic.<br>
Thank you in advance<br>
<br>
Regards,<br>
<br>
Anastasiia<br>
<br>
_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">
http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br>
</blockquote>
</div>
<br>
</div>
_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
http://mailman.uib.no/listinfo/corpora<br>
</blockquote>
</div>
<br>
</div>
</body>
</html>