Hello,<div><br><div><div>I downloaded WIkipedia dump XML format, I want to eliminate the wikipedia tags to extract the plain text.</div><div>I found the tool <font face="georgia, serif">wikiprep </font>and I installed it but I do not know what script that eliminates the markup wikipedia.</div>
<div><br></div><div>Thanks</div>-- <br><div dir="ltr" style="text-align:left"><span></span><span></span></div><div dir="ltr"><br></div><div dir="ltr">RAHMA Sellami<br><div style="text-align:left"><span style="font-family:arial,helvetica,sans-serif;border-collapse:collapse">PhD Computer Science Student</span></div>
<div><font face="arial, helvetica, sans-serif"><span style="border-collapse:collapse"><a href="http://sites.google.com/site/rahmasellami/" target="_blank">http://sites.google.com/site/rahmasellami/</a></span></font></div>
<div><font face="arial, helvetica, sans-serif"><span style="border-collapse:collapse"><a href="http://sites.google.com/site/rahmasellami/" target="_blank"></a><br></span></font>Faculty of Economic Sciences and management of Sfax<br>
ANLP Research Group<br><a href="http://sites.google.com/site/anlprg" target="_blank">http://sites.google.com/site/anlprg</a><br><br>MIRACL Laboratory<br><a href="http://www.miracl.rnu.tn" target="_blank">www.miracl.rnu.tn</a><br>
<br>Email: <a href="mailto:rahma.sellami@gmail.com" target="_blank">rahma.sellami@gmail.com</a></div></div><br>
</div></div>