<html><head><style type='text/css'>p { margin: 0; }</style></head><body><div style='font-family: times new roman,new york,times,serif; font-size: 12pt; color: #000000'>Hello,<br><br>You can search google for wiki2plaintext script. you can find it in perl and python<br><br><br>best,<br>Motaz <br><br><hr id="zwchr"><blockquote style="border-left:2px solid rgb(16, 16, 255);margin-left:5px;padding-left:5px;color:#000;font-weight:normal;font-style:normal;text-decoration:none;font-family:Helvetica,Arial,sans-serif;font-size:12pt;"><b>From: </b>"Rahma Sellami" <rahma.sellami@gmail.com><br><b>To: </b>corpora@uib.no<br><b>Sent: </b>Wednesday, June 20, 2012 7:46:05 PM<br><b>Subject: </b>[Corpora-List] Extract plain text from Wikipedia dump XML format<br><br>Hello,<div><br><div><div>I downloaded WIkipedia dump XML format, I want to eliminate the wikipedia tags to extract the plain text.</div><div>I found the tool <font face="georgia, serif">wikiprep </font>and I installed it but I do not know what script that eliminates the markup wikipedia.</div>
<div><br></div><div>Thanks</div>-- <br><div dir="ltr" style="text-align:left"><span></span><span></span></div><div dir="ltr"><br></div><div dir="ltr">RAHMA Sellami<br><div style="text-align:left"><span style="font-family:arial,helvetica,sans-serif;border-collapse:collapse">PhD Computer Science Student</span></div>
<div><font face="arial, helvetica, sans-serif"><span style="border-collapse:collapse"><a href="http://sites.google.com/site/rahmasellami/" target="_blank">http://sites.google.com/site/rahmasellami/</a></span></font></div>
<div><font face="arial, helvetica, sans-serif"><span style="border-collapse:collapse"><a href="http://sites.google.com/site/rahmasellami/" target="_blank"></a><br></span></font>Faculty of Economic Sciences and management of Sfax<br>
ANLP Research Group<br><a href="http://sites.google.com/site/anlprg" target="_blank">http://sites.google.com/site/anlprg</a><br><br>MIRACL Laboratory<br><a href="http://www.miracl.rnu.tn" target="_blank">www.miracl.rnu.tn</a><br>
<br>Email: <a href="mailto:rahma.sellami@gmail.com" target="_blank">rahma.sellami@gmail.com</a></div></div><br>
</div></div>
<br>_______________________________________________<br>UNSUBSCRIBE from this page: http://mailman.uib.no/options/corpora<br>Corpora mailing list<br>Corpora@uib.no<br>http://mailman.uib.no/listinfo/corpora<br></blockquote><br></div></body></html>