Hi,<br><br>This is a tool for extracting information from wikipedia. <a href="http://wikipedia-miner.sourceforge.net/">http://wikipedia-miner.sourceforge.net/</a> Have a look at it. <br><br><br>Srinivas.<br><br><div class="gmail_quote">

On Fri, Aug 27, 2010 at 11:22 PM, Irina Temnikova <span dir="ltr"><<a href="mailto:irina.temnikova@gmail.com">irina.temnikova@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

Dear CORPORA mailing list members,<br><br>Do any of you know of any
tool for extracting text specifically from Wikipedia articles, besides
those for extracting text from HTML pages?<br><br>I only need the title
and the text, without any of the formal elements present in every
Wikipedia article (such as "From Wikipedia, the free encyclopedia",
"This article is about ..", [edit], the list of languages,"Main
article:","Categories:") and without "Contents", "See also",
"References", "Notes" and "External links".<br>

<br>Can you give me any suggestions?<br><br>Thank you very much in 
advance,<br><br>Irina<br><br><pre cols="72">Irina Temnikova<br><br>PhD Student in Computational Linguistics<br>Editorial Assistant for the Journal of Natural Language Engineering<br>Research Group in Computational Linguistics<br>



Research Institute of Information and Language Processing<br>University of Wolverhampton, UK</pre><br><font color="#888888">-- <br>If you want to build a ship, don't drum up the men to gather wood, divide the work and give orders. Instead, teach them to yearn for the vast and endless sea. (Antoine de Saint-Exupery)<br>




</font><br>_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br>G.R.J.Srinivas<br>OBH 62<br>IIIT Hyderabad<br>9492756712<br>