<font face="verdana,sans-serif">Thanks Orion,<br><br>That might work in most of my cases, but there are some cases where the largest content is not necessarily the MAIN context. In the <a href="http://highbeam.com">highbeam.com</a>, I would have been more satisfied, it is returns:<br>

<br></font><i>ROBYN BECK<br>
Getty Images<br>
01-20-2009<br>
Incoming US First Lady Michelle Obama (L) and daughters Malia...</i><p><i><br><br></i></p><i>Full Size JPG (909 KB)</i><p><i>Incoming US First Lady Michelle Obama (L) and daughters Malia (2nd L) and Sasha watch Barack Obama being … </i><br>

</p><p>, or, if it says that there is no MAIN content.</p><p><br></p><p>Any thoughts?<br></p><br><font face="verdana,sans-serif"><br clear="all"></font><span style="font-family:verdana,sans-serif">Sincerely,</span><br style="font-family:verdana,sans-serif">

<span style="font-family:verdana,sans-serif">Siddhartha Jonnalagadda, </span>Ph.D.<br style="font-family:verdana,sans-serif"><span style="font-family:verdana,sans-serif"></span><span style="font-family:verdana,sans-serif"></span><a style="font-family:verdana,sans-serif" href="http://sjonnalagadda.wordpress.com" target="_blank">sjonnalagadda.wordpress.com</a><br style="font-family:verdana,sans-serif">

<br style="font-family:verdana,sans-serif"><br>
<br><br><div class="gmail_quote">On Fri, Aug 5, 2011 at 3:33 PM, Orion Montoya <span dir="ltr"><<a href="mailto:orion@mdcclv.com">orion@mdcclv.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

<br><br><div class="gmail_quote"><div class="im">On Fri, Aug 5, 2011 at 2:49 PM, Siddhartha Jonnalagadda <span dir="ltr"><<a href="mailto:sid.kgp@gmail.com" target="_blank">sid.kgp@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


<font face="verdana,sans-serif">boilerpipe [1] served my purposes temporarily. When I tried to do more serious stuff such as reading the news, it fails. For example, consider:<br> <a href="http://www.innovations-report.com/html/reports/studies/report-92130.html" target="_blank">http://www.innovations-report.com/html/reports/studies/report-92130.html</a><br>




it pulls only what is not relevant<br></font></blockquote><div><br></div></div><div>This works when you use LargestContentExtractor:</div><div><a href="http://boilerpipe-web.appspot.com/extract?url=http%3A%2F%2Fwww.innovations-report.com%2Fhtml%2Freports%2Fstudies%2Freport-92130.html&extractor=LargestContentExtractor&output=htmlFragment" target="_blank">http://boilerpipe-web.appspot.com/extract?url=http%3A%2F%2Fwww.innovations-report.com%2Fhtml%2Freports%2Fstudies%2Freport-92130.html&extractor=LargestContentExtractor&output=htmlFragment</a></div>

<div class="im">
<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><font face="verdana,sans-serif"><br>or <a href="http://www.highbeam.com/doc/1P1-160189301.html" target="_blank">http://www.highbeam.com/doc/1P1-160189301.html</a><br>


it pulls stuff from related articles, which I'm not interested in. <br></font></blockquote><div><br></div></div><div>I can't see any interesting content on this page at all—it's trying to upsell me for a trial subscription.</div>


</div>
</blockquote></div><br>