<html><head><style type="text/css"><!-- DIV {margin:0px;} --></style></head><body><div style="font-family:tahoma, new york, times, serif;font-size:12pt"><DIV>Dear Matias,</DIV>
<DIV> </DIV>
<DIV>I'm afraid I can't help concerning your question, but I would like to comment that Mike Maxwell has made a very good point regarding cleaning up the articles.  I had a very small corpus for my doctorate of just 73 articles about the same topic taken only from two days of various newspapers.  Because so many newspapers get their information from the same news services, I found a few articles that I had to disgard because of an over 80%  similarity ratio and of course that skews statistics. For such a small corpus, it was very easy to find the similarities using a plagiarism tool <A href="http://plagiarism.bloomfieldmedia.com/z-wordpress/software/wcopyfind/">http://plagiarism.bloomfieldmedia.com/z-wordpress/software/wcopyfind/</A>  (if anyone is interested) -but perhaps statistics don't enter into your project.</DIV>
<DIV> </DIV>
<DIV>Kindest regards,</DIV>
<DIV> </DIV>
<DIV>Linda Bawcom</DIV>
<DIV>Houston Community College-Central<BR></DIV>
<DIV style="FONT-FAMILY: tahoma, new york, times, serif; FONT-SIZE: 12pt"><BR>
<DIV style="FONT-FAMILY: times new roman, new york, times, serif; FONT-SIZE: 12pt"><FONT size=2 face=Tahoma>
<HR SIZE=1>
<B><SPAN style="FONT-WEIGHT: bold">From:</SPAN></B> Matías Guzmán <mortem.dei@gmail.com><BR><B><SPAN style="FONT-WEIGHT: bold">To:</SPAN></B> "corpora@uib.no" <corpora@uib.no><BR><B><SPAN style="FONT-WEIGHT: bold">Sent:</SPAN></B> Thu, November 29, 2012 12:29:16 PM<BR><B><SPAN style="FONT-WEIGHT: bold">Subject:</SPAN></B> [Corpora-List] Getting articles from newspapers to compile a corpus<BR></FONT><BR>Hi all,<BR><BR>I was wondering if anyone knows how to get every possible article from online newspapers and magazines. I was thinking something like giving a program the URL of the newspaper (e.g. <A href="http://www.eltiempo.com/" rel=nofollow target=_blank>www.eltiempo.com</A>) and getting the text from all pages therein. Is that possible?<BR><BR>Thanks a lot,<BR><BR>Matías<BR></DIV></DIV></div></body></html>