<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; ">Hi corpora list members,</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; "><br></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; font: normal normal normal 12px/normal Helvetica; min-height: 14px; ">I'm looking for a pretty big blog dataset that is marked up for the following attributes:</div> <ul> <li style="margin: 0.0px 0.0px 0.0px 0.0px"><font face="Helvetica" size="3" style="font: 12.0px Helvetica">writer ID</font></li> <li style="margin: 0.0px 0.0px 0.0px 0.0px"><font face="Helvetica" size="3" style="font: 12.0px Helvetica">blog ID</font></li> <li style="margin: 0.0px 0.0px 0.0px 0.0px"><font face="Helvetica" size="3" style="font: 12.0px Helvetica">reader IDs (who will be writers of other blogs/entries)</font></li> <li style="margin: 0.0px 0.0px 0.0px 0.0px"><font face="Helvetica" size="3" style="font: 12.0px Helvetica">time of publication</font></li> <li style="margin: 0.0px 0.0px 0.0px 0.0px"><font face="Helvetica" size="3" style="font: 12.0px Helvetica">whether/how often blog ID is referenced by other blogs (as in network information)</font></li> </ul><div>The ICWSM 2009 dataset is *almost* what I'm looking for, but not quite: it doesn't have specific trackback information, like what specific blogs, in terms of URLs, link to a given blog or a given post on the blog. This info. is necessary for me to see how a linguistic variable spreads in the blogosphere.</div><div><br></div><div>If you know about such a dataset, I'd appreciate any information you might have!</div><div><br></div><div>Thanks,</div><div>Paula</div></body></html>