<div dir="ltr"><div>Dear John,</div><div><br></div><div>You are right, it is a very awkward distribution format. Corpora of some size become very difficult to gather after a point. However, tweet decay is not so much of a problem for many use-cases (of course when tweets are deleted that are the only example of a particular phenomenon in a corpus, the deletion is of greater impact). It seems that tweets decay at a reasonably stable rate after the first hour's spam filtering (or whatever) has been done.</div>
<div><br></div><div>Based on observations over the Trendminer garden hose feed, which collects us about 1.2TB of tweets each day, and the findings of Petrovic, Osborne and Lavrenko (2013) "I Wish I Didn’t Say That! Analyzing and Predicting Deleted Messages in Twitter", you can in fact work out a reasonably accurate model for predicting tweet "decay" through deletion in a reasonably-sized corpus:<br>
</div><div><br></div><div>  <a href="http://derczynski.com/leon/tweet-decay.html">http://derczynski.com/leon/tweet-decay.html</a></div><div><br></div><div>This supports the idea that a corpus a few months old and a few years old will look roughly the same - it's quite rare that one would go back and delete a message after a few years. So the tweet data becomes "stabler" with time. Which is good, because it may take months to retrieve via the API ;)</div>
<div><br></div><div>All the best,</div><div><br></div><div><br></div><div>Leon</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On 16 July 2013 17:44, John D. Burger <span dir="ltr"><<a href="mailto:john@mitre.org" target="_blank">john@mitre.org</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">There appears to be no legal reason you can't collect a corpus of tweets.  However, per Twitter's Terms of Use you cannot redistribute the tweets to others.  A common practice is to instead distribute the tweet IDs, which other people can use to fetch the tweets using Twitter's API.  This is how NIST "distributes" the data in their Tweets2011 corpus:<div>
<br></div><div><a href="http://trec.nist.gov/data/tweets/" target="_blank">http://trec.nist.gov/data/tweets/</a></div><div><div><br></div><div>This is less than optimal for research, though, since in the interim some of the Twitter users may have deleted tweets in the collection. For a sufficiently large corpus, this means that anybody else attempting to use the same data at a later date will almost certainly end up with a subset of your corpus. As far as I know, however, this is currently the only legal method for sharing tweets.</div>
<div><br></div><div>- John Burger</div><div>  MITRE</div><div><br><div><div><div><div class="h5"><div>On Jul 16, 2013, at 10:51 , M.E.Sciubba wrote:</div><br></div></div><blockquote type="cite"><div><div class="h5"><div dir="ltr">
Dear ListMembers,<div><br></div><div>I'd like to create a corpus of Italian twits, but searching online I found out that it is not possible anymore because Twitter has changed its privacy settings.</div>
<div><br></div><div>Has any of you tried to build a Twitter corpus and how? </div><div><br></div><div>Any suggestion will be much appreciated (considering that I am not a programmer, though).</div><div><br></div><div>Best,</div>

<div><br></div><div>Eleonora</div><div><div><br></div><div><br></div><hr style="font-size:16px;font-family:'Times New Roman'"><div style="direction:ltr;font-size:16px;font-family:'Times New Roman'">
 </div><div style="font-size:13px;font-family:Tahoma"><div>Dr. Maria Eleonora Sciubba</div><div><div>Associate Researcher</div><div>Archivio di LInguA Spontanea</div><div><div><span style="font-family:Arial,Helvetica,sans-serif;font-size:12px">tel. <a href="tel:%2B32%2016%203%2024795" value="+3216324795" target="_blank">+32 16 3 24795</a></span></div>

<div><font face="Arial, Helvetica, sans-serif"><span style="font-size:12px">cell <a href="tel:%2B32%20483%20616%20114" value="+32483616114" target="_blank">+32 483 616 114</a></span></font></div></div><div><br></div><div>
<p style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">
<span lang="EN-US">KU Leuven – Faculty of Arts<u></u><u></u></span></p><p style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><span lang="EN-US">Department of French, Italian and Comparative Linguistics<u></u><u></u></span></p>
<p style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif"><span lang="NL-BE">Blijde-Inkomststraat 21, PO BOX 3308<u></u><u></u></span></p><p style="color:rgb(34,34,34);font-size:12.727272033691406px;font-family:arial,sans-serif">

<span lang="NL-BE">B - 3000 Leuven</span></p><p><span lang="NL-BE"><font color="#222222" face="arial, sans-serif"><a href="http://www.kuleuven.be/wieiswie/nl/person/00088846" target="_blank">http://www.kuleuven.be/wieiswie/nl/person/00088846</a></font></span></p>

</div></div></div><div style="font-size:13px;font-family:Tahoma"><p><span lang="NL-BE"><font color="#222222" face="arial, sans-serif"><br></font></span></p><div><span lang="NL-BE"></span><br></div>
<hr style="font-family:'Times New Roman';font-size:16px"><div style="font-family:'Times New Roman';font-size:16px;direction:ltr"> <i style="color:rgb(51,204,0);font-family:Tahoma,sans-serif;font-size:medium">Be green. Keep it on the screen</i></div>

</div></div></div></div></div>
_______________________________________________<br>UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>Corpora mailing list<br><a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br></blockquote></div><br></div></div></div></div><br>_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>Leon R A Derczynski<br>Research Associate, NLP Group<br><br>Department of Computer Science<br>University of Sheffield<br>Regent Court, 211 Portobello<br>Sheffield S1 4DP, UK<br>
<br>+45 5157 4948<br><a href="http://www.dcs.shef.ac.uk/~leon/" target="_blank">http://www.dcs.shef.ac.uk/~leon/</a>
</div>