<div>Go to Berkeley: <A href="http://www.sims.berkeley.edu">www.sims.berkeley.edu</A> and see the project How much information! Search for 'information statistics' to get estimation of knowledge stocks and information flows of various media.</div>  <div> </div>  <div>István.<BR><BR><B><I>radev@umich.edu</I></B> wrote:</div>  <BLOCKQUOTE class=replbq style="PADDING-LEFT: 5px; MARGIN-LEFT: 5px; BORDER-LEFT: #1010ff 2px solid">> <BR>> Drago,<BR>> <BR>> If we are talking about text, isn't it better to count in words than =<BR>> bytes.<BR>> (How do you count texts in scanned images? We don't really want to say =<BR>> that<BR>> 500 words of a scanned image count for 1000 times as much as 500 words =<BR>> of<BR>> ASCII.) =20<BR><BR>Words is fine.<BR><BR>> <BR>> Then, we can refer to Google basing Web1T on 10^12 words of English. Of<BR>> course that is only what Google finds, not what is there, and it is only<BR>> English. But they
 will have taken tasks like distinguishing text from<BR>> non-text, and deduplication, seriously, which must be a good thing if =<BR>> the<BR>> question is asked from a linguistic or NLP perspective.<BR><BR>According to<BR>http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html<BR>the Google corpus was indeed based on processing 1 (US) Trillion words<BR>(10^12 words), however there is no indication that this represents all<BR>the textual data that Google has indexed. I doubt that this is the case.<BR><BR>I was invited to edit a special issue of IEEE Intelligent Systems on<BR>"NLP using and for the Web" (title to be finalized) and I realized<BR>that we (or at least I) don't even know accurately how much text is on<BR>the Web. Adam, you were one of the earliest proponents of using the<BR>Web as a corpus. Do you know what is the largest corpus study (in<BR>terms of the size of the underlying data set) ever done in NLP?<BR><BR>Drago<BR><BR>>
 <BR>> While the Berkeley reference is clearly a key one, I was surprised =<BR>> simply at<BR>> the extent to which it showed up more questions than answers. If that's =<BR>> the<BR>> best guess (at least in 2003) at how much is out there, our collective =<BR>> level<BR>> of ignorance really is stunning. (Though I can't help thinking that the =<BR>> big<BR>> guys - Google, Yahoo, Microsoft, IBM - will have better answers that =<BR>> they<BR>> don't publish)<BR>> <BR>> Adam<BR>> <BR>> <BR>> -----Original Message-----<BR>> From: corpora-bounces@uib.no [mailto:corpora-bounces@uib.no] On Behalf =<BR>> Of<BR>> radev@umich.edu<BR>> Sent: 13 November 2007 17:37<BR>> To: Constantin Orasan<BR>> Cc: corpora@hd.uib.no<BR>> Subject: Re: [Corpora-List] amount of text on the web?<BR>> <BR>> This is too old. I have seen this one and quoted it a lot.<BR>> <BR>> >=20<BR>> > Hi,<BR>> >=20<BR>>
 > The numbers are a bit old but a very good study which investigates how<BR>> > much data is on the web is:<BR>> >=20<BR>> > Lyman, Peter and Hal R. Varian (2003) How much information =<BR>> =3DE2=3D80=3D93<BR>> 2003.<BR>> > Technical report, School of Information Management and Systems,<BR>> > University of California at Berkeley.<BR>> >=20<BR>> > http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/<BR>> >=20<BR>> > Regards<BR>> >=20<BR>> > Constantin<BR>> >=20<BR>> > > I am looking for some up to date statistics on the amount of textual<BR>> > > data on the web. I have seen varied estimates ranging up to 1<BR>> > > Exabyte. I am sure that it is not possible to define precisely what<BR>> > > "text on the web" means (do you include email, cached text, local<BR>> > > files, "hidden" web, etc).<BR>> > >=3D20<BR>> > >
 Drago<BR>> >=20<BR>> > --=3D20<BR>> > Constantin Orasan <C.ORASAN@WLV.AC.UK><BR>> > Lecturer in Computational Linguistics<BR>> > Research Group in Computational Linguistics<BR>> > http://www.wlv.ac.uk/~in6093/<BR>> > University of Wolverhampton<BR>> >=20<BR>> >=20<BR>> <BR>> <BR>> --=20<BR>> Dragomir R. Radev Associate Professor<BR>> SI, CSE, Ling U. Michigan, Ann Arbor=20<BR>> http://www.eecs.umich.edu/~radev radev@umich.edu =20<BR>> <BR>> _______________________________________________<BR>> Corpora mailing list<BR>> Corpora@uib.no<BR>> http://mailman.uib.no/listinfo/corpora<BR>> <BR>> <BR>> <BR><BR><BR>-- <BR>Dragomir R. Radev Associate Professor<BR>SI, CSE, Ling U. Michigan, Ann Arbor <BR>http://www.eecs.umich.edu/~radev radev@umich.edu <BR><BR>_______________________________________________<BR>Corpora mailing
 list<BR>Corpora@uib.no<BR>http://mailman.uib.no/listinfo/corpora<BR></BLOCKQUOTE><BR><p>
      <hr size=1>Be a better sports nut! Let your teams follow you 
with Yahoo Mobile. <a href="http://us.rd.yahoo.com/evt=51731/*http://mobile.yahoo.com/sports;_ylt=At9_qDKvtAbMuh1G1SQtBI7ntAcJ
">Try it now.</a>