<div dir="ltr">Dear Daniel,<div><br></div><div>There is an active "Data Extraction" community who among other things often work on extracting data from the web that's not encoded linguistically but in other forms (e.g. in web tables, visually in document layout, in semantic markup) - they may have evidence that helps answer your query. I know of two workshops on this work that could provide helpful starting points:</div>
<div><br></div><div><a href="http://diadem.cs.ox.ac.uk/oxford13/">http://diadem.cs.ox.ac.uk/oxford13/</a><br></div><div><a href="http://diadem.cs.ox.ac.uk/deos14/">http://diadem.cs.ox.ac.uk/deos14/</a><br></div><div><br></div>
<div>Of course, one perhaps needs to define what data is and how you measure "a data" before you can talk about the percentage of data in a given format - but that's another issue!</div><div><br></div><div>All the best,</div>
<div><br></div><div><br></div><div>Leon</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On 6 December 2013 09:48, Daniel Gerber <span dir="ltr"><<a href="mailto:dgerber@informatik.uni-leipzig.de" target="_blank">dgerber@informatik.uni-leipzig.de</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
I’m searching for any quotable statistics for the distribution of structured vs.  (semi-)unstructured data on the web.<br>
So far I could only find some blog post’s about Big Data statistics or presentations which claim a 15%-85% distribution but forget to quote the sources for this claim.<br>
<br>
Any help would be greatly appreciated,<br>
Daniel<br>
_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div dir="ltr">Leon R A Derczynski<br>Research Associate, NLP Group<div><br></div><div>Department of Computer Science</div><div>University of Sheffield, UK<br>
<br><a href="http://www.dcs.shef.ac.uk/~leon/" target="_blank">http://www.dcs.shef.ac.uk/~leon/</a></div></div>
</div>