<div dir="ltr">I always squirm when I hear text referred to as unstructured data.   (Daniel - I see you do too, from the '(semi-)'.)    It feels like a teenager declaring everyone over 25 as old.<div> </div><div>Adam<br>

<div><br></div><div>(PS - I first came across it in the IBM-promoted UIMA, the U is unstructured, so the inventors of that acronym should be shot. Not sure if the initiative is ongoing.)</div><div><br></div></div></div><div class="gmail_extra">

<br><br><div class="gmail_quote">On 6 December 2013 08:48, Daniel Gerber <span dir="ltr"><<a href="mailto:dgerber@informatik.uni-leipzig.de" target="_blank">dgerber@informatik.uni-leipzig.de</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Hi,<br>
I’m searching for any quotable statistics for the distribution of structured vs.  (semi-)unstructured data on the web.<br>
So far I could only find some blog post’s about Big Data statistics or presentations which claim a 15%-85% distribution but forget to quote the sources for this claim.<br>
<br>
Any help would be greatly appreciated,<br>
Daniel<br>
_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br>========================================<br><a href="http://www.kilgarriff.co.uk/" target="_blank">Adam Kilgarriff</a>                  <a href="mailto:adam@lexmasterclass.com" target="_blank">adam@lexmasterclass.com</a>                                             <br>

Director                                    <a href="http://www.sketchengine.co.uk/" target="_blank">Lexical Computing Ltd</a>                <br>Visiting Research Fellow                 <a href="http://leeds.ac.uk" target="_blank">University of Leeds</a>     <div>

<i><font color="#006600">Corpora for all</font></i> with <a href="http://www.sketchengine.co.uk" target="_blank">the Sketch Engine</a>                 </div><div>                        <i><a href="http://www.webdante.com" target="_blank">DANTE: <font color="#009900">a lexical database for English</font></a><font color="#009900"> </font>                 </i><div>

========================================</div></div>
</div>