<div dir="ltr">there's phrase structure and dependency structure and morphological structure and text structure and rhetorical structure and semantic structure<div><br></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">

On 6 December 2013 12:12, Daniel Gerber <span dir="ltr"><<a href="mailto:dgerber@informatik.uni-leipzig.de" target="_blank">dgerber@informatik.uni-leipzig.de</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Hallo Adam,<br>
<div class="im"><br>
On 06.12.2013, at 12:45, Adam Kilgarriff <<a href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a>> wrote:<br>
<br>
> I always squirm when I hear text referred to as unstructured data.   (Daniel - I see you do too, from the '(semi-)'.)    It feels like a teenager declaring everyone over 25 as old.<br>
<br>
</div>As what do you see text then? Yes, I typically refer to text as being unstructured, tables and so on as semi structured und databases as structured.<br>
I’m sorry that you feel greatly offended by my understanding. But your reply does not answer my question nor does it help me to understand a different point of view any better.<br>
<div class="im"><br>
> Adam<br>
><br>
> (PS - I first came across it in the IBM-promoted UIMA, the U is unstructured, so the inventors of that acronym should be shot. Not sure if the initiative is ongoing.)<br>
<br>
</div>I think you should apologize to the people you want to be shot. I can’t believe that someone (especially with a scientific background as you have) articulates in such manner.<br>
<span class="HOEnZb"><font color="#888888"><br>
Daniel<br>
</font></span><div class="HOEnZb"><div class="h5"><br>
><br>
><br>
><br>
> On 6 December 2013 08:48, Daniel Gerber <<a href="mailto:dgerber@informatik.uni-leipzig.de">dgerber@informatik.uni-leipzig.de</a>> wrote:<br>
> Hi,<br>
> I’m searching for any quotable statistics for the distribution of structured vs.  (semi-)unstructured data on the web.<br>
> So far I could only find some blog post’s about Big Data statistics or presentations which claim a 15%-85% distribution but forget to quote the sources for this claim.<br>
><br>
> Any help would be greatly appreciated,<br>
> Daniel<br>
> _______________________________________________<br>
> UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
> Corpora mailing list<br>
> <a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
> <a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
><br>
><br>
><br>
> --<br>
> ========================================<br>
> Adam Kilgarriff                  <a href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a><br>
> Director                                    Lexical Computing Ltd<br>
> Visiting Research Fellow                 University of Leeds<br>
> Corpora for all with the Sketch Engine<br>
>                         DANTE: a lexical database for English<br>
> ========================================<br>
<br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br>========================================<br><a href="http://www.kilgarriff.co.uk/" target="_blank">Adam Kilgarriff</a>                  <a href="mailto:adam@lexmasterclass.com" target="_blank">adam@lexmasterclass.com</a>                                             <br>

Director                                    <a href="http://www.sketchengine.co.uk/" target="_blank">Lexical Computing Ltd</a>                <br>Visiting Research Fellow                 <a href="http://leeds.ac.uk" target="_blank">University of Leeds</a>     <div>

<i><font color="#006600">Corpora for all</font></i> with <a href="http://www.sketchengine.co.uk" target="_blank">the Sketch Engine</a>                 </div><div>                        <i><a href="http://www.webdante.com" target="_blank">DANTE: <font color="#009900">a lexical database for English</font></a><font color="#009900"> </font>                 </i><div>

========================================</div></div>
</div>