<div dir="ltr">Up! :)</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, Dec 6, 2013 at 12:52 PM, Reinhard Rapp <span dir="ltr"><<a href="mailto:reinhardrapp@gmx.de" target="_blank">reinhardrapp@gmx.de</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Dear Daniel,<br>
<br>
Please don't take this personally! Adam just in a pointed way worked out that there is a different view on this between linguists and engineers, and that he prefers the former one. It is just one of many examples where different communities working on similar topics look at things quite diffeently (e.g. semantic web community and computational linguistics community). It is Adam's privilege to be able to descirbe such matters in a very concise and entertaining way. Let's not discourage him to do so! He has always very interesting things to say! Political correctness is boring!<br>

<br>
Kind regards,<br>
<br>
Reinhard<br>
<br>
<br>
-----Ursprüngliche Nachricht----- From: Daniel Gerber<br>
Sent: Friday, December 6, 2013 1:12 PM<br>
To: Adam Kilgarriff<br>
Cc: <a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a><br>
Subject: Re: [Corpora-List] Quotable Statistics on Unstructured Data on theWWW<div class="HOEnZb"><div class="h5"><br>
<br>
Hallo Adam,<br>
<br>
On <a href="tel:06.12.2013" value="+3906122013" target="_blank">06.12.2013</a>, at 12:45, Adam Kilgarriff <<a href="mailto:adam@lexmasterclass.com" target="_blank">adam@lexmasterclass.com</a>> wrote:<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
I always squirm when I hear text referred to as unstructured data. (Daniel - I see you do too, from the '(semi-)'.)    It feels like a teenager declaring everyone over 25 as old.<br>
</blockquote>
<br>
As what do you see text then? Yes, I typically refer to text as being unstructured, tables and so on as semi structured und databases as structured.<br>
I’m sorry that you feel greatly offended by my understanding. But your reply does not answer my question nor does it help me to understand a different point of view any better.<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Adam<br>
<br>
(PS - I first came across it in the IBM-promoted UIMA, the U is unstructured, so the inventors of that acronym should be shot. Not sure if the initiative is ongoing.)<br>
</blockquote>
<br>
I think you should apologize to the people you want to be shot. I can’t believe that someone (especially with a scientific background as you have) articulates in such manner.<br>
<br>
Daniel<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
<br>
<br>
On 6 December 2013 08:48, Daniel Gerber <<a href="mailto:dgerber@informatik.uni-leipzig.de" target="_blank">dgerber@informatik.uni-<u></u>leipzig.de</a>> wrote:<br>
Hi,<br>
I’m searching for any quotable statistics for the distribution of structured vs.  (semi-)unstructured data on the web.<br>
So far I could only find some blog post’s about Big Data statistics or presentations which claim a 15%-85% distribution but forget to quote the sources for this claim.<br>
<br>
Any help would be greatly appreciated,<br>
Daniel<br>
______________________________<u></u>_________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/<u></u>corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/<u></u>listinfo/corpora</a><br>
<br>
<br>
<br>
-- <br>
==============================<u></u>==========<br>
Adam Kilgarriff                  <a href="mailto:adam@lexmasterclass.com" target="_blank">adam@lexmasterclass.com</a><br>
Director                                    Lexical Computing Ltd<br>
Visiting Research Fellow                 University of Leeds<br>
Corpora for all with the Sketch Engine<br>
                        DANTE: a lexical database for English<br>
==============================<u></u>==========<br>
</blockquote>
<br>
<br>
______________________________<u></u>_________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/<u></u>corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/<u></u>listinfo/corpora</a> <br>
<br>
______________________________<u></u>_________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/<u></u>corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/<u></u>listinfo/corpora</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div dir="ltr">Michele Filannino<br><br><font color="#666666">CDT PhD student in Computer Science<br>Room IT301 - IT Building<br>The University of Manchester</font><div>
<div><font color="#666666"><a href="http://www.cs.man.ac.uk/~filannim/" target="_blank">http://www.cs.man.ac.uk/~filannim/</a></font></div><div><font color="#666666"><a href="mailto:filannim@cs.manchester.ac.uk" target="_blank">filannim@cs.manchester.ac.uk</a></font></div>
</div></div>
</div>