<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:st1="urn:schemas-microsoft-com:office:smarttags" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=iso-8859-1">
<meta name=Generator content="Microsoft Word 11 (filtered medium)">
<!--[if !mso]>
<style>
v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style>
<![endif]--><o:SmartTagType
 namespaceuri="urn:schemas-microsoft-com:office:smarttags" name="country-region"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="PlaceType"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="PlaceName"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="place"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="City"/>
<o:SmartTagType namespaceuri="urn:schemas-microsoft-com:office:smarttags"
 name="PersonName"/>
<!--[if !mso]>
<style>
st1\:*{behavior:url(#default#ieooui) }
</style>
<![endif]-->
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:Wingdings;
        panose-1:5 0 0 0 0 0 0 0 0 0;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman";
        color:black;}
a:link, span.MsoHyperlink
        {color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {color:blue;
        text-decoration:underline;}
pre
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:10.0pt;
        font-family:"Courier New";
        color:black;}
span.EmailStyle18
        {mso-style-type:personal-reply;
        font-family:Arial;
        color:blue;
        font-weight:normal;
        font-style:normal;
        text-decoration:none none;}
@page Section1
        {size:8.5in 11.0in;
        margin:1.0in 1.25in 1.0in 1.25in;}
div.Section1
        {page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body bgcolor=white lang=EN-US link=blue vlink=blue>

<div class=Section1>

<p class=MsoNormal><font size=2 color=blue face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:blue'>+1   (another shot to be fired (</span></font><font
size=2 color=blue face=Wingdings><span style='font-size:10.0pt;font-family:
Wingdings;color:blue'>K</span></font><font size=2 color=blue face=Arial><span
style='font-size:10.0pt;font-family:Arial;color:blue'>)<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=2 color=blue face=Arial><span style='font-size:
10.0pt;font-family:Arial;color:blue'><o:p> </o:p></span></font></p>

<div>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt'>Sincerely,<o:p></o:p></span></font></p>

<p class=MsoNormal><st1:PersonName w:st="on"><font size=3 color=black
 face="Times New Roman"><span style='font-size:12.0pt'>Rich Cooper</span></font></st1:PersonName><o:p></o:p></p>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt'>EnglishLogicKernel.com</span></font><font color=blue><span
style='color:blue'><o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt'>Rich AT EnglishLogicKernel DOT com</span></font><font
color=blue><span style='color:blue'><o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt'>9 4 9 \ 5 2 5 - 5 7 1 2</span></font><font
color=black><span style='color:windowtext'><o:p></o:p></span></font></p>

</div>

<div>

<div class=MsoNormal align=center style='text-align:center'><font size=3
color=black face="Times New Roman"><span style='font-size:12.0pt;color:windowtext'>

<hr size=3 width="100%" align=center tabindex=-1>

</span></font></div>

<p class=MsoNormal><b><font size=2 color=black face=Tahoma><span
style='font-size:10.0pt;font-family:Tahoma;color:windowtext;font-weight:bold'>From:</span></font></b><font
size=2 color=black face=Tahoma><span style='font-size:10.0pt;font-family:Tahoma;
color:windowtext'> corpora-bounces@uib.no [mailto:corpora-bounces@uib.no] <b><span
style='font-weight:bold'>On Behalf Of </span></b>Stefan Bordag<br>
<b><span style='font-weight:bold'>Sent:</span></b> Friday, December 06, 2013
9:10 AM<br>
<b><span style='font-weight:bold'>To:</span></b> corpora@uib.no<br>
<b><span style='font-weight:bold'>Subject:</span></b> Re: [Corpora-List]
Quotable Statistics on Unstructured Data on the WWW</span></font><font
color=black><span style='color:windowtext'><o:p></o:p></span></font></p>

</div>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt'><o:p> </o:p></span></font></p>

<div>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt'>Hi there,<br>
<br>
For me, the difference between structured and unstructured is whether it is
possible to use some kind of a simple and precise query system which guarantees
to retrieve a particular information, if it is there. Doing that on a database
is easy, use SQL or any of the other database access systems.<br>
<br>
Doing that on any information in text is not easy. Even using the best full
text capable search engine you are never guaranteed to get the one information
you were looking for, and only that information. For this matter it is
irrelevant whether it is semi-structured or "fully" unstructured. The
semi refers to the vague feeling that it might be easier to extract information
from tables in text, but as a matter of fact, it is not (or not significantly),
since people tend to invent all kinds of tables and information meshups. It is
only easier in very specific domains where you can make valid assumptions about
what kind of tabular information representations to expect.<br>
<br>
So, I fully agree that there should be the distinction between structured and
unstructured and probably should be shot next now. :)<br>
<br>
Best regards,<br>
Stefan<br>
<br>
Am 06.12.2013 17:14, schrieb Eric Atwell:<o:p></o:p></span></font></p>

</div>

<blockquote style='margin-top:5.0pt;margin-bottom:5.0pt'
cite="mid:alpine.LRH.2.02.1312061552560.26367@cslin-gps.csunix.comp.leeds.ac.uk"
type=cite>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt'>Sitting on the fence, I would say that text has IMPLICIT
structure at <br>
many levels (morphological, phrase structure, dependency etc) but this <br>
is not (usually) explictly labelled or "structured" (past tense
verb). For example, see <a href="http://corpus.quran.com/treebank.jsp">http://corpus.quran.com/treebank.jsp</a>
- an example <br>
4-word verse from the Quran ("unstructured text") alongside <br>
stucture labelling of morphology, syntax, dependency, as well as <br>
audio recitation and word-by-word English translation. <br>
Linguists see this implicit structure in all language, whereas <br>
(some) computer/information scientists only recognise structure if explicit
delimiters or tags are included in the character data <br>
stream; hence the 4-word Quran verse is "unstructured" whereas the
Treebank annotated data is "structured". <br>
<br>
Eric Atwell, <br>
 Language research group, <st1:place w:st="on"><st1:PlaceType w:st="on">School</st1:PlaceType>
 of <st1:PlaceName w:st="on">Computing</st1:PlaceName></st1:place> (hence on
the fence :-) <br>
 Leeds University <br>
<br>
PS A 2nd, unrelated, comment: even "plain text" Web-pages contain
HTML structure marking headers, paragraphs, links etc so there is virtually <br>
no "unstructured data" on the web <br>
<br>
PPS: congratulations to Kais Dukes, developer of corpus.quran.com <br>
 - who passed his PhD viva yesterday! <br>
<br>
<br>
On Fri, 6 Dec 2013, Adam Kilgarriff wrote: <br>
<br>
<br>
<o:p></o:p></span></font></p>

<p class=MsoNormal style='margin-bottom:12.0pt'><font size=3 color=black
face="Times New Roman"><span style='font-size:12.0pt'>there's phrase structure
and dependency structure and morphological structure and text structure and
rhetorical structure <br>
and semantic structure <br>
<br>
<br>
On 6 December 2013 12:12, Daniel Gerber <a
href="mailto:dgerber@informatik.uni-leipzig.de"><dgerber@informatik.uni-leipzig.de></a>
wrote: <br>
      Hallo Adam, <br>
<br>
      On 06.12.2013, at 12:45, Adam Kilgarriff <a
href="mailto:adam@lexmasterclass.com"><adam@lexmasterclass.com></a>
wrote: <br>
<br>
      > I always squirm when I hear text referred
to as unstructured data.   (Daniel - I see you do too, from the <br>
      '(semi-)'.)    It feels like a
teenager declaring everyone over 25 as old. <br>
<br>
As what do you see text then? Yes, I typically refer to text as being
unstructured, tables and so on as semi <br>
structured und databases as structured. <br>
I’m sorry that you feel greatly offended by my understanding. But your
reply does not answer my question nor does it <br>
help me to understand a different point of view any better. <br>
<br>
> Adam <br>
> <br>
> (PS - I first came across it in the IBM-promoted UIMA, the U is
unstructured, so the inventors of that acronym <br>
should be shot. Not sure if the initiative is ongoing.) <br>
<br>
I think you should apologize to the people you want to be shot. I can’t
believe that someone (especially with a <br>
scientific background as you have) articulates in such manner. <br>
<br>
Daniel <br>
<br>
> <br>
> <br>
> <br>
> On 6 December 2013 08:48, Daniel Gerber <a
href="mailto:dgerber@informatik.uni-leipzig.de"><dgerber@informatik.uni-leipzig.de></a>
wrote: <br>
> Hi, <br>
> I’m searching for any quotable statistics for the distribution of
structured vs.  (semi-)unstructured data on the <br>
web. <br>
> So far I could only find some blog post’s about Big Data statistics
or presentations which claim a 15%-85% <br>
distribution but forget to quote the sources for this claim. <br>
> <br>
> Any help would be greatly appreciated, <br>
> Daniel <br>
> _______________________________________________ <br>
> UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora">http://mailman.uib.no/options/corpora</a>
<br>
> Corpora mailing list <br>
> <a href="mailto:Corpora@uib.no">Corpora@uib.no</a> <br>
> <a href="http://mailman.uib.no/listinfo/corpora">http://mailman.uib.no/listinfo/corpora</a>
<br>
> <br>
> <br>
> <br>
> -- <br>
> ======================================== <br>
> Adam Kilgarriff                
 <a href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a> <br>
> Director                  
                 Lexical Computing
Ltd <br>
> Visiting Research Fellow              
  University of Leeds <br>
> Corpora for all with the Sketch Engine <br>
>                    
    DANTE: a lexical database for English <br>
> ======================================== <br>
<br>
<br>
<br>
<br>
-- <br>
======================================== <br>
Adam Kilgarriff              
   <a href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a> 
                     
                      <br>
Director                    
               Lexical Computing
Ltd                 <br>
Visiting Research Fellow              
  University of Leeds      Corpora for
all with the Sketch Engine            
     <br>
                    
   DANTE: a lexical database for English      
            ========================================
<br>
<br>
<o:p></o:p></span></font></p>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt'><br>
<br>
<br>
<br>
<fieldset class="mimeAttachmentHeader"></fieldset><o:p></o:p></span></font></p>

<pre><font size=2 color=black face="Courier New"><span style='font-size:10.0pt'>_______________________________________________<o:p></o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'>UNSUBSCRIBE from this page: <a
href="http://mailman.uib.no/options/corpora">http://mailman.uib.no/options/corpora</a><o:p></o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'>Corpora mailing list<o:p></o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'><a
href="mailto:Corpora@uib.no">Corpora@uib.no</a><o:p></o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'><a
href="http://mailman.uib.no/listinfo/corpora">http://mailman.uib.no/listinfo/corpora</a><o:p></o:p></span></font></pre></blockquote>

<p class=MsoNormal><font size=3 color=black face="Times New Roman"><span
style='font-size:12.0pt'><br>
<br>
<br>
<o:p></o:p></span></font></p>

<pre><font size=2 color=black face="Courier New"><span style='font-size:10.0pt'>-- <o:p></o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'>Dr. Stefan Bordag<o:p></o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'>Head of Research<o:p></o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'>ExB Research & Development GmbH<o:p></o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'>Seeburgstr. 100  |  04103 <st1:City
w:st="on">Leipzig</st1:City> |  <st1:country-region w:st="on"><st1:place w:st="on">Germany</st1:place></st1:country-region><o:p></o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'><o:p> </o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'>Phone +49.341.30854851  |  Fax +49.89.550673.41<o:p></o:p></span></font></pre><pre><st1:City
w:st="on"><st1:place w:st="on"><font size=2 color=black face="Courier New"><span
  style='font-size:10.0pt'>Mobile</span></font></st1:place></st1:City>  +49.176.70857605  |  email: <a
href="mailto:bordag@exb.de">bordag@exb.de</a><o:p></o:p></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'><o:p> </o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'>HRB 184556, Registergericht München<o:p></o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'>Geschäftsführer: Nicola Pizzoni<o:p></o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'>UStd-ID Nr: DE-209346179<o:p></o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'><o:p> </o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'>This email and any attachments are confidential, except where the email states it can be disclosed. If received in error, please do not disclose the contents to anyone, but notify the sender by return email and delete this email (and any attachments) from your system.<o:p></o:p></span></font></pre><pre><font
size=2 color=black face="Courier New"><span style='font-size:10.0pt'>The sender of this email is active for various members of the ExB Group. This email may, therefore, be sent in the name of different ExB entities.<o:p></o:p></span></font></pre></div>

</body>

</html>