<div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br></blockquote><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">



<br>
For archiving and data interchange, XML (the file format) is unsurpassed for any size of corpus, as it is software-independent, based on plaintext, and the tags are human-readable and to some degree self-describing. A CWB index or a database would *not* be a good format for this purpose, by contrast, because they are binary formats based on non-self-describing column-and-row input.<br>


</blockquote><div><br></div><div>I beg to differ with the suggestion that using XML entails software-independence and interoperability. XML is just a ‘shell’ around any arbitrary format, providing a slight abstraction over very low-level encoding details and imposing only soft constraints on the shape of the actual format (there are alternative formats, such as JSON or YAML, which are basically as interoperable as XML).</div>


<div><br></div><div>The same unfortunately applies for TEI to some degree. TEI seems rather a meta-format than any particular format itself. This renders the interoperability only virtual, since given two fully TEI-compliant corpora one is not guaranteed to be able to use the same software to read both.</div>


<div><br></div><div>By the way, my calculations were probably oversimplified, since I counted only the <font face="'courier new', monospace">ann_morphosyntax</font> file, which in turn references <font face="'courier new', monospace">ann_segmentation</font> and <font face="'courier new', monospace">text_structure</font>. If they are to be included, the average bytes/token ratio for TEI/NKJP reaches 1485.58 (meaning that a 1-million corpus would take 1.4 GB). This does not include any metadata (and none of the mentioned alternative format does).</div>


<div><br></div><div>Best,</div><div>Adam</div><div><br></div></div>