<div dir="ltr">Djamé, everyone,<div><br></div><div>I think that shuffling a corpus and the not-that-different method of cutting up corpora</div><div>into n-gram databases all boil down to a use of corpora that would fall under the general</div><div>intuition of "fair use". Prototypically, this is</div><div>(i) the creation that you distribute is not suitable for any us that the original creator would have had in mind or had in mind, and thus are not in competition with the original creator</div><div>(ii) the parts used are fine enough that the exact source does not matter or is not identifiable to a casual observer</div><div>(iii) the person compiling the dataset has no commercial intent.</div><div><br></div><div>In US law, (i), (ii) and (iii) together would constitute a "fair use" defense, I.e. a defense against claims from the original copyright holder that you are misusing their works. In German law, for example, (ii) would mean that the criterion for the protectability ("Schöpfungshöhe") for these parts of the work is not met. (In the US, people have - unsuccessfully - tried to sue the publisher of the Mary Poppins film music for the use of the word "supercalifragilistiexpialidocious").</div><div><br></div><div>So, basically, Google and others are at the frilly borders of exceptions to the copyright law.</div><div>The story of sampling in rap music demonstrates how these frilly borders adjust themselves when commercial interests are in play:</div><div><a href="http://www.alternet.org/story/18830/how_copyright_law_changed_hip_hop" target="_blank">http://www.alternet.org/story/18830/how_copyright_law_changed_hip_hop</a><br></div><div>Quote: "<i>The copyright laws didn't really extend into sampling until the hip-hop artists started getting sued. As a matter of fact, copyright didn't start catching up with us until Fear of a Black Planet. That's when the copyrights and everything started becoming stricter because you had a lot of groups doing it and people were taking whole songs."</i></div><div><br></div><div>The case law of copyright has to adapt to the technical possibilities. In other words, as soon as people are prancing around in others' front yard where it was quiet before, the interpretation of the law may be changed to keep the undesirables out.</div><div><br></div><div>In our case, we've got Google and other search engines, with a vested interest in maintaining the fact that you can store parts of a page and show them to users in certain contexts that are independent from the original use, and you've got the newspapers, who would rather not see people using their content in any imaginable way without paying them. And outlets like the Huffington Post, who make a living based on the fact that you can (manually) synthesize the contents of news into new contents without falling into the category of "derivative work".</div><div><br></div><div>As a thought experiment, think what would happen if automatic text synthesis techniques (i.e., abstractive multi-document summarization, just taken much farther) got to the level of the Huffington post, and all the newspapers could get hold of would be a copyright on sentences or n-grams, we may see scrambled web corpora disappear as fast as Twitter corpora did when the company changed their TOS. Or limited to non-commercial use.</div><div><br></div><div>But this is just speculation. Currently the legality of it all is only tested through common sense and not courts, not all borders and not all legislations are accounted for, and the scrambling approach seems to be something that you can get your organization's legal department to agree on without much arguing.</div><div><br></div><div>Best wishes,</div><div>Yannick</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Jan 6, 2015 at 4:56 PM, Djamé Seddah <span dir="ltr"><<a href="mailto:djame.seddah@free.fr" target="_blank">djame.seddah@free.fr</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">Dear everyone,<div>I’ve heard that shuffling a corpus, so that its original sentence order cannot be retrieved, is enough and counts as a transformation, thus alleviating the risk of potential copyright infringement.  </div><div>Can anyone confirm this?</div><div><br></div><div>Best and happy new year,</div><div><br></div><div>Djamé </div><div><br></div><div><br><div><blockquote type="cite"><div>Le 6 janv. 2015 à 16:04, Mcenery, Tony <<a href="mailto:a.mcenery@lancaster.ac.uk" target="_blank">a.mcenery@lancaster.ac.uk</a>> a écrit :</div><br><div><div><div class="h5"><div style="font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255);direction:ltr;font-family:Tahoma;font-size:10pt"><font face="Tahoma, Geneva, sans-serif">Thanks to all who have contributed to this thread - I have really enjoyed it. Khalid made a passing reference to the UK position - this has recently become quite permissive for non-commercial text mining research, but we have been debating back and forth in Lancaster exactly what this means for corpus linguists. Due to the case-law nature of English Law we won't really know until some cases have been brought forward and we are able to see how the laws/regulations are to be interpreted, hence Khalid's comment about the situation being unclear, I assume. Anyway, for those of you interested in the new exceptions to copyright in the UK, you can read all about it here:</font><div style="font-family:Tahoma,Geneva,sans-serif;font-size:10pt"><br></div><div><font face="Tahoma, Geneva, sans-serif"><a href="https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/375951/Education_and_Teaching.pdf" style="color:purple;text-decoration:underline" target="_blank">https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/375951/Education_and_Teaching.pdf</a></font><br><div style="font-family:Tahoma,Geneva,sans-serif;font-size:10pt"><br><div style="font-family:Tahoma;font-size:13px"> </div></div><div style="font-family:'Times New Roman';font-size:16px"><hr><div style="direction:ltr"><font face="Tahoma"><b>From:</b><span> </span><a href="mailto:corpora-bounces@uib.no" style="color:purple;text-decoration:underline" target="_blank">corpora-bounces@uib.no</a><span> </span>[<a href="mailto:corpora-bounces@uib.no" style="color:purple;text-decoration:underline" target="_blank">corpora-bounces@uib.no</a>] on behalf of Mark Davies [<a href="mailto:Mark_Davies@byu.edu" style="color:purple;text-decoration:underline" target="_blank">Mark_Davies@byu.edu</a>]<br><b>Sent:</b><span> </span>06 January 2015 13:36<br><b>To:</b><span> </span><a href="mailto:corpora@uib.no" style="color:purple;text-decoration:underline" target="_blank">corpora@uib.no</a><br><b>Subject:</b><span> </span>Re: [Corpora-List] Copyright question again<br></font><br></div><div></div><div><div style="margin-top:0px;margin-bottom:0px">Marc Brysbaert wrote:<br></div><div style="margin-top:0px;margin-bottom:0px"><br></div><div style="margin-top:0px;margin-bottom:0px">>> <span style="color:rgb(31,73,125);font-family:Calibri,sans-serif;font-size:11pt">For what it is worth, in my experience word frequency lists and N-gram lists are not a problem. </span></div><div><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><br></span></div><div><span style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">I agree. I've distributed COCA/COHA word frequency (<a href="http://www.wordfrequency.info/" style="color:purple;text-decoration:underline" target="_blank">http://www.wordfrequency.info</a>) and n-grams (<a href="http://www.ngrams.info/" style="color:purple;text-decoration:underline" target="_blank">http://www.ngrams.info</a>) data for several years now, and I've never had any issues.</span></div><div style="margin-top:0px;margin-bottom:0px"><br></div><div style="margin-top:0px;margin-bottom:0px">>> <span style="color:rgb(31,73,125);font-family:Calibri,sans-serif;font-size:15px;background-color:rgb(255,255,255)">The big problem we are encountering is that currently there is no guidance about whether corpora can be shared. As a result, nearly all corpora assembled remain next to inaccessible, meaning that everyone has to collect their own corpus. This is a lot of needless work and also means that little cumulative work can be done.</span><br></div><div style="margin-top:0px;margin-bottom:0px"><br></div><div style="margin-top:0px;margin-bottom:0px">I've also been distributing "full-text" data from 450 million word COCA and the 1.9 billion word GloWbE (<a href="http://corpus.byu.edu/glowbe" style="color:purple;text-decoration:underline" target="_blank">http://corpus.byu.edu/glowbe</a>) for a while now, and again no problems to this point. There is a "twist", though, in terms of how the full-text data has been slightly altered to avoid copyright problems:<br></div><div style="margin-top:0px;margin-bottom:0px"><br></div><div style="margin-top:0px;margin-bottom:0px"><a href="http://corpus.byu.edu/full-text/limitations.asp" style="color:purple;text-decoration:underline" target="_blank">http://corpus.byu.edu/full-text/limitations.asp</a><br></div><div style="margin-top:0px;margin-bottom:0px"><br></div><div style="margin-top:0px;margin-bottom:0px">​Best,<br></div><div style="margin-top:0px;margin-bottom:0px"><br></div><div style="margin-top:0px;margin-bottom:0px">Mark D.<br></div><div style="margin-top:0px;margin-bottom:0px"><br></div><div><div style="font-family:Tahoma;font-size:13px"><div style="font-family:Tahoma;font-size:13px"><div style="margin-top:0px;margin-bottom:0px">============================================<br>Mark Davies<br>Professor of Linguistics / Brigham Young University<br><a href="http://davies-linguistics.byu.edu/" style="color:purple;text-decoration:underline" target="_blank">http://davies-linguistics.byu.edu/</a></div><div style="margin-top:0px;margin-bottom:0px">** Corpus design and use // Linguistic databases **<br>** Historical linguistics // Language variation **<br>** English, Spanish, and Portuguese **<br>============================================<br></div></div></div></div></div></div></div></div></div></div><span class=""><span style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255);float:none;display:inline!important">_______________________________________________</span><br style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255)"><span style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255);float:none;display:inline!important">UNSUBSCRIBE from this page:<span> </span></span><a href="http://mailman.uib.no/options/corpora" style="color:purple;text-decoration:underline;font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255)" target="_blank">http://mailman.uib.no/options/corpora</a><br style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255)"><span style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255);float:none;display:inline!important">Corpora mailing list</span><br style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255)"><a href="mailto:Corpora@uib.no" style="color:purple;text-decoration:underline;font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255)" target="_blank">Corpora@uib.no</a><br style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255)"><a href="http://mailman.uib.no/listinfo/corpora" style="color:purple;text-decoration:underline;font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255)" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255)"></span></div></blockquote></div><br></div></div><br>_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br></div>