<html><body><div style="font-family: arial,helvetica,sans-serif; font-size: 12pt; color: #000000"><div>Dear all<br></div><div>Has anybody asked organisations that work on things like this, eg <a href="http://www.clarin.eu">http://www.clarin.eu</a>?</div><div>As Marc says, one of the biggest problems here is that individuals go ahead and do what they do, but stop short at sharing and so much is tragically lost.</div><div>Best</div><div>alex</div><div><br></div><div><br></div><div><span name="x"></span><p style="margin: 0px;" data-mce-style="margin: 0px;"><b><span style="font-size: 10pt; font-family: Calibri;" data-mce-style="font-size: 10pt; font-family: Calibri;">________________________________________</span></b></p><p style="margin: 0px;" data-mce-style="margin: 0px;"><b><span style="font-size: 10pt; font-family: Calibri;" data-mce-style="font-size: 10pt; font-family: Calibri;">Alex Boulton</span></b></p><p style="margin: 0px;" data-mce-style="margin: 0px;"><span style="font-family: Calibri; font-size: 10pt;">Professor of English and Applied Linguistics</span></p><p style="margin: 0px;" data-mce-style="margin: 0px;"><span style="font-size: 10pt; font-family: Calibri;" data-mce-style="font-size: 10pt; font-family: Calibri;">Atilf : Université de Lorraine & CNRS</span></p><p style="margin: 0px;" data-mce-style="margin: 0px;"><span style="font-size: 10pt; font-family: Calibri;" data-mce-style="font-size: 10pt; font-family: Calibri;"><span style="font-family: Calibri; font-size: 13px;" data-mce-style="font-family: Calibri; font-size: 13px;"><span style="color: #ff0000; font-family: Calibri; font-size: 13px;" data-mce-style="color: #ff0000; font-family: Calibri; font-size: 13px;"></span></span></span></p><p style="margin: 0px;" data-mce-style="margin: 0px;"><span style="font-size: 10pt; font-family: Calibri;" data-mce-style="font-size: 10pt; font-family: Calibri;">Responsable équipe Didactique (Crapel)</span></p><p style="margin: 0px;" data-mce-style="margin: 0px;"><span style="font-size: 10pt; font-family: Calibri;" data-mce-style="font-size: 10pt; font-family: Calibri;"><span style="font-family: Calibri; font-size: 13px;" data-mce-style="font-family: Calibri; font-size: 13px;"><span style="color: #ff0000; font-family: Calibri; font-size: 13px;" data-mce-style="color: #ff0000; font-family: Calibri; font-size: 13px;"></span></span></span></p><div><span style="font-family: Calibri; font-size: 13px;">Directeur adjoint UFR Lansad</span></div><p style="margin: 0px;" data-mce-style="margin: 0px;"><span style="font-family: Calibri; font-size: 13.63636302948px;">ReCALL, Afla, Eurocall, Geras, TaLC</span></p><p style="margin: 0px;" data-mce-style="margin: 0px;"><span style="font-size: 10pt; font-family: Calibri;" data-mce-style="font-size: 10pt; font-family: Calibri;">(+33) 03 54 50 51 06</span></p><p style="margin: 0px;" data-mce-style="margin: 0px;"><span style="font-size: 10pt; font-family: Calibri;" data-mce-style="font-size: 10pt; font-family: Calibri;"> </span></p><p style="margin: 0px;" data-mce-style="margin: 0px;"><br></p><span name="x"></span><br></div><hr id="zwchr"><blockquote style="border-left:2px solid #1010FF;margin-left:5px;padding-left:5px;color:#000;font-weight:normal;font-style:normal;text-decoration:none;font-family:Helvetica,Arial,sans-serif;font-size:12pt;"><b>De: </b>"Marc Brysbaert" <marc.brysbaert@ugent.be><br><b>À: </b>corpora@uib.no<br><b>Envoyé: </b>Mardi 6 Janvier 2015 09:17:06<br><b>Objet: </b>Re: [Corpora-List] Copyright question again<br><div><br></div><style><!--

@font-face
        {font-family:SimSun;
        panose-1:2 1 6 0 3 1 1 1 1 1;}
@font-face
        {font-family:SimSun;
        panose-1:2 1 6 0 3 1 1 1 1 1;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:"\@SimSun";
        panose-1:2 1 6 0 3 1 1 1 1 1;}

p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri","sans-serif";}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:70.85pt 70.85pt 70.85pt 70.85pt;}
div.WordSection1
        {page:WordSection1;}
--></style><div class="WordSection1"><p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D">For what it is worth, in my experience word frequency lists and N-gram lists are not a problem. The big problem we are encountering is that currently there is no guidance about whether corpora can be shared. As a result, nearly all corpora assembled remain next to inaccessible, meaning that everyone has to collect their own corpus. This is a lot of needless work and also means that little cumulative work can be done.</span></p><p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D"> </span></p><p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D">m</span></p><p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D"> </span></p><p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif"">From:</span></b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif""> corpora-bounces@uib.no [mailto:corpora-bounces@uib.no] <b>On Behalf Of </b>Orion Montoya<br><b>Sent:</b> dinsdag 6 januari 2015 7:15<br><b>To:</b> Damir Cavar<br><b>Cc:</b> corpora@uib.no<br><b>Subject:</b> Re: [Corpora-List] Copyright question again</span></p><p class="MsoNormal"> </p><div><p class="MsoNormal">Word lists and frequency profiles would seem to be safely in the realm of fair use: <a href="http://en.wikipedia.org/wiki/Fair_use" target="_blank">http://en.wikipedia.org/wiki/Fair_use</a> . The Google Books Ngrams data, distributed up to 12-grams by Google, are one example of people distributing rather high-N ngrams. Of course Google fought with the Authors Guild over Google Books in general, but I don't recall this distribution of ngram data being part of their fight, and in the end the Authors Guild didn't win the obscurity they were pleading for. For another example, <a href="http://commoncrawl.org/" target="_blank">http://commoncrawl.org/</a> distributes a massive crawl of the web for researchers (or anybody) which is far more wholesale copying+redistribution than you're proposing, but they follow the normal rules that webcrawlers follow and are doing just fine (and are a very useful resource!). </p><div><p class="MsoNormal"> </p></div><div><p class="MsoNormal">So I would personally have zero legal worry about what you're proposing. I would have no qualms about either academic research or commercial applications (or commercial distribution) of that derived data. Adam is (as usual) right, that you shouldn't even ask anybody for permission.</p><div><p class="MsoNormal"> </p></div><div><p class="MsoNormal">The thing about fair use that can make university lawyers uncomfortable is that it's an "affirmative defense" -- you can argue it in court if someone sues you, but there's no guarantee that you can use it to stay out of court in the first place, which can be expensive.</p></div><div><p class="MsoNormal"> </p></div><div><p class="MsoNormal">But the other thing about the fair use defense is that, in order for you to use it, somebody needs to be able to claim that you're infringing their copyright in the first place. If you're just distributing frequency lists, there's no trace of a copyrighted work to be found; even at the 5-gram level, it's very hard to find any actionable infringement: the fourth principle to be considered in evaluating fair use is "<span style="font-size:10.0pt;font-family:"Arial","sans-serif";color:#252525;background:#F9F9F9">the effect of the use upon the potential market for or value of the copyrighted work" and in your case that effect should be exactly nil.</span></p></div><div><p class="MsoNormal"> </p></div></div><div><p class="MsoNormal">You could save yourself a bit of busywork, and maybe offer your university's lawyers some psychological insulation from legal risk, by using existing corpora resources like Common Crawl.</p></div><div><p class="MsoNormal"> </p></div><div><p class="MsoNormal">Part C of your question --- "are there jurisdictions where this might be illegal" --- is the fuzziest to answer; the Berne Convention allows signatory countries to define fair use for themselves, so there might be jurisdictions where this could be risky, but they're probably places for which it's challenging to get a visa anyway. I am not a lawyer, just a copyright geek and a subscriber of "5 Useful Articles" by Parker Higgins & Sarah Jeong, <a href="http://tinyletter.com/5ua" target="_blank">http://tinyletter.com/5ua</a> , an amusing and edifying weekly email about the inherent comedy of US IP law in the 21st century.</p></div><div><p class="MsoNormal"> </p></div><div><p class="MsoNormal">Cheers,</p></div><div><p class="MsoNormal"> </p></div><div><p class="MsoNormal">Orion</p></div><div><p class="MsoNormal"> </p><div><p class="MsoNormal">On Mon, Jan 5, 2015 at 9:30 PM, Adam Kilgarriff <<a href="mailto:adam.kilgarriff@sketchengine.co.uk" target="_blank">adam.kilgarriff@sketchengine.co.uk</a>> wrote:</p><div><p class="MsoNormal">Dear Damir,</p><div><p class="MsoNormal"> </p></div><div><p class="MsoNormal">a few thoughts:</p><div><p class="MsoNormal"> </p></div><div><p class="MsoNormal">In an innocent world view, the law says what is allowed and what is not.  The more I see of how the legal profession works, the clearer it is that it's all political, in the sense that the judgements that build the case law (at least in UK) are made based on how well the lawyers played the game, how much money was involved, who had a sniff of how much money they might make.</p></div><div><p class="MsoNormal"> </p></div><div><p class="MsoNormal">It's not about what is legal (which is always, in this area, underspecified), it is about risk management.</p></div><div><p class="MsoNormal"> </p></div><div><p class="MsoNormal">If no-one sees a money-making opportunity, there is very little legal risk since no-one will take you to court.  </p></div><div><p class="MsoNormal">If you're a big organisation, you can always be taken to court and sued for large sums.  This has had horrible consequences for the JISC group at ISPRA: they are part of the EU, a very large organisation, and have had their work restricted by ambulance-chasing lawyers with a glint in their eyes for winning plump settlements. </p></div><div><p class="MsoNormal"> </p></div><div><p class="MsoNormal">What you might be willing to do personally - given that you are probably, not, as an individual, worth suing, and your motivation for doing interesting work is high - is very different to what a (probably) rich organisation like your university might be willing to do.  If you want to do something, don't ask! (Specially not the university lawyers.  You'll probably never get an answer - even more frustrating than a simple 'no'.)</p></div></div><div><p class="MsoNormal"> </p></div><div><p class="MsoNormal">Sorry if that is not very helpful</p></div><div><p class="MsoNormal"> </p></div><div><p class="MsoNormal">Adam</p></div><div><p class="MsoNormal"> </p></div></div><div><p class="MsoNormal"> </p><div><div><div><p class="MsoNormal">On 6 January 2015 at 04:00, Damir Cavar <<a href="mailto:dcavar@me.com" target="_blank">dcavar@me.com</a>> wrote:</p></div></div><blockquote style="border:none;border-left:solid #CCCCCC 1.0pt;padding:0cm 0cm 0cm 6.0pt;margin-left:4.8pt;margin-right:0cm"><div><div><p class="MsoNormal" style="margin-bottom:12.0pt">Hi everybody,<br></p><div><br></div>I know, this question has been addressed a lot, but, just to get an<br>update on this issue and your expert opinion:<br><div><br></div>If I am accessing the internet from the US, as I am right now, and I<br>decide to generate N-gram-based language models by exploiting the web as<br>a corpus and publish the word-lists and frequency profiles openly on my<br>homepage, sell them even, change or manipulate them, and reuse them in<br>various ways, would this be<br><div><br></div>a. ok as fair-use for research only, excluding commercial use<br>b. legal in general, independent of my research interests<br>c. legal only in some countries (so, my models would be illegal in some<br>others)<br><div><br></div>What is the current status of the web as a corpus and extracted language<br>models from the legal perspective in the US and globally?<br><div><br></div>If I do the same now with open-access journals and extract frequency<br>profiles of tokens for a certain research domain, would it be the same?<br>It I use Google Books? Or even some news website?<br><div><br></div>Is the extraction of a language model, maybe a domain specific frequency<br>profile a copyright infringement per se? The text cannot be<br>reconstructed, the content is not visible, the authors style neither, in<br>particular not, if the corpus is larger etc.<br><div><br></div>Thanks!<br><div><br></div>Damir<br><div><br></div><br><div><br></div>--<br>Damir Cavar<br>Department of Linguistics<br>Indiana University<br><div><br></div><br><p></p></div></div><p class="MsoNormal" style="margin-bottom:12.0pt">_______________________________________________<br>UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>Corpora mailing list<br><a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br><a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a></p></blockquote></div><p class="MsoNormal"><span style="color:#888888"><br><br clear="all"></span></p><div><p class="MsoNormal"><span style="color:#888888"> </span></p></div><p class="MsoNormal"><span style="color:#888888">-- </span></p><div><div><p class="MsoNormal"><span style="color:#888888">=============================================<br><a href="http://www.kilgarriff.co.uk/" target="_blank">Adam Kilgarriff</a>                  <a href="mailto:adam@sketchengine.co.uk" target="_blank">adam@sketchengine.co.uk</a>                                            <br>Director                                    <a href="http://www.sketchengine.co.uk/" target="_blank">Lexical Computing Ltd</a>                <br>Visiting Research Fellow                 <a href="http://leeds.ac.uk/" target="_blank">University of Leeds</a>     </span></p><div><p class="MsoNormal"><i><span style="color:#006600">Corpora for all</span></i><span style="color:#888888"> with <a href="http://www.sketchengine.co.uk/" target="_blank">the Sketch Engine</a>   and      <a href="http://skell.sketchengine.co.uk/" target="_blank">SKELL</a>       <i>               </i></span></p></div><div><p class="MsoNormal"><span style="color:#888888">=============================================</span></p></div></div></div></div><p class="MsoNormal" style="margin-bottom:12.0pt"><br>_______________________________________________<br>UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>Corpora mailing list<br><a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br><a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a></p></div><p class="MsoNormal"> </p></div></div></div><br>_______________________________________________<br>UNSUBSCRIBE from this page: http://mailman.uib.no/options/corpora<br>Corpora mailing list<br>Corpora@uib.no<br>http://mailman.uib.no/listinfo/corpora<br></blockquote><div><br></div></div></body></html>