<div dir="ltr">Dear Damir,<div><br></div><div>a few thoughts:<div><br></div><div>In an innocent world view, the law says what is allowed and what is not.  The more I see of how the legal profession works, the clearer it is that it's all political, in the sense that the judgements that build the case law (at least in UK) are made based on how well the lawyers played the game, how much money was involved, who had a sniff of how much money they might make.</div><div><br></div><div>It's not about what is legal (which is always, in this area, underspecified), it is about risk management.</div><div><br></div><div>If no-one sees a money-making opportunity, there is very little legal risk since no-one will take you to court.  </div><div>If you're a big organisation, you can always be taken to court and sued for large sums.  This has had horrible consequences for the JISC group at ISPRA: they are part of the EU, a very large organisation, and have had their work restricted by ambulance-chasing lawyers with a glint in their eyes for winning plump settlements. </div><div><br></div><div>What you might be willing to do personally - given that you are probably, not, as an individual, worth suing, and your motivation for doing interesting work is high - is very different to what a (probably) rich organisation like your university might be willing to do.  If you want to do something, don't ask! (Specially not the university lawyers.  You'll probably never get an answer - even more frustrating than a simple 'no'.)</div></div><div><br></div><div>Sorry if that is not very helpful</div><div><br></div><div>Adam</div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On 6 January 2015 at 04:00, Damir Cavar <span dir="ltr"><<a href="mailto:dcavar@me.com" target="_blank">dcavar@me.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi everybody,<br>
<br>
I know, this question has been addressed a lot, but, just to get an<br>
update on this issue and your expert opinion:<br>
<br>
If I am accessing the internet from the US, as I am right now, and I<br>
decide to generate N-gram-based language models by exploiting the web as<br>
a corpus and publish the word-lists and frequency profiles openly on my<br>
homepage, sell them even, change or manipulate them, and reuse them in<br>
various ways, would this be<br>
<br>
a. ok as fair-use for research only, excluding commercial use<br>
b. legal in general, independent of my research interests<br>
c. legal only in some countries (so, my models would be illegal in some<br>
others)<br>
<br>
What is the current status of the web as a corpus and extracted language<br>
models from the legal perspective in the US and globally?<br>
<br>
If I do the same now with open-access journals and extract frequency<br>
profiles of tokens for a certain research domain, would it be the same?<br>
It I use Google Books? Or even some news website?<br>
<br>
Is the extraction of a language model, maybe a domain specific frequency<br>
profile a copyright infringement per se? The text cannot be<br>
reconstructed, the content is not visible, the authors style neither, in<br>
particular not, if the corpus is larger etc.<br>
<br>
Thanks!<br>
<br>
Damir<br>
<br>
<br>
<br>
--<br>
Damir Cavar<br>
Department of Linguistics<br>
Indiana University<br>
<br>
<br>
<br>_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature"><div dir="ltr">=============================================<br><a href="http://www.kilgarriff.co.uk/" target="_blank">Adam Kilgarriff</a>                  <a href="mailto:adam@sketchengine.co.uk" target="_blank">adam@sketchengine.co.uk</a>                                            <br>Director                                    <a href="http://www.sketchengine.co.uk/" target="_blank">Lexical Computing Ltd</a>                <br>Visiting Research Fellow                 <a href="http://leeds.ac.uk/" target="_blank">University of Leeds</a>     <div><i><font color="#006600">Corpora for all</font></i> with <a href="http://www.sketchengine.co.uk/" target="_blank">the Sketch Engine</a>   and      <a href="http://skell.sketchengine.co.uk/" target="_blank">SKELL</a>       <i>               </i></div><div>=============================================</div></div></div>
</div>