<!doctype html public "-//w3c//dtd html 4.0 transitional//en">
<html>
 
<p>Torzec Nicolas ATER LSI wrote:
<blockquote TYPE=CITE>Dear Linguists and Lawyers,
<br>I have got the same "problem" with a large (tagged) monitor corpus
of
<br>texts from french written on-line forums :
<br>- these messages are publically available in the sense that everybody
<br>can read and reuse them<font color="#000099"> <b>The key term here
is "publicly" available.</b></font>
<br>- each newsgroup server stores and uses its own copies of them
<br>- search engines use and exploit cached copies of them
<br>- ...
<p>So,
<br>- It is an illegal procedure to store these messages - in an anonymous
<br>way - in a database ?<b><font color="#000099"> Why should it be illegal
if none of the participants are identified?  I have also downloaded
and stored hundreds of chat messages from Bulletin Boards and "notified"
the owners of the bulletin boards.  Fortunately, one had deleted all
its messages when it changed its format.  I do not delete politicians'
names.  In the US, you can write and say things about people in public
office and they cannot sue you unless you deliberately accuse someone of
stealing or doing something improper without any proof.  If you defame
them knowing that what you are saying is false, they can certainly sue
you for slander and libel.</font></b>
<br>- It is an illegal procedure to exploit this corpus for research
<br>purposes ? (i.e. to realise linguistic studies and to develop NLP
<br>processing using corpus-based machine learning methods) <b><font color="#000099">
This is falls under fair use, at least in the US.</font></b>
<br>- It is an illegal procedure to illustrate scientific articles with
<br>examples from this corpus ?<u> <b><font color="#000099">You need a
lawyer to clarify this.</font></b></u><u></u>
<p>Do I need to ask permission for each author to store and use its
<br>messages ? What if I mention the source and the author ? What about
the
<br>copyrights?<b><font color="#000099"> If you identify the chat list/Bulletin
Board and use the participants' real names, you ought to ask permission
to do so.  Copyrights are usually held by the owners of the chat list
or bulletin board.</font></b>
<p>Moreover,
<br>- What if I want to make my corpus publically available for researchers
<br>?
<br>- What if NLP processing developed from this corpus are to be integrated
<br>in commercial products ?<b><font color="#000099"> This is where things
become problematic.  I am all in favor of  "open architecture"
and sharing knowledge, but when people decide to charge for their products,
we have all kinds of problems.  (The "greed" or profit factor.) 
I would prefer to create my own "specialized corpus" and share my findings
with others.  Unfortunately, you cannot "generalize" findings based
on specialized corpora.</font></b>
<p>Thank you in advances for your help...
<br>References, pointers and suggestions are welcome, especially for the
<br>legal aspects for France...  <b><font color="#000099">Sorry, I
know nothing about French copyright laws.</font></b>
<p>Nicholas Torzec
<p>--
<br>Nicolas Torzec
<br>PhD Student in NLP processing
<br>--
<p>delucca@nilc.icmc.usp.br wrote:
<br>>
<br>> Dear Linguists and Lawyers,
<br>>
<br>> I am troubled with Legal aspects of corpora compiling. I am in
<br>> doubt if is an illegal procedure storage webpages (or part of them)
<br>> in a database (see at <a href="http://www.dictionarium.com/project.htm">http://www.dictionarium.com/project.htm</a>),
<br>> not available to public, and display its contents as short collocations
<br>> less than 100 characters by time by search method.
<br>>
<br>> On the other hand, the Internet search engines uses cached (temporary
?)
<br>> copies of the sites and display a short of the web pages.
<br>>
<br>> My procedure is wrong? Which the Legal difference? I need ask permission
<br>> for each website to storage its pages? If I mention the source and
the author
<br>> I will be protecting the copyrights?
<br>>
<br>>
<br>> I look forward to hearing from you.
<br>>
<br>> Yours Sincerely,
<br>>
<br>> J. L. De Lucca
<br>>
<br>> -------------------------------------------------
<br>> This mail sent through IMP: <a href="http://horde.org/imp/">http://horde.org/imp/</a>
<p>--
<br>Nicolas TORZEC
<p>ENSSAT / Université de Rennes 1
<br>6, rue de Kerampont
<br>22300 Lannion
<p>Mel : nicolas.torzec@enssat.fr
<br>Tel : 02.96.46.27.30
<br>Fax : 02.96.37.01.99
<br>Web : <a href="http://www.enssat.fr">http://www.enssat.fr</a>
<br>--</blockquote>
</html>