<html><head><base href="x-msg://1099/"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Recently, Ben Goldacre was asking if there had been any studies of the accuracy (mostly false negatives) of these services.<div><<a href="http://bengoldacre.posterous.com/how-accurate-is-turnitin-and-a-brief-scribble">http://bengoldacre.posterous.com/how-accurate-is-turnitin-and-a-brief-scribble</a>></div><div><br></div><div>I didn't look that hard, but I couldn't turn up anything. Anybody here know of anything? It seems like a good project for somebody in this group or one of their grad students.<br><div><br><div><div>On 2011-10-07, at 8:09 AM, <a href="mailto:tpederse@d.umn.edu">tpederse@d.umn.edu</a> wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><span class="Apple-style-span" style="border-collapse: separate; font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; font-size: medium; "><div marginleft="10" marginright="10" margintop="10" marginbottom="10" style="margin-left: 10px; margin-right: 10px; margin-top: 10px; margin-bottom: 10px; "><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">To be very clear, the plagiarism checks that I run on safeassign do</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">not add papers to anything. They are checked against material that is</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">available on the public web. I have the option of retaining them in an</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">institutional (UMN) database for comparison with other UMN</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">submissions, but I do not do that. Students who submit papers can</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">opt-in to have their papers added to a database, but that's not what</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">I'm doing.</font></div><br><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">By now most plagiarism detection services are aware of concerns about</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">copyright, etc. and it's very possible to use them without adding</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">content where someone doesn't want it added. Of course this should be</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">verified, but it's a mistake to assume that all materials submitted to</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">these services are then copied and stored and made available to</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">others.</font></div><br><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">Anyway, I think it's very reasonable to use these services for</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">reviewing (and classroom use) and do so in a responsible way. They are</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">in fact an example of NLP in action,  which I think is nice to see.</font></div><br><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">Cordially,</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">Ted</font></div><br><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">On Fri, Oct 7, 2011 at 4:42 AM, Vlado Keselj <<a href="mailto:vlado@cs.dal.ca">vlado@cs.dal.ca</a>> wrote:</font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>></b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>> > there is also the practice that some</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>> > of us have of running papers we are going to review through</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>> > commercial (or otherwise) plagiarism detection services.</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>></b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>> You may not realize it, but you do *not* have the right to do that.</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>> These services retain anything you submit them, which is not something</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>> you can authorize for a not-yet-published paper you don't have copyright</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>> to.</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>></b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>> And it's extremely annoying for an author to be rejected because "that</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>> has already been published", when in practice the previous version of</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>> the paper has been rejected at another conference and you have enhanced</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>> it since.  Incompetent reviewers that says to something has already been</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>> published without giving a citation are already annoying enough as it</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>>> is.</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>></b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> I would like to agree with this comment. (Thanks Galibert for expressing</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> it so clearly.)  While checking for plagiarism in submitted papers is</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> justified, it is alarming that a paper would be submitted to a commercial</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> service, like the ones mentioned.  I do not even use them with student</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> papers, for justified objections by students.</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>></b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> I guess, one can see a positive side to it: Authors can always be happy -</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> even if their paper was rejected and they did not get to contribute to the</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> science in an open way, they made an anonymous contribution to the wealth</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> of a company. :-)</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>></b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> On the research side, I think that it is an interesting research problem</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> to describe a model where a paper can be checked for plagiarism with an</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> option of not communicating the full paper but to use only a subset of</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> n-grams, or substrings in general.</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> (Another solution is that a company agrees to check paper for</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> plagiarism, but not to keep it in their repository.)</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>></b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>></b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> Regards,</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>> Vlado</b></u></font></div><div align="left" style="text-align: left; "><font face="Book Antiqua" size="+0" color="#000000" style="font-family: 'Book Antiqua'; font-size: 12pt; color: rgb(0, 0, 0); "><u><b>></b></u></font></div><br><br><br><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">--</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">Ted Pedersen</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); "><a href="http://www.d.umn.edu/~tpederse" target="_blank">http://www.d.umn.edu/~tpederse</a></font></div><br><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">_______________________________________________</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">UNSUBSCRIBE from this page:<span class="Apple-converted-space"> </span><a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a></font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); ">Corpora mailing list</font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); "><a href="mailto:Corpora@uib.no">Corpora@uib.no</a></font></div><div align="left" style="text-align: left; "><font face="Arial" size="+0" color="#000000" style="font-family: Arial; font-size: 12pt; color: rgb(0, 0, 0); "><a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a></font></div><br><br></div></span></blockquote></div><br><div>
<span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 14px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0; "><span class="Apple-style-span" style="border-collapse: separate; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 14px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; -webkit-text-decorations-in-effect: none; text-indent: 0px; -webkit-text-size-adjust: auto; text-transform: none; orphans: 2; white-space: normal; widows: 2; word-spacing: 0px; "><span class="Apple-style-span" style="border-collapse: separate; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 14px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; -webkit-text-decorations-in-effect: none; text-indent: 0px; -webkit-text-size-adjust: auto; text-transform: none; orphans: 2; white-space: normal; widows: 2; word-spacing: 0px; "><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Best,</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Brett</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><br class="khtml-block-placeholder"></div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">-----------------------</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Brett Reynolds</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">English Language Centre</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Humber College Institute of Technology and Advanced Learning</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; ">Toronto, Ontario, Canada</div><div style="margin-top: 0px; margin-right: 0px; margin-bottom: 0px; margin-left: 0px; "><a href="mailto:brett.reynolds@humber.ca">brett.reynolds@humber.ca</a></div><div><br class="khtml-block-placeholder"></div><br class="Apple-interchange-newline"></span></span></span><br class="Apple-interchange-newline">
</div>
<br></div></div></body></html>