<html>
<head>
</head>
<body class='hmmessage'><div dir='ltr'>



<div dir="ltr">

<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 10pt;
font-family:Tahoma
}
--></style>
<div dir="ltr">Dear Diana and CK Jung,<br> <br>Thank you for letting me know about the "Learner of English" corpora by Japanese and Korean learners. Excellent effort! <br>As expected, most corpora available are for English, not for other languages.</div><div dir="ltr"> </div><div dir="ltr">It is common knowledge and practice in technical writing and editing to reduce noise due to extra words that themselves add no meaning, but by their presense tend to confuse the reader. Especially the reader whose first language is not English. E.g., the use of the active voice tends to demand clarity and need to express who does what for whom, while the passive voice just implies that something is being done/said/etc. without expressing who is doing/saying/etc.. </div><div dir="ltr">Most grammar checking software products already integrate passive to active conversion/correction into their checking routines. </div><div dir="ltr"> </div><div dir="ltr">I would be very happy to do some experiments on identifying a "useful" set of errors or less correct/optimized language and offer corrections for those errors or "imprecisions". </div><div dir="ltr">For example, in a "linguistically-sophisticated spell checker", weak/support verbs are identified as a category of "grammatical error" in the context of precision being a requirement of the User. This checker provides a semantically equivalent strong verb to a weak/support verb whenever that is allowed in the language. Other types of linguistic conversion are possible to improve writing of non-native users. I will contact the corpora owners when I am ready to do those experiments. </div><div dir="ltr"> </div><div dir="ltr">Again, thank you all!</div><div dir="ltr"> </div><div dir="ltr">Anabela.</div><div dir="ltr"><div id="SkyDrivePlaceholder"></div><hr id="stopSpelling">From: diana@site.uottawa.ca<br>To: barreiro_anabela@hotmail.com; Corpora@uib.no<br>Subject: RE: [Corpora-List] corpora of grammatical errors<br>Date: Mon, 16 Apr 2012 11:20:59 -0400<br><br>

<meta name="Generator" content="Microsoft SafeHTML"><style>
.ExternalClass .ecxshape
{;}
</style><style>
.ExternalClass p.ecxMsoNormal, .ExternalClass li.ecxMsoNormal, .ExternalClass div.ecxMsoNormal
{margin-bottom:.0001pt;font-size:12.0pt;font-family:"Times New Roman","serif";}
.ExternalClass a:link, .ExternalClass span.ecxMsoHyperlink
{color:blue;text-decoration:underline;}
.ExternalClass a:visited, .ExternalClass span.ecxMsoHyperlinkFollowed
{color:purple;text-decoration:underline;}
.ExternalClass p
{margin-right:0cm;margin-left:0cm;font-size:12.0pt;font-family:"Times New Roman","serif";}
.ExternalClass p.ecxMsoAcetate, .ExternalClass li.ecxMsoAcetate, .ExternalClass div.ecxMsoAcetate
{margin-bottom:.0001pt;font-size:8.0pt;font-family:"Tahoma","sans-serif";}
.ExternalClass span.ecxBalloonTextChar
{font-family:"Tahoma","sans-serif";}
.ExternalClass p.ecxecxmsonormal, .ExternalClass li.ecxecxmsonormal, .ExternalClass div.ecxecxmsonormal
{margin-right:0cm;margin-left:0cm;font-size:12.0pt;font-family:"Times New Roman","serif";}
.ExternalClass p.ecxecxmsoplaintext, .ExternalClass li.ecxecxmsoplaintext, .ExternalClass div.ecxecxmsoplaintext
{margin-right:0cm;margin-left:0cm;font-size:12.0pt;font-family:"Times New Roman","serif";}
.ExternalClass p.ecxecxmsoacetate, .ExternalClass li.ecxecxmsoacetate, .ExternalClass div.ecxecxmsoacetate
{margin-right:0cm;margin-left:0cm;font-size:12.0pt;font-family:"Times New Roman","serif";}
.ExternalClass p.ecxecxmsonormal1, .ExternalClass li.ecxecxmsonormal1, .ExternalClass div.ecxecxmsonormal1
{margin-right:0cm;margin-bottom:0cm;margin-left:0cm;margin-bottom:.0001pt;font-size:11.0pt;font-family:"Calibri","sans-serif";}
.ExternalClass p.ecxecxmsoplaintext1, .ExternalClass li.ecxecxmsoplaintext1, .ExternalClass div.ecxecxmsoplaintext1
{margin-right:0cm;margin-bottom:0cm;margin-left:0cm;margin-bottom:.0001pt;font-size:10.5pt;font-family:Consolas;}
.ExternalClass p.ecxecxmsoacetate1, .ExternalClass li.ecxecxmsoacetate1, .ExternalClass div.ecxecxmsoacetate1
{margin-right:0cm;margin-bottom:0cm;margin-left:0cm;margin-bottom:.0001pt;font-size:8.0pt;font-family:"Tahoma","sans-serif";}
.ExternalClass span.ecxecxmsohyperlink
{;}
.ExternalClass span.ecxecxmsohyperlinkfollowed
{;}
.ExternalClass span.ecxecxemailstyle17
{;}
.ExternalClass span.ecxecxplaintextchar
{;}
.ExternalClass span.ecxecxballoontextchar
{;}
.ExternalClass span.ecxecxmsohyperlink1
{color:blue;text-decoration:underline;}
.ExternalClass span.ecxecxmsohyperlinkfollowed1
{color:purple;text-decoration:underline;}
.ExternalClass span.ecxecxemailstyle171
{font-family:"Calibri","sans-serif";color:windowtext;}
.ExternalClass span.ecxecxplaintextchar1
{font-family:Consolas;}
.ExternalClass span.ecxecxballoontextchar1
{font-family:"Tahoma","sans-serif";}
.ExternalClass span.ecxEmailStyle36
{font-family:"Calibri","sans-serif";color:#1F497D;}
.ExternalClass .ecxMsoChpDefault
{font-size:10.0pt;}
@page WordSection1
{size:612.0pt 792.0pt;}
.ExternalClass div.ecxWordSection1
{page:WordSection1;}

</style><div class="ecxWordSection1"><p class="ecxMsoNormal"><span style='color: rgb(31, 73, 125); font-family: "Calibri","sans-serif"; font-size: 11pt;'>Hi Anabela,</span></p><p class="ecxMsoNormal"><span style='color: rgb(31, 73, 125); font-family: "Calibri","sans-serif"; font-size: 11pt;'> </span></p><p class="ecxMsoNormal"><span style='color: rgb(31, 73, 125); font-family: "Calibri","sans-serif"; font-size: 11pt;'>There is also a  Japanese Learner English Corpus, NICT JLE corpus (Izumia, E., Uchimotoa, K., Isaharaa, H.: SST speech corpus of Japanese learners' English and automatic detection of learners' errors. ICAME Journal 28 (2004) 31-48 )</span></p><p class="ecxMsoNormal"><span style='color: rgb(31, 73, 125); font-family: "Calibri","sans-serif"; font-size: 11pt;'> </span></p><p class="ecxMsoNormal"><span style='color: rgb(31, 73, 125); font-family: "Calibri","sans-serif"; font-size: 11pt;'>My former PhD student used it for testing in his paper (he obtained it by emailing the authors, I guess), in addition to an artificially generated test set:</span></p><p class="ecxMsoNormal"><span style='color: rgb(31, 73, 125); font-family: "Calibri","sans-serif"; font-size: 11pt;'>Aminul Islam and Diana Inkpen, "Correcting Different Types of Errors in Texts", in Proceedings of the 24th Canadian Conference on Artificial Intelligence (AI 2011), St-John's, NFL, Canada, May 2011, pp. 192-203, <a href="http://www.site.uottawa.ca/~diana/publications/aminul_CAI2011-1.pdf" target="_blank">pdf file</a>. </span></p><p class="ecxMsoNormal"><span style='color: rgb(31, 73, 125); font-family: "Calibri","sans-serif"; font-size: 11pt;'> </span></p><p class="ecxMsoNormal"><span style='color: rgb(31, 73, 125); font-family: "Calibri","sans-serif"; font-size: 11pt;'>  Diana</span></p><p class="ecxMsoNormal"><span style='color: rgb(31, 73, 125); font-family: "Calibri","sans-serif"; font-size: 11pt;'> </span></p><div><div style="border-width: 1pt medium medium; border-style: solid none none; border-color: rgb(181, 196, 223) currentColor currentColor; padding: 3pt 0cm 0cm;"><p class="ecxMsoNormal"><b><span style='font-family: "Tahoma","sans-serif"; font-size: 10pt;' lang="EN-US">From:</span></b><span style='font-family: "Tahoma","sans-serif"; font-size: 10pt;' lang="EN-US"> <a href="mailto:corpora-bounces@uib.no">corpora-bounces@uib.no</a> [<a href="mailto:corpora-bounces@uib.no">mailto:corpora-bounces@uib.no</a>] <b>On Behalf Of </b>Anabela Barreiro<br><b>Sent:</b> April-16-12 6:34 AM<br><b>To:</b> Krishnamurthy, Ramesh<br><b>Cc:</b> <a href="mailto:corpora@uib.no">corpora@uib.no</a><br><b>Subject:</b> Re: [Corpora-List] corpora of grammatical errors</span></p></div></div><p class="ecxMsoNormal"> </p><div><div><p class="ecxMsoNormal">Dear Corpora-List Members, </p><p style="margin-bottom: 12pt;">I would like to thank all who have sent me individual e-mails with suggestions, including indication on where to find corpora for languages other than English and the Romance languages.<br><br>In reply to Ramesh,<br><br>I would say that they all contain sentences with grammatical errors. I am interested in corpora where all sentences have errors on particular aspects of the grammar (prepositions, verb tenses, negation, coordination, etc., etc., etc.) with some pre-selection and pre-categorization of the ungrammaticality of the sentences. In the past, system developers used what was called "test suites", mostly fabricated by linguists for the specific purpose of testing a particular system. I am interested in sentences that come from "real" usage of language by non-native speakers, but also native speakers with writing difficulties or writing texts where language and style is not optimized or could be improved. When supporting editing of a text, existing grammar checkers are not sophisticated enough to identify all the grammar problems and often identify as a problem perfectly correct sentences (false positives and false negatives). In addition to correction, there is also the potential for providing better solutions for writing (including more categories to the typology)... For example, I can fix support verb constructions with "weak" verbs into semantically "strong" verbs, which gives the text a more professional style, eliminates words that are unecessary, helps texts being translated more efficiently by humans and machines, etc.<br> <br><span style='font-family: "Tahoma","sans-serif"; font-size: 10pt;'>From my request on this list, I found out that there is an ongoing shared task concerned with the automated correction of errors in text by Robert Dale and Adam Kilgarriff : </span><br><span style='font-family: "Tahoma","sans-serif"; font-size: 10pt;'><a href="http://clt.mq.edu.au/research/projects/hoo/" target="_blank"><span style="color: rgb(0, 104, 207);">http://clt.mq.edu.au/research/projects/hoo/</span></a></span><br><span style='font-family: "Tahoma","sans-serif"; font-size: 10pt;'><br>This is a especially interesting task because it groups errors into linguistic categories. Hoo already includes preposition and determiner errors in exam scripts authored by learners of English as a Second Language, but their goal is to enlarge the typology of linguistic errors. That's all I wished for :)<br> <br>Thank you all,<br> <br>Anabela</span></p><div><div><p class="ecxMsoNormal"><span style='font-family: "Tahoma","sans-serif"; font-size: 10pt;'>-------------------------------------------------------------------------------------------------</span></p></div><div><p class="ecxMsoNormal"><strong><i><span style='color: rgb(0, 176, 80); font-family: "Tahoma","sans-serif"; font-size: 7.5pt;'>Think GREEN - Act GREEN!</span></i></strong><i><span style='font-family: "Tahoma","sans-serif"; font-size: 7.5pt;'><br><br></span></i><span style='color: black; font-family: "Tahoma","sans-serif"; font-size: 10pt;'>Anabela M. Barreiro</span><span style='font-family: "Tahoma","sans-serif"; font-size: 4pt;'><br></span><span style='color: black; font-family: "Tahoma","sans-serif"; font-size: 10pt;'>Personal webpage: </span><span style='font-family: "Tahoma","sans-serif"; font-size: 10pt;'><a href="https://www.l2f.inesc-id.pt/wiki/index.php/Anabela_Barreiro" target="_blank"><span style="color: rgb(0, 104, 207);">https://www.l2f.inesc-id.pt/wiki/index.php/Anabela_Barreiro</span></a></span></p></div><div><p class="ecxMsoNormal"><span style='color: black; font-family: "Tahoma","sans-serif"; font-size: 10pt;'>LinkedIn: </span><span style='font-family: "Tahoma","sans-serif"; font-size: 10pt;'><a href="http://www.linkedin.com/pub/3/219/A43" target="_blank"><span style="color: rgb(0, 104, 207);">http://www.linkedin.com/in/anabelabarreiro<br></span></a></span></p></div><div style="margin-bottom: 14pt;"><p class="ecxMsoNormal"><span style='font-family: "Tahoma","sans-serif"; font-size: 10pt;'>-------------------------------------------------------------------------------------------------</span></p></div></div><div><div style="text-align: center;" class="ecxMsoNormal" align="center"><hr align="center" SIZE="3" width="100%"></div><p style="margin-bottom: 12pt;" class="ecxMsoNormal">From: <a href="mailto:r.krishnamurthy@aston.ac.uk">r.krishnamurthy@aston.ac.uk</a><br>To: <a href="mailto:barreiro_anabela@hotmail.com">barreiro_anabela@hotmail.com</a><br>CC: <a href="mailto:corpora@uib.no">corpora@uib.no</a><br>Subject: corpora of grammatical errors<br>Date: Sun, 15 Apr 2012 12:42:20 +0000</p><div><p class="ecxmsonormal">Hi Anabela</p><p class="ecxmsonormal"> </p><p class="ecxmsonormal">#1 Do ALL the currently available public corpora not ‘contain sentences with grammatical errors’?</p><p class="ecxmsonormal">Very few (if any) texts will be 100% grammatically ‘correct’ (whichever model of grammar you use)?</p><p class="ecxmsonormal">So BNC, COCA, etc should be OK for you?</p><p class="ecxmsonormal">But the specific ‘errors’ your system identifies will of course depend on your choice of model.</p><p class="ecxmsonormal"> </p><p class="ecxmsonormal">#2 If you want a corpus with a high proportion of ‘errors’, would any available LANGUAGE LEARNER, </p><p class="ecxmsonormal">NON-NATIVE-SPEAKER, NON-STANDARD, or VARIETAL corpus be sufficient for your purposes? These</p><p class="ecxmsonormal">corpora should be easy to find via Google, by specifying one of those attributes?</p><p class="ecxmsonormal"> </p><p class="ecxmsonormal">Hope this helps</p><p class="ecxmsonormal">Ramesh</p><p class="ecxmsonormal"> </p><p class="ecxmsonormal">Ramesh Krishnamurthy</p><p class="ecxmsonormal">Visiting Academic Fellow, School of Languages and Social Sciences, Aston University, Birmingham B4 7ET</p><p class="ecxmsonormal"><br>Director, ACORN (Aston Corpus Network project): <a href="http://acorn.aston.ac.uk/" target="_blank">http://acorn.aston.ac.uk/</a> </p><p class="ecxmsonormal">Corpus Analyst:</p><p class="ecxmsonormal">(a) GeWiss (Volkswagen Foundation) project: <a href="http://www1.aston.ac.uk/lss/research/research-projects/gewiss-spoken-academic-discourse/" target="_blank">http://www1.aston.ac.uk/lss/research/research-projects/gewiss-spoken-academic-discourse/</a></p><p class="ecxmsonormal">(b) Discourse of Climate Change: <a href="http://www1.aston.ac.uk/lss/research/research-projects/discourse-of-climate-change-project/" target="_blank">http://www1.aston.ac.uk/lss/research/research-projects/discourse-of-climate-change-project/</a></p><p class="ecxmsonormal">(c) Feminism: <a href="http://acorn.aston.ac.uk/projects.html" target="_blank">http://acorn.aston.ac.uk/projects.html</a></p><p class="ecxmsonormal">(d) COMENEGO (Corpus Multilingüe de Economía y Negocios) - Multilingual Corpus of Business and Economics: <a href="http://dti.ua.es/comenego" target="_blank">http://dti.ua.es/comenego</a></p><p class="ecxmsonormal">(e) European Phraseology Project: <a href="http://labidiomas3.ua.es/phraseology/login/login.php" target="_blank">http://labidiomas3.ua.es/phraseology/login/login.php</a></p><p class="ecxmsonormal">-------------------------------------------------------------------------------------------------------------------------</p><p class="ecxmsonormal"> </p><p class="ecxmsoplaintext">Date: Sat, 14 Apr 2012 10:24:50 +0000</p><p class="ecxmsoplaintext">From: Anabela Barreiro <<a href="mailto:barreiro_anabela@hotmail.com">barreiro_anabela@hotmail.com</a>></p><p class="ecxmsoplaintext">Subject: [Corpora-List] corpora of grammatical errors</p><p class="ecxmsoplaintext">To: "<a href="mailto:corpora@uib.no">corpora@uib.no</a>" <<a href="mailto:corpora@uib.no">corpora@uib.no</a>></p><p class="ecxmsoplaintext"> </p><p class="ecxmsoplaintext"> </p><p class="ecxmsoplaintext">Dear Corpora List Members,</p><p class="ecxmsoplaintext">I am looking for public corpora containing sentences with grammatical errors.</p><p class="ecxmsoplaintext">I plan to use the corpora as input to grammar checking and correction routines.</p><p class="ecxmsoplaintext">The corpora can be in English or romance languages. I appreciate any indication of where I can find those corpora. Thank you!</p><p class="ecxmsoplaintext"> </p></div></div></div></div></div></div>
</div>
                                          </div></body>
</html>