<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="Generator" content="Microsoft Word 14 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p
        {mso-style-priority:99;
        mso-margin-top-alt:auto;
        margin-right:0in;
        mso-margin-bottom-alt:auto;
        margin-left:0in;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
span.EmailStyle18
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-US" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D">You might look at just the GB (Great Britain) portion of the 1.9 billion word GloWbE corpus (Global Web-Based English) –
<a href="http://corpus2.byu.edu/glowbe/">http://corpus2.byu.edu/glowbe/</a>. <o:p>
</o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D">The GB portion of GloWbE contains about 400 million words.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D">Your desiderata:<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D">- Be very recent (after 2000), since the phenomenon on which I focus is a relatively new one<br>
GloWbE-UK is from 2012-2013<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D">- Focus on the U.K.<br>
Yep<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D">- Be composed of naturally occurring conversations to be able to grasp instances of profanity<br>
Mainly blogs; minimal if any censorship<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D">- Provide at least basic information on the informants (such as age, gender, location, socio-economic situation, ethnic origin...)<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D">- Provide contextual information regarding the conversation and the link(s) between speakers<br>
There are direct links to the actual web pages (blogs); you’d have to look at the “About” etc pages at the blogs to see the background of the speakers.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D">It’[s not a perfect source, but might work…<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D">Best,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D">Mark Davies<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D"><o:p> </o:p></span></p>
<div>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif";color:black">============================================<br>
Mark Davies<br>
Professor of Linguistics / Brigham Young University<br>
<a href="http://davies-linguistics.byu.edu/"><span style="color:blue">http://davies-linguistics.byu.edu/</span></a><o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif";color:black">** Corpus design and use // Linguistic databases **<br>
** Historical linguistics // Language variation **<br>
** English, Spanish, and Portuguese **<br>
============================================<o:p></o:p></span></p>
</div>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D"><o:p> </o:p></span></p>
<div style="border:none;border-left:solid blue 1.5pt;padding:0in 0in 0in 4.0pt">
<div>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif"">From:</span></b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif""> corpora-bounces@uib.no [mailto:corpora-bounces@uib.no]
<b>On Behalf Of </b>Michaël GAUTHIER<br>
<b>Sent:</b> Tuesday, February 25, 2014 7:21 AM<br>
<b>To:</b> Corpora@uib.no<br>
<b>Subject:</b> [Corpora-List] British corpus containing instances of profanity?<o:p></o:p></span></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<div>
<div>
<p class="MsoNormal">Dear all,<br>
<br>
I am contacting the whole CORPORA list to try to get information on a corpus which could suit my needs, because up to now, all my efforts to find corresponding ones have been in vain.<br>
<br>
I am a PhD student investigating the use and perception of profanity among British speakers. Immediately, one difficulty which comes up is that instances of profanity are not easy to record, but there are other factors I need to take into consideration, thus
 my requirements imply that the corpus would have to:<br>
<br>
- Be very recent (after 2000), since the phenomenon on which I focus is a relatively new one<br>
- Focus on the U.K.<br>
- Be composed of naturally occurring conversations to be able to grasp instances of profanity<br>
- Provide at least basic information on the informants (such as age, gender, location, socio-economic situation, ethnic origin...)<br>
- Provide contextual information regarding the conversation and the link(s) between speakers<br>
<br>
I know this is a lot to ask, but these requirements are the ones I have in the most ideal situation. As I said, all the corpora I have been reviewing up to now do not correspond. A short list of the main corpora I have reviewed would be: the BNC, Bank of English,
 Collins Corpus (this one seems great, with 5 billion words, but it is apparently only available to the lexicographers from Collins, I contacted them but got no answer...), COLT, CANCODE, Longman British Spoken Corpus, Limerick Corpus, Scottish Corpus of texts
 and speech, IViE, London-Lund Corpus of Spoken English, Cambridge English Corpus (same thing as the Collins Corpus...), International Corpus of English, Diachronic Corpus of Present-day Spoken English, British English Speech Dat.
<br>
<br>
This is it for the main ones, but as I said, no one corresponded perfectly. Thus, I would be more than happy if someone could point at a corpus I would have missed, even if it does not perfectly correspond. At this point, any new hint would be very welcome.
 If nothing comes up, I think I will have to “sacrifice” some of my requirements to be able to carry out this study, which by the way is a pilot study, so it would not be that tragic a situation, but if I have the opportunity to find something which perfectly
 corresponds this is even better!<br>
<br>
Sorry for the length of this email, I just tried to be as clear as possible... I hope I was...<br>
<br>
Thank you in advance for any idea/hint/plan/solution/revelation any one of you may have!<br>
<br>
Best regards<br>
<br>
Michaël GAUTHIER<br>
Université Lumière Lyon 2<br>
France<o:p></o:p></p>
</div>
</div>
</div>
</div>
</body>
</html>