<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none"><!-- p { margin-top: 0px; margin-bottom: 0px; }--></style>
</head>
<body dir="ltr" style="font-size:10pt;color:#000000;background-color:#FFFFFF;font-family:Tahoma,Geneva,sans-serif;">
<p>Liling,<br>
</p>
<p><br>
</p>
<p>>> <span style="color: rgb(33, 33, 33);">Are the</span><span style="color: rgb(33, 33, 33);">re corpora that are specifically for the following domains:</span></p>
<p><span style="color: rgb(33, 33, 33);"><br>
</span></p>
<p><span style="color: rgb(33, 33, 33);">In about 5-6 weeks I'll be releasing a corpus that is based on the 2 billion words (4.5 million articles) in Wikipedia, which should do most of what you want. Via the web interface, you'll be able to quickly and easily
 create "virtual corpora" from the 4.5 million articles, based on titles, page links, and/or page content. Each of these virtual, personalized corpora can have up to 1,000 articles and 1.2 million words.</span></p>
<p><span style="color: rgb(33, 33, 33);"><br>
</span></p>
<p><span style="color: rgb(33, 33, 33);">And then you'll be able to search within these virtual corpora (strings, n-grams, collocates, collocations, concordances, etc) , or compare word and phrase frequencies across your virtual corpora, or find keywords (including
 multi-word expressions) in your corpora, all from within the web interface and all within just a few seconds.</span></p>
<p><span style="color: rgb(33, 33, 33);"><br>
</span></p>
<p><span style="color: rgb(33, 33, 33);">Anyway, the corpus (and interface) is essentially done now, but I'm just working on the help files, including some tutorials that I'll place on YouTube.</span></p>
<p><span style="color: rgb(33, 33, 33);"><br>
</span></p>
<p><span style="color: rgb(33, 33, 33);">So this may be of interest to you when I release it in just a few weeks.</span></p>
<p><span style="color: rgb(33, 33, 33);"><br>
</span></p>
<p><span style="color: rgb(33, 33, 33);">Best,</span></p>
<p><span style="color: rgb(33, 33, 33);"><br>
</span></p>
<p><span style="color: rgb(33, 33, 33);">Mark Davies</span></p>
<p><span style="color: rgb(33, 33, 33);"><br>
</span></p>
<div id="Signature">
<div style="font-family:Tahoma; font-size:13px">
<div style="font-family:Tahoma; font-size:13px">
<p>============================================<br>
Mark Davies<br>
Professor of Linguistics / Brigham Young University<br>
<a tabindex="0" href="http://davies-linguistics.byu.edu/">http://davies-linguistics.byu.edu/</a></p>
<p>** Corpus design and use // Linguistic databases **<br>
** Historical linguistics // Language variation **<br>
** English, Spanish, and Portuguese **<br>
============================================<br>
</p>
</div>
</div>
</div>
<div style="color: rgb(33, 33, 33);">
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" color="#000000" style="font-size:11pt"><b>From:</b> corpora-bounces@uib.no <corpora-bounces@uib.no> on behalf of liling tan <alvations@gmail.com><br>
<b>Sent:</b> Thursday, November 13, 2014 7:33 AM<br>
<b>To:</b> corpora@uib.no<br>
<b>Subject:</b> [Corpora-List] English corpus for specific domains</font>
<div> </div>
</div>
<div>
<div dir="ltr">Dear linguists,
<div><br>
</div>
<div>Traditional corpora such as British National Corpus, American COCA corpus and International Corpus of English holds on to the notion of a balance corpus and allowed corpora of different registers, domains and types.</div>
<div><br>
</div>
<div>Web corpora like wikipedia corpora, web as corpus corpora and many others used crawling techniques or crowdsourcing texts for compilation and it also ends up with some sort of balance corpora. </div>
<div><br>
</div>
<div>Thus finding corpora for specific domains is a task of resourcefulness. And we require your help in locating them.</div>
<div><br>
</div>
<div>Are there corpora that are specifically for the following domain:</div>
<div>
<div>
<ul>
<li><b>Chemical</b>: the taxonomy rooted on "chemical", examples of terminology concepts are ("ammonium carbonate", "beta hydroxybutyric acid", "butyl rubber" );<br>
</li><li><b>Equipment</b>: the taxonomy rooted on "equipment", examples of terminology concepts are ("acoustic modem", "parasail", "clock pendulum");<br>
</li><li><b>Food</b>: the taxonomy rooted on "food", examples of terminology concepts are ("jacket potato", "lemonade", "bolognese pasta sauce");<br>
</li><li><b>Science</b>: the taxonomy rooted on "science", examples of terminology concepts are ( "neuropsychiatry", "craniometry", "microelectronics");<br>
</li></ul>
<div>Best Regards,</div>
</div>
</div>
<div>Liling</div>
</div>
</div>
</div>
</body>
</html>