Googleology is bad science.  Being at the mercy of every slight change in syntax or interpretation of Google's unpublished, undocumented search syntax is horrible.  We need to move to more robust, less dependent approaches.  If you have a web-scale corpus on your machine, you don't need Google.  We have recently encoded English Clueweb (70b words) in the Sketch Engine - see <a href="http://www.lrec-conf.org/proceedings/lrec2012/pdf/1047_Paper.pdf">LREC 2012 paper</a>.  (Work supported by EU PRESEMT Project.) Others can use the same data - from Carnegie Mellon - and our procedures and scripts to give themselves this dataset too.  Access to our version also a possibility<div>

<br></div><div>Adam<br><br><div class="gmail_quote">On 28 November 2012 09:49, Tristan Miller <span dir="ltr"><<a href="mailto:miller@ukp.informatik.tu-darmstadt.de" target="_blank">miller@ukp.informatik.tu-darmstadt.de</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Greetings.<br>
<div class="im"><br>
On 28/11/12 12:00 AM, John F Sowa wrote:<br>
> In ancient times (pre 21st century), Google supported Boolean<br>
> expressions for searching.  But now it's impossible to control<br>
> their search in any predictable fashion.<br>
><br>
> For example, I wanted to count the number of web pages that used<br>
> the phrase "enterprise integration pattern" and the word 'sql'.<br>
><br>
> But when I type just "enterprise integration pattern" by itself,<br>
> I get 114,000 hits.  When I add another word, the number should<br>
> decrease.  But the following combination gets 137,000 hits:<br>
><br>
>    "enterprise integration pattern" sql<br>
><br>
> The following combination gets 274,000 hits:<br>
><br>
>    "enterprise integration pattern" java<br>
><br>
> And the following gets 25,900,000 hits:<br>
><br>
>    "enterprise integration pattern" java sql<br>
><br>
> I get the same numbers with a one-line search or with<br>
> their so-called advanced search.<br>
><br>
> Does anybody know how to bypass the Google heuristics and<br>
> force it to use a simple regular expression for searching?<br>
<br>
</div>Google used to support a "+" modifier for search terms; this instructed<br>
the search to return only those pages which include the search terms.<br>
(Without the modifier, Google was free to disregard the search terms at<br>
its discretion.)  The "+" modifier was dropped, probably for marketing<br>
reasons, once Google+ was introduced.  Supposedly you can now achieve<br>
the same effect by putting the "required" terms in quotation marks, and<br>
in my experience this works most of the time.  For your examples, it<br>
appears that sometimes it does and sometimes it doesn't:<br>
<br>
   "enterprise integration pattern"<br>
<br>
gets 117,000 hits, but oddly both<br>
<br>
   "enterprise integration pattern" sql<br>
<br>
and<br>
<br>
   "enterprise integration pattern" "sql"<br>
<br>
get 137,000 results.  On the other hand,<br>
<div class="im"><br>
   "enterprise integration pattern" java sql<br>
<br>
</div>gets 25,800,000 results, but<br>
<div class="im"><br>
   "enterprise integration pattern" "java" "sql"<br>
<br>
</div>returns a more sensible 8520 results.<br>
<br>
Regards,<br>
Tristan<br>
<span class="HOEnZb"><font color="#888888"><br>
--<br>
Tristan Miller, Doctoral Researcher<br>
Ubiquitous Knowledge Processing Lab (UKP-TUDA)<br>
Department of Computer Science, Technische Universität Darmstadt<br>
Tel: <a href="tel:%2B49%206151%2016%206166" value="+496151166166">+49 6151 16 6166</a> | Web: <a href="http://www.ukp.tu-darmstadt.de/" target="_blank">http://www.ukp.tu-darmstadt.de/</a><br>
<br>
</font></span><br>_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>========================================<br><a href="http://www.kilgarriff.co.uk/" target="_blank">Adam Kilgarriff</a>                  <a href="mailto:adam@lexmasterclass.com" target="_blank">adam@lexmasterclass.com</a>                                             <br>

Director                                    <a href="http://www.sketchengine.co.uk/" target="_blank">Lexical Computing Ltd</a>                <br>Visiting Research Fellow                 <a href="http://leeds.ac.uk" target="_blank">University of Leeds</a>     <div>

<i><font color="#006600">Corpora for all</font></i> with <a href="http://www.sketchengine.co.uk" target="_blank">the Sketch Engine</a>                 </div><div>                        <i><a href="http://www.webdante.com" target="_blank">DANTE: <font color="#009900">a lexical database for English</font></a><font color="#009900"> </font>                 </i><div>

========================================</div></div><br>
</div>