<html xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:Helvetica;
        panose-1:0 0 0 0 0 0 0 0 0 0;}
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        font-size:10.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
span.EmailStyle18
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style>
</head>
<body lang="EN-US" link="blue" vlink="purple" style="word-wrap:break-word">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:11.0pt">Dear all -- I agree with Adam and Neil. I’m attaching rough proofs of my chapter in the upcoming Handbook of Cognitive Semantics, which is in production with Brill. The chapter surveys sources of data for
 *<b>empirical</b>* research in linguistics (with special emphasis on semantic research; but I argue that the sources of evidence we have at our disposal are fundamentally the same across languages). It discusses what we can and cannot get out of corpora and
 spontaneous observation, attempts a typology of elicitation techniques, and proposes best practices for their implementation.
<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">(The text is also largely identical with Ch5 of my book
<i>Semantic Research</i>, which is under contract with CUP and hopefully will see the light of day in 2023 or 2024 at the latest. That book, on which I’ve been laboring for a decade (much of it in collaboration with David Wilkins), is a stab at a textbook-cum-handbook
 for semantic research as an empirical science.)<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Best -- Juergen<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:9.0pt;font-family:Helvetica;color:black">Juergen Bohnemeyer (He/Him)<br>
Professor, Department of Linguistics<br>
University at Buffalo <br>
<br>
Office: 642 Baldy Hall, UB North Campus<br>
Mailing address: 609 Baldy Hall, Buffalo, NY 14260 <br>
Phone: (716) 645 0127 <br>
Fax: (716) 645 3825<br>
Email: </span><span style="font-size:11.0pt"><a href="mailto:jb77@buffalo.edu" title="mailto:jb77@buffalo.edu"><span style="font-size:9.0pt;font-family:Helvetica;color:#0078D4">jb77@buffalo.edu</span></a></span><span style="font-size:9.0pt;font-family:Helvetica;color:black"><br>
Web: </span><span style="font-size:11.0pt"><a href="http://www.acsu.buffalo.edu/~jb77/" title="http://www.acsu.buffalo.edu/~jb77/"><span style="font-size:9.0pt;font-family:Helvetica;color:#0563C1">http://www.acsu.buffalo.edu/~jb77/</span></a></span><span style="font-size:9.0pt;font-family:Helvetica;color:black"> <br>
<br>
</span><span style="font-size:11.0pt;color:black">Office hours Tu/Th 3:30-4:30pm in 642 Baldy or via Zoom (Meeting ID 585 520 2411; Passcode Hoorheh) </span><span style="font-size:9.0pt;font-family:Helvetica;color:black"><br>
<br>
There’s A Crack In Everything - That’s How The Light Gets In <br>
(Leonard Cohen)  </span><span style="font-size:11.0pt"><o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">-- <o:p></o:p></span></p>
</div>
</div>
</div>
<p class="MsoNormal"><span lang="RU" style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="RU" style="font-size:11.0pt"><o:p> </o:p></span></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal" style="margin-bottom:12.0pt"><b><span style="font-size:12.0pt;color:black">From:
</span></b><span style="font-size:12.0pt;color:black">Lingtyp <lingtyp-bounces@listserv.linguistlist.org> on behalf of Neil Myler <myler@bu.edu><br>
<b>Date: </b>Saturday, December 10, 2022 at 10:21 PM<br>
<b>To: </b>LINGTYP@listserv.linguistlist.org <LINGTYP@listserv.linguistlist.org><br>
<b>Subject: </b>Re: [Lingtyp] spectrograms in linguistic description and for language comparison<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">I agree with everything here, with one addendum: it's a strawman even if you do ignore more formal judgment experiments.  The examples are invented, but each data point is a *pairing* of an example and a judgment.
 Since the judgments aren't invented (except in cases of misconduct), it's wrong to say that the data are.<o:p></o:p></span></p>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">Neil<o:p></o:p></span></p>
<div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">On Sat, Dec 10, 2022, 10:05 PM Adam Singerman <<a href="mailto:adamsingerman@gmail.com" target="_blank">adamsingerman@gmail.com</a>> wrote:<o:p></o:p></span></p>
</div>
<blockquote style="border:none;border-left:solid #CCCCCC 1.0pt;padding:0in 0in 0in 6.0pt;margin-left:4.8pt;margin-right:0in">
<p class="MsoNormal"><span style="font-size:11.0pt">I think Randy is wrong (sorry if this comes across as blunt) and so I<br>
am writing, on a Saturday night no less, to voice a different view.<br>
<br>
Working inductively from a corpus is great, but no corpus is ever<br>
going to be large enough to fully represent a given language's<br>
grammatical possibilities. If we limit ourselves to working<br>
inductively from corpora then many basic questions about the languages<br>
we research will go unanswered. From a corpus of natural data we<br>
simply cannot know whether a given pattern is missing because the<br>
corpus is finite (i.e., it's just a statistical accident that the<br>
pattern isn't attested) or whether there's a genuine reason why the<br>
pattern is not showing up (i.e., its non-attestation is principled).<br>
<br>
When I am writing up my research on Tuparí I always prioritize<br>
non-elicited data (texts, in-person conversation, WhatsApp chats). But<br>
interpreting and analyzing the non-elicited data requires making<br>
reference to acceptability judgments. The prefix (e)tareman- is a<br>
negative polarity item, and it always co-occurs with (and inside the<br>
scope of) a negator morpheme. But the only way I can make this point<br>
is by showing that speakers invariably reject tokens of (e)tareman-<br>
without a licensing negator. Those rejected examples are by definition<br>
not going to be present in any corpus of naturalistic speech, but they<br>
tell me something crucial about what the structure of Tuparí does and<br>
does not allow. If I limit myself to inductively working from a<br>
corpus, fundamental facts about the prefix (e)tareman- and about<br>
negation in Tuparí more broadly will be missed.<br>
<br>
A lot of recent scholarship has made major strides towards improving<br>
the methodology of collecting and interpreting acceptability<br>
judgments. The formal semanticists who work on understudied languages<br>
(here I am thinking of Judith Tonhauser, Lisa Matthewson, Ryan<br>
Bochnak, Amy Rose Deal, Scott AnderBois) are extremely careful about<br>
teasing apart utterances that are rejected because of some<br>
morphosyntactic ill-formedness (i.e., ungrammaticality) versus ones<br>
that are rejected because of semantic or pragmatic oddity. The<br>
important point is that such teasing apart can be done, and the<br>
descriptions and analyses that result from this work are richer than<br>
what would result from a methodology that uses corpus examination or<br>
elicitation only.<br>
<br>
One more example from Tuparí: this language has an obligatory<br>
witnessed/non-witnessed evidential distinction, but the deictic<br>
orientation of the distinction (to the speaker or to the addressee) is<br>
determined via clause type. There is a nuanced set of interactions<br>
between the evidential morphology and the clause-typing morphology,<br>
and it would have been impossible for me to figure out the basics of<br>
those interactions without relying primarily on conversational data<br>
and discourse context. But I still needed to get some acceptability<br>
judgments to ensure that the picture I'd arrived at wasn't overly<br>
biased by the limitations of my corpus. Finding speakers who were<br>
willing to work with me on those judgments wasn't always easy; a fair<br>
amount of metalinguistic awareness was needed. But it was worth it!<br>
The generalizations that I was able to publish were much more solid<br>
than if I had worked exclusively from corpus data. And the methodology<br>
I learned from the Tonhauser/Matthewson/etc crowd was fundamental to<br>
this work.<br>
<br>
The call to work inductively from corpora would have the practical<br>
effect of making certain topics totally inaccessible for research<br>
(control vs raising structures, pied-piping, islands, gaps in<br>
inflectional paradigms, etc) even though large scale acceptability<br>
tasks have shown that these phenomena are "real," i.e., they're not<br>
just in the minds of linguists who are using introspection. Randy's<br>
point that "no other science allows the scientist to make up his or<br>
her own data, and so this is something linguists should give up" is a<br>
straw man argument now that many experimentalist syntacticians use<br>
large-scale acceptability judgments on platforms like Mechanical Turk<br>
to get at speakers' judgments. I think we do a disservice to our<br>
students and to junior scholars if we tell them that the only real<br>
stuff to be studied will be in the corpora that we assemble. Even the<br>
best corpora are finite, whereas L1 speakers' knowledge of their<br>
language is infinitely productive.<br>
<br>
— Adam<br>
_______________________________________________<br>
Lingtyp mailing list<br>
<a href="mailto:Lingtyp@listserv.linguistlist.org" target="_blank">Lingtyp@listserv.linguistlist.org</a><br>
<a href="https://nam12.safelinks.protection.outlook.com/?url=https%3A%2F%2Flistserv.linguistlist.org%2Fcgi-bin%2Fmailman%2Flistinfo%2Flingtyp&data=05%7C01%7Cjb77%40buffalo.edu%7C243aea832f624794e4da08dadb26ac49%7C96464a8af8ed40b199e25f6b50a20250%7C0%7C0%7C638063256872055833%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C3000%7C%7C%7C&sdata=RktZzmPhH9YRxywpcxrcF8eeMu3t0v5J%2FxNjCPJcx6s%3D&reserved=0" target="_blank">https://listserv.linguistlist.org/cgi-bin/mailman/listinfo/lingtyp</a><o:p></o:p></span></p>
</blockquote>
</div>
</div>
</div>
</div>
</body>
</html>