<div><font class="Apple-style-span" face="arial, helvetica, sans-serif">Dear Colleagues,</font></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif"><br></font></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif">I sent a query about sources of adult-adult conversations earlier this year.  My thanks to those of you who responded.  Here is a follow-up about what we did.  We settled on the Santa Barbara of spoken American English corpus </font><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; ">(SBCSAE)</span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; ">, but we are also looking into the Buckeye corpus.</span></div>
<div><font class="Apple-style-span" face="arial, helvetica, sans-serif"><br></font></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif">Information about the SBCSAE can be found here:  <a href="http://www.linguistics.ucsb.edu/research/sbcorpus.html">http://www.linguistics.ucsb.edu/research/sbcorpus.html</a></font></div>
<div><font class="Apple-style-span" face="arial, helvetica, sans-serif"><br></font></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif">And here:</font></div><div>Du Bois, John W., Chafe, Wallace L., Meyer, Charles, and Thompson, Sandra A. 2000. Santa Barbara corpus of spoken American English, Part 1. Philadelphia: Linguistic Data Consortium. ISBN 1-58563-164-7.</div>
<div><br></div><div>Du Bois, John W., Chafe, Wallace L., Meyer, Charles, Thompson,Sandra A., and Martey, Nii. 2003. Santa Barbara corpus of spoken</div><div>American English, Part 2. Philadelphia: Linguistic Data Consortium. ISBN 1-58563-272-4.</div>
<div><br></div><div>Du Bois, John W., and Englebretson, Robert. 2004. Santa Barbara corpus of spoken American English, Part 3. Philadelphia: Linguistic</div><div>Data Consortium. ISBN 1-58563-308-9.</div><div><br></div><div>
Du Bois, John W., and Englebretson, Robert. 2005. Santa Barbara corpus of spoken American English, Part 4. Philadelphia: Linguistic</div><div>Data Consortium. ISBN: 158563-348-8.</div><div><br></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif">There were various glitches in the Santa Barbara files that prevented us from using them as they were.  We had to clean them.</font></div>
<div><font class="Apple-style-span" face="arial, helvetica, sans-serif"><br></font></div><div><span class="Apple-style-span" style="color: rgb(68, 68, 68); background-color: rgb(255, 255, 255); "><font class="Apple-style-span" face="arial, helvetica, sans-serif">The 60 cleaned cha and XML tagged Santa Barbara files that we used are here, if people want to access them:<br>
<a href="http://www.hunter.cuny.edu/littlelinguist/data/SBCSAE/" target="_blank" style="color: rgb(34, 34, 34); ">http://www.hunter.cuny.edu/littlelinguist/data/SBCSAE/</a></font></span></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif"><br>
</font></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif">Paul Feitzinger, the excellent computer scientist in the Language Acquisition Research Center who cleaned the files, has this to say about how he proceeded:</font></div>
<div><ul><li><span class="Apple-style-span" style="color: rgb(68, 68, 68); font-family: arial, helvetica, sans-serif; background-color: rgb(255, 255, 255); ">We wanted to quickly tag the SBCSAE and convert it to XML, using Chatter so that we could run custom analysis scripts on it.</span></li>
<li><span class="Apple-style-span" style="color: rgb(68, 68, 68); font-family: arial, helvetica, sans-serif; background-color: rgb(255, 255, 255); ">We removed all occurrences of "ʔ", trailing and compound-joining "-", and trailing " ' " before tagging.</span></li>
<li><span class="Apple-style-span" style="color: rgb(68, 68, 68); font-family: arial, helvetica, sans-serif; background-color: rgb(255, 255, 255); ">After running MOR and POST, we converted all instances of word|? into word|unk.  An appearance of "?" would cause the file to fail CHECK and break Chatter.</span></li>
<li><span class="Apple-style-span" style="color: rgb(68, 68, 68); font-family: arial, helvetica, sans-serif; background-color: rgb(255, 255, 255); ">After some hand disambiguation, the files passed CHECK and could run through Chatter.</span></li>
<li><span class="Apple-style-span" style="color: rgb(68, 68, 68); font-family: arial, helvetica, sans-serif; background-color: rgb(255, 255, 255); ">There was an issue in a couple of spots (e.g., 40.cha: lines 673, 1124) where a "." on the main tier would be represented on the MOR tier with "none", which CHECK and Chatter rejected.</span></li>
</ul></div><div><font class="Apple-style-span" color="#444444" face="arial, helvetica, sans-serif">There are conceptual issues about which examples of adult-adult speech should be compared with adult-child speech.  We have not addressed that directly.  Our comparisons are on-going, but in our *syntactic* analyses of part-of-speech bigrams, we see little difference between adults talking to adults and adults talking to children, per our poster at AMLaP in September of this year:</font></div>
<div><font class="Apple-style-span" face="arial, helvetica, sans-serif"><br></font></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif">Quirk,
E., Feitzinger, P., Richter, C., Zeitlin, M., Chodorow, M., & Valian,
V.  (2011, September).  A
computational analysis of grammar change and grammar similarity.  Poster presented at AMLaP, Paris, France.</font></div><p class="MsoPlainText" style="margin-left:.25in;text-indent:-.25in;mso-pagination:
none"><font class="Apple-style-span" face="arial, helvetica, sans-serif"></font></p><div><font class="Apple-style-span" color="#444444" face="arial, helvetica, sans-serif">Best wishes,</font></div><div><font class="Apple-style-span" color="#444444" face="arial, helvetica, sans-serif"><br>
</font></div><div><font class="Apple-style-span" color="#444444"><font class="Apple-style-span" face="arial, helvetica, sans-serif">VVV</font><br></font><div>-- </div>Virginia Valian<br>Distinguished Professor<br>Department of Psychology, Hunter College<br>
PhD Programs in Linguistics, Psychology, and Speech-Language-Hearing Sciences, CUNY Grad Center<br><a href="mailto:vvvstudents@gmail.com">vvvstudents@gmail.com</a><br>
</div>

<p></p>

-- <br />
You received this message because you are subscribed to the Google Groups "Info-CHILDES" group.<br />
To post to this group, send email to info-childes@googlegroups.com.<br />
To unsubscribe from this group, send email to info-childes+unsubscribe@googlegroups.com.<br />

For more options, visit this group at http://groups.google.com/group/info-childes?hl=en.<br />