<div dir="ltr">Hello all,<div><br></div><div>I am looking for a corpus that meets the following criteria:</div><div><br style="color:rgb(55,64,78);font-family:Helvetica,Arial,'lucida grande',tahoma,verdana,arial,sans-serif;font-size:13.63636302947998px;line-height:20px">
<span style="color:rgb(55,64,78);font-family:Helvetica,Arial,'lucida grande',tahoma,verdana,arial,sans-serif;font-size:13.63636302947998px;line-height:20px">1) includes the actual raw sentences (not just frequency counts)</span><br style="color:rgb(55,64,78);font-family:Helvetica,Arial,'lucida grande',tahoma,verdana,arial,sans-serif;font-size:13.63636302947998px;line-height:20px">
<span style="color:rgb(55,64,78);font-family:Helvetica,Arial,'lucida grande',tahoma,verdana,arial,sans-serif;font-size:13.63636302947998px;line-height:20px">2) has Pinyin as well as characters</span><br style="color:rgb(55,64,78);font-family:Helvetica,Arial,'lucida grande',tahoma,verdana,arial,sans-serif;font-size:13.63636302947998px;line-height:20px">
<span style="color:rgb(55,64,78);font-family:Helvetica,Arial,'lucida grande',tahoma,verdana,arial,sans-serif;font-size:13.63636302947998px;line-height:20px">3) can be downloaded in full (not just queried via a web interface)</span><br style="color:rgb(55,64,78);font-family:Helvetica,Arial,'lucida grande',tahoma,verdana,arial,sans-serif;font-size:13.63636302947998px;line-height:20px">
<br style="color:rgb(55,64,78);font-family:Helvetica,Arial,'lucida grande',tahoma,verdana,arial,sans-serif;font-size:13.63636302947998px;line-height:20px"><span style="color:rgb(55,64,78);font-family:Helvetica,Arial,'lucida grande',tahoma,verdana,arial,sans-serif;font-size:13.63636302947998px;line-height:20px">So far I'm only aware of the Lancaster corpus; some other corpora, like the Academica Sinica corpus and the HKUST telephone corpus, might also meet my needs but they're not free so I don't know what they're like.</span></div>
<div><font color="#37404e" face="Helvetica, Arial, lucida grande, tahoma, verdana, arial, sans-serif"><span style="line-height:20px"><br></span></font></div><div><font color="#37404e" face="Helvetica, Arial, lucida grande, tahoma, verdana, arial, sans-serif"><span style="line-height:20px">Any suggestions would be greatly appreciated!</span></font></div>
<div><font color="#37404e" face="Helvetica, Arial, lucida grande, tahoma, verdana, arial, sans-serif"><span style="line-height:20px"><br></span></font></div><div><font color="#37404e" face="Helvetica, Arial, lucida grande, tahoma, verdana, arial, sans-serif"><span style="line-height:20px">Best,</span></font></div>
<div><font color="#37404e" face="Helvetica, Arial, lucida grande, tahoma, verdana, arial, sans-serif"><span style="line-height:20px">Steve<br clear="all"></span></font><div><div dir="ltr"><div><br><br></div>Stephen Politzer-Ahles<br>
New York University, Abu Dhabi<br>Neuroscience of Language Lab<br><a href="http://www.nyu.edu/projects/politzer-ahles/" target="_blank">http://www.nyu.edu/projects/politzer-ahles/</a><br></div></div>
</div></div>