One of the best tokenizers is ICTCLAS by researchers from the Chinese Academy of Sciences.<br><br><a href="http://www.ictclas.org/" target="_blank">http://www.ictclas.org/</a><br><br>If you have more questions regarding Chinese corpora and corpus tools, visit<br>
<br><a href="http://www.corpus4u.org">http://www.corpus4u.org</a><br><br><br>
Hongyin Tao<br>
Professor of <span style="border-bottom: medium none; background: transparent none repeat scroll 0% 0%; cursor: pointer; -moz-background-clip: -moz-initial; -moz-background-origin: -moz-initial; -moz-background-inline-policy: -moz-initial;" class="yshortcuts" id="lw_1225132235_0">Chinese Language and Linguistics</span><br>

& Applied Linguistics and TESL<br>
<span style="border-bottom: 1px dashed rgb(0, 102, 204); background: transparent none repeat scroll 0% 0%; cursor: pointer; -moz-background-clip: -moz-initial; -moz-background-origin: -moz-initial; -moz-background-inline-policy: -moz-initial;" class="yshortcuts" id="lw_1225132235_1">University of California, Los Angeles</span> (UCLA)<br>

Department of Asian Languages and Cultures<br>
290 <span style="border-bottom: 1px dashed rgb(0, 102, 204); cursor: pointer;" class="yshortcuts" id="lw_1225132235_2">Royce Hall</span><br>
<span style="border-bottom: medium none; background: transparent none repeat scroll 0% 0%; cursor: pointer; -moz-background-clip: -moz-initial; -moz-background-origin: -moz-initial; -moz-background-inline-policy: -moz-initial;" class="yshortcuts" id="lw_1225132235_3">Los Angeles, CA 90095-1540</span><br>

Tel: <span style="border-bottom: 1px dashed rgb(0, 102, 204); cursor: pointer;" class="yshortcuts" id="lw_1225132235_4">(310) 206-6872</span><br>
Fax: <span style="border-bottom: 1px dashed rgb(0, 102, 204); cursor: pointer;" class="yshortcuts" id="lw_1225132235_5">(310) 825-8808</span><br>
<br><br><div class="gmail_quote">On Mon, Oct 27, 2008 at 3:04 AM, Emiliano Guevara <span dir="ltr"><<a href="mailto:emiliano.guevara@unibo.it" target="_blank">emiliano.guevara@unibo.it</a>></span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">

Dear all,<br>
<br>
could you please suggest me pointers to simple tokenizers for Chinese<br>
text corpora?<br>
It will be used by a student with very basic background, so standalone<br>
or GUI options would be preferred.<br>
<br>
Thanks in advance,<br>
<br>
E.<br>
<br>
<br>
<br>
<br>
************************************************************************<br>
Emiliano R. Guevara<br>
Facoltà di Lingue e Lett. Straniere - Dip. di Lingue e Lett. Straniere<br>
Università di Bologna - Via Cartoleria 5 (40124) Bologna, Italia<br>
   <a href="http://morbo.lingue.unibo.it/" target="_blank">http://morbo.lingue.unibo.it/</a><br>
   <a href="mailto:emiliano.guevara@unibo.it" target="_blank">emiliano.guevara@unibo.it</a>  -  <a href="mailto:emiguevara@gmail.com" target="_blank">emiguevara@gmail.com</a><br>
************************************************************************<br>
<br>
<br>
<br>
<br>
_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</blockquote></div><br>