<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Margaret,<div>    There are  2417587 word tokens and 28900 word types in the Indonesian corpus.  </div><div>The command is </div><div>freq +d4 +u +re *.cha</div><div><br></div><div>-- Brian MacWhinney</div><div><br><div><html>On Apr 25, 2008, at 12:36 AM, Margaret Fleck wrote:</html><br class="Apple-interchange-newline"><blockquote type="cite"><br>Can you give a ballpark estimate for the number of words in the<br>transcriptions?   (This information is useful for those of us doing<br>computational algorithms.)<br><br>Margaret<br><br><b><i>Uri Tadmor <<a href="mailto:uritadmor@gmail.com">uritadmor@gmail.com</a>></i></b> wrote:<blockquote class="replbq" style="border-left: 2px solid rgb(16, 16, 255); margin-left: 5px; padding-left: 5px;"> <br>I'd just like to add that in addition to a transcription in<br>conventional (romanized) orthography, each utterance is also<br>phonetically transcribed, glossed, and translated into English.  So<br>you don't need any prior familiarity with Indonesian in order to use<br>the database.  Each of the 8 children was recorded at average 10-day<br>intervals for 2 to 4 years, so the database is ideal for longitudinal<br>studies.  I hope you have as much fun working with it as we've had<br>compiling it.  Thanks so much, Brian, for your help and encouragement<br>which made it possible for us to post the database on CHILDES.<br><br>If you have any question or comment about the Indonesian child<br>language database, please feel free to contact me at<br><br>uri at cbn.net.id<br><br>Uri Tadmor<br><br>On Apr 14, 3:07 am, Brian MacWhinney <m...@cmu.edu> wrote:<br>> Dear Info-CHILDES,<br>>     I am happy to announce the addition to CHILDES of a very large<br>> corpus of data on the acquisition of Jakarta Indonesian contributed by<br>> David GIl and Uri Tadmor of the MPI-EVA in Leipzig.  The study tracks<br>> eight children with an age range, varying by child, from 1;6 up to<br>> 8;9.  This is the first corpus from an Austronesian language and its<br>> addition to CHILDES is most welcome.  The readme file is attached.<br>><br>> --Brian MacWhinney<br>><br>>  jakarta.pdf<br>> 146KDownload<br>><br>><br>Info-CHILDES members:<br><br><br></m...@cmu.edu></blockquote><br><br> <br> <br></blockquote></div><br></div><br>
--~--~---------~--~----~------------~-------~--~----~<br>
You received this message because you are subscribed to the Google Groups "Info-CHILDES" group. <br> To post to this group, send email to info-childes@googlegroups.com <br> To unsubscribe from this group, send email to info-childes-unsubscribe@googlegroups.com <br> For more options, visit this group at http://groups.google.com/group/info-childes?hl=en <br> -~----------~----~----~----~------~----~------~--~---<br>
</body></html><br>