You could start from something that has already been <div>applied multilingually, such as<br><div> the MULTEXT-EAST materials at<div><br class="webkit-block-placeholder"></div><div><a href="http://nl.ijs.si/ME/V3/msd/html/">http://nl.ijs.si/ME/V3/msd/html/</a></div>
<div><br class="webkit-block-placeholder"></div><div>or  </div><div><br class="webkit-block-placeholder"></div><div><a href="http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/en/m-layer/html/index.html">http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/en/m-layer/html/index.html</a></div>
<div><br class="webkit-block-placeholder"></div><div>which is a similar thing developed by the Prague group for Czech. </div><div>Anna Feldman, Jiri Hana (who co-wrote the pdt manual above) </div><div>and I have some experience in using</div>
<div>adapted versions for Russian, Polish, Spanish and Catalan. It</div><div>would be fun to find out if the same ideas work for Bengali etc.</div><div><br class="webkit-block-placeholder"></div><div>Chris</div><div><br><br>
<div><span class="gmail_quote">On 05/02/2008, <b class="gmail_sendername"><a href="mailto:maxwell@umiacs.umd.edu">maxwell@umiacs.umd.edu</a></b> <<a href="mailto:maxwell@umiacs.umd.edu">maxwell@umiacs.umd.edu</a>> wrote:</span><blockquote class="gmail_quote" style="margin:0;margin-left:0.8ex;border-left:1px #ccc solid;padding-left:1ex">
We're looking at annotating a small sample (~5k words) of Bengali text,<br>and later maybe Urdu and Punjabi.  The annotation will be the dictionary<br>citation form of each word.  The texts are mostly news articles, so there<br>
are a fair number of words for which there won't be any dictionary<br>citation form.  These include many proper names, numerals, acronyms, and<br>who knows what else.  I'll refer to these as "non-dictionary words",<br>
whereas "dictionary words" will include words whose citation form is in<br>the dictionary we're using, even if the inflected wordform itself is not.<br>(We're doing this to test a morphological parser.)<br>
<br>This is not quite the same as the inverse of named entity tagging, since<br>some parts of names may have citation forms.  For example, in English one<br>would tag "Mississippi River" as a name.  But "River" would be found in<br>
the dictionary, so for our purposes we would only want to tag<br>"Mississippi" as a non-dictionary word.<br><br>The simplest thing for us to do would be to just tag all such<br>non-dictionary words the same way, e.g. with a tag "NOT".  However, in the<br>
interest of future uses to which we might put such a tagged text, it might<br>be good to differentiate among the various kinds of non-dictionary words.<br><br>We could easily make up our own tagset for non-dictionary words, but it<br>
strikes me that better would be to use some standard tagset for such<br>words, if such a tagset exists.  There is a table of tagsets in Manning<br>and Schutze pg. 141-2, including the Penn Treebank, Brown, and CLAWS.<br>However, the tagsets are English-specific.  This is especially noticeable<br>
in the punctuation tags for the PTB and Brown sets, but also e.g. in the<br>decision to tag singular and plural proper nouns differently.  (Some<br>languages attach case markers to proper nouns.)  Also, it appears that<br>
none of the tagsets distinguishes between numerals ('3', '4.5') and<br>numbers written out ('three', 'four point five'), which we need to do, nor<br>are acronyms distinguished from "symbols".<br>
<br>Another distinction I thought about making is between "ordinary" Bengali<br>names, and foreign names, since one might later want to develop a<br>transducer to convert the latter into their more common Latin forms.<br>
However, I suspect that might be too difficult a distinction for<br>annotators to make, and in any case some well-known Bengali names are<br>likely to have "standard" transliterations.<br><br>Does anyone know of a semi-standard tagset that would be less<br>
English-specific, and would make the kinds of distinctions among<br>non-dictionary words that we want to (or should) make?  Or should we just<br>make up our own set?<br><br>   Mike Maxwell<br>   CASL/ U MD<br><br><br>_______________________________________________<br>
Corpora mailing list<br><a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br><a href="http://mailman.uib.no/listinfo/corpora">http://mailman.uib.no/listinfo/corpora</a><br></blockquote></div><br> </div></div></div>