<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=iso-2022-jp"><meta name=Generator content="Microsoft Word 14 (filtered medium)"><!--[if !mso]><style>v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style><![endif]--><style><!--
/* Font Definitions */
@font-face
        {font-family:SimSun;
        panose-1:2 1 6 0 3 1 1 1 1 1;}
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:"\@SimSun";
        panose-1:2 1 6 0 3 1 1 1 1 1;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:SimSun;
        mso-fareast-language:ZH-CN;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link=blue vlink=purple><div class=WordSection1><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>Greetings, Xing Fukun.<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>I don’t have a direct answer to your question, but perhaps I might offer a few resources that could allow you to determine the answer.<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>I’ve been engaged in reducing the costs of corpus annotation using cost-conscious active learning and multiple annotators.  You can learn more about what my students, collaborators, and I have been up to on our project page here:<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>                <a href="https://facwiki.cs.byu.edu/nlp/index.php/Projects:ALFA">https://facwiki.cs.byu.edu/nlp/index.php/Projects:ALFA</a><o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>As part of this effort, we ran a controlled user study measuring the time costs of English POS tagging with one form of machine assistance:<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>                <a href="http://www.lrec-conf.org/proceedings/lrec2010/summaries/451.html">http://www.lrec-conf.org/proceedings/lrec2010/summaries/451.html</a><o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>We employed our web-based tool known as CCASH for the user study.  The tool is described here:<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>                <a href="http://www.lrec-conf.org/proceedings/lrec2010/summaries/360.html">http://www.lrec-conf.org/proceedings/lrec2010/summaries/360.html</a><o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>You could adopt our methodology to study the time cost of annotating Chinese.  One question to be resolved is which inventory of tags (lexical grammatical categories) to use for Chinese and whether that inventory is comparable to tag inventories used in English tagging.<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>Regards,<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'>--Eric<o:p></o:p></span></p><p class=MsoNormal><a name="_MailEndCompose"><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1F497D'><o:p> </o:p></span></a></p><div><div style='border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in'><p class=MsoNormal><b><span style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'>From:</span></b><span style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'> corpora-bounces@uib.no [mailto:corpora-bounces@uib.no] <b>On Behalf Of </b>Xing Fukun<br><b>Sent:</b> Wednesday, November 17, 2010 8:23 AM<br><b>To:</b> corpora<br><b>Subject:</b> [Corpora-List] Time costs between manual pos tagging of English and Chinese corpus<o:p></o:p></span></p></div></div><p class=MsoNormal><o:p> </o:p></p><div><p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>Dear all,<o:p></o:p></span></p><p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>Have anybody made a comparison between the time costs of the manual pos tagging of English and Chinese corpus.  <o:p></o:p></span></p><p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>I haven’t made any such comparisons but I wander that there are maybe some differences. The possible reason is that there are more context clues (especially the formal or syntactic clues) for English to determine the pos than that in Chinese. For there are less formal or syntactic clues in Chinese to determine the pos, person has to rely on the semantic clues to determine the pos. But sometimes the semantic clues are not clear enough to rely on. For example, “</span><span lang=ZH-CN style='font-size:10.0pt'>改革很重要</span><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>” </span><span lang=ZH-CN style='font-size:10.0pt'>(</span><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>Reform is very important || To reform is very important</span><span lang=ZH-CN style='font-size:10.0pt'>)</span><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>. In Chinese verb and noun both can possess the position of subject and so there is no formal clue to determine the pos of “</span><span lang=ZH-CN style='font-size:10.0pt'>改革(</span><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>reform</span><span lang=ZH-CN style='font-size:10.0pt'>)</span><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>”. If we rely on semantics to determine the pos </span><span lang=ZH-CN style='font-size:10.0pt'>改革</span><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>, it is also difficult . </span><span lang=ZH-CN style='font-size:10.0pt'>“改革”</span><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>(reform) can be interpreted as object or action in this context. So it is difficult to tag pos of the word. But in English it is different. If “reform” is subject without “to” it is a noun. If it is a subject with “to” it is a verb. There are enough formal clues to determine the pos of reform. In this sense I think it is easier for English to tag pos on the raw text and maybe more difficult for Chinese to tag pos. And maybe the time cost of Chinese corpus construction is more than English. This is just my guess without any experiment or investigation. If you know any more I would like to know that. <o:p></o:p></span></p><p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'>Thank you in advance.<o:p></o:p></span></p><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'> <o:p></o:p></span></p></div><div class=MsoNormal align=center style='text-align:center'><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><hr size=2 width=122 style='width:91.5pt' align=center></span></div><div><p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif";color:silver'>Xing Fukun<o:p></o:p></span></p></div><div><p class=MsoNormal><span style='font-size:10.0pt;font-family:"Verdana","sans-serif";color:silver'>2010-11-17</span><span style='font-size:10.0pt;font-family:"Verdana","sans-serif"'><o:p></o:p></span></p></div></div></body></html>