<html>
<head>
<style>
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
FONT-SIZE: 10pt;
FONT-FAMILY:Tahoma
}
</style>
</head>
<body class='hmmessage'>
hi Ben<br>the question was about locating a company that would do the manual annotation for us using a set of tags that we determine, according to guidelines that we write. Are there companies out there that does that? <br>thank you<br>Bushra<br><br>> Date: Wed, 27 Feb 2008 11:44:36 +0000<br>> From: B.Allison@dcs.shef.ac.uk<br>> To: corpora@uib.no<br>> Subject: Re: [Corpora-List] Part of Speech annotation of Persian and Urdu corpora<br>> <br>> Bushra,<br>> <br>> I'm not sure whether you want human-annotated text from which to induce <br>> a tagger, or are interested in having a working POS tagger itself. If <br>> the latter, then about a year ago we tracked down a 10 million word <br>> corpus of Persian which had been hand-annotated, and induced a tagger <br>> from the 1 million word part that the creators were prepared to give <br>> away for research purposes. The tagset they used (which they created for <br>> the job) could be interpreted on two levels -- there was a coarse tagset <br>> of 14 tags with categories like Noun, Verb, etc. and a much finer one <br>> which I believe ran to about 150 tags. Accuracies were pretty good -- <br>> over 98% for coarse tags, and around 92% for the fine ones.<br>> <br>> I'm not sure if you're prepared for a DIY approach, but I suspect that <br>> if you are, you could get hold of the corpus we used (I can pass you <br>> contact information) and use one of many trainable taggers to induce <br>> your own. Of course, this might not be what you were thinking of...<br>> <br>> Ben<br>> <br>> hfaili@ece.ut.ac.ir wrote:<br>> > Dear Bushra,<br>> > I am working in an Iranian Company (named Douran www.douran.com) which<br>> > have a good experience and a tools for POS tagging, and other NLP fields<br>> > in Persian...<br>> > for more information contact me via hfaili@douran.com<br>> > regards<br>> ><br>> > hello<br>> > I was wondering if anybody knows of any companies or individual linguists<br>> > who would do Part of Speech annotation of Persian and Urdu corpora?<br>> ><br>> > Thank you<br>> > Bushra Zawaydeh<br>> ><br>> > ********************************************************************<br>> > Bushra Zawaydeh                           bushraz@basistech.com<br>> > Senior Linguist<br>> > Basis Technology                           Tel: (617)386-7130<br>> > One Alewife Center                         Fax: (617)386-2020<br>> > Cambridge, MA 02140-2327<br>> > USA<br>> > **********************************************************************<br>> ><br>> ><br>> > --------------------------------------------------------------------------------<br>> > Helping your favorite cause is as easy as instant messaging. You IM, we<br>> > give. Learn more.<br>> ><br>> > __________ NOD32 2853 (20080206) Information __________<br>> ><br>> > This message was checked by NOD32 antivirus system.<br>> > http://www.eset.com<br>> ><br>> ><br>> ><br>> > _______________________________________________<br>> > Corpora mailing list<br>> > Corpora@uib.no<br>> > http://mailman.uib.no/listinfo/corpora<br>> ><br>> >   <br>> <br>> _______________________________________________<br>> Corpora mailing list<br>> Corpora@uib.no<br>> http://mailman.uib.no/listinfo/corpora<br><br /><hr />Shed those extra pounds with MSN and The Biggest Loser! <a href='http://biggestloser.msn.com/' target='_new'>Learn more.</a></body>
</html>