<table cellspacing="0" cellpadding="0" border="0" ><tr><td valign="top" style="font: inherit;"><P class=MsoNormal style="MARGIN: 0in 0in 0pt"><FONT size=3><FONT face="Times New Roman">> </FONT><SPAN style="COLOR: black; FONT-FAMILY: 'Courier New'">You're referring to the two Unicode characters Arabic Kaaf (U+643) and Arabic Letter Keheh (U+06A9, also commonly called Kaf or Kaaf), right?<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><o:p></o:p></SPAN></FONT></DIV>
<P class=MsoNormal style="MARGIN: 0in 0in 0pt"><o:p><FONT face="Times New Roman" size=3> </FONT></o:p></DIV>
<P class=MsoNormal style="TEXT-JUSTIFY: inter-ideograph; MARGIN: 0in 0in 0pt; TEXT-ALIGN: justify"><FONT face="Times New Roman" size=3>I am referring to variations e.g. <SPAN lang=AR-SA dir=rtl>آئينـــــــــه</SPAN><SPAN dir=ltr></SPAN><SPAN dir=ltr></SPAN><SPAN dir=ltr></SPAN><SPAN dir=ltr></SPAN> and <SPAN lang=AR-SA dir=rtl>آئينه</SPAN><SPAN dir=ltr></SPAN><SPAN dir=ltr></SPAN><SPAN dir=ltr></SPAN><SPAN dir=ltr></SPAN>. It is a single word (meaning “mirror”), written in two styles. In the first occurrence, the second-last grapheme is made longer. In the similar way, “kaaf”, “baa”, “meem” and many more graphemes are sometimes written longer and sometimes shorter. For software, these are two different words.</FONT></DIV>
<P class=MsoNormal style="TEXT-JUSTIFY: inter-ideograph; MARGIN: 0in 0in 0pt; TEXT-ALIGN: justify"><o:p><FONT face="Times New Roman" size=3> </FONT></o:p></DIV>
<P class=MsoNormal style="TEXT-JUSTIFY: inter-ideograph; MARGIN: 0in 0in 0pt; TEXT-ALIGN: justify"><FONT size=3><FONT face="Times New Roman">> </FONT><SPAN style="COLOR: black; FONT-FAMILY: 'Courier New'">I would guess you've also observed lots of variation in the various yehs, right?  Arabic yeh, Farsi yeh, yeh with tail,...<o:p></o:p></SPAN></FONT></DIV>
<P class=MsoNormal style="TEXT-JUSTIFY: inter-ideograph; MARGIN: 0in 0in 0pt; TEXT-ALIGN: justify"><o:p><FONT face="Times New Roman" size=3> </FONT></o:p></DIV>
<P class=MsoNormal style="TEXT-JUSTIFY: inter-ideograph; MARGIN: 0in 0in 0pt; TEXT-ALIGN: justify"><FONT face="Times New Roman" size=3>Yes. The same word is usually written with variation in “yehs”. The data I extracted contain frequent examples of this variation e.g. <SPAN lang=AR-SA dir=rtl>آبادى</SPAN><SPAN dir=ltr></SPAN><SPAN dir=ltr></SPAN><SPAN dir=ltr></SPAN><SPAN dir=ltr></SPAN> and <SPAN lang=AR-SA dir=rtl>آبادي</SPAN><SPAN dir=ltr></SPAN><SPAN dir=ltr></SPAN><SPAN dir=ltr></SPAN><SPAN dir=ltr></SPAN> that mean “population”. Both are the variations of a single word. </FONT></DIV>
<P class=MsoNormal style="TEXT-JUSTIFY: inter-ideograph; MARGIN: 0in 0in 0pt; TEXT-ALIGN: justify"><o:p><FONT face="Times New Roman" size=3> </FONT></o:p></DIV>
<P class=MsoNormal style="TEXT-JUSTIFY: inter-ideograph; MARGIN: 0in 0in 0pt; TEXT-ALIGN: justify"><FONT size=3><FONT face="Times New Roman">> </FONT><SPAN style="COLOR: black; FONT-FAMILY: 'Courier New'">Do you know of any corpora that deal with Pashto spelling variation? For instance, a bitext with found spellings aligned with "correct" spellings.  <o:p></o:p></SPAN></FONT></DIV>
<P class=MsoNormal style="TEXT-JUSTIFY: inter-ideograph; MARGIN: 0in 0in 0pt; TEXT-ALIGN: justify"><o:p><FONT face="Times New Roman" size=3> </FONT></o:p></DIV>
<P class=MsoNormal style="TEXT-JUSTIFY: inter-ideograph; MARGIN: 0in 0in 0pt; TEXT-ALIGN: justify"><FONT size=3><FONT face="Times New Roman">In my knowledge, there is no Pashto corpus that deals with Pashto spelling variations. I and my Ph.D. supervisor have been working on Pashto corpora since 2006. I used a corpus containing 1.225 million words Pashto text, developed by Mohammad Abid Khan (my Ph.D. supervisor) and me (work regarding this corpus was presented in Corpus Linguistics 2009). That is, however, not an aligned corpus. I extracted words from the corpus and then I observed a lot of spelling variations.<SPAN style="mso-spacerun: yes">    </SPAN></FONT></FONT></DIV>
<DIV> </DIV>
<DIV>Regards.</DIV>
<DIV> </DIV>
<DIV>Fatima Tuz Zuhra</DIV>
<DIV>Ph.D. Scholar and Lecturer,</DIV>
<DIV>Department of Computer Science,</DIV>
<DIV>University of Peshawar, Pakistan.<BR><BR>--- On <B>Thu, 7/14/11, Mike Maxwell <I><maxwell@umiacs.umd.edu></I></B> wrote:<BR></DIV>
<BLOCKQUOTE style="PADDING-LEFT: 5px; MARGIN-LEFT: 5px; BORDER-LEFT: rgb(16,16,255) 2px solid"><BR>From: Mike Maxwell <maxwell@umiacs.umd.edu><BR>Subject: Pashto (was: Which Statistical Test is Suitable)<BR>To: "fatima zuhra" <fateeshah@yahoo.com><BR>Cc: corpora@uib.no<BR>Date: Thursday, July 14, 2011, 9:04 AM<BR><BR>
<DIV class=plainMail>On 7/13/2011 11:40 PM, fatima zuhra wrote:<BR>> One of my works was concerned with extracting individual words from a<BR>> written Pashto corpus. The system I used for extracting individual<BR>> Pashto words gave me such variations of the same word that looked the<BR>> same at the first glance (e.g. the grapheme "kaaf" may be written a bit<BR>> longer than how it is written currently in the Urdu spelling of "Shakir"<BR>> in your name, which will result in a variation of this spelling). Are<BR>> you considering these variations or some others?<BR><BR>You're referring to the two Unicode characters Arabic Kaaf (U+643) and Arabic Letter Keheh (U+06A9, also commonly called Kaf or Kaaf), right?<BR><BR>I would guess you've also observed lots of variation in the various yehs, right?  Arabic yeh, Farsi yeh, yeh with tail,...<BR><BR>Do you know of any corpora that deal with Pashto spelling variation? For instance, a
 bitext with found spellings aligned with "correct" spellings.  I'm not sure what "correct" spelling would mean in this context, but perhaps the spelling according to some dictionary (of course allowing for the various inflected forms of words).<BR>--     Mike Maxwell<BR>    <A href="http://us.mc343.mail.yahoo.com/mc/compose?to=maxwell@umiacs.umd.edu" ymailto="mailto:maxwell@umiacs.umd.edu">maxwell@umiacs.umd.edu</A><BR>    "My definition of an interesting universe is<BR>    one that has the capacity to study itself."<BR>        --Stephen Eastmond<BR></DIV></BLOCKQUOTE></td></tr></table>