<table cellspacing="0" cellpadding="0" border="0" ><tr><td valign="top" style="font: inherit;"><DIV>Dear Wilma,</DIV>
<DIV> </DIV>
<DIV>Thanks for your helpful e-mail. I am actually looking for a transliteration scheme for Pashto, not a phonetic transcription scheme. It is because written Pashto does not include symbols for short vowels. I have been working on the development of an alphabet transducer (computer program) for Pashto that can map from romanized Pashto to Arabic-scripted Pashto and vice versa. I want to use a standard transliteration scheme in this programming. One of the corpora-list members has sent me a transliterations scheme for Pashto, which is available on the following URL:</DIV>
<DIV> </DIV>
<DIV><A href="http://www.loc.gov/catdir/cpso/roman.html">http://www.loc.gov/catdir/cpso/roman.html</A></DIV>
<DIV> </DIV>
<DIV>Using this scheme, I may have the following problem:</DIV>
<DIV> </DIV>
<DIV>This scheme uses 'k' for the Pashto symbol '˜' , 'h' for 'å' and 'kh' for 'Î'. Now, if my alphabet transducer encounters a 'kh' in input, it will be confused either to map it to 'Î' or to '˜å'?</DIV>
<DIV> </DIV>
<DIV>For such a situation, I have raised the question that whether I can make the changes of my choice in an already existing transliteration scheme? </DIV>
<DIV> </DIV>
<DIV>I'll be very thankful for any kind suggestions in this regard.</DIV>
<DIV> </DIV>
<DIV>Thanks.</DIV>
<DIV> </DIV>
<DIV>Fatima Zuhra</DIV>
<DIV> </DIV>
<DIV>University of Peshawar, Pakistan<BR><BR>--- On <B>Tue, 9/16/08, wheston@sas.upenn.edu <I><wheston@sas.upenn.edu></I></B> wrote:<BR></DIV>
<BLOCKQUOTE style="PADDING-LEFT: 5px; MARGIN-LEFT: 5px; BORDER-LEFT: rgb(16,16,255) 2px solid">From: wheston@sas.upenn.edu <wheston@sas.upenn.edu><BR>Subject: Fwd: Fw: [Corpora-List] Pashto Transliteration Scheme<BR>To: fateeshah@yahoo.com<BR>Cc: ebashir@yahoo.com<BR>Date: Tuesday, September 16, 2008, 6:42 AM<BR><BR><PRE>This is in response to an email forwarded to me by Dr. Elena Bashir.

--- On Sat, 9/13/08, fatima zuhra <fateeshah@yahoo.com> wrote:

> From: fatima zuhra <fateeshah@yahoo.com>
> Subject: [Corpora-List] Pashto Transliteration Scheme
> To: Corpora@uib.no
> Date: Saturday, September 13, 2008, 12:57 AM
> Dear group members,
>
> I am a Pashto language researcher in the field of Natural
> Language Processing. I want to know some standard
> transliteration scheme for Pashto. In my research, I am
> currently using a transliteration scheme that is similar to
> that of Herbert Penzl (1955).

Are you looking for a transliteration scheme (one roman letter for each written
Pashto letter) or a transcription scheme (phonetic representations which
include short vowels)?  Penzl (1955) gives transcriptions, not
transliterations.

>  By similar I mean to say that
> I have done some changes in that scheme in order to easily
> input data using keyboard. I'll be thankful if someone
> kindly answer my these questions:
>
> Q.1 Is there some standard transliteration scheme available
> for Pashto that is used in computer applications for Pashto?

I don’t think so.  For typing convenience, some scholars of Indo-Iranian use
capital letters for both retroflexion and long vowels.  When Penzl was writing
in 1955, no one was doing computer work with languages; even in the 1970s (when
I did my dissertation using computerized texts for 4 Iranian languages), the
use
of alphabetic inputs was generally restricted to lower case ASCII. There are
many options now available when computerizing language materials.

> Q.2 If there are some symbols in a transliteration scheme,
> which are hard to input using a keyboard, then can I make
> changes in such a scheme (to make it easy for my
> application)?

I think that it’s a matter of your convenience, so long as you explain what
you’ve done.  If your choices are very unconventional, it places a burden on
readers of your work.  You might want to explore the Doulos Unicode fonts
(available on the SIL website) for phonetic transcriptions; they include a dot
beneath retroflex consonants (e.g., 1E6D for retroflex _t_) and the digraphs
_tz_ and _ts_ (Unicode 01F3 and 02a6, respectively).

Wilma Heston



</PRE></BLOCKQUOTE></td></tr></table><br>