<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:x="urn:schemas-microsoft-com:office:excel" xmlns:p="urn:schemas-microsoft-com:office:powerpoint" xmlns:a="urn:schemas-microsoft-com:office:access" xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-00AA00C14882" xmlns:s="uuid:BDC6E3F0-6DA3-11d1-A2A3-00AA00C14882" xmlns:rs="urn:schemas-microsoft-com:rowset" xmlns:z="#RowsetSchema" xmlns:b="urn:schemas-microsoft-com:office:publisher" xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet" xmlns:c="urn:schemas-microsoft-com:office:component:spreadsheet" xmlns:oa="urn:schemas-microsoft-com:office:activation" xmlns:html="http://www.w3.org/TR/REC-html40" xmlns:q="http://schemas.xmlsoap.org/soap/envelope/" xmlns:D="DAV:" xmlns:x2="http://schemas.microsoft.com/office/excel/2003/xml" xmlns:ois="http://schemas.microsoft.com/sharepoint/soap/ois/" xmlns:dir="http://schemas.microsoft.com/sharepoint/soap/directory/" xmlns:ds="http://www.w3.org/2000/09/xmldsig#" xmlns:dsp="http://schemas.microsoft.com/sharepoint/dsp" xmlns:udc="http://schemas.microsoft.com/data/udc" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:sub="http://schemas.microsoft.com/sharepoint/soap/2002/1/alerts/" xmlns:ec="http://www.w3.org/2001/04/xmlenc#" xmlns:sp="http://schemas.microsoft.com/sharepoint/" xmlns:sps="http://schemas.microsoft.com/sharepoint/soap/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:udcxf="http://schemas.microsoft.com/data/udc/xmlfile" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=us-ascii">
<meta name=Generator content="Microsoft Word 12 (filtered medium)">
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-reply;
        font-family:"Calibri","sans-serif";
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page Section1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.Section1
        {page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=EN-US link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Hi Andrew, One problem we run up against in talking about various
advanced applications is the issue of corpora. There is a need to find ways to (1)
more effectively digitize existing text, and (2) generate new text. On the former
(1), I would really like to see a project to (a) assure that extended Latin
texts already scanned for projects like Google books are OCR'd properly when
extended Latin and diacritics are involved (I've written that particular project
about that already), and (b) a new/additional focused effort be undertaken to
digitize all extant texts in under-resourced languages. On the latter (2) , Mark
Liberman and colleagues at the Linguistic Data Consortium (University of
Pennsylvania) have an interesting project concept for involving school students
transcribing oral histories that then could become part of local heritage
resources as well as developing the corpora for the languages (makes me wonder
if OLPC and similar projects could be involved in a pilot effort along these
lines).<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>That said, and returning to the topic of analyzing keyboards: I would
hope that even a relatively small amount of text could in the meantime give us
an idea how efficient alternative keyboard layouts are. We can sort of give an
educated guess about what might be more advantageous in one way or another of
particular key arrangements, but until we can begin to collect and statistically
analyze basic data on keystokes, etc. it is just estimates. With small texts
that are probably not "representative samplings" (if such a thing
were possible in language), there is a risk that a particular text could give a
misleading result. But at this stage in discussion we may be just talking about
beginning to get some better ideas about the efficiency of alternative layouts.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'>Don<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-size:11.0pt;font-family:"Calibri","sans-serif";
color:#1F497D'><o:p> </o:p></span></p>

<div style='border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in'>

<p class=MsoNormal><b><span style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'>From:</span></b><span
style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'>
a12n-collaboration-bounces@bisharat.net
[mailto:a12n-collaboration-bounces@bisharat.net] <b>On Behalf Of </b>Andrew
Cunningham<br>
<b>Sent:</b> Sunday, June 29, 2008 8:23 AM<br>
<b>To:</b> Tunde Adegbola<br>
<b>Cc:</b> keyboards@kasahorow.com; 'A12n tech support'; Don Osborn;
'Indigenous Languages and Technology'<br>
<b>Subject:</b> [A12n-Collab] Re: [PALNet-general] Utilities for analyzing
keyboards?<o:p></o:p></span></p>

</div>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal>Don,<br>
<br>
your second tool would necessitate having a large corpus in each language to
use for the analysis. <br>
<br>
as a quick experiment, i thought I'd look at some character frequencies in a
single text, just an experiment, since a single text couldn't be considered
adequate for a proper analysis.<br>
<br>
Since the draft Yoruba keyboard layout uses combining diacritics for all the
diacritics, I took the Yoruba translation of the UDHR. Then normalised the text
using NFD. I then ran it through a script to count the occurrence of each
character.<br>
<br>
Of the four most frequent characters, three were the combining diacritics:
acute, grave and dot-below. Although a single text is inconclusive, it is
suggestive that for Yoruba the combining diacritics need to be typed frequently
and should be in positions allowing them to be typed easily and quickly.<br>
<br>
And yes, i converted the vertical line below to a dot below before running the
test on the UDHR translation.<br>
<br>
Andrew<br>
-- <br>
Andrew Cunningham<br>
Research and Development Coordinator<br>
Vicnet<br>
State Library of Victoria<br>
Australia<br>
<br>
andrewc@vicnet.net.au<o:p></o:p></p>

</div>

</body>

</html>