Crowdsourcing the Development of Underserved Language Resources <br>(<a href="http://www.rhok.org/problems/crowdsourcing-development">http://www.rhok.org/problems/crowdsourcing-development</a>- <br>underserved-language-resources) <br>
 <br>The provision of affordable, accessible and sustainable data, tools and <br>technologies in local languages is necessary for developing world <br>populations across the globe to allow them access to the knowledge <br>
society and economy, to both consume and to generate relevant <br>content. This includes access to appropriate networks and Information <br>and Communication Technologies (ICTs) supported by adequate <br>Human Language Technologies (HLT). There is an urgent need to <br>
realize the fundamental rights of the citizens of the world to have <br>access to information in their language, information that will allow them <br>to improve their economic situation, their education, their legal rights, <br>
and their health. A major challenge that still faces the development of a <br>truly inclusive and diverse global information society is the extreme <br>scarcity of language resources that can be utilized by researchers and <br>
practitioners to build human language technologies (HLT) for countries <br>in the developing world. Unless resolved, this issue will prevent the <br>vast majority of the next billions of the world's citizens, who rely <br>
exclusively on their native languages to consume and produce <br>information, from participating in the global information society. <br> <br>This project aims at tackling this challenge by leveraging open content, <br>mobile technologies and crowd-sourcing to create language resources <br>
for the underserved world languages and make them available under <br>open licenses to stimulate research and development in the area of <br>Human Language Technologies (HLT). The project will use existing <br>open text repositories (such as Wikipedia) in language such as Swahili, <br>
Arabic and Urdu, and will create a crowd-sourcing mechanism for <br>developing these text repositories into language corpora. This could <br>include, for example, tagging the words in the corpus based on part of <br>speech (a process known as Part of Speech Tagging). For this <br>
purpose, a platform can be built to extract sentences from the corpus <br>and send it to a group of contributors through text messages. Each <br>contributor can examine the sentence and determine the tag for each <br>word in the sentence (verb, noun, adjective, etc.) and send it back to <br>
the platform. Redundant responses from several contributors will be <br>used to ensure the correctness of the answers and to flag any potential <br>errors. Participation in the platform can be encouraged through several <br>
means. For example, contributors may be rewarded for their <br>participation with mobile credit they can use on their phones, or a <br>badge system could be applied to acknowledge active contributors. <br>The participation process can also be possibly structured around a <br>
game-like style. <br><br><a href="http://linguistlist.org/issues/22/22-5043.html">http://linguistlist.org/issues/22/22-5043.html</a><br clear="all"><br>-- <br>**************************************<br>N.b.: Listing on the lgpolicy-list is merely intended as a service to its members<br>
and implies neither approval, confirmation nor agreement by the owner or sponsor of the list as to the veracity of a message's contents. Members who disagree with a message are encouraged to post a rebuttal, and to write directly to the original sender of any offensive message.  A copy of this may be forwarded to this list as well.  (H. Schiffman, Moderator)<br>
<br>For more information about the lgpolicy-list, go to <a href="https://groups.sas.upenn.edu/mailman/">https://groups.sas.upenn.edu/mailman/</a><br>listinfo/lgpolicy-list<br>*******************************************<br>