<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><pre id="nonprop"><p align=""><font class="Apple-style-span" face="Helvetica" size="3"><span class="Apple-style-span" style="font-size: 12px; ">------------------------------------------------------------------------
Arabic-L: WEd 03 Jan 2010
Moderator: Dilworth Parkinson <<a href="mailto:dilworth_parkinson@byu.edu">dilworth_parkinson@byu.edu</a>>
[To post messages to the list, send them to <a href="mailto:arabic-l@byu.edu">arabic-l@byu.edu</a>]
[To unsubscribe, send message from same address you subscribed from to
<a href="mailto:listserv@byu.edu">listserv@byu.edu</a> with first line reading:
            unsubscribe arabic-l                                      ]

-------------------------Directory------------------------------------

1) Subject:Quranic Arabic Corpus Version 0.2

-------------------------Messages-----------------------------------
1)
Date: 03 Jan 2010
From:<span class="Apple-style-span" style="font-size: medium; white-space: normal; ">Kais Dukes <<a href="mailto:sckd@leeds.ac.uk">sckd@leeds.ac.uk</a>></span>
Subject:Quranic Arabic Corpus Version 0.2

<span class="Apple-style-span" style="font-size: medium; white-space: normal; ">== Quranic Arabic Corpus Version 0.2 ==<br><br>Version 0.2 released today - Monday 1st Feburary, 2010. The Quranic<br>Arabic Corpus is an annotated linguistic resource which shows the<br>Arabic grammar, syntax and morphology for each word in the Quran. The<br>corpus provides three levels of analysis: morphological annotation, a<br>syntactic treebank and a semantic ontology. The research project is<br>organized at the University of Leeds, and is part of the Arabic<br>language computing research group within the School of Computing,<br>supervised by Eric Atwell.<br><br>This project aims to provide a richly annotated linguistic resource<br>for researchers wanting to study the original Arabic language of the<br>Quran. Each day on average, the website receives 10,000 page views and<br>over 1,500 visitors from 135 different countries world-wide. Following<br>user feedback, a new version of the corpus is now available with<br>several improvements to both the online website, as well as to the<br>annotated linguistic data:<br><br><a href="http://corpus.quran.com/">http://corpus.quran.com</a><br><br><br>== Synopsis of New Features ==<br><br>Linguistics:<br><br>- Syntactic treebank now includes chapter 2 of the Quran<br>- Visual ontology with 300 concepts and 350 logical relations<br>- Named entity tagging, with 6000 Arabic words in the Quran identified<br>- Higher accuracy for part-of-speech tagging and morphological analysis<br><br>Data download:<br><br>- New parts-of-speech for particles (PRO/prohibition, SUP/supplemental)<br>- Improved English terminology for corresponding Arabic grammar terms<br>- Fixed typos in interlinear translation<br>- Fixed missing last verses in data download files<br><br>Website:<br><br>- Easier and quicker navigation with direct verse selection<br>- Search page now shows entire verses in Arabic and English<br>- Improved message board security with user sign-in and registration<br><br><br>== Linguistic Improvements ==<br><br>- The syntactic treebank uses dependency graphs to visualize the<br>parsed syntactic structure for Arabic verses in the Quran. Previously,<br>the treebank covered approximately 5,000 words (surat l-fatihah and<br>the last two juz of the Quran). In version 0.2, the treebank has been<br>extended to include chapter 2 (surat l-baqarah) and now covers over<br>11,000 Arabic words in the Quran with 2,500 dependency graphs. See:<br><a href="http://corpus.quran.com/treebank.jsp">http://corpus.quran.com/treebank.jsp</a><br><br>- The ontology of Quranic concepts is the largest new feature to be<br>added in this release. This shows a visual map of the names of people,<br>places and other entities mentioned in the Quran<br>(<a href="http://corpus.quran.com/ontology.jsp">http://corpus.quran.com/ontology.jsp</a>). Relationships between entities<br>are encoded using predicate logic (e.g. father/son, instance/subclass,<br>part-of, etc). At present, this is a basic ontology to enable a<br>further planned step of analysis, pronoun resolution. A brief webpage<br>has been written about each of the 300 concepts in the ontology,<br>providing a short synopsis, as well as showing predicate logic<br>relations. Users can add comments to each ontology concept page. It is<br>hoped that over time the ontology will grow into a small specialized<br>wiki of Quranic topics, formalized using machine-readable predicate<br>logic. Each page in the ontology is hyperlinked to the closest<br>corresponding page in Wikipedia, where applicable. A topic concordance<br>of concepts is also available (<a href="http://corpus.quran.com/topics.jsp">http://corpus.quran.com/topics.jsp</a>)<br>which allows users to click through to easily find verse references<br>for each concept in the ontology.<br><br>- Named entity tagging in the Quranic corpus involves identifying<br>specific Arabic words (or spans of words) in verses, and mapping these<br>to well-defined formal concepts in the ontology. The word-by-word<br>grammatical annotation scheme on the website has been extended to show<br>links to the ontology. So far, 6,000 Arabic words have been tagged as<br>named entities and have been mapped to concepts. These include all<br>proper nouns in the corpus, as well as names of other specific<br>locations, places, animals and important events mentioned in the<br>Quran.<br><br>- A detailed linguistic review has been completed of all messages on<br>the message board. This has left 339 messages open for further<br>discussion, with 2,842 messages now resolved and archived. Version 0.2<br>of the corpus incorporates many improvements and suggestions from<br>volunteer annotators on how grammatical tagging might be improved.<br>This has resulted in much higher accuracy in the online grammatical<br>analysis for each Arabic word.<br><br>== Data Download Improvements ==<br><br>- Previously for part-of-speech tagging, the SUP tag was used for the<br>rare surprise particle. This has now been changed to SUR/surprise.<br>Version 0.2 of the corpus introduces two new part-of-speech tags for<br>particles, in order to achieve higher accuracy with regards to<br>traditional Arabic grammatical analysis (i'rab). A new tag<br>SUP/supplemental (harf za'id), has been introduced, as well as<br>PRO/prohibition. The latter is required to correctly distinguish<br>negative particles (NEG = harf nafee) from particles of prohibition<br>(PRO = harf nahee). Proper noun tagging has also been improved.<br>Completion of the initial draft of the ontology has allowed for a<br>clearer view on what should be tagged as a proper noun, based on<br>grammatical as well as semantic considerations.<br><br>- English terminology on the website has been improved for<br>corresponding Arabic grammatical terms. The syntactic treebank now<br>uses clearer English terminology and phrase tagging for jumlah fi'liya<br>/ ismiyah (VS / NS = verbal / nominal sentence). Previously these were<br>named "verb phrase" and "noun phrase" which may have led to some<br>confusion. There is also improved terminology for the rarer Quranic<br>verbal nouns, e.g. "imperative verbal noun" instead of just<br>"imperative noun" for "ism fi'il amr".<br><br>- Some typos have been fixed in the interlinear English translation.<br>This includes correcting some of the places where words have been<br>doubled up, as well as fixing missing occurrences of the word "zakah".<br>There are quite likely to be more improvements to be made in the<br>interlinear translation with regards to accuracy against traditional<br>accepted sources of translation into English. Comments are more than<br>welcome via the message board.<br><br>- The data download files for version 0.2 of the corpus have been<br>updated to include all these new improvements. The issue of missing<br>last verses when downloading data has been also now been fixed.<br><br><br>== Website Improvements ==<br><br>- A drop down verse list has been introduced across the website. This<br>allows for easier and quicker navigation with direct verse selection.<br>This was an often requested feature by regular website users.<br><br>- The search page now shows entire verses in Arabic and English. When<br>searching for a word or using the concordance functionality,<br>previously only a list of matching words would be displayed. Now, each<br>search result highlights the matching Arabic word and shows in its<br>entire verse in context. A corresponding English translation for each<br>verse is also displayed when searching, using the Sahih International<br>translation. Website users also have the option of using 8 different<br>English translations for wider context, including the word-by-word<br>interlinear translation.<br><br>- The message board now has improved security with user sign-in and<br>registration. The Quranic Arabic Corpus website receives many regular<br>visitors, including young students who use the website to learn about<br>Arabic grammar and to find out more about the Quran. This registration<br>process is intended to protect our users from spam, and to prevent<br>other unsuitable or potentially harmful messages from being posted to<br>the message board. Users can now also post messages to each of the 300<br>ontology concept pages, so that hopefully this new content can be<br>improved and extended over time.<br><br>- Non-technical interview with the muslim post (January 2010) -<br><a href="http://corpus.quran.com/interview.jsp">http://corpus.quran.com/interview.jsp</a><br><br>- Linguistic academic paper (for submission) - "Kais Dukes and Tim<br>Buckwalter. A Dependency Treebank of the Quran using Traditional<br>Arabic Grammar." - <a href="http://corpus.quran.com/publications.jsp">http://corpus.quran.com/publications.jsp</a><br><br><br>== Feedback ==<br><br>Any feedback on version 0.2 of the Quranic Arabic Corpus is more than<br>welcome. The Quranic Arabic Corpus is made freely available under the<br>GNU public license and the corpus terms-of-use.<br><br>Kind Regards,<br><br>-- Kais Dukes<br><br>Language Research Group<br>School of Computing<br>University of Leeds<br><br><a href="http://corpus.quran.com/">http://corpus.quran.com</a> - The Quranic Arabic Corpus<br><a href="mailto:comp-quran@comp.leeds.ac.uk">comp-quran@comp.leeds.ac.uk</a> - Computational Quranic Arabic discussion list<br></span>
--------------------------------------------------------------------------
End of Arabic-L:  03 Jan 2010
</span></font></p><div><font class="Apple-style-span" face="Helvetica" size="3"><span class="Apple-style-span" style="font-size: 12px;"><br></span></font></div></pre></body></html>