<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">Hi all</font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">My sincere thanks to Ylva, <span> </span>Eric and <span style="COLOR: #cc0060">Ozlem</span> for their response. All responses are included in this E-mail. 
</font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman"> </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">What I mean by "text classification" <span> </span>is " <u>a program or algorithm to decide what genre or domain a text document belongs to 
</u>". </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman"> </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">Actually, I am aware of text size.</font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman"><span> </span>Is it possible to have different text sizes ranging from 100 words to several thousands of words? 
</font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">Governmental reports, as an example, have this variation in text size. </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">News papers articles does not have this variation. </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman"> </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">Best wishes</font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman"> </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">____________________________________________________________________ </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">On 15/06/06, Mohsen Al-Thubaity <<a onclick="return top.js.OpenExtLink(window,event,this)" href="mailto:althubaity@gmail.com" target="_blank">
 althubaity@gmail.com</a>> wrote: </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">Hi all</font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">I am working on a research project investigating Arabic text classification. </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">The first part of this project, required building a corpus to train and test the classifier. </font>
</p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">Are there are any criteria or standards must be followed to build such a corpus.    </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">Any suggestions or references are most appreciated. </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman"> </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">Best wishes </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman"> </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">Mohsen </font></p>
<p dir="ltr" style="MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">-------------------------------------------------------------------------------------- </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman"> </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">On 15/06/06, Ylva Berglund <<a onclick="return top.js.OpenExtLink(window,event,this)" href="mailto:ylva.berglund@oucs.ox.ac.uk" target="_blank">
 ylva.berglund@oucs.ox.ac.uk</a>> wrote:</font></p>
<p dir="ltr" style="MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">Dear Mohsen,<br><br>Selection of texts for a (training) corpus is a very complex and <br>important issue. Unfortunately I don't think there are any hard and fast 
<br>rules defining what to include. You would have to consider not only what<br>kind of text classes there are and what would be suitable examples of <br>these, but also what is available to you (text resources as well as 
<br>time, money, expertise etc). Some issues relating to corpus creation<br>(including text selection) are discussed in the fairly recent book:<br>'Developing Linguistic Corpora: A Guide to Good Practice' which is <br>available online at 
<br></font><a onclick="return top.js.OpenExtLink(window,event,this)" href="http://www.ahds.ac.uk/creating/guides/linguistic-corpora/" target="_blank"><font face="Times New Roman">http://www.ahds.ac.uk/creating/guides/linguistic-corpora/ 
</font></a><font face="Times New Roman">(hard copies<br>from Oxbow books: </font><a onclick="return top.js.OpenExtLink(window,event,this)" href="http://www.oxbowbooks.com/bookinfo.cfm/ID/32969" target="_blank"><font face="Times New Roman">
http://www.oxbowbooks.com/bookinfo.cfm/ID/32969</font></a><font face="Times New Roman"> ).<br>Maybe that can be of use to you.<br><br>Good luck with your project.<br><br>-- Ylva</font></p>
<div style="BORDER-RIGHT: medium none; PADDING-RIGHT: 0cm; BORDER-TOP: medium none; PADDING-LEFT: 0cm; PADDING-BOTTOM: 1pt; BORDER-LEFT: medium none; PADDING-TOP: 0cm; BORDER-BOTTOM: windowtext 1pt solid">
<p dir="ltr" style="BORDER-RIGHT: medium none; PADDING-RIGHT: 0cm; BORDER-TOP: medium none; PADDING-LEFT: 0cm; PADDING-BOTTOM: 0cm; MARGIN: 0cm 0cm 0pt; BORDER-LEFT: medium none; DIRECTION: ltr; PADDING-TOP: 0cm; BORDER-BOTTOM: medium none; TEXT-ALIGN: left">
<font face="Times New Roman"> </font></p></div>
<p dir="ltr" style="MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman"> </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">On 15/06/06, Eric Atwell <<a onclick="return top.js.OpenExtLink(window,event,this)" href="mailto:eric@comp.leeds.ac.uk" target="_blank">
 eric@comp.leeds.ac.uk</a>> wrote: </font></p>
<p dir="ltr" style="BACKGROUND: white; MARGIN: 0cm 0cm 12pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">Mohsen,<br><br>You dont say what you mean by "text classification" - do you mean you <br>
are developing a program or algorithm to decide what genre or domain<br>a text document belongs to?  Or are you trying to develop a set of<br>genres which cover needs of Arabic corpus linguistics?  Or something<br>else? <br>
<br>My colleage Latifa Al-Sulaiti and i have looked into text-types or<br>genres whcih Arabic language teachers and language engineers would like<br>to see in a Corpus of Contemporary Arabic, see<br><br>Al-Sulaiti, Latifa; Atwell, Eric. The Design of a Corpus of Contemporary 
<br>Arabic. To appear in International Journal of Corpus Linguistics,<br>vol.11, 2006.  [Preprint at <a onclick="return top.js.OpenExtLink(window,event,this)" href="http://www.comp.leeds.ac.uk/eric/rae/" target="_blank">http://www.comp.leeds.ac.uk/eric/rae/ 
</a>]<br><br>Another colleage, Serge Sharoff, has developed a set of text <br>classification categories which he has demonstrated apply to<br>100-million-word corpora covering a range of languages, see<br><a onclick="return top.js.OpenExtLink(window,event,this)" href="http://www.comp.leeds.ac.uk/ssharoff/" target="_blank">
http://www.comp.leeds.ac.uk/ssharoff/</a><br><br>- I beleive he has a paper forthcoming on this topic, you will have to<br>  ask him direct for a preprint.<br><br>Please let me have any publication(s) you have on your work, I would 
<br>like to find out more as we have interests in common <br><br>regards<br><br>Eric Atwell<br><br></font></p>
<p dir="ltr" style="MARGIN: 0cm 0cm 0pt; DIRECTION: ltr; TEXT-ALIGN: left"><font face="Times New Roman">------------------------------------------------------------------------------------------------------- </font></p>