Hi George,<div><br></div><div>I considered features, better known in authorship attribution, in my thesis on opinion mining and assessed their impact in classification of opinions in texts. I call these features stylometric (the group of stylometric features) and extract word lengths' features, letter features, standard deviation of sentence lengths, standard deviation of word lengths, digrams. I extracted stylometric features for opinion mining in 4 textual corpora.</div>








<div><br><div>However, the framework is working with any type of information and not only with texts. It uses instances of custom classes in the generation step to generate datasets and a custom generator function. These classes and the function are, of course, in every sense modality-DEPENDENT etc. and can be added or deleted if necessary. After generation the processing is fully modality-INDEPENDENT.</div>


<div><br></div><div>For example, in opinion mining the framework generates datasets by using combinations of an instance of a custom class for word lengths and an instance of a custom class for sentence lengths and an instance of a custom class for standard deviation of lengths etc. The generator function returns sequences of analyzed information (in my case, movie reviews).</div>







<br><div>Hence, if I want to work with new data I implement my custom feature classes that implement a specific class interface and can be considered as parts of a data mining instance. The custom generator function supplies information to process. For instance, to work with neurobiological data I implement neurobiological classes that represent features for brain regions and a generator function that returns sequences of useful neurobiological information segments. These classes and the generator function were in opinion mining often very small and pilot studies of new corpora required hence only very little time because such steps such as evaluating, fusing, optimizing the datasets etc. are already implemented. In your case, you would write a PERL-Jython wrapper class and let the framework do its work.</div>







<br>Next, what does the framework actually do with custom classes? The framework instantiates them and composes combinatorial combinations of class instances resulting mathematically in (2 power N)-1 combinations where N is the number of features. In an exhaustive study, you create datasets with all combination sets of features. For instance, for 5 stylometric features you generate 31 datasets with all feature combinations.</div>




<div><br></div><div>You can normalize feature values. BTW, what sort of normalization do you mean in your email? The framework relies on information segments, for example, sequences of movie reviews. You can derive and store useful information globally as the ngrams-related information. For example, in opinion mining in movie reviews I consider the frequency list of BNC as a global variable. I considered normalization of feature values using the length of a sentence in words or words in characters. However, such normalization wasn't beneficial (see the thesis).</div>








<div><br></div><div>Hope I could answer your questions.</div><div><br></div><div>Best</div><div>Alexander</div><div><br><div class="gmail_quote">2012/4/9 Georgios Mikros <span dir="ltr"><<a href="mailto:gmikros@isll.uoa.gr" target="_blank">gmikros@isll.uoa.gr</a>></span><br>







<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div lang="EL" link="blue" vlink="purple"><div><p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1f497d">Alexander Hi,<u></u><u></u></span></p><p class="MsoNormal">








<span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1f497d">Your framework seems very interesting. What kind of features can be counted? My research focuses in authorship attribution and I use many different scripts in PERL for counting many different feature sets for my experiments. I was wondering whether your framework can count and normalize for text length character and word ngrams.<u></u><u></u></span></p>








<p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1f497d">Best<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1f497d">George Mikros<u></u><u></u></span></p>








<p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1f497d"><u></u> <u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif"">------------------------------------------------------------------------------<u></u><u></u></span></p>








<p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif"">Dr. George K. Mikros,<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif"">Associate Professor of Computational Linguistics and Quantitative Linguistics<u></u><u></u></span></p>








<p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif"">Department of Italian Language and Literature<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif"">School of Philosophy,<u></u><u></u></span></p>








<p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif"">National and Kapodistrian University of Athens<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif"">Panepistimioupoli Zografou, GR 15784<u></u><u></u></span></p>








<p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif"">Athens<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif"">Greece<u></u><u></u></span></p>








<p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif"">Tel/Fax: <a href="tel:%2B30%20210%206511344" value="+302106511344" target="_blank">+30 210 6511344</a><u></u><u></u></span></p>








<p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif"">Email: <a href="mailto:gmikros@isll.uoa.gr" target="_blank">gmikros@isll.uoa.gr</a> <u></u><u></u></span></p>








<p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif"">Web: <a href="http://users.uoa.gr/~gmikros/" target="_blank">http://users.uoa.gr/~gmikros/</a><u></u><u></u></span></p>








<p class="MsoNormal"><span lang="EN-US" style="font-size:11.0pt;font-family:"Calibri","sans-serif""><u></u> <u></u></span></p><p class="MsoNormal"><font face="Calibri, sans-serif"><span style="font-size:15px"><br>








</span></font></p></div></div></blockquote></div></div>