<div>Serge,</div>
<div> </div>
<div>write-up on what we have done so far is</div>
<div>
<div> </div>
<li>(Kilgarriff, Milos Husák, Katy McAdam, Michael Rundell, Pavel Rychlý) <a href="http://www.kilgarriff.co.uk/Publications/2008-KilgEtAl-euralex-gdex.doc">GDEX: Automatically finding good dictionary examples in a corpus</a>. Proc EURALEX 2008, Barcelona, Spain. </li>
</div>
<div> </div>
<div>Easiest heuristics include sentence-length and word frequency.  Lots of uppercase and/or punctuation is bad news (specially for text from the web).  We are exploring more grammar (using a parser and/or the low-tech alternative - penalising sentences with long noun sequences or lots of tensed verbs) and also language modelling (since readable sentences will tend to have high probability in a probabilistic lg model - thanks to Claudia Leacock for this idea, she is doing similar things at Butler Hill Group.)</div>

<div> </div>
<div>There's good current work on readability by Isahara's group in Nara, Japan, see eg</div>
<p style="MARGIN: auto 0cm"><font size="3"><font face="Times New Roman">Kotani, K., T. Yoshimi, T. Kutsumi, I. Sata, and H. Isahara 2008.<span>  </span><span lang="EN-US"><a href="http://www.gelbukh.com/cicling/2008/FirstPages/Paper8723.pdf" target="_blank">EFL Learner Reading Time Model for Evaluating Reading Proficiency</a>.<span>  </span>Proc CICLING, </span><span lang="EN-US">Haifa</span><span lang="EN-US">, </span><span lang="EN-US">Israel</span><span lang="EN-US">.</span></font></font><span style="FONT-SIZE: 10pt"></span></p>

<div>There's also the tradition going back to Fleisch and others in early 20th century (see discussion in the paper)  </div>
<div> </div>
<div>Do say more about what you did (tho maybe not on the list)</div>
<div> </div>
<div>Adam</div>
<div> </div>
<div><br><br></div>
<div class="gmail_quote">2008/4/16 Serge Sharoff <<a href="mailto:s.sharoff@leeds.ac.uk" target="_blank">s.sharoff@leeds.ac.uk</a>>:<br>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">Adam,<br>I wonder which method you are using for ranking examples.  We were<br>trying to do something similar, but for the whole webpages (and a<br>
variety of languages).  For example, we ranked the English wikipedia and<br>my I-EN corpus by their coverage by GSL words,<br><a href="http://corpus.leeds.ac.uk/teaching/i-en-gsl.csv.bz2" target="_blank">http://corpus.leeds.ac.uk/teaching/i-en-gsl.csv.bz2</a><br>
<a href="http://corpus.leeds.ac.uk/teaching/wiki-en-gsl.csv.bz2" target="_blank">http://corpus.leeds.ac.uk/teaching/wiki-en-gsl.csv.bz2</a><br><br>The problem is that many pages with low lexical coverage by GSL contain<br>
words that are known anyway, e.g., computer or construction.  On the<br>other hand, many phrasal verbs, e.g. 'give up' or constructions, 'go<br>extra mile', do contribute to the lexical count, but are not understood<br>
by students.  Problems of this sort are not accidental (we found little<br>correlation between the GSL coverage and understanding), a much better<br>model of difficulty is needed to find texts/examples suitable for<br>language learners.<br>
<font color="#888888">Serge<br></font>
<div>
<div></div>
<div><br>On Wed, 2008-04-16 at 12:53 +0100, Adam Kilgarriff wrote:<br>> Dear Alex,<br>><br>> you say<br>> >  Is there really so little out there? Why?<br>><br>><br>> I think the reason is simple: Concordances are too tough for learners.<br>
> So DDL has not taken off.  After 20 years, it remains a tiny minority<br>> interest.<br>><br>> Our response is to select corpus sentences according to readability.<br>> The beta version of the Sketch Engine now has an option to sort<br>
> concordances<br>> "best first", from a learner's point of view, and we are working on<br>> other ways of<br>> using corpora in language learning in which we only show<br>> users sentences which they are likely to be able to read and<br>
> understand.<br>><br>> Adam<br>><br>> 2008/4/15 Alex Boulton <<a href="mailto:Alex.Boulton@univ-nancy2.fr" target="_blank">Alex.Boulton@univ-nancy2.fr</a>>:<br>>         Dear all<br>><br>><br>
><br>>         I recently requested information on any published materials or<br>>         on-line materials<br>><br>><br>>         adopting a data-driven learning approach. My thanks to the<br>>         following for their replies:<br>
><br>>               * Adam Turner<br>>               * Chris Tribble<br>>               * Mike Barlow<br>>               * Brett Reynolds<br>>               * Stéphanie O'Riordan<br>>               * Antoinette Renouf<br>
>               * James Thomas<br>>               * Linda Bawcom<br>>               * Marcia Veirano Pinto<br>>               * Przemek Kaszubski<br>>               * Simon Smith<br>>               * John Milton<br>
><br>>         Unfortunately (if unsurprisingly), there were no real<br>>         additions to the publications<br>><br>><br>>         I listed in the original mail. Is there really so little out<br>>         there? Why?<br>
><br>><br>> ...<br>><br>> --<br>> ================================================<br>> Adam Kilgarriff <a href="http://www.kilgarriff.co.uk/" target="_blank">http://www.kilgarriff.co.uk</a><br>> Lexical Computing Ltd <a href="http://www.sketchengine.co.uk/" target="_blank">http://www.sketchengine.co.uk</a><br>
> Lexicography MasterClass Ltd <a href="http://www.lexmasterclass.com/" target="_blank">http://www.lexmasterclass.com</a><br>> Universities of Leeds and Sussex <a href="mailto:adam@lexmasterclass.com" target="_blank">adam@lexmasterclass.com</a><br>
> ================================================<br></div></div>
<div>
<div></div>
<div>> _______________________________________________<br>> Corpora mailing list<br>> <a href="mailto:Corpora@uib.no" target="_blank">Corpora@uib.no</a><br>> <a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>================================================<br>Adam Kilgarriff <a href="http://www.kilgarriff.co.uk/" target="_blank">http://www.kilgarriff.co.uk</a> <br>
Lexical Computing Ltd <a href="http://www.sketchengine.co.uk/" target="_blank">http://www.sketchengine.co.uk</a><br>Lexicography MasterClass Ltd <a href="http://www.lexmasterclass.com/" target="_blank">http://www.lexmasterclass.com</a><br>
Universities of Leeds and Sussex <a href="mailto:adam@lexmasterclass.com" target="_blank">adam@lexmasterclass.com</a><br>================================================