<div dir="ltr">Dear all,<br><div class="gmail_quote">
<br>
is anyone aware of a resource for grounded term extraction, i.e. linking the newly extracted terms to an existing ontology/thesaurus/... ?<br>
Thanks,<br>
<br>
Johannes<br>
<br><br>
> Message: 5<br>
> Date: Mon, 24 Feb 2014 10:29:09 +0000<br>
> From: Adam Kilgarriff <<a href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a>><br>
> Subject: Re: [Corpora-List] Summary: resources for evaluating term<br>
>       extraction<br>
> To: "<a href="mailto:corpora@hd.uib.no">corpora@hd.uib.no</a>" <<a href="mailto:corpora@hd.uib.no">corpora@hd.uib.no</a>><br>
><br>
> Apologies - I missed out<br>
><br>
> 6.  María José Marín Pérez has created a corpus of legal English (BLARC)<br>
> and has used it for extensive term-extraction<br>
> experiments, and can provide both the corpus and the lists of terms (ppaer<br>
> submitted to COLING)<br>
><br>
> Adam<br>
><br>
><br>
> On 24 February 2014 10:16, Adam Kilgarriff <<a href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a>> wrote:<br>
><br>
>> Dear all<br>
>><br>
>> here is a summary of responses to my request for resources for evaluating<br>
>> term extraction.<br>
>><br>
>> 1.  TTC project has prepared corpora and terms for 2 domains and seven<br>
>> languages: see<br>
>><br>
>> <a href="http://www.lina.univ-nantes.fr/?Reference-Term-Lists-of-TTC.html" target="_blank">http://www.lina.univ-nantes.fr/?Reference-Term-Lists-of-TTC.html</a><br>
>><br>
>> Thanks to Anne Schumann<br>
>><br>
>> 2  ACL Anthology corpus has been marked up with "valid terms" and<br>
>> "technology terms".<br>
>> Thanks to Behrang Qasemizadeh<br>
>><br>
>> 3. Georgeta Bordea says:<br>
>> In our previous work [1] done in the context of the Saffron project [2] we<br>
>> were interested in cross-domain evaluation of term extraction. Because we<br>
>> did not find other datasets similar to GENIA we relied on datasets<br>
>> annotated for keyphrase extraction [3] and index term assignment [4]<br>
>> which are more abundant.<br>
>><br>
>> [1]<br>
>> <a href="https://lipn.univ-paris13.fr/tia2013/Proceedings/actesTIA2013.pdf#page=59" target="_blank">https://lipn.univ-paris13.fr/tia2013/Proceedings/actesTIA2013.pdf#page=59</a><br>
>> [2] <a href="http://saffron.deri.ie/" target="_blank">http://saffron.deri.ie/</a><br>
>> [3] <a href="https://github.com/snkim/AutomaticKeyphraseExtraction" target="_blank">https://github.com/snkim/AutomaticKeyphraseExtraction</a><br>
>> [4] <a href="http://code.google.com/p/maui-indexer/wiki/Resources" target="_blank">http://code.google.com/p/maui-indexer/wiki/Resources</a><br>
>><br>
>><br>
>> 4. Kevin Cohen and Sophia Ananiadou pointed to resources related to the<br>
>> Termine tool: however they did not include reference lists of 'gold<br>
>> standard' terms.<br>
>><br>
>> 5. Viktor Pekar pointed to a SemEval task which included "aspect term<br>
>> extraction" in the domain of restaurant reviews, by which they mean<br>
>> "service" and "staff" in the sentence "I liked the service and the staff".<br>
>> see <a href="http://alt.qcri.org/semeval2014/task4/" target="_blank">http://alt.qcri.org/semeval2014/task4/</a>  This wasn't quite what we<br>
>> were looking for.<br>
>><br>
>> Thanks all<br>
>><br>
>> Adam<br>
>><br>
>> ========original post====================<br>
>> Date: Wed, 19 Feb 2014 11:34:36 +0000<br>
>> Subject: [Corpora-List] Resources for evaluating term extraction<br>
>><br>
>> Dear all,<br>
>><br>
>> The Sketch Engine now supports term extraction for many languages - and we<br>
>> want to evaluate it.<br>
>><br>
>> For that, we need domain corpora in which somebody has gone through<br>
>> identifying all the 'true' terms.  Then we can compute our system's<br>
>> precision and recall.<br>
>><br>
>> We are aware of GENIA, for English, and are using that already (key<br>
>> citation here: A comparative evaluation of term recognition<br>
>> algorithms. 2008: Z Zhang, J Iria, CA Brewster, F Ciravegna)<br>
>><br>
>> Any corpus with "the terms it contains", conscientiously produced, will<br>
>> help us.<br>
>><br>
>> Pointers please!<br>
>><br>
>> Adam<br>
>> --<br>
>> ========================================<br>
>> Adam Kilgarriff <<a href="http://www.kilgarriff.co.uk/" target="_blank">http://www.kilgarriff.co.uk/</a>><br>
>> <a href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a><br>
>> Director                                    Lexical Computing Ltd<<a href="http://www.sketchengine.co.uk/" target="_blank">http://www.sketchengine.co.uk/</a>><br>
>><br>
>> Visiting Research Fellow                 University of Leeds<<a href="http://leeds.ac.uk" target="_blank">http://leeds.ac.uk</a>><br>
>><br>
>> *Corpora for all* with the Sketch Engine <<a href="http://www.sketchengine.co.uk" target="_blank">http://www.sketchengine.co.uk</a>><br>
>><br>
>>                        *DANTE: a lexical database for English<br>
>> <<a href="http://www.webdante.com" target="_blank">http://www.webdante.com</a>>                  *<br>
>> ========================================<br>
>><br>
><br>
><br>
><br>
> --<br>
> ========================================<br>
> Adam Kilgarriff <<a href="http://www.kilgarriff.co.uk/" target="_blank">http://www.kilgarriff.co.uk/</a>><br>
> <a href="mailto:adam@lexmasterclass.com">adam@lexmasterclass.com</a><br>
> Director                                    Lexical Computing<br>
> Ltd<<a href="http://www.sketchengine.co.uk/" target="_blank">http://www.sketchengine.co.uk/</a>><br>
><br>
> Visiting Research Fellow                 University of<br>
> Leeds<<a href="http://leeds.ac.uk" target="_blank">http://leeds.ac.uk</a>><br>
><br>
> *Corpora for all* with the Sketch Engine <<a href="http://www.sketchengine.co.uk" target="_blank">http://www.sketchengine.co.uk</a>><br>
><br>
>                        *DANTE: a lexical database for English<br>
> <<a href="http://www.webdante.com" target="_blank">http://www.webdante.com</a>>                  *<br>
> ========================================<br>
> -------------- next part --------------<br>
> A non-text attachment was scrubbed...<br>
> Name: not available<br>
> Type: text/html<br>
> Size: 12364 bytes<br>
> Desc: not available<br>
> URL: <<a href="http://www.uib.no/mailman/public/corpora/attachments/20140224/609438bd/attachment.txt" target="_blank">http://www.uib.no/mailman/public/corpora/attachments/20140224/609438bd/attachment.txt</a>><br>

><br>
> ----------------------------------------------------------------------<br>
> Send Corpora mailing list submissions to<br>
>       <a href="mailto:corpora@uib.no">corpora@uib.no</a><br>
><br>
> To subscribe or unsubscribe via the World Wide Web, visit<br>
>       <a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
> or, via email, send a message with subject or body 'help' to<br>
>       <a href="mailto:corpora-request@uib.no">corpora-request@uib.no</a><br>
><br>
> You can reach the person managing the list at<br>
>       <a href="mailto:corpora-owner@uib.no">corpora-owner@uib.no</a><br>
><br>
> When replying, please edit your Subject line so it is more specific<br>
> than "Re: Contents of Corpora digest..."<br>
><br>
><br>
> _______________________________________________<br>
> Corpora mailing list<br>
> <a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
> <a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br>
</div><br></div>