<div dir="ltr"><div>Dear karoline,<br><br></div>I participated in a project conducted about neologism detection and automatic enrichment of lexicon... for French: <a href="https://sites.google.com/site/projetedylex/publications">https://sites.google.com/site/projetedylex/publications</a><br>

<div><div><div><br>Among other, we were able to show that, using diverse approaches, we were able to automatically find neologisms in a newsfeed and assign inflectional categories to them.<br></div><div>Since latest work have only been published in French yet (English abstract below), don't hesitate to get in touch with us for any feedback about this.<br>

</div><div><br>Best,<br>Damien<br><br>--<br><br>Lexical incompleteness is a recurring problem when dealing with natural language and its variability. It seems indeed necessary today to regularly validate and extend lexica used by tools processing large amounts of textual data. This is even more true when processing real-time text flows. In this context, our paper introduces techniques aimed at addressing words unknown to a lexicon. We first study neology (from a theoretic and corpus-based point of view) and describe the modules we have developed for detecting them and inferring information about them (lemma, category, inflectional class). We show that we are able, using among others modules for analyzing derived and compound neologisms, to generate lexical entries candidates in real-time and with a good precision.<br>

<br></div></div></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">2014/1/10 Mark Davies <span dir="ltr"><<a href="mailto:Mark_Davies@byu.edu" target="_blank">Mark_Davies@byu.edu</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">






<div>
<div style="direction:ltr;font-size:10pt;font-family:Tahoma">(Sorry for the delay in responding)
<div><br>
</div>
<div>In order to look for neologisms, you'll need a monitor corpus that continues to be added to every year or two, and (crucially) which has roughly the same composition from year to year. As far as I'm aware, the only publicly-accessible monitor corpus with
 these specifications in the Corpus of Contemporary American English (COCA): <a href="http://corpus.byu.edu/coca/" style="font-size:10pt" target="_blank">http://corpus.byu.edu/coca/</a> .</div>
<div><br>
</div>
<div>(See <a href="http://llc.oxfordjournals.org/content/25/4/447.abstract" target="_blank">http://llc.oxfordjournals.org/content/25/4/447.abstract</a> for a comparison of COCA, the Bank of English, and the Oxford English Corpus as monitor corpora.)</div>


<div><br>
</div>
<div>The hard part is having the corpus interface automatically find neologisms for you. In COCA you can have it show you, for example, all adjectives that occur in 2012, but not in 1990-2011. But because the CLAWS7 tagger isn't perfect, you'll have to wade
 through lots of spurious data to find the neologisms.</div>
<div><br>
<div>But if you already have words or phrases in mind, then COCA can map out their frequency year by year since 1990 quite well, e.g.: </div>
<div><br>
</div>
<div>morph: <a href="http://corpus.byu.edu/coca/?h=y&c=coca&q=105" style="font-size:10pt" target="_blank">http://corpus.byu.edu/coca/?h=y&c=coca&q=105</a></div>
<div><span style="font-size:10pt">old-school: </span><a href="http://corpus.byu.edu/coca/?h=y&c=coca&q=106" style="font-size:10pt" target="_blank">http://corpus.byu.edu/coca/?h=y&c=coca&q=106</a></div>
<div><span style="font-size:10pt">gift (as verb): </span><a href="http://corpus.byu.edu/coca/?h=y&c=coca&q=124" style="font-size:10pt" target="_blank">http://corpus.byu.edu/coca/?h=y&c=coca&q=124</a></div>


<div><span style="font-size:10pt">think outside the box: </span><a href="http://corpus.byu.edu/coca/?h=y&c=coca&q=155" style="font-size:10pt" target="_blank">http://corpus.byu.edu/coca/?h=y&c=coca&q=155</a></div>


<div><span style="font-size:10pt">throw someone under the bus: </span><a href="http://corpus.byu.edu/coca/?c=coca&q=15643189" style="font-size:10pt" target="_blank">http://corpus.byu.edu/coca/?c=coca&q=15643189</a></div>


<div><br>
</div>
<div>There are more examples at <a href="http://corpus.byu.edu/coca/x.asp?f=changes_e" style="font-size:10pt" target="_blank">http://corpus.byu.edu/coca/x.asp?f=changes_e</a> </div>
<div><br>
</div>
<div>Best,</div>
<div><br>
</div>
<div>Mark Davies</div>
<div><br>
<div style="font-family:Tahoma;font-size:13px">
<div style="font-family:Tahoma;font-size:13px">
<p>============================================<br>
Mark Davies<br>
Professor of Linguistics / Brigham Young University<br>
<a href="http://davies-linguistics.byu.edu/" target="_blank">http://davies-linguistics.byu.edu/</a></p>
<p>** Corpus design and use // Linguistic databases **<br>
** Historical linguistics // Language variation **<br>
** English, Spanish, and Portuguese **<br>
============================================<br>
</p>
</div>
</div>
</div>
<div style="font-size:16px;font-family:Times New Roman">
<hr>
<div style="direction:ltr"><font color="#000000" face="Tahoma"><b>From:</b> <a href="mailto:corpora-bounces@uib.no" target="_blank">corpora-bounces@uib.no</a> [<a href="mailto:corpora-bounces@uib.no" target="_blank">corpora-bounces@uib.no</a>] on behalf of <a href="mailto:kazavora@students.unibe.ch" target="_blank">kazavora@students.unibe.ch</a> [<a href="mailto:kazavora@students.unibe.ch" target="_blank">kazavora@students.unibe.ch</a>]<br>


<b>Sent:</b> Monday, January 06, 2014 7:52 AM<br>
<b>To:</b> <a href="mailto:corpora@uib.no" target="_blank">corpora@uib.no</a><br>
<b>Subject:</b> [Corpora-List] Neologisms<br>
</font><br>
</div><div><div class="h5">
<div></div>
<div>
<div style="direction:ltr;font-size:10pt;font-family:Tahoma">Dear all,<br>
<br>
I am doing a corpus about neologism, looking at new words that evolved in the last couple of years and the word-formation process they went throught. Therefore I need a source where I can find all the new words that evolved in the last couple of years or the
 last decade. Do you have any helpful links, etc.<br>
<br>
Thank you very much.<br>
<br>
Best wishes,<br>
<br>
Karoline Zavora<br>
</div>
</div>
</div></div></div>
</div>
</div>
</div>

<br>_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br><a href="mailto:damien@nouvels.net" target="_blank">damien@nouvels.net</a><br>GSM: +33 (0) 6 63 56 27 17
</div>