<html><head><meta http-equiv="Content-Type" content="text/html charset=iso-8859-1"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div><div>On 31 Aug 2013, at 13:43, Rezan Moradi <<a href="mailto:rizan_rm1989@yahoo.com">rizan_rm1989@yahoo.com</a>> wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div><div style="background-color: rgb(255, 255, 255); font-family: tahoma, 'new york', times, serif; font-size: 12pt; position: static; z-index: auto; "><div>I'm studying about "Expert Finding" field and I have some background information about it. Now, I want to use language models, but language models need a suitable data set in text format. My main problem is the lack of a suitable data set. I need a data set contain many number of papers in .txt format that each paper consists of title, keywords, abstract, author(s)'s name and main text. My previously used data set consist of title, abstract and author(s)'s name.</div><div style="font-size: 16px; font-family: tahoma, 'new york', times, serif; background-color: transparent; font-style: normal; "><span>Any help or hint at the existence of such a data set will be appreciated<br>Thank you very much<br></span></div></div></div></blockquote><br></div><div>You don't say what language(s), domain(s), currency, status or count of the papers you are looking for. However, open access journals might provide you a starting point to create a dataset appropriate to your needs. The Directory of Open Access Journals (<a href="http://www.doaj.org/">http://www.doaj.org/</a>) will provide you with sources of such papers. Their list covers domains from Physics to Film to 19th cenutry (Western/European) History to Medicine to Sociology to Linguistics to Translation to many others with overlaps between them. And in various languages including English, and Danish.</div><div><br></div><div>It is unlikely that you will find any with plain text format. You should expect to reformat from either PDF, HTML, or whatever file format the publisher uses (for example, several DOAJ offerings use EPUB format).</div><br><div>
Regards, Trevor.<div><br></div><div><>< Re: deemed!</div>

</div>
<br></body></html>