Dear all,<br><br>Sorry to bother you again.<br><br>I need some corpus with timestamp such that I can compute the "pattern history" from these corpus. I was blocked with the copywrite issue.<br>Therefore, I try to seek for cooperation by providing web service of pattern history if someone could offer his/her corpus.<br>
<br>There is a web site for pattern history and <br>its URL is (<a href="http://120.108.115.115/TM/Search_PubMed_Simple.php" target="_blank">http://120.108.115.115/TM/Search_PubMed_Simple.php</a>).<br>
The pattern history extracted from  medicine articles <br>"PubMed"( from 1990 to 2009),<br>
containing 3,225,549 articles containing 677,728,269 words (600M+<br>
MILLION WORDS) .<br><br>Please don't hesitate to let me know if you are willing to have frequency distribution of pattern over time from a large and long time periods for trend analysis.<br><br>Jing-Doo Wang<br>
<br>
Assistant Professer<br>
Department of Computer Science and Information Engineering<br>
Asia Universiyt, Taiwan.<br>
<br>
886-4-23323456-ext 1847<br>
<a href="http://asia.edu.tw/%7Ejdwang" target="_blank">http://asia.edu.tw/~jdwang</a><br>
<a href="mailto:jdwang@asia.edu.tw" target="_blank">jdwang@asia.edu.tw</a><br>
<a href="mailto:wangjingdoo@gmail.com" target="_blank">wangjingdoo@gmail.com</a><br><br><div class="gmail_quote">2010/9/17 ¤ý¸g¿w <span dir="ltr"><<a href="mailto:wangjingdoo@gmail.com">wangjingdoo@gmail.com</a>></span><br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">Dear all,<br><br> I am  focusing on the extraction of maximal repeat patterns <br>from textual information, meanwhile compute the frequency distribution of these patterns over time(pattern history).<br>
<br><br>
There is a web site for pattern history and <br>its URL is (<a href="http://120.108.115.115/TM/Search_PubMed_Simple.php" target="_blank">http://120.108.115.115/TM/Search_PubMed_Simple.php</a>).<br>
The pattern history extracted from  medicine articles <br>"PubMed"( from 1990 to 2009),<br>
containing 3,225,549 articles containing 677,728,269 words (600M+<br>
MILLION WORDS) .<br>
Note that the type of these patterns extracted not only<br>
include single-word but also phrases (multi-words),<br>
e.g. "patients with squamous cell carcinoma of the head and neck".<br>
To more specific, any segment (a sequence of words) within sentences<br>
in corpus will be extracted if that segment appear twice;<br>
meanwhile the corresponding frequency distribution of that segment<br>
over time, defined as "pattern history",  would be computed.<br>
<br>
I am looking forward to have more retrospective<br>
(historial)(chronological) corpus, publications or literatures for<br>
experiements to make my  experiments more robust, and seek for linguistic experts<br>
for cooperation  if they could provide the text with timestamp. <br>
<br>I will also provide them with the patterns histories extracted from these corpus as the feedback.<br>
please let me know if you have textual data(Corpus) with timestamp<br>
<br>
Yours faithfully,<br>
<br>
ps. There is an abstract about what I am doing as attached.<br>
<br>
--<br>
<br>
<br><br>
</blockquote></div><br><br clear="all"><br><br>