Eva,<br><br>Here's a paper on information retrieval of patents based on named entity recognition of chemicals & converting from a textual to a structural representation:<br><br><a href="http://psb.stanford.edu/psb-online/proceedings/psb07/rhodes.pdf">http://psb.stanford.edu/psb-online/proceedings/psb07/rhodes.pdf</a><br>
<br>Text analytics is becoming an increasingly important tool used in biomedical <br>research. While advances continue to be made in the core algorithms for entity <br>identification and relation extraction, a need for practical applications of these <br>
technologies arises. We developed a system that allows users to explore the US <br>Patent corpus using molecular information. The core of our system contains <br>three main technologies: A high performing chemical annotator which identi- <br>
fies chemical terms and converts them to structures, a similarity search engine <br>based on the emerging IUPAC International Chemical Identifier (InChI) stan- <br>dard, and a set of on demand data mining tools. By leveraging this technology <br>
we were able to rapidly identify and index 3, 623, 248 unique chemical struc- <br>tures from 4, 375, 036 US Patents and Patent Applications. Using this system <br>a user may go to a web page, draw a molecule, search for related Intellectual <br>
Property (IP) and analyze the results. Our results prove that this is a far more <br>effective way for identifying IP than traditional keyword based approaches. <br>Kev<br><br><div class="gmail_quote">On Thu, Feb 26, 2009 at 4:02 AM, Eva D'hondt <span dir="ltr"><<a href="mailto:e.dhondt@let.ru.nl">e.dhondt@let.ru.nl</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Hello,<br><br>We have just started a project here at the Radboud University of Nijmegen that deals with Passage Retrieval and Text Mining in patent texts. I was wondering if anyone could point me to some literature/research/interesting facts on the linguistic and statistical characteristics of the language used in patent texts (e.g. frequency and hierarchical organisation of PP-attachments, use of gerund clauses vs. the relative clause with an inflected verb, average sentence length in the different sections, ... ).<br>

<br>I will of course post a summary of your replies on this list.<br><br>Thank you ever so much!<br><br> Eva<br><font color="#888888"><br><br>Eva D'hondt, PhD student<br>Centre for Language and Speech Technology<br>University of Nijmegen<br>

Email: <a href="mailto:e.dhondt@let.ru.nl" target="_blank">e.dhondt@let.ru.nl</a><br><br>
</font><br>_______________________________________________<br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br>K. B. Cohen<br>Biomedical Text Mining Group Lead, Center for Computational Pharmacology<br>and<br>Lead Artificial Intelligence Engineer, The MITRE Corporation, Human Language Technology Division<br>
303-916-2417 (cell) 303-377-9194 (home)<br><a href="http://compbio.uchsc.edu/Hunter_lab/Cohen">http://compbio.uchsc.edu/Hunter_lab/Cohen</a><br><br>