[Apologies for multiple postings]<br><b><br>2nd CALL <span class="il">FOR</span> PAPERS</b><u><i><br></i></u><i>
    Workshop on <span class="il">Language</span> Technology <span class="il">for</span> <span class="il">Patent</span> Data: <span class="il">Language</span> <span class="il">Resources</span>
    and Evaluation</i><br><br>
    To be held in conjunction with the 8th International <span class="il">Language</span>
    <span class="il">Resources</span> and Evaluation Conference (LREC 2012)<br>
    <br>
    27 May 2012 (afternoon)<br>
    <br>
    Lütfi Kirdar Istanbul Exhibition and Congress Centre, Istanbul,
    Turkey<br>
    <br>
    <a href="http://workshops.elda.org/ltpd2012/" target="_blank">http://workshops.elda.org/ltpd2012/</a><br>
    <br>
    <b>Workshop Description</b><br>
    In the last few years, the use of<b> patents </b>in automatic processing
    has shown a growing interest in the<br>
    NLP community. This has been particularly the case in the context of
    <b>Machine Translation (MT)</b> or<br>
    <b>Cross-Lingual Information Retrieval (CLIR)</b>. Nowadays this has become
    a major topic and besides<br>
    the development of the technology itself, some key points remain
    regarding the <span class="il">resources</span> available<br>
    and the way of evaluating the quality of the technology.<br><br>
    A large number of <span class="il">language</span> <span class="il">resources</span> is already available <span class="il">for</span> the
    community, but the development<br>
    of systems, in particular the statistical ones, always requires more
    and more data. As there is a<br>
    growing interest <span class="il">for</span> patents and their processing, a workshop on the
    topic which gathers all those<br>
    involved in the different aspects concerned is a good opportunity to
    move forward.<br>
    The domain of patents itself is increasing and the amount of
    potential material does not cease to<br>
    increase. It is this potential material that gives hope to the
    community <span class="il">for</span> improving the systems.<br>
    <span class="il">For</span> instance, in China, the number of patents have been multiplied
    by 3 in 5 years and they exceed<br>
    1 million published documents per year by now. EPO (the European
    <span class="il">Patent</span> Office) uses more than<br>
    150 translation pairs per day. Every <span class="il">patent</span> office receives more and
    more patents every day, needs a<br>
    daily use of automatic tools to translate the documents, looks <span class="il">for</span>
    existing patents and their<br>
    translation, manages complex content, etc. As we can see, this is a
    domain in considerable demand<br>
    and since the content of the patents is technical and needs high
    skills in a specific domain, providing<br>
    documents that are sufficiently understandable to the end users is
    very complex. This is a real<br>
    challenge <span class="il">for</span> all NLP developers.<br><br>
    Above all, this challenge is about corpora and their management. The
    main topic concerns their<br>
    acquisition and how to collect useful data. <span class="il">For</span> most of the
    researchers, this consists in harvesting<br>
    web pages, cleaning them, getting the useful content according to a
    specific task, aligning the<br>
    sentences, etc. The acquisition task may also be done using <b>OCR
    tools on PDF</b>. Monolingual<br>
    corpora are easier to retrieve (e.g. from databases) compared to
    parallel corpora. However, parallel<br>
    translations exist and aligned corpora as well, or corpora that
    could be easily aligned. Following the<br>
    question of the acquisition of such documents, there is that of
    database management. One could say<br>
    that all these questions are not only related to <span class="il">patent</span> data,
    however this workshop would like focus<br>
    on this particular domain and make some effort to improve things.<br><br>
    Currently, the corpora are mainly used <span class="il">for</span> MT. <span class="il">For</span> a technical
    end-user in a <span class="il">patent</span> office, the end<br>
    goal is to manage to understand the content of a document. This may
    not require a very high quality<br>
    translation since this person only needs to grasp the relevance of
    the document. However, in MT,<br>
    we still need to measure quantitatively the performance of the
    systems. This is basically made using<br>
    automatic and/or human measures, while most of the system developers
    are using typical automatic<br>
    metrics such as BLEU to get their results. Even if the drawbacks of
    such metrics are well-known, it<br>
    could be still relevant, <span class="il">for</span> instance, to compare different versions
    of a system. However, even when<br>
    using BLEU, the content of <span class="il">patent</span> documents is very particular,
    which implies that different kinds<br>
    of linguistic specificity need to be tackled: these include the
    already expected terminological level,<br>
    but also a syntactic level, a semantic one, and even the structure
    of the documents may be different<br>
    from that of other documents (<span class="il">for</span> instance, patents typically
    comprise of a title, an abstract, a<br>
    technical description of the invention, and a list of novel claims).
    Human measures may be also<br>
    difficult to apply as <span class="il">patent</span> documents are written in a way which
    makes them difficult to read <span class="il">for</span><br>
    the layman. Furthermore, both automatic and human evaluations should
    have the chance to realise a<br>
    deep analysis of the results, which is not trivial working with
    patents. However, given the often<br>
    formulaic nature of the text found in patents – which is enforced on
    the author due to legal<br>
    constraints – there may be opportunities to exploit this <span class="il">for</span>
    evaluation. <span class="il">For</span> instance, claims are<br>
    constructed as a single sentence with an introductory phrase and a
    body linked by frequently<br>
    occurring terms such as “in a certain embodiment”, “consisting
    essentially of”, and clauses and lists<br>
    introduced using colons, e.g. “comprising: …”<br><br>
    The use of patents in CLIR suffers from the same kind of issues,
    either <span class="il">for</span> the evaluation of systems<br>
    or <span class="il">for</span> the collection of corpora. Sentence alignment may also have
    specific issues related to the<br>
    content of the documents, and many other types of tools may have
    their own thoughts using patents.<br>
    Through all those technologies, one can see their usage implies
    several challenges, such as the<br>
    integration of tools into <span class="il">patent</span> information applications. The
    different tools should help end-users to<br>
    search, examine or classify <span class="il">patent</span> documents, most of the time from
    translations and not available<br>
    in English. Web services should also be an extension of the tools
    and web services should be<br>
    connected through workflows, helping end-users in their daily work.<br>
    Among all the topics previously mentioned, we would like to
    contribute to the improvement of the<br>
    challenging <span class="il">patent</span> field, by sharing the knowledge from the whole
    community.<br>
    <br>
    The different topics addressed during the workshop will be (but are
    not limited to):<br>
    - Corpora aspects: collecting data, cleaning, alignment, parallel
    corpora, etc.;<br>
    - Evaluation of technologies: definition of metrics, <span class="il">patent</span>
    specificity;<br>
    - Integration of <span class="il">patent</span> applications: web services, end-user
    applications;<br>
    - IPR issues and licensing.<br>
    <br>
    <b>Organising committee</b><br>
    Heidi Depraetere (Crosslang, Belgium)<br>
    Olivier Hamon (ELDA – Evaluations and <span class="il">Language</span> <span class="il">resources</span>
    Distribution Agency, France)<br>
    John Tinsley (PLUTO – <span class="il">Patent</span> <span class="il">Language</span> Translations Online, Ireland)<br>
    <br>
    <b>Programme committee</b><br>
    Victoria Arranz (ELDA – Evaluations and <span class="il">Language</span> <span class="il">resources</span>
    Distribution Agency, France)<br>
    Alexandru Ceausu (PLUTO - <span class="il">Patent</span> <span class="il">Language</span> Translations Online,
    Ireland)<br>
    Khalid Choukri (ELDA, France)<br>
    Terumasa Ehara (Yamanashi Eiwa College, Japan)<br>
    Cristina España-Bonet (UPC, Spain)<br>
    Mihai Lupu (IRF and ESTeam, Austria)<br>
    Bertrand Le Chapelain (EPO, Netherlands)<br>
    Bente Maegaard (University of Copenhagen, Denmark)<br>
    Walid Magdy (Dublin City Univerisry, Ireland)<br>
    Bruno Pouliquen (World Intellectual Property Organization,
    Switzerland)<br>
    Lucia Specia (University of Sheffield, United Kingdom)<br>
    Gregor Thurmair (Linguatec, Germany)<br>
    Dan Wang (China <span class="il">Patent</span> Information Center, China)<br>
    Shoichi Yokoyama (Yamagata University, Japan)<br><br>More TBC...<br>
    <br>
    <b>Important dates</b><br>
    Deadline <span class="il">for</span> submission: Friday 24 February 2010<br>
    Notification of acceptance: Friday 23 March 2010<br>
    Final version due: Friday 30 March 2010<br>
    Workshop : 27 May 2010 (afternoon)<br>
    <br>
    <b>Submission Format</b><br>
    Full papers up to 8 pages should be formatted according to LREC 2012
    guidelines and be submitted<br>
    through the online submission form (<a href="https://www.softconf.com/lrec2012/PATENT2012/" target="_blank">https://www.softconf.com/lrec2012/PATENT2012/</a>)
    on<br>
    START. <span class="il">For</span> further queries, please contact Olivier Hamon at
    hamon_at_elda_dot_org.<br>
    When submitting a paper from the START page, authors will be asked
    to provide essential<br>
    information about <span class="il">resources</span> (in a broad sense, i.e. also
    technologies, standards, evaluation kits, etc.)<br>
    that have been used <span class="il">for</span> the work described in the paper or are a new
    result of your research. <span class="il">For</span><br>
    further information on this new initiative, please refer to <a href="http://www.lrec-conf.org/lrec2012/?LREMap" target="_blank">http://www.lrec-conf.org/lrec2012/?LREMap</a>-<br>
    2012.
  <br clear="all"><br>-- <br>Dr. John Tinsley<br>Research Integration Officer<br>Centre for Next Generation Localisation (CNGL)<br>Dublin City University<br><br>web: <a href="http://www.pluto-patenttranslation.eu" target="_blank">http://www.pluto-patenttranslation.eu</a><br>
email: <a href="mailto:jtinsley@computing.dcu.ie" target="_blank">jtinsley@computing.dcu.ie</a><br>phone: +353 (0)1 7006916<br>-- <br>