<html><head><meta http-equiv="Content-Type" content="text/html charset=windows-1252"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;"><div><span style="font-family: Monaco;">Workshop on Open Infrastructures and Analysis Frameworks for HLT</span></div><div><font face="Monaco">================================================================</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">***SUBMISSION DEADLINE EXTENDED TO JUNE 1***</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco"><a href="http://glicom.upf.edu/OIAF4HLT/">http://glicom.upf.edu/OIAF4HLT/</a></font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">At the 25th International Conference on Computational Linguistics (COLING 2014)  </font></div><div><font face="Monaco">Helix Conference Centre at Dublin City University (DCU)  </font></div><div><font face="Monaco">23 August 2014</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">Description</font></div><div><font face="Monaco">-----------</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">Recent advances in digital storage and networking, coupled with the extension of</font></div><div><font face="Monaco">human language technologies (HLT) into ever broader areas and the persistence of</font></div><div><font face="Monaco">difficulties in software portability, have led to an increased focus on</font></div><div><font face="Monaco">development and deployment of web-based infrastructures that allow users to</font></div><div><font face="Monaco">access tools and other resources and combine them to create novel solutions that</font></div><div><font face="Monaco">can be efficiently composed, tuned, evaluated, disseminated and consumed. This</font></div><div><font face="Monaco">in turn engenders collaborative development and deployment among individuals and</font></div><div><font face="Monaco">teams across the globe. It also increases the need for robust, widely available</font></div><div><font face="Monaco">evaluation methods and tools, means to achieve interoperability of software and</font></div><div><font face="Monaco">data from diverse sources, means to handle licensing for limited access</font></div><div><font face="Monaco">resources distributed over the web, and, perhaps crucially, the need to develop</font></div><div><font face="Monaco">strategies for multi-site collaborative work.</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">For many decades, NLP has suffered from low software engineering standards</font></div><div><font face="Monaco">causing a limited degree of re-usability of code and interoperability of</font></div><div><font face="Monaco">different modules within larger NLP systems. While this did not really hamper</font></div><div><font face="Monaco">success in limited task areas (such as implementing a parser), it caused serious</font></div><div><font face="Monaco">problems for building complex integrated software systems, e.g., for information</font></div><div><font face="Monaco">extraction or machine translation. This lack of integration has led to</font></div><div><font face="Monaco">duplicated software development, work-arounds for programs written in different</font></div><div><font face="Monaco">(versions of) programming languages, and ad-hoc tweaking of interfaces between</font></div><div><font face="Monaco">modules developed at different sites.</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">In recent years, two main frameworks, UIMA and GATE, have emerged that aim to</font></div><div><font face="Monaco">allow the easy integration of varied tools through common type systems and</font></div><div><font face="Monaco">standardized communication methods for components analysing unstructured textual</font></div><div><font face="Monaco">information, such as natural language. Both frameworks offer a solid processing</font></div><div><font face="Monaco">infrastructure that allows developers to concentrate on the implementation of</font></div><div><font face="Monaco">the actual analytics components. An increasing number of members of the NLP</font></div><div><font face="Monaco">community have adopted one of these frameworks as a platform for facilitating</font></div><div><font face="Monaco">the creation of reusable NLP components that can be assembled to address</font></div><div><font face="Monaco">different NLP tasks depending on their order, combination and configuration.</font></div><div><font face="Monaco">Analysis frameworks also reduce the problem of reproducibility of NLP results by</font></div><div><font face="Monaco">formalising solution composition and making language processing tools shareable.</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">Very recently, several efforts have been devoted to the development of web</font></div><div><font face="Monaco">service platforms for NLP. These platforms exploit the growing number of</font></div><div><font face="Monaco">web-based tools and services available for tasks related to HLT, including</font></div><div><font face="Monaco">corpus annotation, configuration and execution of NLP pipelines, and evaluation</font></div><div><font face="Monaco">of results and automatic parameter tuning. These platforms can also integrate</font></div><div><font face="Monaco">modules and pipelines from existing frameworks such as UIMA and GATE, in order</font></div><div><font face="Monaco">to achieve interoperability with a wide variety of modules from different</font></div><div><font face="Monaco">sources.</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">Many of the issues and challenges surrounding these developments have been</font></div><div><font face="Monaco">addressed individually in particular projects and workshops, but there are</font></div><div><font face="Monaco">ramifications that cut across all of them. We therefore feel that this is the</font></div><div><font face="Monaco">moment to bring together participants representing the range of interests that</font></div><div><font face="Monaco">comprise the comprehensive picture for community-driven, distributed,</font></div><div><font face="Monaco">collaborative, web-based development and use for language processing software</font></div><div><font face="Monaco">and resources. This includes those engaged in development of infrastructures for</font></div><div><font face="Monaco">HLT as well as those who will use these services and infrastructures, especially</font></div><div><font face="Monaco">for multi-site collaborative work.</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">### Workshop Objectives</font></div><div><font face="Monaco"> </font></div><div><font face="Monaco">The overall goal of this workshop is to provide a forum for discussion of the</font></div><div><font face="Monaco">requirements for an envisaged open “global laboratory” for HLT research and</font></div><div><font face="Monaco">development and establish the basis of a community effort to develop and support</font></div><div><font face="Monaco">it. To this end, the workshop will include both presentations addressing the</font></div><div><font face="Monaco">issues and challenges of developing, deploying, and using the global laboratory</font></div><div><font face="Monaco">for distributed and collaborative efforts and discussion that will identify next</font></div><div><font face="Monaco">steps for moving forward, fostering community-wide awareness, and establishing</font></div><div><font face="Monaco">and encouraging communication among the various players.</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">It aims at bringing together members of the NLP community specifically users,</font></div><div><font face="Monaco">developers or providers of components and tools for these frameworks in order to</font></div><div><font face="Monaco">explore and discuss the opportunities and challenges in using such platforms for</font></div><div><font face="Monaco">modern, well-engineered NLP applications.</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">The challenge of creating reusable and interoperable components raises</font></div><div><font face="Monaco">particular interest and are affected by legal issues, such as potentially</font></div><div><font face="Monaco">incompatible licenses of components and tools as well as the technical aspects</font></div><div><font face="Monaco">of packaging and distribution of components. Also, tools are important, for</font></div><div><font face="Monaco">example to assemble complex processing pipelines, to manage the bodies of data</font></div><div><font face="Monaco">that are to be analysed and to visualize, explore, and further deploy the</font></div><div><font face="Monaco">analysis results. Further challenges are involved in embedding framework based</font></div><div><font face="Monaco">analysis within applications or using it in distributed computing scenarios,</font></div><div><font face="Monaco">such as deployment of and access to required resources. Finally, the</font></div><div><font face="Monaco">preservation of analysis results, their provenance and reproducibility are of</font></div><div><font face="Monaco">particular interest to the scientific user community.</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">### Topics</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">Workshop topics include, but are not limited to:</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">- processing of very large data collections: scale-out, parallelization, and performance optimization</font></div><div><font face="Monaco">- advanced applications driven by an NLP framework</font></div><div><font face="Monaco">- sophisticated tools to build and manage complex processing pipelines</font></div><div><font face="Monaco">- analysis of results: exploration, evaluation, visualization, and statistical analysis</font></div><div><font face="Monaco">- experience reports combining components from different sources, as well as solutions to interoperability issues</font></div><div><font face="Monaco">- experience reports combining different frameworks (e.g. GATE/UIMA/WebLicht/etc.)</font></div><div><font face="Monaco">- UIMA components with a special focus on genericity and type-system independence</font></div><div><font face="Monaco">- repositories of ready-to-use components for UIMA and/or GATE</font></div><div><font face="Monaco">- distribution of components: documentation, licensing and packaging</font></div><div><font face="Monaco">- developing for UIMA or GATE: simplified APIs, debugging, unit testing, and limitations of the frameworks</font></div><div><font face="Monaco">- combining annotation type systems in processing frameworks (GATE, UIMA, etc.) with standardization efforts, such as done in the ISO TC37/SC4 or TEI contexts.</font></div><div><font face="Monaco">- use of NLP frameworks in real-world "industry" settings</font></div><div><font face="Monaco">- reports on current projects and frameworks, their challenges and proposed or implemented solutions, including efforts to address interoperability </font></div><div><font face="Monaco">- issues and challenges of multi-site collaborative projects, including reports of implemented or proposed strategies</font></div><div><font face="Monaco">- pipeline management, including authentication, strategies for passing resources through disparate tools and across hosting nodes, and licensing </font></div><div><font face="Monaco">- development and use of evaluation environments that facilitate assessment of HLT component performance, iterative application development, and replication of results </font></div><div><font face="Monaco">- community awareness and implementation of open infrastructures, including how to engage the community, establish confidence in the process, and promote use</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">Dates</font></div><div><font face="Monaco">-----</font></div><div><font face="Monaco">Paper Submission Deadline: 1st June 2014  </font></div><div><font face="Monaco">Author Notification Deadline: 30th June 2014  </font></div><div><font face="Monaco">Camera-Ready Paper Deadline: 10th July 2014  </font></div><div><font face="Monaco">Workshop: 23rd August 2014</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">Organisers</font></div><div><font face="Monaco">----------</font></div><div><font face="Monaco">Nancy Ide  </font></div><div><font face="Monaco">Department of Computer Science, Vassar College</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">James Pustejovsky  </font></div><div><font face="Monaco">Department of Computer Science, Brandeis University</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">Eric Nyberg  </font></div><div><font face="Monaco">Language Technologies Institute, School of Computer Science, Carnegie Mellon University</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">Christopher Cieri  </font></div><div><font face="Monaco">Linguistic Data Consortium, University of Pennsylvania</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">Jonathan Wright  </font></div><div><font face="Monaco">Linguistic Data Consortium, University of Pennsylvania</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">Jens Grivolla  </font></div><div><font face="Monaco">GLiCom, Universitat Pompeu Fabra</font></div><div><font face="Monaco"><br></font></div><div><font face="Monaco">Kalina Bontcheva  </font></div><div><font face="Monaco">Department of Computer Science, University of Sheffield</font></div><div><br></div></body></html>