<html><head><meta http-equiv="Content-Type" content="text/html charset=windows-1252"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;"><h1 id="workshop-on-open-infrastructures-and-analysis-frameworks-for-hlt" style="text-align: center; margin: 10px 0px; line-height: 40px; color: rgb(51, 51, 51); text-rendering: optimizelegibility; background-color: rgb(255, 255, 255); position: static; z-index: auto;"><font size="5">*****DEADLINE EXTENSION TO JUNE 10*****</font></h1><h1 id="workshop-on-open-infrastructures-and-analysis-frameworks-for-hlt" style="text-align: center; margin: 10px 0px; line-height: 40px; color: rgb(51, 51, 51); text-rendering: optimizelegibility; background-color: rgb(255, 255, 255); position: relative; z-index: 0;"><font size="4">Due to a large number of last-minute requests, the deadline for OAIF4HLT has been extended to June 10</font></h1><h1 id="workshop-on-open-infrastructures-and-analysis-frameworks-for-hlt" style="text-align: center; margin: 10px 0px; line-height: 40px; color: rgb(51, 51, 51); text-rendering: optimizelegibility; background-color: rgb(255, 255, 255); position: static; z-index: auto;"><font size="5">Workshop on Open Infrastructures and Analysis Frameworks for HLT</font></h1><p style="text-align: center; margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255); position: static; z-index: auto;"><a href="http://glicom.upf.edu/OIAF4HLT/">http://glicom.upf.edu/OIAF4HLT/</a></p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255); position: static; z-index: auto;"><div style="text-align: center;">At the 25th International Conference on Computational Linguistics (COLING 2014)</div><div style="text-align: center;">Helix Conference Centre at Dublin City University (DCU)</div><div style="text-align: center;">23 August 2014</div></p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255); position: static; z-index: auto;">Recent advances in digital storage and networking, coupled with the extension of human language technologies (HLT) into ever broader areas and the persistence of difficulties in software portability, have led to an increased focus on development and deployment of web-based infrastructures that allow users to access tools and other resources and combine them to create novel solutions that can be efficiently composed, tuned, evaluated, disseminated and consumed. This in turn engenders collaborative development and deployment among individuals and teams across the globe. It also increases the need for robust, widely available evaluation methods and tools, means to achieve interoperability of software and data from diverse sources, means to handle licensing for limited access resources distributed over the web, and, perhaps crucially, the need to develop strategies for multi-site collaborative work.</p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255); position: static; z-index: auto;">For many decades, NLP has suffered from low software engineering standards causing a limited degree of re-usability of code and interoperability of different modules within larger NLP systems. While this did not really hamper success in limited task areas (such as implementing a parser), it caused serious problems for building complex integrated software systems, e.g., for information extraction or machine translation. This lack of integration has led to duplicated software development, work-arounds for programs written in different (versions of) programming languages, and ad-hoc tweaking of interfaces between modules developed at different sites.</p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255); position: static; z-index: auto;">In recent years, two main frameworks, <b>UIMA and GATE</b>, have emerged that aim to allow the easy integration of varied tools through common type systems and standardized communication methods for components analysing unstructured textual information, such as natural language. Both frameworks offer a solid processing infrastructure that allows developers to concentrate on the implementation of the actual analytics components. An increasing number of members of the NLP community have adopted one of these frameworks as a platform for facilitating the creation of reusable NLP components that can be assembled to address different NLP tasks depending on their order, combination and configuration. Analysis frameworks also reduce the problem of reproducibility of NLP results by formalising solution composition and making language processing tools shareable.</p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255); position: static; z-index: auto;">Very recently, several efforts have been devoted to the development of <b>web service platforms for NLP</b>. These platforms exploit the growing number of web-based tools and services available for tasks related to HLT, including corpus annotation, configuration and execution of NLP pipelines, and evaluation of results and automatic parameter tuning. These platforms can also integrate modules and pipelines from existing frameworks such as UIMA and GATE, in order to achieve interoperability with a wide variety of modules from different sources.</p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255);">Many of the issues and challenges surrounding these developments have been addressed individually in particular projects and workshops, but there are ramifications that cut across all of them. We therefore feel that this is the moment to bring together participants representing the range of interests that comprise the comprehensive picture for community-driven, distributed, collaborative, web-based development and use for language processing software and resources. This includes those engaged in development of infrastructures for HLT as well as those who will use these services and infrastructures, especially for multi-site collaborative work.</p><h3 id="workshop-objectives" style="margin: 10px 0px; line-height: 40px; color: rgb(51, 51, 51); text-rendering: optimizelegibility; background-color: rgb(255, 255, 255);"><font size="4">Workshop Objectives</font></h3><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255);">The overall goal of this workshop is to provide a forum for discussion of the requirements for an envisaged open “global laboratory” for HLT research and development and establish the basis of a community effort to develop and support it. To this end, the workshop will include both presentations addressing the issues and challenges of developing, deploying, and using the global laboratory for distributed and collaborative efforts and discussion that will identify next steps for moving forward, fostering community-wide awareness, and establishing and encouraging communication among the various players.</p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255);">It aims at bringing together members of the NLP community specifically users, developers or providers of components and tools for these frameworks in order to explore and discuss the opportunities and challenges in using such platforms for modern, well-engineered NLP applications.</p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255);">The challenge of creating reusable and interoperable components raises particular interest and are affected by legal issues, such as potentially incompatible licenses of components and tools as well as the technical aspects of packaging and distribution of components. Also, tools are important, for example to assemble complex processing pipelines, to manage the bodies of data that are to be analysed and to visualize, explore, and further deploy the analysis results. Further challenges are involved in embedding framework based analysis within applications or using it in distributed computing scenarios, such as deployment of and access to required resources. Finally, the preservation of analysis results, their provenance and reproducibility are of particular interest to the scientific user community.</p><h3 id="topics" style="margin: 10px 0px; line-height: 40px; color: rgb(51, 51, 51); text-rendering: optimizelegibility; background-color: rgb(255, 255, 255);"><font size="4">Topics</font></h3><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255);">Workshop topics include, but are not limited to:</p><ul style="padding: 0px; margin: 0px 0px 10px 25px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255);"><li>processing of very large data collections: scale-out, parallelization, and performance optimization</li><li>advanced applications driven by an NLP framework</li><li>sophisticated tools to build and manage complex processing pipelines</li><li>analysis of results: exploration, evaluation, visualization, and statistical analysis</li><li>experience reports combining components from different sources, as well as solutions to interoperability issues</li><li>experience reports combining different frameworks (e.g. GATE/UIMA/WebLicht/etc.)</li><li>UIMA components with a special focus on genericity and type-system independence</li><li>repositories of ready-to-use components for UIMA and/or GATE</li><li>distribution of components: documentation, licensing and packaging</li><li>developing for UIMA or GATE: simplified APIs, debugging, unit testing, and limitations of the frameworks</li><li>combining annotation type systems in processing frameworks (GATE, UIMA, etc.) with standardization efforts, such as done in the ISO TC37/SC4 or TEI contexts.</li><li>use of NLP frameworks in real-world “industry” settings</li><li>reports on current projects and frameworks, their challenges and proposed or implemented solutions, including efforts to address interoperability</li><li>issues and challenges of multi-site collaborative projects, including reports of implemented or proposed strategies</li><li>pipeline management, including authentication, strategies for passing resources through disparate tools and across hosting nodes, and licensing</li><li>development and use of evaluation environments that facilitate assessment of HLT component performance, iterative application development, and replication of results</li><li>community awareness and implementation of open infrastructures, including how to engage the community, establish confidence in the process, and promote use</li></ul><h2 id="dates" style="margin: 10px 0px; line-height: 40px; color: rgb(51, 51, 51); text-rendering: optimizelegibility; background-color: rgb(255, 255, 255);"><font size="4">Dates</font></h2><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255); position: static; z-index: auto;">Paper Submission Deadline: 10th June 2014<br>Author Notification Deadline: 30th June 2014<br>Camera-Ready Paper Deadline: 10th July 2014<br>Workshop: 23rd August 2014</p><h2 id="organisers" style="margin: 10px 0px; line-height: 40px; color: rgb(51, 51, 51); text-rendering: optimizelegibility; background-color: rgb(255, 255, 255);"><font size="4">Organisers</font></h2><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255);">Nancy Ide<br>Department of Computer Science, Vassar College</p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255);">James Pustejovsky<br>Department of Computer Science, Brandeis University</p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255);">Eric Nyberg<br>Language Technologies Institute, School of Computer Science, Carnegie Mellon University</p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255);">Christopher Cieri<br>Linguistic Data Consortium, University of Pennsylvania</p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255);">Jonathan Wright<br>Linguistic Data Consortium, University of Pennsylvania</p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255);">Jens Grivolla<br>GLiCom, Universitat Pompeu Fabra</p><p style="margin: 0px 0px 10px; color: rgb(51, 51, 51); line-height: 20px; background-color: rgb(255, 255, 255);">Kalina Bontcheva<br>Department of Computer Science, University of Sheffield</p><h2 id="program-committee" style="margin: 10px 0px; line-height: 40px; color: rgb(51, 51, 51); text-rendering: optimizelegibility; background-color: rgb(255, 255, 255); position: static; z-index: auto;"><font size="4">Program Committee (tentative)</font></h2><div><div>Mohammad Al Asswad,  Cornell University</div><div>Sophia Ananiadou,  University of Manchester</div><div>Nuria Bel,  Universitat Pompeu Fabra</div><div>Steven Bethard,  KU Leuven</div><div>Philipp Cimiano,  Universität Bielefeld</div><div>Coden Anni R.,  Thomas J. Watson Research Center</div><div>Joan Codina,  Universitat Pompeu Fabra</div><div>Kevin Cohen,  University of Colorado</div><div>Azad Dehghan,  University of Manchester</div><div>Leon Derczynski,  University of Sheffield</div><div>Richard Eckart de Castilho,  TU Darmstadt</div><div>Frank Enders,  Averbis GmbH</div><div>Nicolai Erbs,  TU Darmstadt</div><div>Stefan Geissler,  TEMIS</div><div>Thilo Götz,  IBM Deutschland</div><div>Mark A. Greenwood,  University of Sheffield</div><div>Nicolas Hernandez,  University of Nantes</div><div>Michael Herweg,  IBM Deutschland</div><div>Yoshinobu Kano,  PRESTO Japan Science and Technology Agency</div><div>Peter Klügl,  Universität Würzburg</div><div>Marie-Jean Meurs,  Concordia University</div><div>Yohei Murakama,  Kyoto University</div><div>Kamel Nebhi,  University of Geneva</div><div>Renaud Richardet,  École Polytechnique Fédérale De Lausanne</div><div>Carlos Rodríguez-Penagos,  Barcelona Media</div><div>Horacio Saggion,  Universitat Pompeu Fabra</div><div>Bahar Sateli, Semantic Software Lab, Concordia University</div><div>Kai Simon,  Averbis GmbH</div><div>Michael Tanenblatt,  Thomas J. Watson Research Center</div><div>Martin Toepfer,  Universität Würzburg</div><div>Katrin Tomanek,  Averbis GmbH</div><div>Karin Verspoor,  National ICT Australia</div><div>Graham Wilcock,  University of Helsinki</div><div>René Witte, Semantic Software Lab, Concordia University</div><div>Torsten Zesch,  University of Duisburg-Essen</div></div></body></html>