<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    <tt>Second Call for Papers, Special Issue of the TAL Journal on "NLP
      for Under-Resourced Languages"
    </tt><br>
    <div class="moz-text-flowed" style="font-family: -moz-fixed;
      font-size: 14px;" lang="x-unicode">
      <br>
      Appel à contributions, numéro spécial de la revue TAL "Traitement
      automatique des langues peu dotées"
      <br>
      <br>
      tal-59-3.sciencesconf.org
      <br>
      <br>
      (see French version below)
      <br>
      <br>
      <br>
      NLP for Under-Resourced Languages
      <br>
      <br>
      Until recently, most of the research work in Natural Language
      Processing
      <br>
      (NLP) has been focused on a few well-described languages with many
      <br>
      speakers. The lack of interest for other "under-resourced"
      languages and
      <br>
      language varieties can be accounted for by a variety of reasons:
      lack of
      <br>
      funding, of human resources, of appropriate technology, of
      complete and
      <br>
      precise linguistic descriptions, of academic recognition by the
      <br>
      scientific community, etc. Under-resourced languages nevertheless
      pose
      <br>
      important scientific challenges, which open avenues of progress
      for NLP
      <br>
      in general. First, at a time when state-of-the-art methods usually
      <br>
      require large amounts of annotated data, work on under-resourced
      <br>
      languages often imposes methods able to deal with small-sized
      datasets
      <br>
      (small data). Second, given the difficulty of finding resources
      such as
      <br>
      lexicons or corpora, the collected datasets are often very
      heterogeneous
      <br>
      with respect to the time, space or domain parameters, e.g. corpora
      of
      <br>
      texts corresponding to different geolinguistic varieties and
      different
      <br>
      topics at different time points. This also often involves dealing
      with
      <br>
      variation in the writing, due either to an evolution of spelling
      <br>
      standards in time or also to the lack of spelling standards for
      <br>
      languages or language varieties which are mostly oral and only
      seldom
      <br>
      written. Third, NLP for under-resourced languages tends to be
      carried
      <br>
      out in isolated or sparse research groups, and the resulting
      products
      <br>
      are often in different formats and standards. Discovering,
      accessing,
      <br>
      and making those resources interoperable so that they can be
      reused can
      <br>
      become a challenge in itself. When dealing with under-resourced
      <br>
      languages, issues of interoperability of data and metadata become
      of
      <br>
      crucial importance for combining and re-using the few resources
      and
      <br>
      tools that might be available.
      <br>
      <br>
      The goal of this issue of Traitement Automatique des Langues (TAL)
      is to
      <br>
      give an overview of current research on NLP for under-resourced
      <br>
      languages from all over the world, encompassing a large variety of
      tasks.
      <br>
      <br>
      Authors are invited to submit original papers on all aspects of
      NLP for
      <br>
      under-resourced languages, in particular regarding, but not
      limited to,
      <br>
      the following issues and tasks:
      <br>
      <br>
      - Methods for the acquisition, collection and elicitation of
      resources
      <br>
      and annotations (e.g., OCR, crowdsourcing, etc.), for textual or
      spoken data
      <br>
      - Spelling normalisation and character-level models for spelling
      variation
      <br>
      - Projection of annotations from closely-related languages and
      <br>
      cross-lingual models
      <br>
      - Methods to deal with data sparsity, low quality issues and
      <br>
      out-of-vocabulary words
      <br>
      - Language and language variety identification, in particular for
      short
      <br>
      texts and mixed language texts with code-switching
      <br>
      - Computer-assisted language learning and writing aids (spelling
      <br>
      correction, predictive text and word completion)
      <br>
      - Issues related to reusability of NLP tools, techniques and
      resources
      <br>
      for languages other than those originally targeted, with special
      concern
      <br>
      for interoperability and reusability of resources and tools
      <br>
      - Computational approaches for under-resourced and endangered
      languages
      <br>
      documentation
      <br>
      <br>
      We also invite authors to provide a short but accurate description
      of
      <br>
      the languages or language varieties under study, focusing both on
      their
      <br>
      linguistic and sociolinguistic characteristics:
      <br>
      <br>
      - Brief history, location of current speakers ;
      <br>
      - Main linguistic properties (morphology, syntax) and language
      family ;
      <br>
      - Writing system ;
      <br>
      - Vitality, approximate number of speakers, and contexts of use.
      <br>
      <br>
      IMPORTANT DATES
      <br>
      <br>
      - Submission deadline : May 15, 2018
      <br>
      - Notification to authors after the first review: July 16, 2018
      <br>
      - Notification to authors after the second review: September 30,
      2018
      <br>
      - Final version: November 30, 2018
      <br>
      - Publication: January 2019
      <br>
      <br>
      THE JOURNAL
      <br>
      <br>
      TAL (Traitement Automatique des Langues / Natural Language
      Processing)
      <br>
      is an international journal published by ATALA (French Association
      for
      <br>
      Natural Language Processing, <a class="moz-txt-link-freetext"
        href="http://www.atala.org">http://www.atala.org</a>) since 1960
      with the
      <br>
      support of CNRS. It is now published online, with an immediate
      open
      <br>
      access to published papers, and annual print on demand. This does
      not
      <br>
      change its editorial and reviewing process.
      <br>
      <br>
      LANGUAGE
      <br>
      <br>
      Manuscripts may be submitted in English or French. French-speaking
      <br>
      authors are requested to submit their contributions in French.
      <br>
      <br>
      SUBMISSION FORMAT
      <br>
      <br>
      Papers must be between 20 and 25 pages. Authors should contact the
      <br>
      editors for a derogation on the length.
      <br>
      <br>
      Authors who intend to submit a paper are encouraged to upload
      their
      <br>
      contribution via the menu "Paper submission" (PDF format). To do
      so,
      <br>
      they will need to have an account on the sciencesconf platform. To
      <br>
      create an account, go to the site <a
        class="moz-txt-link-freetext" href="http://www.sciencesconf.org">http://www.sciencesconf.org</a>
      and click
      <br>
      on "create account" next to the "Connect" button at the top of the
      page.
      <br>
      To submit, come back to the page <a class="moz-txt-link-freetext"
        href="http://tal-59-3.sciencesconf.org/">http://tal-59-3.sciencesconf.org/</a>,
      <br>
      connect to your account and upload your submission.
      <br>
      <br>
      From now on, TAL will perform double-blind review: it is thus
      necessary
      <br>
      to anonymise the manuscript and the name of the pdf file.
      <br>
      <br>
      Style sheets are available for download on the Web site of the
      journal:
      <br>
      <a class="moz-txt-link-freetext"
        href="http://www.atala.org/content/instruction-authors-style-files-0">http://old.atala.org/English-style-files</a>
      <br>
      <br>
************************************************************************
      <br>
      French Version
      <br>
************************************************************************
      <br>
      <br>
      Jusqu'à récemment, la plupart des travaux de recherche en
      Traitement
      <br>
      Automatique des Langues (TAL) se sont concentrés sur quelques
      langues
      <br>
      bien décrites et ayant de nombreux locuteurs. Le manque d'intérêt
      pour
      <br>
      d'autres langues et variétés linguistiques «sous-dotées» peut
      <br>
      s'expliquer par différentes raisons : manque de financement, de
      <br>
      ressources humaines, de technologie appropriée, de descriptions
      <br>
      linguistiques complètes et précises, de reconnaissance académique
      par la
      <br>
      communauté scientifique, etc. Les langues sous-dotées posent
      néanmoins
      <br>
      d'importants défis scientifiques qui ouvrent des pistes de progrès
      pour
      <br>
      le TAL en général. Premièrement, à une époque où les méthodes de
      l'état
      <br>
      de l'art nécessitent généralement de grandes quantités de données
      <br>
      annotées, le travail sur des langues sous-dotées impose souvent
      des
      <br>
      méthodes capables de traiter des jeux de données de petite taille
      (small
      <br>
      data). Deuxièmement, compte tenu des difficultés à trouver des
      <br>
      ressources telles que des lexiques ou des corpus, les données
      collectées
      <br>
      sont souvent très hétérogènes et correspondent à différentes
      époques,
      <br>
      aires linguistiques ou domaines, par exemple des corpus de textes
      <br>
      intégrant différentes variétés géolinguistiques et portant sur
      <br>
      différents sujets à différentes époques. Cette hétérogénéité
      implique
      <br>
      aussi souvent des variations dans la graphie, dues soit à une
      évolution
      <br>
      des normes orthographiques dans le temps, soit à l'absence de
      normes
      <br>
      orthographiques pour les langues ou les variétés linguistiques qui
      sont
      <br>
      essentiellement orales et rarement écrites. Troisièmement, les
      travaux
      <br>
      de TAL pour les langues sous-dotées ont tendance à être réalisés
      dans
      <br>
      des groupes de recherche isolés ou dispersés, et les ressources
      <br>
      produites utilisent souvent des formats et des normes différents.
      <br>
      Trouver ces ressources, y accéder et les rendre interopérables
      pour
      <br>
      qu'elles puissent être réutilisées peut devenir un défi en soi.
      Quand il
      <br>
      s'agit de langues sous-dotées, les questions d'interopérabilité
      des
      <br>
      données et des métadonnées deviennent d'une importance cruciale
      pour
      <br>
      combiner et réutiliser les quelques ressources et outils qui
      pourraient
      <br>
      être disponibles.
      <br>
      <br>
      L'objectif de ce numéro de Traitement Automatique des Langues
      (TAL) est
      <br>
      de donner un aperçu de la recherche actuelle sur le TAL pour les
      langues
      <br>
      sous-dotées du monde entier, englobant une grande variété de
      tâches.
      <br>
      <br>
      Les auteurs sont invités à soumettre des documents originaux sur
      tous
      <br>
      les aspects du TAL pour les langues sous-dotées, en particulier en
      ce
      <br>
      qui concerne, mais sans s'y limiter, les questions et tâches
      suivantes :
      <br>
      <br>
      - Méthodes d'acquisition et de collecte de ressources et
      d'annotations
      <br>
      (p. ex. OCR, crowdsourcing, etc.) pour les données orales et
      écrites
      <br>
      - Normalisation orthographique et modèles basés sur les caractères
      pour
      <br>
      gérer la variation orthographique
      <br>
      - Projection d'annotations à partir de langues proches et modèles
      <br>
      multilingues
      <br>
      - Méthodes pour traiter le manque de données, les problèmes de
      qualité
      <br>
      et les mots hors-vocabulaire
      <br>
      - Identification de la langue et des variétés, en particulier pour
      les
      <br>
      textes courts et les textes en plusieurs langues avec alternance
      codique
      <br>
      - Apprentissage des langues assisté par ordinateur et outils
      d'aide à
      <br>
      l'écriture (correction orthographique, clavier prédictif et
      complétion
      <br>
      de mots)
      <br>
      - Problèmes liés à la réutilisation des outils, techniques et
      ressources
      <br>
      du TAL pour des langues autres que celles initialement ciblées,
      avec un
      <br>
      intérêt particulier pour l'interopérabilité et la réutilisabilité
      des
      <br>
      ressources et des outils
      <br>
      - Approches informatisées pour la documentation des langues
      sous-dotées
      <br>
      et en danger
      <br>
      <br>
      Nous invitons également les auteurs à fournir une description
      courte
      <br>
      mais précise des langues ou des variétés linguistiques étudiées,
      en
      <br>
      mettant l'accent à la fois sur leurs caractéristiques
      linguistiques et
      <br>
      sociolinguistiques :
      <br>
      <br>
      - Bref historique, localisation des locuteurs actuels ;
      <br>
      - Principales propriétés linguistiques (morphologie, syntaxe) et
      famille
      <br>
      de langues ;
      <br>
      - Système d'écriture ;
      <br>
      - Vitalité, nombre approximatif de locuteurs et contextes
      d'utilisation.
      <br>
      <br>
      DATES IMPORTANTES
      <br>
      <br>
      - Date limite de soumission : 15 mai 2018
      <br>
      - Notification aux auteurs, première relecture : 16 juillet 2018
      <br>
      - Notification aux auteurs, seconde relecture : 30 septembre 2018
      <br>
      - Version finale : 30 novembre 2018
      <br>
      - Publication : janvier 2019
      <br>
      <br>
      LA REVUE
      <br>
      <br>
      La revue TAL (Traitement Automatique des Langues) est une revue
      <br>
      internationale éditée depuis 1960 par l’ATALA (Association pour le
      <br>
      Traitement Automatique des Langues) avec le concours du CNRS. Elle
      est
      <br>
      maintenant publiée en format électronique, avec accès gratuit
      immédiat
      <br>
      aux articles publiés, et impression annuelle à la demande. Cela ne
      <br>
      change aucunement son processus de relecture et de sélection.
      <br>
      <br>
      LANGUE
      <br>
      <br>
      Les articles sont écrits en français ou en anglais. Les
      soumissions en
      <br>
      anglais ne sont acceptées qu'en cas de présence d'au moins un
      auteur non
      <br>
      francophone.
      <br>
      <br>
      FORMAT DE LA SOUMISSION
      <br>
      <br>
      Les articles doivent faire entre 20 et 25 pages. Les auteurs
      doivent
      <br>
      contacter les rédacteurs pour obtenir une dérogation sur la
      longueur.
      <br>
      <br>
      Les chercheurs ayant l’intention de soumettre une contribution
      sont
      <br>
      invités à déposer leur article en cliquant sur le menu "Soumission
      d’un
      <br>
      article" (format PDF). Pour cela, si ce n’est déjà fait,
      s’inscrire sur
      <br>
      le site <a class="moz-txt-link-freetext"
        href="http://www.sciencesconf.org">http://www.sciencesconf.org</a>
      (en haut à gauche, "créer un
      <br>
      compte"), puis revenir sur la page <a
        class="moz-txt-link-freetext"
        href="http://tal-59-3.sciencesconf.org/">http://tal-59-3.sciencesconf.org/</a>,
      se
      <br>
      connecter et effectuer le dépôt.
      <br>
      <br>
      La revue TAL a un processus de relecture en double-aveugle. Merci
      <br>
      d’anonymiser votre article et le nom du fichier.
      <br>
      <br>
      Les feuilles de style sont disponibles en ligne sur le site de la
      revue
      <br>
      : <a class="moz-txt-link-freetext"
href="http://www.atala.org/content/instructions-aux-auteurs-feuilles-de-style-0">http://old.atala.org/Instructions-aux-auteurs-feuilles</a>
      <br>
      <br>
      <br>
      <br>
      <div class="moz-txt-sig"><span class="moz-txt-tag">-- <br>
        </span>Claudia Soria
        <br>
        Researcher
        <br>
        Istituto di Linguistica Computazionale "A. Zampolli"
        <br>
        Consiglio Nazionale delle Ricerche
        <br>
        Via Moruzzi 1
        <br>
        56124 Pisa
        <br>
        Italy
        <br>
        <br>
        Tel. +39 050 3153166
        <br>
        Skype clausor
        <br>
        <br>
      </div>
    </div>
    <pre class="moz-signature" cols="72">-- 
Claudia Soria
Researcher
Istituto di Linguistica Computazionale "A. Zampolli"
Consiglio Nazionale delle Ricerche
Via Moruzzi 1
56124 Pisa
Italy

Tel. +39 050 3153166
Skype clausor</pre>
  </body>
</html>