<html>

  <head>

    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

  </head>

  <body text="#000000" bgcolor="#FFFFFF">

    <tt>Second Call for Papers, Special Issue of the TAL Journal on "NLP

      for Under-Resourced Languages"

    </tt><br>

    <div class="moz-text-flowed" style="font-family: -moz-fixed;

      font-size: 14px;" lang="x-unicode">

      <br>

      Appel à contributions, numéro spécial de la revue TAL "Traitement

      automatique des langues peu dotées"

      <br>

      <br>

      tal-59-3.sciencesconf.org

      <br>

      <br>

      (see French version below)

      <br>

      <br>

      <br>

      NLP for Under-Resourced Languages

      <br>

      <br>

      Until recently, most of the research work in Natural Language

      Processing

      <br>

      (NLP) has been focused on a few well-described languages with many

      <br>

      speakers. The lack of interest for other "under-resourced"

      languages and

      <br>

      language varieties can be accounted for by a variety of reasons:

      lack of

      <br>

      funding, of human resources, of appropriate technology, of

      complete and

      <br>

      precise linguistic descriptions, of academic recognition by the

      <br>

      scientific community, etc. Under-resourced languages nevertheless

      pose

      <br>

      important scientific challenges, which open avenues of progress

      for NLP

      <br>

      in general. First, at a time when state-of-the-art methods usually

      <br>

      require large amounts of annotated data, work on under-resourced

      <br>

      languages often imposes methods able to deal with small-sized

      datasets

      <br>

      (small data). Second, given the difficulty of finding resources

      such as

      <br>

      lexicons or corpora, the collected datasets are often very

      heterogeneous

      <br>

      with respect to the time, space or domain parameters, e.g. corpora

      of

      <br>

      texts corresponding to different geolinguistic varieties and

      different

      <br>

      topics at different time points. This also often involves dealing

      with

      <br>

      variation in the writing, due either to an evolution of spelling

      <br>

      standards in time or also to the lack of spelling standards for

      <br>

      languages or language varieties which are mostly oral and only

      seldom

      <br>

      written. Third, NLP for under-resourced languages tends to be

      carried

      <br>

      out in isolated or sparse research groups, and the resulting

      products

      <br>

      are often in different formats and standards. Discovering,

      accessing,

      <br>

      and making those resources interoperable so that they can be

      reused can

      <br>

      become a challenge in itself. When dealing with under-resourced

      <br>

      languages, issues of interoperability of data and metadata become

      of

      <br>

      crucial importance for combining and re-using the few resources

      and

      <br>

      tools that might be available.

      <br>

      <br>

      The goal of this issue of Traitement Automatique des Langues (TAL)

      is to

      <br>

      give an overview of current research on NLP for under-resourced

      <br>

      languages from all over the world, encompassing a large variety of

      tasks.

      <br>

      <br>

      Authors are invited to submit original papers on all aspects of

      NLP for

      <br>

      under-resourced languages, in particular regarding, but not

      limited to,

      <br>

      the following issues and tasks:

      <br>

      <br>

      - Methods for the acquisition, collection and elicitation of

      resources

      <br>

      and annotations (e.g., OCR, crowdsourcing, etc.), for textual or

      spoken data

      <br>

      - Spelling normalisation and character-level models for spelling

      variation

      <br>

      - Projection of annotations from closely-related languages and

      <br>

      cross-lingual models

      <br>

      - Methods to deal with data sparsity, low quality issues and

      <br>

      out-of-vocabulary words

      <br>

      - Language and language variety identification, in particular for

      short

      <br>

      texts and mixed language texts with code-switching

      <br>

      - Computer-assisted language learning and writing aids (spelling

      <br>

      correction, predictive text and word completion)

      <br>

      - Issues related to reusability of NLP tools, techniques and

      resources

      <br>

      for languages other than those originally targeted, with special

      concern

      <br>

      for interoperability and reusability of resources and tools

      <br>

      - Computational approaches for under-resourced and endangered

      languages

      <br>

      documentation

      <br>

      <br>

      We also invite authors to provide a short but accurate description

      of

      <br>

      the languages or language varieties under study, focusing both on

      their

      <br>

      linguistic and sociolinguistic characteristics:

      <br>

      <br>

      - Brief history, location of current speakers ;

      <br>

      - Main linguistic properties (morphology, syntax) and language

      family ;

      <br>

      - Writing system ;

      <br>

      - Vitality, approximate number of speakers, and contexts of use.

      <br>

      <br>

      IMPORTANT DATES

      <br>

      <br>

      - Submission deadline : May 15, 2018

      <br>

      - Notification to authors after the first review: July 16, 2018

      <br>

      - Notification to authors after the second review: September 30,

      2018

      <br>

      - Final version: November 30, 2018

      <br>

      - Publication: January 2019

      <br>

      <br>

      THE JOURNAL

      <br>

      <br>

      TAL (Traitement Automatique des Langues / Natural Language

      Processing)

      <br>

      is an international journal published by ATALA (French Association

      for

      <br>

      Natural Language Processing, <a class="moz-txt-link-freetext"

        href="http://www.atala.org">http://www.atala.org</a>) since 1960

      with the

      <br>

      support of CNRS. It is now published online, with an immediate

      open

      <br>

      access to published papers, and annual print on demand. This does

      not

      <br>

      change its editorial and reviewing process.

      <br>

      <br>

      LANGUAGE

      <br>

      <br>

      Manuscripts may be submitted in English or French. French-speaking

      <br>

      authors are requested to submit their contributions in French.

      <br>

      <br>

      SUBMISSION FORMAT

      <br>

      <br>

      Papers must be between 20 and 25 pages. Authors should contact the

      <br>

      editors for a derogation on the length.

      <br>

      <br>

      Authors who intend to submit a paper are encouraged to upload

      their

      <br>

      contribution via the menu "Paper submission" (PDF format). To do

      so,

      <br>

      they will need to have an account on the sciencesconf platform. To

      <br>

      create an account, go to the site <a

        class="moz-txt-link-freetext" href="http://www.sciencesconf.org">http://www.sciencesconf.org</a>

      and click

      <br>

      on "create account" next to the "Connect" button at the top of the

      page.

      <br>

      To submit, come back to the page <a class="moz-txt-link-freetext"

        href="http://tal-59-3.sciencesconf.org/">http://tal-59-3.sciencesconf.org/</a>,

      <br>

      connect to your account and upload your submission.

      <br>

      <br>

      From now on, TAL will perform double-blind review: it is thus

      necessary

      <br>

      to anonymise the manuscript and the name of the pdf file.

      <br>

      <br>

      Style sheets are available for download on the Web site of the

      journal:

      <br>

      <a class="moz-txt-link-freetext"

        href="http://www.atala.org/content/instruction-authors-style-files-0">http://old.atala.org/English-style-files</a>

      <br>

      <br>

************************************************************************

      <br>

      French Version

      <br>

************************************************************************

      <br>

      <br>

      Jusqu'à récemment, la plupart des travaux de recherche en

      Traitement

      <br>

      Automatique des Langues (TAL) se sont concentrés sur quelques

      langues

      <br>

      bien décrites et ayant de nombreux locuteurs. Le manque d'intérêt

      pour

      <br>

      d'autres langues et variétés linguistiques «sous-dotées» peut

      <br>

      s'expliquer par différentes raisons : manque de financement, de

      <br>

      ressources humaines, de technologie appropriée, de descriptions

      <br>

      linguistiques complètes et précises, de reconnaissance académique

      par la

      <br>

      communauté scientifique, etc. Les langues sous-dotées posent

      néanmoins

      <br>

      d'importants défis scientifiques qui ouvrent des pistes de progrès

      pour

      <br>

      le TAL en général. Premièrement, à une époque où les méthodes de

      l'état

      <br>

      de l'art nécessitent généralement de grandes quantités de données

      <br>

      annotées, le travail sur des langues sous-dotées impose souvent

      des

      <br>

      méthodes capables de traiter des jeux de données de petite taille

      (small

      <br>

      data). Deuxièmement, compte tenu des difficultés à trouver des

      <br>

      ressources telles que des lexiques ou des corpus, les données

      collectées

      <br>

      sont souvent très hétérogènes et correspondent à différentes

      époques,

      <br>

      aires linguistiques ou domaines, par exemple des corpus de textes

      <br>

      intégrant différentes variétés géolinguistiques et portant sur

      <br>

      différents sujets à différentes époques. Cette hétérogénéité

      implique

      <br>

      aussi souvent des variations dans la graphie, dues soit à une

      évolution

      <br>

      des normes orthographiques dans le temps, soit à l'absence de

      normes

      <br>

      orthographiques pour les langues ou les variétés linguistiques qui

      sont

      <br>

      essentiellement orales et rarement écrites. Troisièmement, les

      travaux

      <br>

      de TAL pour les langues sous-dotées ont tendance à être réalisés

      dans

      <br>

      des groupes de recherche isolés ou dispersés, et les ressources

      <br>

      produites utilisent souvent des formats et des normes différents.

      <br>

      Trouver ces ressources, y accéder et les rendre interopérables

      pour

      <br>

      qu'elles puissent être réutilisées peut devenir un défi en soi.

      Quand il

      <br>

      s'agit de langues sous-dotées, les questions d'interopérabilité

      des

      <br>

      données et des métadonnées deviennent d'une importance cruciale

      pour

      <br>

      combiner et réutiliser les quelques ressources et outils qui

      pourraient

      <br>

      être disponibles.

      <br>

      <br>

      L'objectif de ce numéro de Traitement Automatique des Langues

      (TAL) est

      <br>

      de donner un aperçu de la recherche actuelle sur le TAL pour les

      langues

      <br>

      sous-dotées du monde entier, englobant une grande variété de

      tâches.

      <br>

      <br>

      Les auteurs sont invités à soumettre des documents originaux sur

      tous

      <br>

      les aspects du TAL pour les langues sous-dotées, en particulier en

      ce

      <br>

      qui concerne, mais sans s'y limiter, les questions et tâches

      suivantes :

      <br>

      <br>

      - Méthodes d'acquisition et de collecte de ressources et

      d'annotations

      <br>

      (p. ex. OCR, crowdsourcing, etc.) pour les données orales et

      écrites

      <br>

      - Normalisation orthographique et modèles basés sur les caractères

      pour

      <br>

      gérer la variation orthographique

      <br>

      - Projection d'annotations à partir de langues proches et modèles

      <br>

      multilingues

      <br>

      - Méthodes pour traiter le manque de données, les problèmes de

      qualité

      <br>

      et les mots hors-vocabulaire

      <br>

      - Identification de la langue et des variétés, en particulier pour

      les

      <br>

      textes courts et les textes en plusieurs langues avec alternance

      codique

      <br>

      - Apprentissage des langues assisté par ordinateur et outils

      d'aide à

      <br>

      l'écriture (correction orthographique, clavier prédictif et

      complétion

      <br>

      de mots)

      <br>

      - Problèmes liés à la réutilisation des outils, techniques et

      ressources

      <br>

      du TAL pour des langues autres que celles initialement ciblées,

      avec un

      <br>

      intérêt particulier pour l'interopérabilité et la réutilisabilité

      des

      <br>

      ressources et des outils

      <br>

      - Approches informatisées pour la documentation des langues

      sous-dotées

      <br>

      et en danger

      <br>

      <br>

      Nous invitons également les auteurs à fournir une description

      courte

      <br>

      mais précise des langues ou des variétés linguistiques étudiées,

      en

      <br>

      mettant l'accent à la fois sur leurs caractéristiques

      linguistiques et

      <br>

      sociolinguistiques :

      <br>

      <br>

      - Bref historique, localisation des locuteurs actuels ;

      <br>

      - Principales propriétés linguistiques (morphologie, syntaxe) et

      famille

      <br>

      de langues ;

      <br>

      - Système d'écriture ;

      <br>

      - Vitalité, nombre approximatif de locuteurs et contextes

      d'utilisation.

      <br>

      <br>

      DATES IMPORTANTES

      <br>

      <br>

      - Date limite de soumission : 15 mai 2018

      <br>

      - Notification aux auteurs, première relecture : 16 juillet 2018

      <br>

      - Notification aux auteurs, seconde relecture : 30 septembre 2018

      <br>

      - Version finale : 30 novembre 2018

      <br>

      - Publication : janvier 2019

      <br>

      <br>

      LA REVUE

      <br>

      <br>

      La revue TAL (Traitement Automatique des Langues) est une revue

      <br>

      internationale éditée depuis 1960 par l’ATALA (Association pour le

      <br>

      Traitement Automatique des Langues) avec le concours du CNRS. Elle

      est

      <br>

      maintenant publiée en format électronique, avec accès gratuit

      immédiat

      <br>

      aux articles publiés, et impression annuelle à la demande. Cela ne

      <br>

      change aucunement son processus de relecture et de sélection.

      <br>

      <br>

      LANGUE

      <br>

      <br>

      Les articles sont écrits en français ou en anglais. Les

      soumissions en

      <br>

      anglais ne sont acceptées qu'en cas de présence d'au moins un

      auteur non

      <br>

      francophone.

      <br>

      <br>

      FORMAT DE LA SOUMISSION

      <br>

      <br>

      Les articles doivent faire entre 20 et 25 pages. Les auteurs

      doivent

      <br>

      contacter les rédacteurs pour obtenir une dérogation sur la

      longueur.

      <br>

      <br>

      Les chercheurs ayant l’intention de soumettre une contribution

      sont

      <br>

      invités à déposer leur article en cliquant sur le menu "Soumission

      d’un

      <br>

      article" (format PDF). Pour cela, si ce n’est déjà fait,

      s’inscrire sur

      <br>

      le site <a class="moz-txt-link-freetext"

        href="http://www.sciencesconf.org">http://www.sciencesconf.org</a>

      (en haut à gauche, "créer un

      <br>

      compte"), puis revenir sur la page <a

        class="moz-txt-link-freetext"

        href="http://tal-59-3.sciencesconf.org/">http://tal-59-3.sciencesconf.org/</a>,

      se

      <br>

      connecter et effectuer le dépôt.

      <br>

      <br>

      La revue TAL a un processus de relecture en double-aveugle. Merci

      <br>

      d’anonymiser votre article et le nom du fichier.

      <br>

      <br>

      Les feuilles de style sont disponibles en ligne sur le site de la

      revue

      <br>

      : <a class="moz-txt-link-freetext"

href="http://www.atala.org/content/instructions-aux-auteurs-feuilles-de-style-0">http://old.atala.org/Instructions-aux-auteurs-feuilles</a>

      <br>

      <br>

      <br>

      <br>

      <div class="moz-txt-sig"><span class="moz-txt-tag">-- <br>

        </span>Claudia Soria

        <br>

        Researcher

        <br>

        Istituto di Linguistica Computazionale "A. Zampolli"

        <br>

        Consiglio Nazionale delle Ricerche

        <br>

        Via Moruzzi 1

        <br>

        56124 Pisa

        <br>

        Italy

        <br>

        <br>

        Tel. +39 050 3153166

        <br>

        Skype clausor

        <br>

        <br>

      </div>

    </div>

    <pre class="moz-signature" cols="72">-- 

Claudia Soria

Researcher

Istituto di Linguistica Computazionale "A. Zampolli"

Consiglio Nazionale delle Ricerche

Via Moruzzi 1

56124 Pisa

Italy

Tel. +39 050 3153166

Skype clausor</pre>

  </body>

</html>