<html>

  <head>

    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

  </head>

  <body text="#000000" bgcolor="#FFFFFF">

    <p>

    </p>

    <div class="moz-text-html" lang="x-unicode"> <tt>Special Issue of

        the TAL Journal on "NLP for Under-Resourced Languages" <br>

        <br>

        *The new submission deadline is May 25, 2018*</tt><br>

      <div class="moz-text-flowed" style="font-family: -moz-fixed;

        font-size: 14px;" lang="x-unicode"> <br>

        Appel à contributions, numéro spécial de la revue TAL

        "Traitement automatique des langues peu dotées" <br>

        <br>

        <a href="http://tal-59-3.sciencesconf.org">tal-59-3.sciencesconf.org</a> <br>

        <br>

        (see French version below) <br>

        <br>

        <br>

        NLP for Under-Resourced Languages <br>

        <br>

        Until recently, most of the research work in Natural Language

        Processing <br>

        (NLP) has been focused on a few well-described languages with

        many <br>

        speakers. The lack of interest for other "under-resourced"

        languages and <br>

        language varieties can be accounted for by a variety of reasons:

        lack of <br>

        funding, of human resources, of appropriate technology, of

        complete and <br>

        precise linguistic descriptions, of academic recognition by the

        <br>

        scientific community, etc. Under-resourced languages

        nevertheless pose <br>

        important scientific challenges, which open avenues of progress

        for NLP <br>

        in general. First, at a time when state-of-the-art methods

        usually <br>

        require large amounts of annotated data, work on under-resourced

        <br>

        languages often imposes methods able to deal with small-sized

        datasets <br>

        (small data). Second, given the difficulty of finding resources

        such as <br>

        lexicons or corpora, the collected datasets are often very

        heterogeneous <br>

        with respect to the time, space or domain parameters, e.g.

        corpora of <br>

        texts corresponding to different geolinguistic varieties and

        different <br>

        topics at different time points. This also often involves

        dealing with <br>

        variation in the writing, due either to an evolution of spelling

        <br>

        standards in time or also to the lack of spelling standards for

        <br>

        languages or language varieties which are mostly oral and only

        seldom <br>

        written. Third, NLP for under-resourced languages tends to be

        carried <br>

        out in isolated or sparse research groups, and the resulting

        products <br>

        are often in different formats and standards. Discovering,

        accessing, <br>

        and making those resources interoperable so that they can be

        reused can <br>

        become a challenge in itself. When dealing with under-resourced

        <br>

        languages, issues of interoperability of data and metadata

        become of <br>

        crucial importance for combining and re-using the few resources

        and <br>

        tools that might be available. <br>

        <br>

        The goal of this issue of Traitement Automatique des Langues

        (TAL) is to <br>

        give an overview of current research on NLP for under-resourced

        <br>

        languages from all over the world, encompassing a large variety

        of tasks. <br>

        <br>

        Authors are invited to submit original papers on all aspects of

        NLP for <br>

        under-resourced languages, in particular regarding, but not

        limited to, <br>

        the following issues and tasks: <br>

        <br>

        - Methods for the acquisition, collection and elicitation of

        resources <br>

        and annotations (e.g., OCR, crowdsourcing, etc.), for textual or

        spoken data <br>

        - Spelling normalisation and character-level models for spelling

        variation <br>

        - Projection of annotations from closely-related languages and <br>

        cross-lingual models <br>

        - Methods to deal with data sparsity, low quality issues and <br>

        out-of-vocabulary words <br>

        - Language and language variety identification, in particular

        for short <br>

        texts and mixed language texts with code-switching <br>

        - Computer-assisted language learning and writing aids (spelling

        <br>

        correction, predictive text and word completion) <br>

        - Issues related to reusability of NLP tools, techniques and

        resources <br>

        for languages other than those originally targeted, with special

        concern <br>

        for interoperability and reusability of resources and tools <br>

        - Computational approaches for under-resourced and endangered

        languages <br>

        documentation <br>

        <br>

        We also invite authors to provide a short but accurate

        description of <br>

        the languages or language varieties under study, focusing both

        on their <br>

        linguistic and sociolinguistic characteristics: <br>

        <br>

        - Brief history, location of current speakers ; <br>

        - Main linguistic properties (morphology, syntax) and language

        family ; <br>

        - Writing system ; <br>

        - Vitality, approximate number of speakers, and contexts of use.

        <br>

        <br>

        IMPORTANT DATES <br>

        <br>

        - Submission deadline : May 15, 2018 <br>

        - Notification to authors after the first review: July 16, 2018

        <br>

        - Notification to authors after the second review: September 30,

        2018 <br>

        - Final version: November 30, 2018 <br>

        - Publication: January 2019 <br>

        <br>

        THE JOURNAL <br>

        <br>

        TAL (Traitement Automatique des Langues / Natural Language

        Processing) <br>

        is an international journal published by ATALA (French

        Association for <br>

        Natural Language Processing, <a href="http://www.atala.org" class="moz-txt-link-freetext">http://www.atala.org</a>) since

        1960 with the <br>

        support of CNRS. It is now published online, with an immediate

        open <br>

        access to published papers, and annual print on demand. This

        does not <br>

        change its editorial and reviewing process. <br>

        <br>

        LANGUAGE <br>

        <br>

        Manuscripts may be submitted in English or French.

        French-speaking <br>

        authors are requested to submit their contributions in French. <br>

        <br>

        SUBMISSION FORMAT <br>

        <br>

        Papers must be between 20 and 25 pages. Authors should contact

        the <br>

        editors for a derogation on the length. <br>

        <br>

        Authors who intend to submit a paper are encouraged to upload

        their <br>

        contribution via the menu "Paper submission" (PDF format). To do

        so, <br>

        they will need to have an account on the sciencesconf platform.

        To <br>

        create an account, go to the site <a href="http://www.sciencesconf.org" class="moz-txt-link-freetext">http://www.sciencesconf.org</a>

        and click <br>

        on "create account" next to the "Connect" button at the top of

        the page. <br>

        To submit, come back to the page <a href="http://tal-59-3.sciencesconf.org/" class="moz-txt-link-freetext">http://tal-59-3.sciencesconf.org/</a>,

        <br>

        connect to your account and upload your submission. <br>

        <br>

        From now on, TAL will perform double-blind review: it is thus

        necessary <br>

        to anonymise the manuscript and the name of the pdf file. <br>

        <br>

        Style sheets are available for download on the Web site of the

        journal: <br>

        <a href="http://www.atala.org/content/instruction-authors-style-files-0" class="moz-txt-link-freetext">http://old.atala.org/English-style-files</a>

        <br>

        <br>

************************************************************************

        <br>

        French Version <br>

************************************************************************

        <br>

        <br>

        Jusqu'à récemment, la plupart des travaux de recherche en

        Traitement <br>

        Automatique des Langues (TAL) se sont concentrés sur quelques

        langues <br>

        bien décrites et ayant de nombreux locuteurs. Le manque

        d'intérêt pour <br>

        d'autres langues et variétés linguistiques «sous-dotées» peut <br>

        s'expliquer par différentes raisons : manque de financement, de

        <br>

        ressources humaines, de technologie appropriée, de descriptions

        <br>

        linguistiques complètes et précises, de reconnaissance

        académique par la <br>

        communauté scientifique, etc. Les langues sous-dotées posent

        néanmoins <br>

        d'importants défis scientifiques qui ouvrent des pistes de

        progrès pour <br>

        le TAL en général. Premièrement, à une époque où les méthodes de

        l'état <br>

        de l'art nécessitent généralement de grandes quantités de

        données <br>

        annotées, le travail sur des langues sous-dotées impose souvent

        des <br>

        méthodes capables de traiter des jeux de données de petite

        taille (small <br>

        data). Deuxièmement, compte tenu des difficultés à trouver des <br>

        ressources telles que des lexiques ou des corpus, les données

        collectées <br>

        sont souvent très hétérogènes et correspondent à différentes

        époques, <br>

        aires linguistiques ou domaines, par exemple des corpus de

        textes <br>

        intégrant différentes variétés géolinguistiques et portant sur <br>

        différents sujets à différentes époques. Cette hétérogénéité

        implique <br>

        aussi souvent des variations dans la graphie, dues soit à une

        évolution <br>

        des normes orthographiques dans le temps, soit à l'absence de

        normes <br>

        orthographiques pour les langues ou les variétés linguistiques

        qui sont <br>

        essentiellement orales et rarement écrites. Troisièmement, les

        travaux <br>

        de TAL pour les langues sous-dotées ont tendance à être réalisés

        dans <br>

        des groupes de recherche isolés ou dispersés, et les ressources

        <br>

        produites utilisent souvent des formats et des normes

        différents. <br>

        Trouver ces ressources, y accéder et les rendre interopérables

        pour <br>

        qu'elles puissent être réutilisées peut devenir un défi en soi.

        Quand il <br>

        s'agit de langues sous-dotées, les questions d'interopérabilité

        des <br>

        données et des métadonnées deviennent d'une importance cruciale

        pour <br>

        combiner et réutiliser les quelques ressources et outils qui

        pourraient <br>

        être disponibles. <br>

        <br>

        L'objectif de ce numéro de Traitement Automatique des Langues

        (TAL) est <br>

        de donner un aperçu de la recherche actuelle sur le TAL pour les

        langues <br>

        sous-dotées du monde entier, englobant une grande variété de

        tâches. <br>

        <br>

        Les auteurs sont invités à soumettre des documents originaux sur

        tous <br>

        les aspects du TAL pour les langues sous-dotées, en particulier

        en ce <br>

        qui concerne, mais sans s'y limiter, les questions et tâches

        suivantes : <br>

        <br>

        - Méthodes d'acquisition et de collecte de ressources et

        d'annotations <br>

        (p. ex. OCR, crowdsourcing, etc.) pour les données orales et

        écrites <br>

        - Normalisation orthographique et modèles basés sur les

        caractères pour <br>

        gérer la variation orthographique <br>

        - Projection d'annotations à partir de langues proches et

        modèles <br>

        multilingues <br>

        - Méthodes pour traiter le manque de données, les problèmes de

        qualité <br>

        et les mots hors-vocabulaire <br>

        - Identification de la langue et des variétés, en particulier

        pour les <br>

        textes courts et les textes en plusieurs langues avec alternance

        codique <br>

        - Apprentissage des langues assisté par ordinateur et outils

        d'aide à <br>

        l'écriture (correction orthographique, clavier prédictif et

        complétion <br>

        de mots) <br>

        - Problèmes liés à la réutilisation des outils, techniques et

        ressources <br>

        du TAL pour des langues autres que celles initialement ciblées,

        avec un <br>

        intérêt particulier pour l'interopérabilité et la

        réutilisabilité des <br>

        ressources et des outils <br>

        - Approches informatisées pour la documentation des langues

        sous-dotées <br>

        et en danger <br>

        <br>

        Nous invitons également les auteurs à fournir une description

        courte <br>

        mais précise des langues ou des variétés linguistiques étudiées,

        en <br>

        mettant l'accent à la fois sur leurs caractéristiques

        linguistiques et <br>

        sociolinguistiques : <br>

        <br>

        - Bref historique, localisation des locuteurs actuels ; <br>

        - Principales propriétés linguistiques (morphologie, syntaxe) et

        famille <br>

        de langues ; <br>

        - Système d'écriture ; <br>

        - Vitalité, nombre approximatif de locuteurs et contextes

        d'utilisation. <br>

        <br>

        DATES IMPORTANTES <br>

        <br>

        - Date limite de soumission : 15 mai 2018 <br>

        - Notification aux auteurs, première relecture : 16 juillet 2018

        <br>

        - Notification aux auteurs, seconde relecture : 30 septembre

        2018 <br>

        - Version finale : 30 novembre 2018 <br>

        - Publication : janvier 2019 <br>

        <br>

        LA REVUE <br>

        <br>

        La revue TAL (Traitement Automatique des Langues) est une revue

        <br>

        internationale éditée depuis 1960 par l’ATALA (Association pour

        le <br>

        Traitement Automatique des Langues) avec le concours du CNRS.

        Elle est <br>

        maintenant publiée en format électronique, avec accès gratuit

        immédiat <br>

        aux articles publiés, et impression annuelle à la demande. Cela

        ne <br>

        change aucunement son processus de relecture et de sélection. <br>

        <br>

        LANGUE <br>

        <br>

        Les articles sont écrits en français ou en anglais. Les

        soumissions en <br>

        anglais ne sont acceptées qu'en cas de présence d'au moins un

        auteur non <br>

        francophone. <br>

        <br>

        FORMAT DE LA SOUMISSION <br>

        <br>

        Les articles doivent faire entre 20 et 25 pages. Les auteurs

        doivent <br>

        contacter les rédacteurs pour obtenir une dérogation sur la

        longueur. <br>

        <br>

        Les chercheurs ayant l’intention de soumettre une contribution

        sont <br>

        invités à déposer leur article en cliquant sur le menu

        "Soumission d’un <br>

        article" (format PDF). Pour cela, si ce n’est déjà fait,

        s’inscrire sur <br>

        le site <a href="http://www.sciencesconf.org" class="moz-txt-link-freetext">http://www.sciencesconf.org</a>

        (en haut à gauche, "créer un <br>

        compte"), puis revenir sur la page <a href="http://tal-59-3.sciencesconf.org/" class="moz-txt-link-freetext">http://tal-59-3.sciencesconf.org/</a>,

        se <br>

        connecter et effectuer le dépôt. <br>

        <br>

        La revue TAL a un processus de relecture en double-aveugle.

        Merci <br>

        d’anonymiser votre article et le nom du fichier. <br>

        <br>

        Les feuilles de style sont disponibles en ligne sur le site de

        la revue <br>

        : <a href="http://www.atala.org/content/instructions-aux-auteurs-feuilles-de-style-0" class="moz-txt-link-freetext">http://old.atala.org/Instructions-aux-auteurs-feuilles</a>

        <br>

        <br>

        <br>

        <br>

        <div class="moz-txt-sig"><span class="moz-txt-tag">-- <br>

          </span>Claudia Soria <br>

          Researcher <br>

          Istituto di Linguistica Computazionale "A. Zampolli" <br>

          Consiglio Nazionale delle Ricerche <br>

          Via Moruzzi 1 <br>

          56124 Pisa <br>

          Italy <br>

          <br>

          Tel. +39 050 3153166 <br>

          Skype clausor </div>

      </div>

    </div>

  </body>

</html>