<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body text="#000000" bgcolor="#FFFFFF">
<p>
</p>
<div class="moz-text-html" lang="x-unicode"> <tt>Special Issue of
the TAL Journal on "NLP for Under-Resourced Languages" <br>
<br>
*The new submission deadline is May 25, 2018*</tt><br>
<div class="moz-text-flowed" style="font-family: -moz-fixed;
font-size: 14px;" lang="x-unicode"> <br>
Appel à contributions, numéro spécial de la revue TAL
"Traitement automatique des langues peu dotées" <br>
<br>
<a href="http://tal-59-3.sciencesconf.org">tal-59-3.sciencesconf.org</a> <br>
<br>
(see French version below) <br>
<br>
<br>
NLP for Under-Resourced Languages <br>
<br>
Until recently, most of the research work in Natural Language
Processing <br>
(NLP) has been focused on a few well-described languages with
many <br>
speakers. The lack of interest for other "under-resourced"
languages and <br>
language varieties can be accounted for by a variety of reasons:
lack of <br>
funding, of human resources, of appropriate technology, of
complete and <br>
precise linguistic descriptions, of academic recognition by the
<br>
scientific community, etc. Under-resourced languages
nevertheless pose <br>
important scientific challenges, which open avenues of progress
for NLP <br>
in general. First, at a time when state-of-the-art methods
usually <br>
require large amounts of annotated data, work on under-resourced
<br>
languages often imposes methods able to deal with small-sized
datasets <br>
(small data). Second, given the difficulty of finding resources
such as <br>
lexicons or corpora, the collected datasets are often very
heterogeneous <br>
with respect to the time, space or domain parameters, e.g.
corpora of <br>
texts corresponding to different geolinguistic varieties and
different <br>
topics at different time points. This also often involves
dealing with <br>
variation in the writing, due either to an evolution of spelling
<br>
standards in time or also to the lack of spelling standards for
<br>
languages or language varieties which are mostly oral and only
seldom <br>
written. Third, NLP for under-resourced languages tends to be
carried <br>
out in isolated or sparse research groups, and the resulting
products <br>
are often in different formats and standards. Discovering,
accessing, <br>
and making those resources interoperable so that they can be
reused can <br>
become a challenge in itself. When dealing with under-resourced
<br>
languages, issues of interoperability of data and metadata
become of <br>
crucial importance for combining and re-using the few resources
and <br>
tools that might be available. <br>
<br>
The goal of this issue of Traitement Automatique des Langues
(TAL) is to <br>
give an overview of current research on NLP for under-resourced
<br>
languages from all over the world, encompassing a large variety
of tasks. <br>
<br>
Authors are invited to submit original papers on all aspects of
NLP for <br>
under-resourced languages, in particular regarding, but not
limited to, <br>
the following issues and tasks: <br>
<br>
- Methods for the acquisition, collection and elicitation of
resources <br>
and annotations (e.g., OCR, crowdsourcing, etc.), for textual or
spoken data <br>
- Spelling normalisation and character-level models for spelling
variation <br>
- Projection of annotations from closely-related languages and <br>
cross-lingual models <br>
- Methods to deal with data sparsity, low quality issues and <br>
out-of-vocabulary words <br>
- Language and language variety identification, in particular
for short <br>
texts and mixed language texts with code-switching <br>
- Computer-assisted language learning and writing aids (spelling
<br>
correction, predictive text and word completion) <br>
- Issues related to reusability of NLP tools, techniques and
resources <br>
for languages other than those originally targeted, with special
concern <br>
for interoperability and reusability of resources and tools <br>
- Computational approaches for under-resourced and endangered
languages <br>
documentation <br>
<br>
We also invite authors to provide a short but accurate
description of <br>
the languages or language varieties under study, focusing both
on their <br>
linguistic and sociolinguistic characteristics: <br>
<br>
- Brief history, location of current speakers ; <br>
- Main linguistic properties (morphology, syntax) and language
family ; <br>
- Writing system ; <br>
- Vitality, approximate number of speakers, and contexts of use.
<br>
<br>
IMPORTANT DATES <br>
<br>
- Submission deadline : May 15, 2018 <br>
- Notification to authors after the first review: July 16, 2018
<br>
- Notification to authors after the second review: September 30,
2018 <br>
- Final version: November 30, 2018 <br>
- Publication: January 2019 <br>
<br>
THE JOURNAL <br>
<br>
TAL (Traitement Automatique des Langues / Natural Language
Processing) <br>
is an international journal published by ATALA (French
Association for <br>
Natural Language Processing, <a href="http://www.atala.org" class="moz-txt-link-freetext">http://www.atala.org</a>) since
1960 with the <br>
support of CNRS. It is now published online, with an immediate
open <br>
access to published papers, and annual print on demand. This
does not <br>
change its editorial and reviewing process. <br>
<br>
LANGUAGE <br>
<br>
Manuscripts may be submitted in English or French.
French-speaking <br>
authors are requested to submit their contributions in French. <br>
<br>
SUBMISSION FORMAT <br>
<br>
Papers must be between 20 and 25 pages. Authors should contact
the <br>
editors for a derogation on the length. <br>
<br>
Authors who intend to submit a paper are encouraged to upload
their <br>
contribution via the menu "Paper submission" (PDF format). To do
so, <br>
they will need to have an account on the sciencesconf platform.
To <br>
create an account, go to the site <a href="http://www.sciencesconf.org" class="moz-txt-link-freetext">http://www.sciencesconf.org</a>
and click <br>
on "create account" next to the "Connect" button at the top of
the page. <br>
To submit, come back to the page <a href="http://tal-59-3.sciencesconf.org/" class="moz-txt-link-freetext">http://tal-59-3.sciencesconf.org/</a>,
<br>
connect to your account and upload your submission. <br>
<br>
From now on, TAL will perform double-blind review: it is thus
necessary <br>
to anonymise the manuscript and the name of the pdf file. <br>
<br>
Style sheets are available for download on the Web site of the
journal: <br>
<a href="http://www.atala.org/content/instruction-authors-style-files-0" class="moz-txt-link-freetext">http://old.atala.org/English-style-files</a>
<br>
<br>
************************************************************************
<br>
French Version <br>
************************************************************************
<br>
<br>
Jusqu'à récemment, la plupart des travaux de recherche en
Traitement <br>
Automatique des Langues (TAL) se sont concentrés sur quelques
langues <br>
bien décrites et ayant de nombreux locuteurs. Le manque
d'intérêt pour <br>
d'autres langues et variétés linguistiques «sous-dotées» peut <br>
s'expliquer par différentes raisons : manque de financement, de
<br>
ressources humaines, de technologie appropriée, de descriptions
<br>
linguistiques complètes et précises, de reconnaissance
académique par la <br>
communauté scientifique, etc. Les langues sous-dotées posent
néanmoins <br>
d'importants défis scientifiques qui ouvrent des pistes de
progrès pour <br>
le TAL en général. Premièrement, à une époque où les méthodes de
l'état <br>
de l'art nécessitent généralement de grandes quantités de
données <br>
annotées, le travail sur des langues sous-dotées impose souvent
des <br>
méthodes capables de traiter des jeux de données de petite
taille (small <br>
data). Deuxièmement, compte tenu des difficultés à trouver des <br>
ressources telles que des lexiques ou des corpus, les données
collectées <br>
sont souvent très hétérogènes et correspondent à différentes
époques, <br>
aires linguistiques ou domaines, par exemple des corpus de
textes <br>
intégrant différentes variétés géolinguistiques et portant sur <br>
différents sujets à différentes époques. Cette hétérogénéité
implique <br>
aussi souvent des variations dans la graphie, dues soit à une
évolution <br>
des normes orthographiques dans le temps, soit à l'absence de
normes <br>
orthographiques pour les langues ou les variétés linguistiques
qui sont <br>
essentiellement orales et rarement écrites. Troisièmement, les
travaux <br>
de TAL pour les langues sous-dotées ont tendance à être réalisés
dans <br>
des groupes de recherche isolés ou dispersés, et les ressources
<br>
produites utilisent souvent des formats et des normes
différents. <br>
Trouver ces ressources, y accéder et les rendre interopérables
pour <br>
qu'elles puissent être réutilisées peut devenir un défi en soi.
Quand il <br>
s'agit de langues sous-dotées, les questions d'interopérabilité
des <br>
données et des métadonnées deviennent d'une importance cruciale
pour <br>
combiner et réutiliser les quelques ressources et outils qui
pourraient <br>
être disponibles. <br>
<br>
L'objectif de ce numéro de Traitement Automatique des Langues
(TAL) est <br>
de donner un aperçu de la recherche actuelle sur le TAL pour les
langues <br>
sous-dotées du monde entier, englobant une grande variété de
tâches. <br>
<br>
Les auteurs sont invités à soumettre des documents originaux sur
tous <br>
les aspects du TAL pour les langues sous-dotées, en particulier
en ce <br>
qui concerne, mais sans s'y limiter, les questions et tâches
suivantes : <br>
<br>
- Méthodes d'acquisition et de collecte de ressources et
d'annotations <br>
(p. ex. OCR, crowdsourcing, etc.) pour les données orales et
écrites <br>
- Normalisation orthographique et modèles basés sur les
caractères pour <br>
gérer la variation orthographique <br>
- Projection d'annotations à partir de langues proches et
modèles <br>
multilingues <br>
- Méthodes pour traiter le manque de données, les problèmes de
qualité <br>
et les mots hors-vocabulaire <br>
- Identification de la langue et des variétés, en particulier
pour les <br>
textes courts et les textes en plusieurs langues avec alternance
codique <br>
- Apprentissage des langues assisté par ordinateur et outils
d'aide à <br>
l'écriture (correction orthographique, clavier prédictif et
complétion <br>
de mots) <br>
- Problèmes liés à la réutilisation des outils, techniques et
ressources <br>
du TAL pour des langues autres que celles initialement ciblées,
avec un <br>
intérêt particulier pour l'interopérabilité et la
réutilisabilité des <br>
ressources et des outils <br>
- Approches informatisées pour la documentation des langues
sous-dotées <br>
et en danger <br>
<br>
Nous invitons également les auteurs à fournir une description
courte <br>
mais précise des langues ou des variétés linguistiques étudiées,
en <br>
mettant l'accent à la fois sur leurs caractéristiques
linguistiques et <br>
sociolinguistiques : <br>
<br>
- Bref historique, localisation des locuteurs actuels ; <br>
- Principales propriétés linguistiques (morphologie, syntaxe) et
famille <br>
de langues ; <br>
- Système d'écriture ; <br>
- Vitalité, nombre approximatif de locuteurs et contextes
d'utilisation. <br>
<br>
DATES IMPORTANTES <br>
<br>
- Date limite de soumission : 15 mai 2018 <br>
- Notification aux auteurs, première relecture : 16 juillet 2018
<br>
- Notification aux auteurs, seconde relecture : 30 septembre
2018 <br>
- Version finale : 30 novembre 2018 <br>
- Publication : janvier 2019 <br>
<br>
LA REVUE <br>
<br>
La revue TAL (Traitement Automatique des Langues) est une revue
<br>
internationale éditée depuis 1960 par l’ATALA (Association pour
le <br>
Traitement Automatique des Langues) avec le concours du CNRS.
Elle est <br>
maintenant publiée en format électronique, avec accès gratuit
immédiat <br>
aux articles publiés, et impression annuelle à la demande. Cela
ne <br>
change aucunement son processus de relecture et de sélection. <br>
<br>
LANGUE <br>
<br>
Les articles sont écrits en français ou en anglais. Les
soumissions en <br>
anglais ne sont acceptées qu'en cas de présence d'au moins un
auteur non <br>
francophone. <br>
<br>
FORMAT DE LA SOUMISSION <br>
<br>
Les articles doivent faire entre 20 et 25 pages. Les auteurs
doivent <br>
contacter les rédacteurs pour obtenir une dérogation sur la
longueur. <br>
<br>
Les chercheurs ayant l’intention de soumettre une contribution
sont <br>
invités à déposer leur article en cliquant sur le menu
"Soumission d’un <br>
article" (format PDF). Pour cela, si ce n’est déjà fait,
s’inscrire sur <br>
le site <a href="http://www.sciencesconf.org" class="moz-txt-link-freetext">http://www.sciencesconf.org</a>
(en haut à gauche, "créer un <br>
compte"), puis revenir sur la page <a href="http://tal-59-3.sciencesconf.org/" class="moz-txt-link-freetext">http://tal-59-3.sciencesconf.org/</a>,
se <br>
connecter et effectuer le dépôt. <br>
<br>
La revue TAL a un processus de relecture en double-aveugle.
Merci <br>
d’anonymiser votre article et le nom du fichier. <br>
<br>
Les feuilles de style sont disponibles en ligne sur le site de
la revue <br>
: <a href="http://www.atala.org/content/instructions-aux-auteurs-feuilles-de-style-0" class="moz-txt-link-freetext">http://old.atala.org/Instructions-aux-auteurs-feuilles</a>
<br>
<br>
<br>
<br>
<div class="moz-txt-sig"><span class="moz-txt-tag">-- <br>
</span>Claudia Soria <br>
Researcher <br>
Istituto di Linguistica Computazionale "A. Zampolli" <br>
Consiglio Nazionale delle Ricerche <br>
Via Moruzzi 1 <br>
56124 Pisa <br>
Italy <br>
<br>
Tel. +39 050 3153166 <br>
Skype clausor </div>
</div>
</div>
</body>
</html>