<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body text="#000000" bgcolor="#FFFFFF">
<tt>Second Call for Papers, Special Issue of the TAL Journal on "NLP
for Under-Resourced Languages"
</tt><br>
<div class="moz-text-flowed" style="font-family: -moz-fixed;
font-size: 14px;" lang="x-unicode">
<br>
Appel à contributions, numéro spécial de la revue TAL "Traitement
automatique des langues peu dotées"
<br>
<br>
tal-59-3.sciencesconf.org
<br>
<br>
(see French version below)
<br>
<br>
<br>
NLP for Under-Resourced Languages
<br>
<br>
Until recently, most of the research work in Natural Language
Processing
<br>
(NLP) has been focused on a few well-described languages with many
<br>
speakers. The lack of interest for other "under-resourced"
languages and
<br>
language varieties can be accounted for by a variety of reasons:
lack of
<br>
funding, of human resources, of appropriate technology, of
complete and
<br>
precise linguistic descriptions, of academic recognition by the
<br>
scientific community, etc. Under-resourced languages nevertheless
pose
<br>
important scientific challenges, which open avenues of progress
for NLP
<br>
in general. First, at a time when state-of-the-art methods usually
<br>
require large amounts of annotated data, work on under-resourced
<br>
languages often imposes methods able to deal with small-sized
datasets
<br>
(small data). Second, given the difficulty of finding resources
such as
<br>
lexicons or corpora, the collected datasets are often very
heterogeneous
<br>
with respect to the time, space or domain parameters, e.g. corpora
of
<br>
texts corresponding to different geolinguistic varieties and
different
<br>
topics at different time points. This also often involves dealing
with
<br>
variation in the writing, due either to an evolution of spelling
<br>
standards in time or also to the lack of spelling standards for
<br>
languages or language varieties which are mostly oral and only
seldom
<br>
written. Third, NLP for under-resourced languages tends to be
carried
<br>
out in isolated or sparse research groups, and the resulting
products
<br>
are often in different formats and standards. Discovering,
accessing,
<br>
and making those resources interoperable so that they can be
reused can
<br>
become a challenge in itself. When dealing with under-resourced
<br>
languages, issues of interoperability of data and metadata become
of
<br>
crucial importance for combining and re-using the few resources
and
<br>
tools that might be available.
<br>
<br>
The goal of this issue of Traitement Automatique des Langues (TAL)
is to
<br>
give an overview of current research on NLP for under-resourced
<br>
languages from all over the world, encompassing a large variety of
tasks.
<br>
<br>
Authors are invited to submit original papers on all aspects of
NLP for
<br>
under-resourced languages, in particular regarding, but not
limited to,
<br>
the following issues and tasks:
<br>
<br>
- Methods for the acquisition, collection and elicitation of
resources
<br>
and annotations (e.g., OCR, crowdsourcing, etc.), for textual or
spoken data
<br>
- Spelling normalisation and character-level models for spelling
variation
<br>
- Projection of annotations from closely-related languages and
<br>
cross-lingual models
<br>
- Methods to deal with data sparsity, low quality issues and
<br>
out-of-vocabulary words
<br>
- Language and language variety identification, in particular for
short
<br>
texts and mixed language texts with code-switching
<br>
- Computer-assisted language learning and writing aids (spelling
<br>
correction, predictive text and word completion)
<br>
- Issues related to reusability of NLP tools, techniques and
resources
<br>
for languages other than those originally targeted, with special
concern
<br>
for interoperability and reusability of resources and tools
<br>
- Computational approaches for under-resourced and endangered
languages
<br>
documentation
<br>
<br>
We also invite authors to provide a short but accurate description
of
<br>
the languages or language varieties under study, focusing both on
their
<br>
linguistic and sociolinguistic characteristics:
<br>
<br>
- Brief history, location of current speakers ;
<br>
- Main linguistic properties (morphology, syntax) and language
family ;
<br>
- Writing system ;
<br>
- Vitality, approximate number of speakers, and contexts of use.
<br>
<br>
IMPORTANT DATES
<br>
<br>
- Submission deadline : May 15, 2018
<br>
- Notification to authors after the first review: July 16, 2018
<br>
- Notification to authors after the second review: September 30,
2018
<br>
- Final version: November 30, 2018
<br>
- Publication: January 2019
<br>
<br>
THE JOURNAL
<br>
<br>
TAL (Traitement Automatique des Langues / Natural Language
Processing)
<br>
is an international journal published by ATALA (French Association
for
<br>
Natural Language Processing, <a class="moz-txt-link-freetext"
href="http://www.atala.org">http://www.atala.org</a>) since 1960
with the
<br>
support of CNRS. It is now published online, with an immediate
open
<br>
access to published papers, and annual print on demand. This does
not
<br>
change its editorial and reviewing process.
<br>
<br>
LANGUAGE
<br>
<br>
Manuscripts may be submitted in English or French. French-speaking
<br>
authors are requested to submit their contributions in French.
<br>
<br>
SUBMISSION FORMAT
<br>
<br>
Papers must be between 20 and 25 pages. Authors should contact the
<br>
editors for a derogation on the length.
<br>
<br>
Authors who intend to submit a paper are encouraged to upload
their
<br>
contribution via the menu "Paper submission" (PDF format). To do
so,
<br>
they will need to have an account on the sciencesconf platform. To
<br>
create an account, go to the site <a
class="moz-txt-link-freetext" href="http://www.sciencesconf.org">http://www.sciencesconf.org</a>
and click
<br>
on "create account" next to the "Connect" button at the top of the
page.
<br>
To submit, come back to the page <a class="moz-txt-link-freetext"
href="http://tal-59-3.sciencesconf.org/">http://tal-59-3.sciencesconf.org/</a>,
<br>
connect to your account and upload your submission.
<br>
<br>
From now on, TAL will perform double-blind review: it is thus
necessary
<br>
to anonymise the manuscript and the name of the pdf file.
<br>
<br>
Style sheets are available for download on the Web site of the
journal:
<br>
<a class="moz-txt-link-freetext"
href="http://www.atala.org/content/instruction-authors-style-files-0">http://old.atala.org/English-style-files</a>
<br>
<br>
************************************************************************
<br>
French Version
<br>
************************************************************************
<br>
<br>
Jusqu'à récemment, la plupart des travaux de recherche en
Traitement
<br>
Automatique des Langues (TAL) se sont concentrés sur quelques
langues
<br>
bien décrites et ayant de nombreux locuteurs. Le manque d'intérêt
pour
<br>
d'autres langues et variétés linguistiques «sous-dotées» peut
<br>
s'expliquer par différentes raisons : manque de financement, de
<br>
ressources humaines, de technologie appropriée, de descriptions
<br>
linguistiques complètes et précises, de reconnaissance académique
par la
<br>
communauté scientifique, etc. Les langues sous-dotées posent
néanmoins
<br>
d'importants défis scientifiques qui ouvrent des pistes de progrès
pour
<br>
le TAL en général. Premièrement, à une époque où les méthodes de
l'état
<br>
de l'art nécessitent généralement de grandes quantités de données
<br>
annotées, le travail sur des langues sous-dotées impose souvent
des
<br>
méthodes capables de traiter des jeux de données de petite taille
(small
<br>
data). Deuxièmement, compte tenu des difficultés à trouver des
<br>
ressources telles que des lexiques ou des corpus, les données
collectées
<br>
sont souvent très hétérogènes et correspondent à différentes
époques,
<br>
aires linguistiques ou domaines, par exemple des corpus de textes
<br>
intégrant différentes variétés géolinguistiques et portant sur
<br>
différents sujets à différentes époques. Cette hétérogénéité
implique
<br>
aussi souvent des variations dans la graphie, dues soit à une
évolution
<br>
des normes orthographiques dans le temps, soit à l'absence de
normes
<br>
orthographiques pour les langues ou les variétés linguistiques qui
sont
<br>
essentiellement orales et rarement écrites. Troisièmement, les
travaux
<br>
de TAL pour les langues sous-dotées ont tendance à être réalisés
dans
<br>
des groupes de recherche isolés ou dispersés, et les ressources
<br>
produites utilisent souvent des formats et des normes différents.
<br>
Trouver ces ressources, y accéder et les rendre interopérables
pour
<br>
qu'elles puissent être réutilisées peut devenir un défi en soi.
Quand il
<br>
s'agit de langues sous-dotées, les questions d'interopérabilité
des
<br>
données et des métadonnées deviennent d'une importance cruciale
pour
<br>
combiner et réutiliser les quelques ressources et outils qui
pourraient
<br>
être disponibles.
<br>
<br>
L'objectif de ce numéro de Traitement Automatique des Langues
(TAL) est
<br>
de donner un aperçu de la recherche actuelle sur le TAL pour les
langues
<br>
sous-dotées du monde entier, englobant une grande variété de
tâches.
<br>
<br>
Les auteurs sont invités à soumettre des documents originaux sur
tous
<br>
les aspects du TAL pour les langues sous-dotées, en particulier en
ce
<br>
qui concerne, mais sans s'y limiter, les questions et tâches
suivantes :
<br>
<br>
- Méthodes d'acquisition et de collecte de ressources et
d'annotations
<br>
(p. ex. OCR, crowdsourcing, etc.) pour les données orales et
écrites
<br>
- Normalisation orthographique et modèles basés sur les caractères
pour
<br>
gérer la variation orthographique
<br>
- Projection d'annotations à partir de langues proches et modèles
<br>
multilingues
<br>
- Méthodes pour traiter le manque de données, les problèmes de
qualité
<br>
et les mots hors-vocabulaire
<br>
- Identification de la langue et des variétés, en particulier pour
les
<br>
textes courts et les textes en plusieurs langues avec alternance
codique
<br>
- Apprentissage des langues assisté par ordinateur et outils
d'aide à
<br>
l'écriture (correction orthographique, clavier prédictif et
complétion
<br>
de mots)
<br>
- Problèmes liés à la réutilisation des outils, techniques et
ressources
<br>
du TAL pour des langues autres que celles initialement ciblées,
avec un
<br>
intérêt particulier pour l'interopérabilité et la réutilisabilité
des
<br>
ressources et des outils
<br>
- Approches informatisées pour la documentation des langues
sous-dotées
<br>
et en danger
<br>
<br>
Nous invitons également les auteurs à fournir une description
courte
<br>
mais précise des langues ou des variétés linguistiques étudiées,
en
<br>
mettant l'accent à la fois sur leurs caractéristiques
linguistiques et
<br>
sociolinguistiques :
<br>
<br>
- Bref historique, localisation des locuteurs actuels ;
<br>
- Principales propriétés linguistiques (morphologie, syntaxe) et
famille
<br>
de langues ;
<br>
- Système d'écriture ;
<br>
- Vitalité, nombre approximatif de locuteurs et contextes
d'utilisation.
<br>
<br>
DATES IMPORTANTES
<br>
<br>
- Date limite de soumission : 15 mai 2018
<br>
- Notification aux auteurs, première relecture : 16 juillet 2018
<br>
- Notification aux auteurs, seconde relecture : 30 septembre 2018
<br>
- Version finale : 30 novembre 2018
<br>
- Publication : janvier 2019
<br>
<br>
LA REVUE
<br>
<br>
La revue TAL (Traitement Automatique des Langues) est une revue
<br>
internationale éditée depuis 1960 par l’ATALA (Association pour le
<br>
Traitement Automatique des Langues) avec le concours du CNRS. Elle
est
<br>
maintenant publiée en format électronique, avec accès gratuit
immédiat
<br>
aux articles publiés, et impression annuelle à la demande. Cela ne
<br>
change aucunement son processus de relecture et de sélection.
<br>
<br>
LANGUE
<br>
<br>
Les articles sont écrits en français ou en anglais. Les
soumissions en
<br>
anglais ne sont acceptées qu'en cas de présence d'au moins un
auteur non
<br>
francophone.
<br>
<br>
FORMAT DE LA SOUMISSION
<br>
<br>
Les articles doivent faire entre 20 et 25 pages. Les auteurs
doivent
<br>
contacter les rédacteurs pour obtenir une dérogation sur la
longueur.
<br>
<br>
Les chercheurs ayant l’intention de soumettre une contribution
sont
<br>
invités à déposer leur article en cliquant sur le menu "Soumission
d’un
<br>
article" (format PDF). Pour cela, si ce n’est déjà fait,
s’inscrire sur
<br>
le site <a class="moz-txt-link-freetext"
href="http://www.sciencesconf.org">http://www.sciencesconf.org</a>
(en haut à gauche, "créer un
<br>
compte"), puis revenir sur la page <a
class="moz-txt-link-freetext"
href="http://tal-59-3.sciencesconf.org/">http://tal-59-3.sciencesconf.org/</a>,
se
<br>
connecter et effectuer le dépôt.
<br>
<br>
La revue TAL a un processus de relecture en double-aveugle. Merci
<br>
d’anonymiser votre article et le nom du fichier.
<br>
<br>
Les feuilles de style sont disponibles en ligne sur le site de la
revue
<br>
: <a class="moz-txt-link-freetext"
href="http://www.atala.org/content/instructions-aux-auteurs-feuilles-de-style-0">http://old.atala.org/Instructions-aux-auteurs-feuilles</a>
<br>
<br>
<br>
<br>
<div class="moz-txt-sig"><span class="moz-txt-tag">-- <br>
</span>Claudia Soria
<br>
Researcher
<br>
Istituto di Linguistica Computazionale "A. Zampolli"
<br>
Consiglio Nazionale delle Ricerche
<br>
Via Moruzzi 1
<br>
56124 Pisa
<br>
Italy
<br>
<br>
Tel. +39 050 3153166
<br>
Skype clausor
<br>
<br>
</div>
</div>
<pre class="moz-signature" cols="72">--
Claudia Soria
Researcher
Istituto di Linguistica Computazionale "A. Zampolli"
Consiglio Nazionale delle Ricerche
Via Moruzzi 1
56124 Pisa
Italy
Tel. +39 050 3153166
Skype clausor</pre>
</body>
</html>