Appel: Traitement automatique des langues africaines, TALAf 2014

Thierry Hamon hamon at LIMSI.FR
Fri Feb 14 21:19:39 UTC 2014


Date: Fri, 14 Feb 2014 15:34:37 +0100
From: Mathieu Mangeot <Mathieu.Mangeot at imag.fr>
Message-Id: <9E5A0F68-F283-4A20-BF7C-6F42C360D4B0 at imag.fr>
X-url: http://jibiki.univ-savoie.fr/~mangeot/TALAf/2014/


                         Appel à communications

TALAf 2014 : Traitement automatique des langues africaines (écrit et parole)

           Atelier TALN 2014 - Marseille le 1^er juillet 2014

Version html : http://jibiki.univ-savoie.fr/~mangeot/TALAf/2014/

Version PDF : http://jibiki.univ-savoie.fr/~mangeot/TALAf/2014/atelierTALAf2014v5.pdf

PRÉSENTATION

Dans la suite du premier atelier TALAf qui s'est tenu le 8 juin 2012 à
Grenoble, lors de la conférence JEP-TALN-RECITAL 2012 (voir les actes :
http:// aclweb.org/anthology//W/W12/#1300), nous proposons une nouvelle
édition de cet atelier lors de la conférence TALN 2014 le premier
juillet à Marseille. Nous accueillons les travaux menés sur toutes les
langues peu dotées d'Afrique.  L'arabe dialectal de l'Afrique du nord
(maghrébin) est également bienvenu.

Les recherches en traitement automatique des langues africaines sont
actuellement à l'orée de développements majeurs. Les efforts de
reconnaissance des langues nationales et de standardisation des
différents alphabets commencent à porter leurs fruits. Au Niger, par
exemple, les alphabets des langues fulfulde, haussa, kanouri,
songhai-zarma et tamajaq ont été définis par des arrêtés du gouvernement
en 1999. Par ailleurs, un certain nombre de collègues formés dans les
pays du Nord reviennent dans leur pays avec la volonté de continuer leur
travail sur les langues locales. Il y a également des diasporas
disposant de moyens technologiques leur permettant de contribuer
directement en ligne et de manière bénévole.

Pour autant, les langues nationales de la plupart des pays d'Afrique
sont peu dotées (langues-π) : les ressources électroniques disponibles
sont rares, mal distribuées, voire inexistantes. Seules sont accessibles
les fonctions d'édition et d'impression rendant l'exploitation de ces
langues difficile. Au moment où il est question de les introduire dans
le système éducatif, de créer des normes d'écriture standardisées et
stabilisées et surtout de développer leur usage à l'écrit et à l'oral
dans l'administration et la vie quotidienne, un développement de ces
langues s’impose comme une nécessité vitale.

Développer le traitement automatique de langues africaines nécessite
l'élaboration de ressources qui seront les fondements à partir desquels
des traitements plus élaborés peuvent être construits. Il apparaît
indispensable de constituer en premier lieu des corpus écrits et oraux
annotés aussi larges que possibles. À partir de tels corpus, il est
possible d’extraire des exemples pour aider à la constitution de
dictionnaires ou de mettre au point des modèles de langage pour la
reconnaissance vocale. Toutefois, la constitution de tels corpus reste
une entreprise délicate dans le contexte de langues peu dotée car les
transcriptions souffrent du manque de standardisation de la langue et
l'enrichissement de corpus reste très onéreux.

Le développement d'applications à base de traitement de l'oral peut être
considéré comme prioritaire dans des régions de tradition orale. De
plus, l'usage de téléphones mobiles, très répandu, permet d'imaginer un
déploiement rapide de ces applications.

Les dictionnaires sont également nécessaires pour construire les outils
de base tels les correcteurs orthographiques (qui peuvent servir à leur
tour pour corriger les corpus écrits) ou encore pour l'aide à la
transcription de corpus oraux. Il existe parfois des dictionnaires
bilingues couplant la langue officielle et une langue nationale. Par
exemple, au Mali, le père Charles Bailleul est l'auteur d’un
dictionnaire bambara-français ; au Niger, le projet éducatif SOUTÉBA a
créé cinq dictionnaires bilingues destinés aux enfants de primaire. Mais
ceux-ci existent uniquement en version papier ou sous forme de fichiers
d'éditeurs de texte (format.doc). Informatiser ces dictionnaires pour
les rendre utilisables par des outils de traitement automatique
nécessite, dans un premier temps, d'ajouter des informations manquantes
: prononciation, règles de flexion morphologiques et flexionnelles,
exemples et traductions tirés de corpus, etc. Il s'agit dans un premier
temps de les informatiser (les transformer dans un format utilisable par
des outils de traitement automatique) et de les compléter avec des
informations manquantes : prononciation, exemples et traductions tirés
de corpus, etc. Des astuces peuvent parfois être inventées pour pallier
le manque de ressources. Par exemple, s'il n'existe pas de corpus oraux
avec transcriptions, il est possible de constituer un corpus oral de
textes lus.

Enfin, il y a lieu de prendre en compte les contraintes
socio-économiques s'exerçant sur la population des locuteurs : les
ressources économiques sont limitées, les ressources humaines qualifiées
sont rares, les recherches sont sporadiques et isolées, les résultats
confidentiels et parcellaires. Il est donc nécessaire de définir des
méthodologies économes en coût d'achat de logiciels et en temps de
travail qualifié visant à produire des résultats pérennes, partagés et
faciles à enrichir. La constitution de ressources linguistiques de
manière générale, et plus encore pour les langues africaines devrait
donc respecter un certain nombre de principes : utilisation d'outils en
source ouverte, définition et utilisation de standards (ISO, Unicode),
transfert de connaissances entre les collègues des pays du Nord et du
Sud, disponibilité des ressources sous licence ouverte (Creative
Commons), etc.

Cet atelier a pour but d'effectuer un état des lieux des travaux de
constitution de ressources linguistiques de base (dictionnaires, corpus
oraux et écrits), de mettre au point des méthodologies simples et
économes d'élaboration de ressource, d'échanger sur les techniques
permettant de se passer de certaines ressources inexistantes et de fixer
un certain nombre de principes pour les futurs travaux dans le domaine.

L'atelier se déroulera sur une demi-journée ou une journée entière, sous
réserve des soumissions et de la décision finale du comité de programme
de TALN.

Les ateliers TALAf sont soutenus par l'association LTT (Lexicologie
Terminologie Traduction).

TYPES DE COMMUNICATION

THÈMES

L'atelier est ouvert à la présentation de travaux de recherche portant
sur les thèmes suivants :

Ressources :

- constitution de corpus écrits (monolingues, bilingues alignés ou
  comparables)

- constitution de corpus oraux (incluant la transcription)

- élaboration de lexiques et dictionnaires (monolingues, bilingues)

- évaluation de la qualité des ressources

Outils :

- analyseurs morphologiques, correcteurs orthographiques

- analyseurs syntaxiques, correcteurs grammaticaux

- systèmes de TA (statistique ou à base de règles)

- reconnaissance de la parole

- synthèse vocale

CRITÈRES DE SÉLECTION

Les soumissions seront examinées par au moins deux spécialistes du
domaine.

Pour les travaux de recherches, seront considérées en particulier :

- l'adéquation aux thèmes de l'atelier.

- l'importance et l'originalité de la contribution,

- la correction du contenu scientifique et technique,

- l'organisation et la clarté de la présentation.

MODALITÉS DE SOUMISSION

Les articles seront rédigés en français pour les francophones, en
anglais pour ceux qui ne maîtrisent pas le français. Les formats précis
de soumission sont disponibles pour Word et Latex sur le site de
taln2014 : http://www.taln2014.org/site/soumission/

Les propositions de communications doivent être envoyées sous forme pdf
à l'adresse suivante :
https://www.easychair.org/conferences/?conf=talaf20140

COMITÉ DE PROGRAMME

Laurent Besacier (LIG, Grenoble, France)
Philippe Bretier (Voxygen, Pleumeur-Bodou, France)
Khalid Choukri (ELDA, Paris, France)
Mame Thierno Cissé (ARCIV, Université Cheikh Anta Diop, Dakar, Sénégal)
Denys Duchier (Université d'Orléans, Orléans, France)
Chantal Enguehard (LINA, Nantes, France)
Gil Francopoulo (Tagmatica, Paris, France)
Mathieu Mangeot (LIG, Grenoble, France)
Chérif Mbodj, (Centre de Linguistique Appliquée de Dakar, Sénégal)
Kamal Naït-Zerrad (INALCO, Paris, France)
Pascal Nocera, (Université d'Avignon, France)
Francois Pellegrino, (DDL, Lyon, France)
Fatiha Sadat (UQAM, Montréal, Canada)
Mamadou Lamine Sanogo (INSS, Ouagadougou, Burkina-Faso)
Emmanuel Schang (Université d'Orléans, Orléans, France)
Gilles Sérasset (LIG, Grenoble, France)
Valentin Vydrin (LLACAN-INALCO, Paris, France)

CALENDRIER

- Date limite de soumission : 26 avril 2014
- Notification aux auteurs : 24 mai 2014
- Date limite de soumission des versions définitives : 15 juin 2014
- Atelier : 1 juillet 2014

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------



More information about the Ln mailing list