Appel: Atelier TALaRE, Traitement Automatique des Langues Regionales de France et d'Europe
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Sat Feb 16 20:13:28 UTC 2013
Date: Thu, 14 Feb 2013 16:32:12 +0100
From: Marianne Vergez-Couret <marianne.vergez at gmail.com>
Message-ID: <CAHSzV1FyBnOVzOYjD0-Zk-dwE+E9Eaj1MrKP3oq6Oa1KShH6Jg at mail.gmail.com>
*Atelier TALaRE 2013 : Traitement Automatique des Langues Régionales de
France et d’Europe***
*Le 21 juin*
*Atelier TALN 2013* 20e conférence sur le Traitement Automatique des
Langues Naturelles, Sables d’Olonne, 17-21 juin 2013
(See English Below)
Les recherches en traitement automatique des langues peu et moyennement
dotées connaissent actuellement un regain d’intérêt à travers la
constitution de corpus et de lexiques dans une perspective globale de
préservation du patrimoine culturel. Les langues régionales sont
généralement à ranger dans cette catégorie, car les ressources
électroniques pour ces langues sont rares, peu visibles et sous
exploitées, parfois inexistantes. Doter ces langues de ressources
électroniques (notamment de corpus écrits, de lexiques et de
dictionnaires) est un enjeu considérable pour leur diffusion, leur
enseignement, leur sauvegarde, leur normalisation... Il est, entre
autres, nécessaire de développer des corpus écrits, les plus
représentatifs possibles des usages de la langue, en rassemblant des
œuvres écrites de différents genres (littérature, théâtre, poésie,
conte, presse...) et, pour certaines langues, en accueillant la
variation (dialectale, phonologique, graphique). La seconde étape
consiste logiquement à enrichir ces corpus d’annotations. L'élaboration
des corpus annotés pour les langues régionales soulève de nombreuses
questions méthodologiques. Il n'est notamment pas toujours possible de
transposer directement les modèles existants pour les langues très
dotées, notamment en raison des variations dialectales et phonologiques
et du manque de standardisation graphique. Les corpus sont également une
base nécessaire pour l'élaboration des dictionnaires, lexiques et
glossaires. Sur le plan linguistique, les corpus sont nécessaires pour
la description des usages réels d'une langue. Et en contre-partie, sur
le plan technique, les dictionnaires et les lexiques sont nécessaires
pour accompagner l’élaboration des corpus (reconnaissance optique de
caractères, lemmatisation et analyse morpho-syntaxique). Lorsque ces
ressources existent déjà pour une langue (dictionnaires, lexiques,
glossaires bilingues couplant une langue régionale et une langue
nationale), il se pose la question de la mutualisation des informations
contenues dans ces ressources, de l'enrichissement de ses données avec
des informations supplémentaires (phonétiques, morpho-syntaxiques,
syntaxiques…) et de leur utilisation dans des outils de TAL. Corpus et
lexiques sont enfin nécessaires pour le développement d'outils de
traitement automatique des langues (analyse morpho-syntaxique,
syntaxique…).
Au-delà des difficultés techniques et méthodologiques, il ne faut pas
négliger les difficultés plus pragmatiques liées au manque de ressources
financières et humaines pour mener à bien la constitution de ressources.
Cet atelier a pour but de réunir des chercheurs qui participent à la
constitution de ressources linguistiques et d'outils "de base" du TAL
pour les langues régionales de France et d’Europe afin de partager nos
questionnements et nos méthodologies, de mutualiser nos réflexions et
les techniques développées.
Nous appelons à la soumission de travaux de recherche autour de la
constitution de ressources et d'outils pour des langues régionales ou
minoritaires de France et d’Europe (y compris les langues d’Outre Mer),
sur les thématiques suivantes (sans s’y limiter):
v Ressources :
· Constitution de corpus écrits
· Elaboration de lexiques, dictionnaires, glossaires
v Outils :
· Outils pour la numérisation, l’océrisation et le codage des textes
· Annotations linguistiques (manuelle et automatique pour analyses
morpho-syntaxiques, syntaxiques…)
· Interface et outils de recherche sur corpus
v Articulation entre théorie et pratique autour des questions de la
variation
*CALENDRIER*
- Date limite de soumission : 29 mars 2013
- Notification aux auteurs : 19 avril 2013
- Date limite de soumission des versions définitives : 3 mai 2013
*SOUMISSION DES ARTICLES*
Les articles seront rédigés en français pour les francophones, en
anglais pour ceux qui ne maîtrisent pas le français. Ils devront suivre
le format de TALN 2013 et comprendront 12 à 14 pages. Une feuille de
style LaTeX et un modèle Word sont disponibles sur le site web de la
conférence ( http://www.taln2013.org/soumettre/). Les articles retenus
donneront lieu à une présentation de 30 mn, discussion comprise.
Les articles, au format pdf, doivent être déposés à l’adresse
https://www.easychair.org/conferences/?conf=talare2013
*CRITÈRES DE SÉLECTION*
Les critères de sélection sont les mêmes que ceux définis par TALN 2013
pour les articles de recherche.
*COMITE D’ORGANISATION*
Marianne Vergez-Couret CLLE-ERSS, Université de Toulouse 2
Delphine Bernhard LILPA, Université de Strasbourg
Jean-Michel Eloy LESCLAP, Université de Picardie
Christophe Rey LESCLAP, Université de Picardie
*COMITE DE PROGRAMME (en cours de confirmation)*
*Contact* : Marianne Vergez-Couret (vergez at univ-tlse2.fr)
*Workshop TALaRE 2013: Natural Language Processing for French and
European Regional Languages***
*June, 21st*
*Held in conjunction with TALN 2013* 20e conférence sur le Traitement
Automatique des Langues Naturelles, Sables d’Olonne, june, 17th-21st
2013
Research in natural language processing for under-resources languages is
currently an active area, in a global perspective of cultural heritage
preservation. Regional languages generally fall into this category, as
electronic resources for these languages are rare and sometimes
non-existent. Providing electronic resources for these languages
(including written corpora, lexicons and dictionaries) is a major asset
for supporting their dissemination, teaching, preservation or
standardization. It is, among others, necessary to develop written
corpora, which are the most representative of language use, by
collecting written works of various genres (literature, theater, poetry,
storytelling, press ...) and, for some languages, by taking variation
into account (dialectal, phonological or graphical variations). The
second step is logically to enrich the corpora with annotations. The
development of annotated corpora for regional languages raises many
methodological issues. It is not always possible to directly transpose
existing models for resource-rich languages, partly because of dialectal
and phonological variation and the lack of writing standards. The
corpora are also a basis for the development of dictionaries, lexicons
and glossaries and are necessary for the description of the actual use
of a language. On the other hand, dictionaries and lexicons are needed
to support the development of the corpora (optical character
recognition, lemmatization and morpho-syntactic analysis). When these
resources already exist for a language (dictionaries, lexicons,
bilingual glossaries coupling a regional and a national language), the
question arises as to how information contained in these resources can
be shared and possibly be enriched with additional annotations
(phonetic, morphosyntactic, syntactic, ...). Finally, corpora and
lexicons are necessary for the development of natural language
processing tools (morpho-syntactic analysis or syntactic analyzers ...).
Beyond the technical and methodological challenges, the more pragmatic
difficulties related to the lack of financial and human resources to
carry out the creation of resources should not be neglected. This
workshop aims to bring together researchers involved in the creation of
language resources and "basic" NLP tools for French and European
regional languages, in order to share their views, methodologies and
techniques.
We invite submission of papers on the constitution of resources and
tools for regional or minority languages of France and Europe (including
languages from overseas departments and territories of France).
Topics of interest include, but are not limited to:
v Resources:
· Written corpus builing
· Development of lexicons, dictionaries, glossaries
v Tools :
· Scanning, OCR and text encoding
· Linguistic annotations (manual and automatic for morpho-syntactic or
syntactic analysis,...)
· Corpus management and query
v Articulation between theory and practice when dealing with variation**
*IMPORTANT DATES*
- Paper submission deadline: March 29, 2013
- Notification of paper acceptance : April 19, 2013
- Deadline for camera-ready versions: May 3, 2013
*PAPER SUBMISSION*
Papers will be written in French for French-speaking authors or English
for non-French-speaking authors. They should have from 12 to 14 pages in
the TALN 2013 format. A LaTeX style file and a MS Word template are
available on the conference website
(http://www.taln2013.org/soumettre/). Selected articles will be
allocated 30 minutes for the oral presentation (including discussion).
Authors should submit the papers in PDF through the submission page at
https://www.easychair.org/conferences/?conf=talare2013**
*SELECTION CRITERIA*
The selection criteria will be the same as those that apply for TALN
2013 research articles.
*ORGANIZING COMMITTEE*
Marianne Vergez-Couret CLLE-ERSS, Université de Toulouse 2
Delphine Bernhard LILPA, Université de Strasbourg
Jean-Michel Eloy LESCLAP, Université de Picardie
Christophe Rey LESCLAP, Université de Picardie
*PROGRAM COMMITTEE (in progress)*
*Contact* : Marianne Vergez-Couret (vergez at univ-tlse2.fr)
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list