[Corpora-List] Atelier TALaRE : Traitement Automatique des Langues R=?iso-8859-1?Q?=E9gionales_?=de France et d'Europe
Marianne Vergez-Couret
marianne.vergez at gmail.com
Thu Feb 14 15:29:05 UTC 2013
*Atelier TALaRE 2013 : Traitement Automatique des Langues Régionales de
France et d’Europe***
*Le 21 juin*
*Atelier TALN 2013* 20e conférence sur le Traitement Automatique des
Langues Naturelles, Sables d’Olonne, 17-21 juin 2013
(See English Below)
Les recherches en traitement automatique des langues peu et moyennement
dotées connaissent actuellement un regain d’intérêt à travers la
constitution de corpus et de lexiques dans une perspective globale de
préservation du patrimoine culturel. Les langues régionales sont
généralement à ranger dans cette catégorie, car les ressources
électroniques pour ces langues sont rares, peu visibles et sous exploitées,
parfois inexistantes. Doter ces langues de ressources électroniques
(notamment de corpus écrits, de lexiques et de dictionnaires) est un enjeu
considérable pour leur diffusion, leur enseignement, leur sauvegarde, leur
normalisation... Il est, entre autres, nécessaire de développer des corpus
écrits, les plus représentatifs possibles des usages de la langue, en
rassemblant des œuvres écrites de différents genres (littérature, théâtre,
poésie, conte, presse...) et, pour certaines langues, en accueillant la
variation (dialectale, phonologique, graphique). La seconde étape consiste
logiquement à enrichir ces corpus d’annotations. L'élaboration des corpus
annotés pour les langues régionales soulève de nombreuses questions
méthodologiques. Il n'est notamment pas toujours possible de transposer
directement les modèles existants pour les langues très dotées, notamment
en raison des variations dialectales et phonologiques et du manque de
standardisation graphique. Les corpus sont également une base nécessaire
pour l'élaboration des dictionnaires, lexiques et glossaires. Sur le plan
linguistique, les corpus sont nécessaires pour la description des usages
réels d'une langue. Et en contre-partie, sur le plan technique, les
dictionnaires et les lexiques sont nécessaires pour accompagner
l’élaboration des corpus (reconnaissance optique de caractères,
lemmatisation et analyse morpho-syntaxique). Lorsque ces ressources
existent déjà pour une langue (dictionnaires, lexiques, glossaires
bilingues couplant une langue régionale et une langue nationale), il se
pose la question de la mutualisation des informations contenues dans ces
ressources, de l'enrichissement de ses données avec des informations
supplémentaires (phonétiques, morpho-syntaxiques, syntaxiques…) et de leur
utilisation dans des outils de TAL. Corpus et lexiques sont enfin
nécessaires pour le développement d'outils de traitement automatique des
langues (analyse morpho-syntaxique, syntaxique…).
Au-delà des difficultés techniques et méthodologiques, il ne faut pas
négliger les difficultés plus pragmatiques liées au manque de ressources
financières et humaines pour mener à bien la constitution de ressources.
Cet atelier a pour but de réunir des chercheurs qui participent à la
constitution de ressources linguistiques et d'outils "de base" du TAL pour
les langues régionales de France et d’Europe afin de partager nos
questionnements et nos méthodologies, de mutualiser nos réflexions et les
techniques développées.
Nous appelons à la soumission de travaux de recherche autour de la
constitution de ressources et d'outils pour des langues régionales ou
minoritaires de France et d’Europe (y compris les langues d’Outre Mer), sur
les thématiques suivantes (sans s’y limiter):
v Ressources :
· Constitution de corpus écrits
· Elaboration de lexiques, dictionnaires, glossaires
v Outils :
· Outils pour la numérisation, l’océrisation et le codage des textes
· Annotations linguistiques (manuelle et automatique pour analyses
morpho-syntaxiques, syntaxiques…)
· Interface et outils de recherche sur corpus
v Articulation entre théorie et pratique autour des questions de la
variation
*CALENDRIER*
- Date limite de soumission : 29 mars 2013
- Notification aux auteurs : 19 avril 2013
- Date limite de soumission des versions
définitives : 3 mai 2013
*SOUMISSION DES ARTICLES*
Les articles seront rédigés en français pour les francophones, en anglais
pour ceux qui ne maîtrisent pas le français. Ils devront suivre le format
de TALN 2013 et comprendront 12 à 14 pages. Une feuille de style LaTeX et
un modèle Word sont disponibles sur le site web de la conférence (
http://www.taln2013.org/soumettre/). Les articles retenus donneront lieu à
une présentation de 30 mn, discussion comprise.
Les articles, au format pdf, doivent être déposés à l’adresse
https://www.easychair.org/conferences/?conf=talare2013
*CRITÈRES DE SÉLECTION*
Les critères de sélection sont les mêmes que ceux définis par TALN 2013
pour les articles de recherche.
*COMITE D’ORGANISATION*
Marianne Vergez-Couret
CLLE-ERSS, Université de Toulouse 2
Delphine Bernhard
LILPA, Université de Strasbourg
Jean-Michel Eloy
LESCLAP, Université de Picardie
Christophe Rey
LESCLAP, Université de Picardie
* *
*COMITE DE PROGRAMME (en cours de confirmation)*
*Contact* : Marianne Vergez-Couret (vergez at univ-tlse2.fr)
*Workshop TALaRE 2013: Natural Language Processing for French and European
Regional Languages***
*June, 21st*
*Held in conjunction with TALN 2013* 20e conférence sur le Traitement
Automatique des Langues Naturelles, Sables d’Olonne, june, 17th-21st 2013
Research in natural language processing for under-resources languages is
currently an active area, in a global perspective of cultural heritage
preservation. Regional languages generally fall into this category, as
electronic resources for these languages are rare and sometimes
non-existent. Providing electronic resources for these languages (including
written corpora, lexicons and dictionaries) is a major asset for supporting
their dissemination, teaching, preservation or standardization. It is,
among others, necessary to develop written corpora, which are the most
representative of language use, by collecting written works of various
genres (literature, theater, poetry, storytelling, press ...) and, for some
languages, by taking variation into account (dialectal, phonological or
graphical variations). The second step is logically to enrich the corpora
with annotations. The development of annotated corpora for regional
languages raises many methodological issues. It is not always possible to
directly transpose existing models for resource-rich languages, partly
because of dialectal and phonological variation and the lack of writing
standards. The corpora are also a basis for the development of
dictionaries, lexicons and glossaries and are necessary for the description
of the actual use of a language. On the other hand, dictionaries and
lexicons are needed to support the development of the corpora (optical
character recognition, lemmatization and morpho-syntactic analysis). When
these resources already exist for a language (dictionaries, lexicons,
bilingual glossaries coupling a regional and a national language), the
question arises as to how information contained in these resources can be
shared and possibly be enriched with additional annotations (phonetic,
morphosyntactic, syntactic, ...). Finally, corpora and lexicons are
necessary for the development of natural language processing tools
(morpho-syntactic analysis or syntactic analyzers ...).
Beyond the technical and methodological challenges, the more pragmatic
difficulties related to the lack of financial and human resources to carry
out the creation of resources should not be neglected. This workshop
aims to bring
together researchers involved in the creation of language resources and
"basic" NLP tools for French and European regional languages, in order to
share their views, methodologies and techniques.
We invite submission of papers on the constitution of resources and tools
for regional or minority languages of France and Europe (including
languages from overseas departments and territories of France).
Topics of interest include, but are not limited to:
v Resources:
· Written corpus builing
· Development of lexicons, dictionaries, glossaries
v Tools :
· Scanning, OCR and text encoding
· Linguistic annotations (manual and automatic for morpho-syntactic or
syntactic analysis,...)
· Corpus management and query
v Articulation between theory and practice when dealing with variation**
*IMPORTANT DATES*
- Paper submission deadline: March 29, 2013
- Notification of paper acceptance : April 19,
2013
- Deadline for camera-ready versions: May 3,
2013
*PAPER SUBMISSION*
Papers will be written in French for French-speaking authors or English for
non-French-speaking authors. They should have from 12 to 14 pages in the
TALN 2013 format. A LaTeX style file and a MS Word template are available
on the conference website (http://www.taln2013.org/soumettre/). Selected
articles will be allocated 30 minutes for the oral presentation (including
discussion).
Authors should submit the papers in PDF through the submission page at
https://www.easychair.org/conferences/?conf=talare2013**
*SELECTION CRITERIA*
The selection criteria will be the same as those that apply for TALN 2013
research articles.
*ORGANIZING COMMITTEE*
Marianne Vergez-Couret
CLLE-ERSS, Université de Toulouse 2
Delphine Bernhard
LILPA, Université de Strasbourg
Jean-Michel Eloy
LESCLAP, Université de Picardie
Christophe Rey
LESCLAP, Université de Picardie
* *
*PROGRAM COMMITTEE (in progress)*
*Contact* : Marianne Vergez-Couret (vergez at univ-tlse2.fr)
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/corpora/attachments/20130214/b6c0051a/attachment.htm>
-------------- next part --------------
_______________________________________________
UNSUBSCRIBE from this page: http://mailman.uib.no/options/corpora
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora
More information about the Corpora
mailing list