Appel: Journee Atala, Annoter les corpus oraux
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Sun Jan 23 11:05:34 UTC 2011
Date: Fri, 21 Jan 2011 14:52:11 +0100
From: "Iris Eshkol" <iris.eshkol at univ-orleans.fr>
Message-ID: <001b01cbb972$670dd080$35297180$@eshkol at univ-orleans.fr>
X-url: http://www.telecom-paristech.fr/en/telecom-paristech/adresses-acces-contacts.html
1er Appel à communications
Journée Atala :
« Annoter les corpus oraux »
Le 9 avril 2011
http://www.telecom-paristech.fr/en/telecom-paristech/adresses-acces-contacts.html
Telecom ParisTech (46 rue Barrault, 75 013 Paris)
Les corpus oraux présentent des particularités difficilement prises en
compte par des analyseurs élaborés sur des données écrites : forte
variabilité, disfluences, syntaxe non canonique, notations fluctuantes
etc. La nécessité de développer des méthodes d’analyse qui s’ajustent
à ces particularités peut jouer sur l’adaptation d’outils existants
par adjonction de règles formelles qui prennent en compte les
spécificités de l’oral, sur le développement des conventions de
transcription, l’adéquation aux corpus, l’utilisation de méthodes
statistiques dans l’apprentissage, par exemple (liste non exhaustive).
La journée prévue entend interroger l’ensemble de ces méthodes et les
choix possibles en prenant sa référence dans l’annotation du
corpus. Celle-ci permet d’obtenir des données de référence sur l’oral
et facilite l’exploitation informatique des données. Le fait de
constituer un corpus de données annotées assure non seulement la
préservation de certains aspects pertinents à l’oral (de manière à
servir de base aux observations et aux comparaisons avec d’autres
données) mais contribue à améliorer in fine le traitement
automatique. La production et l’annotation de corpus oraux
représentent un enjeu de première importance en vue d’applications
telles que la reconnaissance vocale, l’apprentissage des langues, la
recherche d’information, la navigation dans les corpus, etc.
De nombreux laboratoires sont aujourd'hui confrontés à des difficultés
liées aux choix de logiciel, à des décisions concernant la découpe et
l’alignement parole/transcription, à la sélection des métadonnées, à
l’anonymisation, à la pertinence des étiquetages... L’annotation des
corpus soulève la question de l’indécision des normes, notamment pour
les phénomènes caractéristiques de l’oral.
Cette problématique s’adresse aux chercheurs travaillant sur les
langues « classiques » comme le français, l’anglais, mais aussi sur
des langues peu documentées ou sur des états des langues non
stabilisés (variétés émergentes, langues mixtes, processus de
créolisation ou de dialectalisation...), également aux spécialistes de
la conservation (BnF, Archives...), mais aussi à des industriels de la
langue dont le champ de compétence déborde le scriptural.
Les propositions pourront aborder les thèmes suivants (liste non
exhaustive) :
· annotation orthographique
· étiquetage morpho-syntaxique
· chunking
· traitement des variations internes (entre transcriptions)
· annotation des disfluences
· annotation prosodique (y compris prosodie sémantique)
· annotation des entités nommées
· annotation des unités de discours
· TEI et oral,
etc.
Soumission :
Les propositions de communications seront présentées sous la forme
d’un résumé de deux pages maximum (format A4, police Times taille 12)
et transmises en format pdf à :
iris.eshkol at univ-orleans.fr.
Le nom, l’institution et l’adresse des auteurs seront précisés dans un
fichier séparé qui rappellera le titre de la proposition.
Dates importantes :
Date limite de réception des propositions : 8 mars 2011
Date de notification d’acceptation : 20 mars 2011
Comité scientifique
Jean-Yves Antoine, LI-Université de Tours
Christophe Benzitoun, ATILF-Université Nancy 2
Philippe Blache, LPL - Université de Provence
Anne Dister, Facultés universitaires Saint-Louis, UCL
Iris Eshkol-Taravella, LLL-Université d’Orléans
Serge Fleury, ILPGA-Université Paris 3
Michel Jacobson, DAF
Sylvain Kahane, Modyco-Université Paris X
Lorenza Mondada, ICAR-Université Lyon 2
Philippe Muller, IRIT-Université Paul Sabatier Toulouse
Emmanuel Schang, LLL-Université d’Orléans
Ioana Vasilescu, LIMSI
Valentin Vydrin, Inalco
Ilil Yatziv-Malibert, HTL-Université Paris 8
Comité d’organisation
Iris ESHKOL-TARAVELLA
Contact : iris.eshkol at univ-orleans.fr
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list