Job: Ingenieur, 24 mois, Constitution de corpus de langues rares
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Wed Jun 26 10:41:35 UTC 2013
Date: Mon, 24 Jun 2013 14:32:55 +0200
From: guillaume at vjf.cnrs.fr
Message-ID: <34a4891e59c5dd9ee90c5548b0dcae08.squirrel at www.vjf.cnrs.fr>
X-url: http://himalco.hypotheses.org/
X-url: http://lacito.vjf.cnrs.fr/archivage/index.htm
Profil de poste : CDD de 24 mois au laboratoire LACITO-CNRS
Niveau : Ingénieur d’études
Contribution à la constitution de corpus de langues rares : textes et
dictionnaires en ligne
CONTEXTE :
Le projet HimalCo, financé par l’Agence Nationale de la Recherche
(2013-2015), porte sur la constitution et l’exploitation de corpus pour
dix langues à tradition orale.
Les corpus sont composés de ressources sonores (enregistrements audio),
textuelles (transcription, annotations) ainsi que de données lexicales
(dictionnaires et enregistrements de mots) :
http://himalco.hypotheses.org/
Les corpus et les outils issus du projet HimalCo iront à terme alimenter
la plateforme de la collection Pangloss qui regroupe elle-même plus de
70 corpus de langues rares :
http://lacito.vjf.cnrs.fr/archivage/index.htm
MISSIONS :
La personne recrutée en CDD travaillera en étroite collaboration avec
l’ingénieur responsable de la Collection Pangloss et participant au
projet HimalCo. Elle devra rapidement faire preuve d’autonomie dans la
réalisation des tâches qui lui sont confiées. Les tâches à effectuer
pour le projet sont diverses. Voici une liste non exhaustive :
- traitement et mise en forme des corpus : suivi des tâches, gestion des
contacts avec les déposants, alignement texte/son, préparation et
vérification de métadonnées...
- dépôt de documents à l’archivage pérenne et mise à jour des pages web
correspondantes sur le site de la Collection Pangloss
- développement de fonctionnalités en ligne pour la consultation des
textes parallèles et des dictionnaires
- développement d’outils et mise à jour d’outils existants pour la mise
en forme, la diffusion et la recherche dans les corpus
- dialogue avec les partenaires de la Collection Pangloss
- déploiement d’un outil logiciel de suivi des tâches (de la prise de
contact initiale jusqu’au dépôt final) si le temps nécessaire peut
être dégagé
COMPETENCES :
- Connaissances en structuration de données textuelles (HTML, XML, XSL)
et sonores (wav).
- PHP
- Perl
- Java souhaité
Capacité d’écoute pour comprendre les besoins et les pratiques des
linguistes.
Une expérience de l’étude et/ou du traitement de données linguistiques
serait un plus.
DUREE ET DATES :
La durée totale du contrat est de 24 mois.
Les dates prévues sont : de novembre 2013 à octobre 2015 inclus. La date
de début peut être avancée à septembre ou octobre 2013 si la personne
recrutée le souhaite.
Aucun engagement ne peut être pris concernant une prolongation du
contrat au-delà de 24 mois : les possibilités sont soumises aux
contingences des futurs Appels à projets de recherche (pour les CDD) et
des créations de poste (pour les CDI).
Contact : guillaume at vjf.cnrs.fr
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list