URGENT: Postdoc à Paris (Labex EFL) : Fouille de données textuelles sur corpus plurilingues et hétérogènes

Fri Oct 28 12:40:22 UTC 2011

Cher(e)s collègues,

Dans le cadre du LABEX EFL "Empirical foundations of Linguistics", un 
projet d'une durée de 10 ans initié en 2011, nous proposons un post-doc 
de 12 mois  à temps complet à partir de décembre 2011 ou janvier 2012 
pour travailler dans l'opération de recherche LC1 "Analyse 
plurifactorielle des contacts de langues et du changement linguistique". 
Le candidat sera basé à l'UMR SEDYL (CNRS-INALCO-IRD) - Campus CNRS de 
Villejuif.

Information à diffuser aux personnes susceptibles d'être intéressées, merci.
__________________________

  Postdoc : Fouille de données textuelles sur corpus hétérogènes et
  plurilingues

Durée :
12 mois, à partir de déc 2011 ou janvier 2012

Salaire:
24 000 EUR net/ an

Spécialités:
Linguistique informatique, fouille de données textuelles

*Date limite de candidature: *
*10 novembre 2011*

      Compétences

Le candidat doit avoir un doctorat en informatique / linguistique 
informatique et  être  expert du domaine de la fouille de données - de 
préférence sur un domaine d'application linguistique (fouille de texte, 
traitement automatique du langage) impliquant des données textuelles de 
large dimension structurées en xml. Une connaissance des standards TEI 
serait un plus.  Il doit savoir programmer en C, la pratique de C++ ou 
de Java est également un avantage.  Il doit connaître et savoir utiliser 
le modèle relationnel de bases de données et le langage SQL (une 
connaissance du système MySQL est un avantage).  Avoir une curiosité 
pour la diversité des langues est également un plus.

      Description

  Le travail  consiste à développer des fonctions de fouille de texte 
qui seront appliquées à des corpus de langues en contact, c'est-à-dire à 
des transcriptions de productions verbales non-homogènes recueillies en 
situations multilingues (où les locuteurs parlent plusieurs langues à la 
fois ; le projet implique 38 langues de tous les continents). Ce cas de 
figure est traditionnellement peu pris en compte par les algorithmes de 
la linguistique informatique, par exemple par les systèmes destinés à 
identifier automatiquement le jeu de catégories grammaticales présentes 
dans un corpus (inférence grammaticale) ou à attribuer des catégories 
aux occurrences des unités lexicales (étiquetage).
Des résultats scientifiques sont attendus à la fois sur le plan des 
faits linguistiques qui pourront être mis en évidence (corrélations de 
certaines catégories d'unité, ou de certaines positions syntaxiques, 
avec les phénomènes de contact et changement linguistique), et sur le 
plan des techniques d'apprentissage développées.
La difficulté du sujet réside dans le grand nombre des variables à 
analyser, par rapport à la taille du corpus (nombre d'échantillons). 
Cette caractéristique rattache ce problème au domaine de recherche de 
l'analyse de données de grande dimension pour laquelle une approche de 
type  "réduction de la dimensionnalité des données" telle que « manifold 
learning » est envisagée.

http://www.labex-efl.org/?q=fr/recrutement/lc1

Si vous êtes intéressé, merci d'envoyer un CV (incluant une liste de 
publication), une lettre de motivation et les noms de deux référents à :

Isabelle Léglise (leglise at vjf.cnrs.fr) & Pascal Vaillant 
(vaillant at vjf.cnrs.fr)
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20111028/a6726e24/attachment.htm>