Job: Postdoc, Fouille de donnees textuelles sur corpus plurilingues et heterogenes, Paris (Labex EFL)

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Oct 28 20:27:41 UTC 2011


Date: Fri, 28 Oct 2011 14:40:22 +0200
From: Isabelle LEGLISE <leglise at vjf.cnrs.fr>
Message-ID: <4EAAA2B6.100 at vjf.cnrs.fr>
X-url: http://www.labex-efl.org/?q=fr/recrutement/lc1

Cher(e)s collègues,

Dans le cadre du LABEX EFL "Empirical foundations of Linguistics", un
projet d'une durée de 10 ans initié en 2011, nous proposons un post-doc
de 12 mois à temps complet à partir de décembre 2011 ou janvier 2012
pour travailler dans l'opération de recherche LC1 "Analyse
plurifactorielle des contacts de langues et du changement linguistique".
Le candidat sera basé à l'UMR SEDYL (CNRS-INALCO-IRD) - Campus CNRS de
Villejuif.

Information à diffuser aux personnes susceptibles d'être intéressées,
merci.
__________________________


  Postdoc : Fouille de données textuelles sur corpus hétérogènes et
  plurilingues

Durée :
12 mois, à partir de déc 2011 ou janvier 2012

Salaire:
24 000 EUR net/ an

Spécialités:
Linguistique informatique, fouille de données textuelles

*Date limite de candidature: *
*10 novembre 2011*

      Compétences

Le candidat doit avoir un doctorat en informatique / linguistique
informatique et être expert du domaine de la fouille de données - de
préférence sur un domaine d'application linguistique (fouille de texte,
traitement automatique du langage) impliquant des données textuelles de
large dimension structurées en xml. Une connaissance des standards TEI
serait un plus.  Il doit savoir programmer en C, la pratique de C++ ou
de Java est également un avantage.  Il doit connaître et savoir utiliser
le modèle relationnel de bases de données et le langage SQL (une
connaissance du système MySQL est un avantage).  Avoir une curiosité
pour la diversité des langues est également un plus.

      Description

  Le travail consiste à développer des fonctions de fouille de texte qui
seront appliquées à des corpus de langues en contact, c'est-à-dire à des
transcriptions de productions verbales non-homogènes recueillies en
situations multilingues (où les locuteurs parlent plusieurs langues à la
fois ; le projet implique 38 langues de tous les continents). Ce cas de
figure est traditionnellement peu pris en compte par les algorithmes de
la linguistique informatique, par exemple par les systèmes destinés à
identifier automatiquement le jeu de catégories grammaticales présentes
dans un corpus (inférence grammaticale) ou à attribuer des catégories
aux occurrences des unités lexicales (étiquetage).

Des résultats scientifiques sont attendus à la fois sur le plan des
faits linguistiques qui pourront être mis en évidence (corrélations de
certaines catégories d'unité, ou de certaines positions syntaxiques,
avec les phénomènes de contact et changement linguistique), et sur le
plan des techniques d'apprentissage développées.

La difficulté du sujet réside dans le grand nombre des variables à
analyser, par rapport à la taille du corpus (nombre d'échantillons).
Cette caractéristique rattache ce problème au domaine de recherche de
l'analyse de données de grande dimension pour laquelle une approche de
type "réduction de la dimensionnalité des données" telle que « manifold
learning » est envisagée.

http://www.labex-efl.org/?q=fr/recrutement/lc1

Si vous êtes intéressé, merci d'envoyer un CV (incluant une liste de
publication), une lettre de motivation et les noms de deux référents à :

Isabelle Léglise (leglise at vjf.cnrs.fr) & Pascal Vaillant 
(vaillant at vjf.cnrs.fr)

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list