URGENT: Postdoc à Paris (Labex EFL) : Fouille de données textuelles sur corpus plurilingues et hétérogènes
Isabelle LEGLISE
leglise at VJF.CNRS.FR
Fri Oct 28 12:40:22 UTC 2011
Cher(e)s collègues,
Dans le cadre du LABEX EFL "Empirical foundations of Linguistics", un
projet d'une durée de 10 ans initié en 2011, nous proposons un post-doc
de 12 mois à temps complet à partir de décembre 2011 ou janvier 2012
pour travailler dans l'opération de recherche LC1 "Analyse
plurifactorielle des contacts de langues et du changement linguistique".
Le candidat sera basé à l'UMR SEDYL (CNRS-INALCO-IRD) - Campus CNRS de
Villejuif.
Information à diffuser aux personnes susceptibles d'être intéressées, merci.
__________________________
Postdoc : Fouille de données textuelles sur corpus hétérogènes et
plurilingues
Durée :
12 mois, à partir de déc 2011 ou janvier 2012
Salaire:
24 000 EUR net/ an
Spécialités:
Linguistique informatique, fouille de données textuelles
*Date limite de candidature: *
*10 novembre 2011*
Compétences
Le candidat doit avoir un doctorat en informatique / linguistique
informatique et être expert du domaine de la fouille de données - de
préférence sur un domaine d'application linguistique (fouille de texte,
traitement automatique du langage) impliquant des données textuelles de
large dimension structurées en xml. Une connaissance des standards TEI
serait un plus. Il doit savoir programmer en C, la pratique de C++ ou
de Java est également un avantage. Il doit connaître et savoir utiliser
le modèle relationnel de bases de données et le langage SQL (une
connaissance du système MySQL est un avantage). Avoir une curiosité
pour la diversité des langues est également un plus.
Description
Le travail consiste à développer des fonctions de fouille de texte
qui seront appliquées à des corpus de langues en contact, c'est-à-dire à
des transcriptions de productions verbales non-homogènes recueillies en
situations multilingues (où les locuteurs parlent plusieurs langues à la
fois ; le projet implique 38 langues de tous les continents). Ce cas de
figure est traditionnellement peu pris en compte par les algorithmes de
la linguistique informatique, par exemple par les systèmes destinés à
identifier automatiquement le jeu de catégories grammaticales présentes
dans un corpus (inférence grammaticale) ou à attribuer des catégories
aux occurrences des unités lexicales (étiquetage).
Des résultats scientifiques sont attendus à la fois sur le plan des
faits linguistiques qui pourront être mis en évidence (corrélations de
certaines catégories d'unité, ou de certaines positions syntaxiques,
avec les phénomènes de contact et changement linguistique), et sur le
plan des techniques d'apprentissage développées.
La difficulté du sujet réside dans le grand nombre des variables à
analyser, par rapport à la taille du corpus (nombre d'échantillons).
Cette caractéristique rattache ce problème au domaine de recherche de
l'analyse de données de grande dimension pour laquelle une approche de
type "réduction de la dimensionnalité des données" telle que « manifold
learning » est envisagée.
http://www.labex-efl.org/?q=fr/recrutement/lc1
Si vous êtes intéressé, merci d'envoyer un CV (incluant une liste de
publication), une lettre de motivation et les noms de deux référents à :
Isabelle Léglise (leglise at vjf.cnrs.fr) & Pascal Vaillant
(vaillant at vjf.cnrs.fr)
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20111028/a6726e24/attachment.htm>
More information about the Parislinguists
mailing list