Job: Post-doc, LABEX EFL - SEDYL-CNRS - fouille de texte sur corpus de contact de langues

Sat Nov 5 13:49:57 UTC 2011

Date: Fri, 4 Nov 2011 10:26:50 +0100
From: Pascal Vaillant <vaillant at univ-paris13.fr>
Message-Id: <201111041026.50937.vaillant at univ-paris13.fr>
X-url: http://www.labex-efl.org/?q=en/hiring/lc1

Annonce de poste de post-doc : LABEX EFL - SEDYL

Job offer at LABEX EFL - SEDYL : English text further down in the
message

------------------------

À diffuser -

Chers collègues,

Nous proposons un poste de post-doc en fouille de données textuelle, au
sein du projet décennal LABEX EFL (« Empirical Foundations of
Linguistics » - Fondements empiriques de la linguistique), qui a débuté
en 2011. Le poste est basé à Paris, au sein de l'équipe de recherche UMR
SEDYL (CNRS-INALCO-IRD). Il est lié à l'axe « Typologie et dynamique des
systèmes linguistiques » de ce projet, et plus spécifiquement au
programme de recherche dirigé par Isabelle Léglise : « Analyse
multifactorielle du contact de langues et du changement linguistique »
(LC1).

__________________________

  Poste de recherche post-doctorale : Fouille de données
  textuelles sur des corpus multilingues et hétérogènes

  Mots-clés: linguistique informatique, fouille de données,
  apprentissage sur des données de grande dimension

*Date limite de candidature : *
*10 novembre 2011*

Compétences

Le candidat doit avoir un doctorat en informatique, et une expérience
dans le domaine de la fouille de données, de préférence sur un domaine
d'application linguistique (fouille de texte, traitement automatique de
la langue).  Il doit avoir travaillé sur des problèmes de fouille de
données impliquant des données de grande dimension. Le candidat doit
avoir une familiarité avec les données structurées en XML, et les textes
formatés et annotés en XML. Une connaissance des normes d'annotation
(TEI) serait un avantage.

Il doit savoir programmer en C, C++ ou Java. Il doit connaître et savoir
utiliser (ou être prêt à apprendre) le modèle relationnel de bases de
données et le langage SQL (une connaissance du système MySQL est un
avantage).  Un intérêt pour la diversité linguistique sera un atout pour
le poste.

Description

La tâche consiste à concevoir et à développer des fonctions de fouille
de texte appliquées à des corpus de langues en contact, c'est-à-dire à
des transcriptions de productions verbales non-homogènes sur le plan de
la langue (où les locuteurs parlent plusieurs langues à la fois, ou
« mélangent » les langues), recueillies dans des régions multilingues
(38 langues de tous les continents sont concernées). Ce cas de figure
est traditionnellement peu pris en compte par les algorithmes de la
linguistique informatique (inférence grammaticale, étiquetage syntaxique
ou sémantique). L'objectif est de mettre en évidence des corrélations de
certaines catégories d’unités, ou de certaines positions syntaxiques,
avec les phénomènes de changement de langue.

La difficulté du sujet réside dans le grand nombre des variables à
analyser, par rapport à la taille du corpus (nombre d'échantillons) qui
reste comparativement modeste. Cette caractéristique rattache ce
problème au domaine de recherche de l’analyse de données de grande
dimension.

Durée

12 mois, à partir de décembre 2011 ou de janvier 2012
Poste à temps plein
http://www.labex-efl.org/?q=en/hiring/lc1

Rémunération

24 000 EUR par an

Si vous êtes intéressé, prière d'envoyer un CV (comprenant une liste de
publications), une lettre de motivation, et le nom de deux référents, à
:

Isabelle Léglise (leglise at vjf.cnrs.fr) & Pascal Vaillant 
(vaillant at vjf.cnrs.fr)

------------------------
Please circulate -

Dear colleagues,

We offer a 12 months postdoc position in text data mining within the
10-year LABEX project "Empirical foundations of linguistics" that
started in 2011. The position is based in Paris, at the UMR SEDYL
(CNRS-INALCO-IRD). It is linked to the strand « Typology and dynamics of
linguistic systems » of this project, and more specifically to the
research programme supervised by Isabelle Léglise: Multifactorial
Analysis of language contact & language changes(LC1)

__________________________

  Postdoctoral research fellow : Text data mining applied to
  heterogeneous and multilingual corpora

  Keywords:
computational linguistics, data mining, high-dimension data analysis

*Application deadline: *
*2011/11/10
*
Competences

The candidate should have a PhD in computer science, and should be an
expert in the field of data mining, preferably on a linguistic field of
application (text mining, natural language processing) involving
large-dimension data/texts. The candidate should have experience of XML
format. A knowledge of TEI standards will be a plus. She must know how
to program in C language; C ++ or Java.  She will use the relational
model of databases and the SQL language; knowledge of MySQL is an
advantage. An interest for linguistic diversity is a good point.

      Description

This task consists in developing functions of search / data mining
applied to language contact corpora, that is to transcriptions of
non-homogeneous and mixed verbal productions collected in multilingual
areas (38 languages from all continents involved). This scenario is
traditionally little taken into account by the algorithms of
computational linguistics (grammatical inference or lexical labeling).
We expect to find correlations of certain categories, or certain
syntactical positions, with language contact or language change
phenomena.  Given the large number of variables to be analyzed, with
regard to the size of the corpus (number of samples), we will need to
explore approaches in data dimensionality reduction such as "manifold
learning".

Duration:
12 months, starting 1st of december 2011 or january 2012
It is a full-time position
http://www.labex-efl.org/?q=en/hiring/lc1

Salary:
24 000 EUR /year

If you are interested, please send a a CV (including a publication 
list), a letter of application and the names of two referents to:

Isabelle Léglise (leglise at vjf.cnrs.fr) & Pascal Vaillant 
(vaillant at vjf.cnrs.fr)

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------