Job: CDD Ingenieur TAL, 18 mois, CEA LIST / LVIC, Palaiseau, Ile-de-France

Tue Sep 2 21:07:42 UTC 2014

Date: Tue, 2 Sep 2014 09:13:19 +0000
From: SEMMAR Nasredine 202247 <nasredine.semmar at cea.fr>
Message-ID: <50CC12289F0C854FBFF134F270030CD71ECF89DA at EXDAG0-B3.intra.cea.fr>

Contexte :
------------

Au sein du CEA LIST, le Laboratoire LVIC (Vision et Ingénierie des
Contenus) travaille sur l'analyse de contenus multimédias (analyse de
textes, images et vidéos, perception 3D).

Dans le domaine de l'analyse de texte, le CEA LIST recherche un CDD
ingénieur ou docteur pour travailler sur des techniques de
classification et clustering de textes dans un cadre multilingue.

Objectifs :
------------

A partir de document textuels provenant de plusieurs sources (par
exemple des dépêches d'actualité), pouvant être de langues différentes,
l'application visée a pour but de regrouper automatiquement les dépêches
traitant des mêmes sujets.

Ce regroupement sera dans un premier temps fondé sur des mesures
standard de similarité textuelle (représentation vectorielle s'appuyant
sur une analyse linguistique des textes), mais des mesures de
similarités plus sémantiques, s'appuyant en particulier sur la notion de
sémantique distributionnelle, seront également testées.

Pour le clustering proprement dit, plusieurs algorithmes seront
envisagés (clustering hiérarchique, Shared Nearest Neighbors, Markov
Clustering...), mais les algorithmes développés devront être
suffisamment robustes pour travailler à large échelle.

La tâche du CDD consistera donc en particulier à :

- étudier et tester les algorithmes de clustering de documents sur des
  corpus de différentes langues ;

- travailler sur la mise au point d'un espace de représentation des
  documents commun pour des documents de langues différentes, fondé sur
  un alignement des lexiques bilingues pour construire des clusters
  mutlilingues ;

- évaluer les différentes solutions sur des corpus de référence ;

Profil recherché:
--------------------

- Compétences en traitement automatique des langues / recherche
  d'information / mesures de similarité textuelle

- Connaissances des techniques d'apprentissage et de clustering /
  classification (SVM, CRF, etc.)

- Compétences informatiques: C/C++, scripts (perl, python...)

Rémunération selon formation.

Les candidatures (CV + Lettre de motivation) sont à envoyer le plus
rapidement possible à :

Olivier Ferret (olivier.ferret at cea.fr)
Romaric Besançon (romaric.besancon at cea.fr)
Nasredine Semmar (nasredine.semmar at cea.fr)

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------