Job: CDD Ingenieur TAL, CEA LIST

Wed Nov 14 18:36:20 UTC 2012

Date: Wed, 14 Nov 2012 16:36:18 +0100
From: Romaric Besançon <romaric.besancon at cea.fr>
Message-ID: <50A3BA72.8000408 at cea.fr>

Proposition de CDD au CEA LIST

Sujet: Classification et clustering de textes
Type de poste: CDD 8 à 12 mois
Lieu de travail: CEA LIST Nano-Innov, Palaiseau (91)

Contexte

Au sein du CEA LIST, le Laboratoire LVIC (Vision et Ingénierie des
Contenus) travaille sur l'analyse de contenus multimédias (analyse de
textes, images et vidéos, perception 3D).
Dans le domaine de l'analyse de texte, le CEA LIST recherche un CDD
ingénieur ou docteur pour travailler sur des techniques de
classification et clustering de textes dans un cadre multilingue.

Objectifs

A partir de document textuels provenant de plusieurs sources (par
exemple des dépêches d'actualité), pouvant être de langues différentes,
l'application visée a pour but de regrouper automatiquement les dépêches
traitant des mêmes sujets.  Ce regroupement sera dans un premier temps
fondé sur des mesures standard de similarité textuelle (représentation
vectorielle s'appuyant sur une analyse linguistique des textes), mais
des mesures de similarités plus sémantiques, s'appuyant en particulier
sur la notion de sémantique distributionnelle, seront également testées.
Pour le clustering proprement dit, plusieurs algorithmes seront
envisagés (clustering hiérarchique, Shared Nearest Neighbors, Markov
Clustering...), mais les algorithmes développés devront être
suffisamment robustes pour travailler à large échelle.

La tâche du CDD consistera donc en particulier à :
- étudier et tester les algorithmes de clustering de documents sur des
  corpus de différentes langues ;
- travailler sur la mise au point d'un espace de représentation des
  documents commun pour des documents de langues différentes, fondé sur
  un alignement des lexiques bilingues pour construire des clusters
  mutlilingues ;
- évaluer les différentes solutions sur des corpus de référence ;

Profil recherché:
- Compétences en traitement automatique des langues / recherche
  d'information / mesures de similarité textuelle
- Connaissances des techniques de clustering / classification
- Compétences informatiques: C/C++, scripts (perl,python...)

Rémunération selon formation.

Les candidats intéressés doivent envoyer un email de candidature à
romaric.besancon at cea.fr avec un CV détaillé (pdf) et une lettre de
motivation.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------