Job: CDD 18 mois Extraction d'entites specifiques (Apprentissage, Desambiguisation et Linking), CEA LIST

Fri Nov 8 22:15:01 UTC 2013

Date: Thu, 07 Nov 2013 17:16:33 +0100
From: <faiza.gara at cea.fr>
Message-ID: <sympa.1383840957.11512.108 at cines.fr>

Le Laboratoire de Vision et d'Ingénierie des Contenus du CEA LIST
emploie une cinquantaine chercheurs et ingénieurs travaillant sur
l'analyse et l'interprétation de données multimédia (texte, image et
analyse de vidéos).  Le LVIC développe des algorithmes robustes pour
l'extraction, l'analyse et le filtrage de grands volumes de données
multimédia (texte, image, vidéo). La fusion de ces media permet une
meilleure interprétation ou compréhension des scènes ou des documents.

Nos technologies ont contribué à l'émergence de nouvelles activités
économiques. En effet, ces technologies ont permis la création de
startups comme Senseetive ou Ant’Inno. Par ailleurs, le laboratoire
participe à de nombreux projets collaboratifs (ANR, Europe FP7, Pôle de
Compétitivité) avec des partenaires académiques, PMEs ou grands
industriels.

Dans le cadre de plusieurs projets de la thématique "Traitement
Automatique des Langues", le laboratoire LVIC recherche un ingénieur
pour assister les chercheurs du laboratoire dans la conception,
l'implémentation et l’évaluation de modules logiciels pour
l’identification et le typage d’entités nommées. Les objectifs sont plus
précisément :

- intégrer plusieurs modèles d’identification et de typage d’entités
  nommées : modèle à base de règles (déjà implémenté dans le
  laboratoire) et modèle fondé sur un apprentissage statistique;

- intégrer des bases de connaissances existantes de type encyclopédique
  (DBPedia, Geonames, etc.) dans ces modèles d’identification et de
  typage d’entités en gérant le problème du passage à l’échelle ;

- développer des méthodes permettant d’identifier dans les textes des
  entités présentes dans une base de connaissances de référence et de
  lever les éventuelles ambiguïtés de rattachement lors de cette
  identification (entity linking)

Le candidat devra candidat devra posséder une bonne maîtrise du
développement en C++ sous Linux (base de code installée de plusieurs
centaines de milliers de lignes) et connaître (ou être capable de se
familiariser rapidement avec) des bibliothèques telles que STL,
Xerces-C, Boost, gSoap, etc. Les compétences requises incluent également
la maîtrise de principes de conception de type Design Patterns et
d'outils développement tels que tels que gdb, valgrind, etc. Enfin, une
connaissance des techniques du TAL (Traitement Automatique des Langues)
ou des techniques d'apprentissage et de classification (SVM, CRF, etc.)
est considérée comme fortement souhaitable.

Le poste proposé est un CDD de 18 mois, rémunéré selon les grilles de
salaire du CEA (dépendant de la formation et de l'expérience). Il sera
basé sur le centre Nano'Innov, situé près du Campus de l’école
Polytechnique à Palaiseau (91).

Contact: Faiza GARA
Email : faiza.gara at cea.fr
Tel : 01 69 08 01 48

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------