Job: CDD Ingenieur ou Docteur en TAL, 18 mois, CEA LIST/LVIC, Palaiseau, Ile-de-France

Thierry Hamon hamon at LIMSI.FR
Wed Sep 10 20:30:18 UTC 2014


Date: Wed, 10 Sep 2014 10:34:59 +0000
From: SEMMAR Nasredine 202247 <nasredine.semmar at cea.fr>
Message-ID: <50CC12289F0C854FBFF134F270030CD71ECF9649 at EXDAG0-B3.intra.cea.fr>


Contexte :
------------

Au sein du CEA LIST, le Laboratoire LVIC (Vision et Ingénierie des
Contenus) travaille sur l'analyse de contenus multimédias (analyse de
textes, images et vidéos, perception 3D).

Dans le domaine de l'analyse de textes, le CEA LIST recherche un CDD
ingénieur ou docteur pour travailler sur des techniques d’extraction et
de clustering de relations à partir de textes.

Objectifs :
------------

À partir de document textuels provenant de différentes sources (par
exemple des dépêches d'actualité), l'application visée a pour but
d’extraire automatiquement à partir de textes des relations entre des
entités d’intérêt, le plus souvent des entités nommées, et de regrouper
les relations extraites en fonction de leur similarité sémantique.

Plus précisément, l’extraction des relations a ici la particularité de
s’effectuer de façon non supervisée : le type des relations extraites
n’est en effet pas défini a priori. L’extraction, s’appuyant sur des
approches à base d’apprentissage automatique, doit donc s’effectuer à
partir de critères ne dépendant pas d’un type de relations
spécifique. La perspective générale est ainsi celle de la veille :
connaissant un ensemble d’acteurs, par exemple des sociétés, l’objectif
est d’extraire ce qui caractérise les relations intervenant entre ces
acteurs dans un ensemble de textes, sans a priori trop marqué.

La définition du type des relations extraites se fait quant à elle a
posteriori par le biais du regroupement des relations jugées similaires
sur le plan sémantique. Ce regroupement sera dans un premier temps fondé
sur des mesures standards de similarité textuelle (représentation
vectorielle construite à partir d’une analyse linguistique des
textes). Des mesures de similarité plus sémantiques, s'appuyant en
particulier sur la notion de sémantique distributionnelle, seront à
tester dans un second temps. Les approches développées devront avoir la
capacité de travailler à large échelle (plusieurs centaines de milliers
de relations).

En amont de ces deux tâches principales, une étude concernant la
constitution de larges bases d’entités nommées multilingues sera
également à mener.

Le travail du CDD consistera plus particulièrement  à :

- étudier, implémenter et évaluer une extraction non supervisée de
  relations par apprentissage statistique ;

- étudier, implémenter et évaluer le regroupement des relations
  extraites sur des critères de surface ;

- étudier, implémenter et évaluer le regroupement des relations
  extraites sur des critères sémantiques;

- inventorier les bases d’entités nommées existantes, les intégrer à
  l’outil de reconnaissance d’entités nommées du LVIC et étudier la
  possibilité d’acquérir de nouvelles entités à partir de corpus alignés
  ou comparables.

Profil recherché :
--------------------

- Compétences en traitement automatique des langues / recherche
  d'information

- Connaissance des techniques d'apprentissage automatique (SVM, CRF …)
  et de clustering

- Compétences informatiques : C++, langages de script (perl, python ...)

Le travail devant se réaliser dans le contexte d’un projet européen, une
bonne maîtrise de la langue anglaise est également demandée.

Rémunération selon formation et expérience.

Lieu de travail : Centre d’intégration NanoInnov (plateau de Saclay,
proche de Polytechnique)

Durée : 18 mois

Les candidatures (CV + lettre de motivation) sont à envoyer le plus
rapidement possible à :

Nasredine Semmar (nasredine.semmar at cea.fr)
avec copie à :
Romaric Besançon (romaric.besancon at cea.fr)
Olivier Ferret (olivier.ferret at cea.fr)

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------



More information about the Ln mailing list