Job: CDD 24 mois, Caracterisation multimedia a grande echelle de contenus sur le Web, CEA LIST, Saclay
Thierry Hamon
hamon at LIMSI.FR
Sat Sep 20 20:35:19 UTC 2014
Date: Fri, 19 Sep 2014 11:00:31 +0000
From: LE BORGNE Hervé 214777 <herve.le-borgne at cea.fr>
Message-ID: <8095024FD92B3D4DB88787F07FC9963824235653 at EXDAG0-B3.intra.cea.fr>
Contexte
Au sein du CEA LIST, le Laboratoire LVIC (Vision et Ingénierie des
Contenus) travaille sur l'analyse de contenus multimédias (analyse de
textes, images et vidéos, perception 3D).
Dans le domaine de l'analyse de textes, le CEA LIST recherche un CDD
ingénieur ou docteur pour travailler sur des techniques d'extraction et
de clustering de relations à partir de données textuelles en vue de leur
application à l'extraction d'information multimédia, incluant une
dimension visuelle.
Objectifs
Dans le cadre d'un projet collaboratif (FUI 17), le CEA LIST travaille à
l'extraction d'information multimédia à grande échelle selon trois axes :
- [A] Classification multimédia à grande échelle : la classification de
contenu sur le web dans des catégories à granularité variable repose
aujourd'hui essentiellement sur le contenu textuel. Le but de cet axe
de travail est d'y ajouter une dimension visuelle. Les principaux
verrous sont liés à la quantité d'information à traiter (aspect «
large échelle ») et à la combinaison des informations provenant de
différents média. On se souciera du compromis
performance/efficience. Ces travaux pourront bénéficier de l'axe C
pour définir dynamiquement les classes.
- [B] Modélisation temporelle : l'identification de références
temporelles dans les documents textuels et l'utilité de l'information
temporelle dans la recherche d'information est un problème bien
étudié, mais l'accent est plutôt mis sur les documents que sur les
entités. Les approches existantes restent étroitement liées à des
tâches de recherche d'information et non à une véritable extraction
temporellement dynamique des caractéristiques d'entités. En outre, la
plupart des approches existantes se concentrent sur des documents
purement textuels alors que les données incluses dans les flux de
données multimodales sont également intéressantes à suivre
temporellement. Ainsi, les innovations de cette tâche sont (B1) le
suivi temporel d'entités, puisque ce thème a peu été étudié ; (B2)
l'ajout de la dimension visuelle à cette modélisation.
- [C] Découverte de connaissances multimédia : les tâches de
catégorisation supervisée sur des très grands volumes de données
traités en flux, nécessaires pour qualifier l'information du web,
nécessite de disposer de données annotées pour effectuer
l'apprentissage. À grande échelle, un verrou fondamental est de
sélectionner automatiquement les données d'apprentissage. En
particulier, le choix des exemples négatifs doit permettre
l'apprentissage de modèles à la fois discriminants et généralisables.
Le travail du CDD consistera plus particulièrement à (dans cet ordre de
priorité) :
- étudier, implémenter et évaluer une méthode de modélisation temporelle
basée sur les informations textuelles (axe B1) ;
- étudier, implémenter et évaluer une méthode de sélection des données
d'apprentissage pour des modèles de classification supervisée
d'entités visuelles (axe A et C)
- étudier, implémenter et évaluer une méthode combinant les deux travaux
précédents résultant en une modélisation temporelle d'entités
multimédia incluant la dimension visuelle (axe B2).
Le CEA LIST dispose déjà de plusieurs outils permettant de supporter les
axes A et C. De plus d'autres personnes travailleront en parallèle à ces
tâches au sein du laboratoire.
Profil recherché:
- Compétences en traitement multimédia des données : traitement
automatique des langues et/ou vision par ordinateur (un goût pour les
deux aspects serait très apprécié).
- Connaissance des techniques d'apprentissage automatique
- Compétences informatiques : C++, langages de script (perl, python ...)
- Une bonne maîtrise de la langue anglaise est également indispensable.
- Un travail préalable de recherche, ayant abouti à des publications de
bon niveau, sera jugé très positivement.
Rémunération selon formation et expérience.
Lieu de travail : centre d'intégration NanoInnov (plateau de Saclay,
proche de Polytechnique)
Durée : 24 mois
Les candidatures (CV + lettre de motivation) sont à envoyer le plus
rapidement possible à :
Hervé Le Borgne (herve.le-borgne at cea.fr<mailto:herve.le-borgne at cea.fr>)
avec copie à :
Adrian Popescu (adrian.popescu at cea.fr<mailto:adrian.popescu at cea.fr>)
Romaric Besançon (romaric.besancon at cea.fr<mailto:romaric.besancon at cea.fr>)
Olivier Ferret (olivier.ferret at cea.fr<mailto:olivier.ferret at cea.fr>)
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------
More information about the Ln
mailing list