Job: Stage Syllabs - detection de concepts emergents

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Nov 10 20:01:50 UTC 2010


Date: Wed, 10 Nov 2010 10:58:51 +0100
From: "Marie Guegan" <guegan at syllabs.com>
Message-ID: <000b01cb80bd$e093fbc0$a1bbf340$@com>
X-url: http://www.syllabs.com

Sujet du stage : détection de concepts émergents dans un flux
multimédia

Durée : stage de fin d'études (5 à 6 mois)
Début du stage souhaité : entre février et avril 2011
Lieu : Syllabs, 15 rue Jean-Baptiste Berlier, 75013 Paris 
http://www.syllabs.com 

Mots-clés : apprentissage automatique, catégorisation, clustering,
multimédia

Contexte

Syllabs est spécialisée en analyse sémantique et en création
automatique de textes. Nos technologies apportent des solutions
d'analyse de données textuelles du Web : identification, récupération
et nettoyage des pages pertinentes, extraction et catégorisation des
informations clé.

Nous recherchons un(e) stagiaire dans le cadre du projet ANR SuMACC
auquel participent Eurecom, le Laboratoire Informatique d'Avignon et
Wikio. Le projet SuMACC (apprentissage coopératif semi-Supervisé de
concepts Multimédias pour l'Aide à la Catégorisation et la détection
de Concepts) propose d'explorer des stratégies d'apprentissage
originales pour l'identification de nouveaux concepts ou entités
multimédias à partir de patrons d'identification. Le démarrage du
projet est prévu pour la fin 2010.

Objectifs

Nous nous plaçons dans le contexte d'une base de documents volumineuse
contenant du texte, des images, de l'audio et de la vidéo. Le maintien
de la base requiert une catégorisation et une indexation des documents
dans un thésaurus par des documentalistes. Le thésaurus peut lui-même
subir des mises à jour en fonction de l'évolution du contenu de la
base (nouveaux thèmes émergents par exemple). Ces tâches sont très
coûteuses car actuellement effectuées de façon quasi-manuelle par les
documentalistes.

Le stage proposé vise à automatiser une partie de ces tâches. En
particulier, il faudra concevoir, implémenter et évaluer des méthodes
automatiques pour :

- détecter les nouvelles entrées ou concepts à ajouter au thésaurus ;

- contrôler la cohérence d'un concept du thésaurus à travers une
  mesure d'homogénéité des documents qu'il caractérise ;

- proposer aux documentalistes de nouveaux termes liés à chaque
  concept du thésaurus ;

Le point sur le "contrôle de cohérence" nécessite la définition d'une
ou plusieurs mesures d'homogénéité pour un ensemble de documents, en
tenant compte de leur nature multimédia. Ce stage aura pour effet
d'améliorer l'efficacité du travail des documentalistes.

La personne travaillera au sein de l'équipe R&D.

Profil souhaité

    * Ecole d'ingénieurs avec un goût pour la recherche, master 2
      recherche en informatique

    * Bonnes compétences en programmation : maîtrise de Java et Python
      souhaitée

    * Spécialisation en statistiques, apprentissage automatique,
      classification

Eléments facultatifs mais considérés comme un plus :


    * Connaissances souhaitées dans le domaine du
      Traitement Automatique des Langues

    * Maîtrise d'une ou plusieurs langues étrangères

Merci d'envoyer votre candidature à l'adresse
stage_emergence at syllabs.com .

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list