Job: Post-Doc Classification de textes scientifiques - projet quaero - INIST

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Thu Sep 2 19:51:16 UTC 2010


Date: Tue, 3 Aug 2010 11:23:33 +0200
From: "GAUTIER, Patricia" <Patricia.GAUTIER at inist.fr>
Message-ID: <587A9635632B174A943E53AF3B58A9080141DAB8A8 at vanda>
X-url: http://recherche.inist.fr/
 

Proposition de Post-doc (18mois)  
Classification supervisée de textes scientifiques


Le Service Recherche et Développement en Ingénierie (SRDI) de
l'Institut de l'Information Scientifique et Technique (INIST) du
Centre National de la Recherche Scientifique et Technique (CNRS)
propose un poste CDD de 18 mois. La personne recrutée sera basée à
l'INIST à Nancy.

Cadre :

Cet emploi se situe dans le cadre du projet QUAERO, programme
fédérateur de recherche et d'innovation industrielle sur les
technologies d'analyse automatique, de classification et d'utilisation
de documents multimédias et multilingues.
Ce programme vise à créer une interaction forte entre les partenaires
industriels qui gèrent les projets applicatifs et les organismes de
recherche. Le consortium qui se compose de partenaires français et
allemands est coordonné par la société Technicolor.
Le SRDI participe à deux projets de ce programme : le projet
technologique CORPUS dont l'objectif est de constituer des bases de
données multimédias annotées par des procédés manuels ou semi manuels,
et le projet applicatif TIAE (Text & Image Annotation Engine)
coordonné par la société Jouve en collaboration avec la BNF et le
laboratoire MIG-INRA.
C'est dans le cadre ce projet applicatif que se déroulera le travail
proposé.

Objectif : 

L'objectif du projet est de proposer une méthode de classification
automatique d'articles scientifiques dans le plan de classement
documentaire. Dans un premier temps, il s'agira de définir une
méthodologie permettant d'affecter des articles scientifiques dans un
plan de classification internationale de brevets en utilisant un
corpus de brevets et d'articles scientifiques associés comme corpus
d'apprentissage. Diverses méthodes devront être testées et évaluées
(Rocchio, K-NN, ANN, SVM, Naive Bayes, Arbres de décision…). Il sera
très important d'étudier également le mode de représentation des
documents (indexation des articles scientifiques). Les résultats
obtenus pourront être confrontés aux résultats obtenus par nos
partenaires.


Compétences requises :
Doctorat ou diplôme d'ingénieur dans le domaine du traitement
numérique, analyse statistique, classification automatique avec de
forts compétences en développement informatique. Une connaissance des
problèmes de classification ou de clustering sur des données
textuelles serait un plus très apprécié.


Salaire : grille CNRS selon diplôme 
Contact : 
Claire FRANCOIS, Responsable du service Recherche et Développement en
Ingénierie
INIST-CNRS
2 allée du Parc de Brabois – CS 10310 
54519 Vandoeuvre lès Nancy Cedex
Tél : 03 83 50 94 46
Mél : claire.francois at inist.fr
Site Web : http://recherche.inist.fr/

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list