Job: Post Doc, Acquisitions automatiques de terminologie, Orange Labs, Lannion

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Sep 8 16:27:56 UTC 2009


Date: Tue, 8 Sep 2009 17:54:32 +0200
From: <edmond.lassalle at orange-ftgroup.com>
Message-ID: <4C0774CCF4E9B3408C36301DC24D488D2873E7 at ftrdmel0.rd.francetelecom.fr>


Post doc à Orange Labs

Sujet : Outils d'acquisition automatique de terminologie à partir de
        corpus de texte
Date prévue : début novembre 2009
Lieu : Orange Labs à Lannion - Bretagne
Responsable : Edmond Lassalle
Courriel : edmond{dot}lassalle{arobase}orange-ftgroup.com
Tel : 02 96 05 15 98

Profil recherché : bonnes connaissances en apprentissage par des
méthodes statistiques, notion en linguistique souhaitée.

Dans le cadre des études sur les moteurs de recherche de contenus
multimedia, le problème à résoudre est de pouvoir disposer d'une base
terminologique counvrant les vraies requêtes des utilisateurs du
moteur. Le but de l'étude demandée dans ce travail de post doc est de
pouvoir compléter des données terminologiques existantes par des
données acquises automatiquement à partir de l'analyse de corpus de
texte correspondant à l'application visée.  La langue traitée est le
français.

La durée du contrat est de 12 mois renouvelable pour 6 mois. 


Les étapes envisagées pour ce travail de post doc sont les suivantes :

- phase 1 : détermination des corpus à partir de la problématique des
  moteurs multimedia : 
  A partir des sous-titres des journaux télévisés, évaluer leur
  qualité et la pertinence statistique . 
  Pour les besoins d'élargissement à des corpus de presse écrite,
  déterminer l'adéquation de la thématique contenu multimedia/presse
  écrite.
  Le cas échéant définir le profil de presse écrite à crawler Le
  résultat de ce travail est de constituer un corpus (dynamique)
  "uniforme" permettant par la suite de tester les différents outils
  sur la base des m^mes données.


- phase 2 : Etablir la liste de outils à tester (ceux existant à
  Orange R&D) ou d'autres outils découverts sur le Web . Préparer les
  plateformes logicielles et essais préliminaires.
  Le résultat de ce travail est de rendre utilisables les outils
  sélectionnés et de rédiger un mode d'emploi simplifié

- phase 3 : mettre en oeuvre les outis avec les corpus établis et
  fournir "en continu", des données de terminologie réactualisée en
  fonction de l'évolution des corpus.
  Le résultat de ce travail est de constituer des collections de
  données fournies par différents outils et dans le temps afin de
  faire des évaluations 

- phase 4 : évaluation finale, bilan et recommandation le cas échéants
  sur les conditions mettant en adéquation tel type d'outil avec tel
  type de données d'apprentissage et tel type d'application 

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list