Job: Post Doc, Acquisitions automatiques de terminologie, Orange Labs, Lannion
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Tue Sep 8 16:27:56 UTC 2009
Date: Tue, 8 Sep 2009 17:54:32 +0200
From: <edmond.lassalle at orange-ftgroup.com>
Message-ID: <4C0774CCF4E9B3408C36301DC24D488D2873E7 at ftrdmel0.rd.francetelecom.fr>
Post doc à Orange Labs
Sujet : Outils d'acquisition automatique de terminologie à partir de
corpus de texte
Date prévue : début novembre 2009
Lieu : Orange Labs à Lannion - Bretagne
Responsable : Edmond Lassalle
Courriel : edmond{dot}lassalle{arobase}orange-ftgroup.com
Tel : 02 96 05 15 98
Profil recherché : bonnes connaissances en apprentissage par des
méthodes statistiques, notion en linguistique souhaitée.
Dans le cadre des études sur les moteurs de recherche de contenus
multimedia, le problème à résoudre est de pouvoir disposer d'une base
terminologique counvrant les vraies requêtes des utilisateurs du
moteur. Le but de l'étude demandée dans ce travail de post doc est de
pouvoir compléter des données terminologiques existantes par des
données acquises automatiquement à partir de l'analyse de corpus de
texte correspondant à l'application visée. La langue traitée est le
français.
La durée du contrat est de 12 mois renouvelable pour 6 mois.
Les étapes envisagées pour ce travail de post doc sont les suivantes :
- phase 1 : détermination des corpus à partir de la problématique des
moteurs multimedia :
A partir des sous-titres des journaux télévisés, évaluer leur
qualité et la pertinence statistique .
Pour les besoins d'élargissement à des corpus de presse écrite,
déterminer l'adéquation de la thématique contenu multimedia/presse
écrite.
Le cas échéant définir le profil de presse écrite à crawler Le
résultat de ce travail est de constituer un corpus (dynamique)
"uniforme" permettant par la suite de tester les différents outils
sur la base des m^mes données.
- phase 2 : Etablir la liste de outils à tester (ceux existant à
Orange R&D) ou d'autres outils découverts sur le Web . Préparer les
plateformes logicielles et essais préliminaires.
Le résultat de ce travail est de rendre utilisables les outils
sélectionnés et de rédiger un mode d'emploi simplifié
- phase 3 : mettre en oeuvre les outis avec les corpus établis et
fournir "en continu", des données de terminologie réactualisée en
fonction de l'évolution des corpus.
Le résultat de ce travail est de constituer des collections de
données fournies par différents outils et dans le temps afin de
faire des évaluations
- phase 4 : évaluation finale, bilan et recommandation le cas échéants
sur les conditions mettant en adéquation tel type d'outil avec tel
type de données d'apprentissage et tel type d'application
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list