Job: Stage Master 2, Extraction de relations a grande echelle, CEA-LIST
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Fri Jan 13 21:16:10 UTC 2012
Date: Wed, 11 Jan 2012 15:05:23 +0100
From: Romaric Besançon <romaric.besancon at cea.fr>
Message-ID: <4F0D9723.9000805 at cea.fr>
Proposition de stage de Master 2 (6 mois)
Extraction faiblement supervisée de relations entre entités à une large
échelle
CEA LIST, Laboratoire Vision et Ingénierie des contenus, Nano-Innov
(Palaiseau)
Encadrants: Olivier Ferret et Romaric Besançon
CONTEXTE
Le sujet de stage proposé se situe dans le domaine de l'extraction
d'information. Celle-ci a pour objectif de repérer automatiquement dans
des textes les entités caractéristiques d'un domaine ainsi que les
relations intervenant entre ces entités, ceci dans le but d'alimenter
une base de connaissances ou une base de données.
À titre d'exemple, pour le passage :
"With a father from Kenya and a mother from Kansas, President Obama was
born in Hawaii on August 4, 1961."
une telle extraction donne le résultat suivant si l'on s'intéresse aux
données de naissance d'une personne :
Lieu_naissance : bornIn(President Obama, Hawaii)
Date_naissance : bornOn(President Obama, August 4, 1961)
OBJECTIFS
Le stage se situe plus précisément dans le cadre de l'extraction de
relations à large échelle, c'est-à-dire opérant sur de larges ensembles
de textes (plusieurs millions) et se focalisant sur un grand nombre de
types de relations (plusieurs dizaines). Compte tenu de ce cadre, la
ligne directrice est l'adoption d'une approche faiblement supervisée :
au lieu d'apprendre des modèles de relations à partir de corpus annotés
manuellement, le principe est de prendre comme point de départ des
relations issues d'une base de connaissances et de projeter ces
relations dans un corpus selon un processus d'annotation non supervisée
pour construire des exemples d'apprentissage automatiquement. Le
laboratoire LVIC du CEA LIST a déjà mis en œuvre une telle approche dans
le cadre de l'évaluation KBP (Knowledge Base Population) de la campagne
TAC (Text Analysis Conference).
Le stage se situera dans le prolongement de ce travail en développant la
problématique de l'apprentissage faiblement supervisé de relations et
plus particulièrement de l'utilisation de données d'apprentissage
bruitées. Deux problématiques seront abordées dans cette optique :
- le filtrage des relations extraites, que ce soit pour la construction
des exemples d'apprentissage ou l'extraction finale des relations, en
s'appuyant notamment sur des méthodes d'apprentissage statistique ;
- l'extension de l'ensemble des exemples pour une relation par
l'exploitation de données issues du Web. L'objectif est ici d'acquérir
à partir d'exemples sondes de nouvelles formulations d'un type de
relations ou des paraphrases de formulations déjà rencontrées.
COMPÉTENCES REQUISES
- niveau M2 (ou ingénieur) en Informatique avec une spécialisation
en Traitement Automatique des Langues
- langages C++, Python
Le stage sera rémunéré et se déroulera au centre Nano-Innov du CEA, à
Palaiseau.
Les candidats intéressés par ce stage sont invités à prendre contact
avec Olivier Ferret (olivier.ferret at cea.fr) ou Romaric Besançon
(romaric.besancon at cea.fr) en envoyant un CV et une lettre de motivation.
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list