Job: Stage M2, Extraction supervisee de relations entre entites nommees a une large echelle, CEA LIST/LVIC, Fontenay-aux-Roses

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Jan 19 20:24:39 UTC 2010


Date: Tue, 19 Jan 2010 16:30:05 +0100
From: "FERRET Olivier 174579" <olivier.ferret at cea.fr>
Message-ID: <457C3CAAA0CD2D40A64E4D03419B57AA9DD4BD at LaBeaujoire.intra.cea.fr>
X-url: http://apl.jhu.edu/~paulmac/kbp/090601-KBPTaskGuidelines.pdf
X-url: http://www.itl.nist.gov/iad/mig/tests/ace/
X-url: http://www.cea.fr/ressources_humaines/stages_longue_duree/extraction_supervisee_de_relations_entre_entites3


Proposition de stage de master 2 

Extraction supervisée de relations entre entités nommées à une large
échelle

Olivier Ferret (ferreto__zoe.cea.fr) et Romaric Besançon
(besanconr__zoe.cea.fr)

CEA LIST/LVIC, Fontenay-aux-Roses

CONTEXTE
Le sujet de stage proposé se situe globalement dans le domaine du
Traitement Automatique des Langues (TAL) et se focalise plus
précisément sur l'une de ses branches applicatives les plus actives,
l'extraction d'information. Celle-ci a pour objectif de repérer
automatiquement dans des textes les entités caractéristiques d'un
domaine ainsi que les relations intervenant entre ces entités, ceci
dans le but d'alimenter une base de connaissances ou une base de
données.

Les entités considérées dans ce cadre sont plus précisément appelées
entités nommées et dans le cas le plus général, correspondent à des
noms de personnes, de lieux, d'organisations ou à des entités
numériques telles que des dates, des montants financiers ou des
mesures. Les relations entre ces entités peuvent être dans les cas les
plus complexes des relations n-aires allant jusqu'à la notion
d'événement. Par exemple, un événement de rachat d'une entreprise par
une autre est représentable par une relation du type :

Achat_entreprise
   société acheteuse : ORG
   société achetée : ORG
   montant : MONEY
   date : DATE
où société acheteuse définit le rôle d'une entité et ORG, son type.

Dans le cadre du stage, seules des relations binaires seront
considérées. Le processus d'extraction d'information peut dans ce cas
se résumer aux deux étapes suivantes :

   - détection des entités nommées ;
   - détection des relations entre les entités identifiées.

A titre d'exemple, pour le passage :
"With a father from <loc>Kenya</loc> and a mother from
<loc>Kansas</loc>, <pers>President Obama</pers> was born in
<loc>Hawaii</loc> on <date>August 4, 1961</date>."
ces deux étapes donnent le résultat suivant si l'on s'intéresse aux
données de naissance d'une personne :
Détection des entités nommées
   Noms de lieux : Kenya, Kansas, Hawaii
   Noms de personnes : President Obama
   Date : August 4, 1961

Détection des relations entre entités
   Lieu_naissance : bornIn(President Obama, Hawaii)
   Date_naissance : bornOn(President Obama, August 4, 1961)


OBJECTIFS DU STAGE
De nombreux travaux ont été réalisés sur la détection des entités
nommées et comparés lors de plusieurs campagnes d'évaluation (shared
task CoNLL 2002 et 2003, ACE ...). Le laboratoire LVIC (anciennement
LIC2M) du CEA LIST possède en outre, au travers de sa plate-forme
LIMA, des outils de traitement linguistique intégrant la
reconnaissance d'entités nommées "générales". Le stage se concentrera
donc sur la phase d'extraction de relations, pour laquelle le niveau
de performance des systèmes actuels reste à améliorer. C'est
particulièrement le cas lorsque l'objectif est de couvrir un ensemble
large de types de relations. Le stage s'effectuera dans la perspective
de l'évaluation KBP (Knowledge Base Population) de la campagne TAC
2009 (Text Analysis Conference) et en reprendra les caractéristiques
et les données. Plus précisément, cette évaluation vise à rassembler
des informations factuelles concernant des entités relevant de trois
grands types : personnes, organisations et entités géopolitiques.  Ces
informations factuelles prennent la forme de relations appartenant à
42 types possibles (date et lieux de naissance, âge, religion, nombre
d'employés, fondateur, etc).


Le LVIC dispose déjà d'outils d'extraction de relations au sein des
phrases, fondés sur la notion de patron linguistique. Un tel patron
peut être vu comme une forme d'expression régulière intégrant des
éléments de différents niveaux de généralité (mots, catégories
grammaticales, "joker" ...) et permettant de valider la présence
effective d'une relation entre deux entités nommées trouvées dans une
phrase. Par exemple, le patron <maladie> * traiter * par  DET
<traitement> permet de valider la présence de la relation
[traitement]--(traiter)--[maladie] dans les deux cas suivants :

   <maladie> se traite par une <traitement>
   <maladie> est traitée efficacement par le <traitement>

Le LVIC dispose également des outils permettant d'apprendre
automatiquement ces patrons à partir de corpus annotés. Le stagiaire
aura tout d'abord en charge l'application de cet existant à l'échelle
du grand nombre de relations considérées dans KBP. L'accent sera mis
sur l'utilisation de données d'apprentissage bruitées du fait de
l'impossibilité de valider manuellement de larges ensembles
d'apprentissage pour un tel nombre de relations. Deux autres
problématiques importantes seront ensuite abordées :

   - le filtrage des relations extraites, en s'appuyant notamment sur
     des méthodes d'apprentissage statistique (machines à vecteurs de
     support (SVM)) ;

   - l'extension de l'ensemble des patrons appris pour une relation
     par l'exploitation de données issues du Web. L'objectif est ici
     d'acquérir à partir d'exemples sondes de nouvelles formulations
     d'un type de relations ou des paraphrases de formulations déjà
     rencontrées.



BIBLIOGRAPHIE
Task Description for Knowledge-Base Population at TAC 2009,
http://apl.jhu.edu/~paulmac/kbp/090601-KBPTaskGuidelines.pdf


Automatic Content Extraction (ACE) Evaluation, http://www.itl.nist.gov/iad/mig/tests/ace/

Mintz, M., Bills, S., Snow, R. & Jurafsky, D. 2009. Distant
supervision for relation extraction without labeled data. Joint
Conference of the 47th Annual Meeting of the ACL and the 4th
International Joint Conference on Natural Language Processing of the
AFNLP, August, Suntec, Singapore.

Jun Zhu, Zaiqing Nie, Xiaojiang Liu, Bo Zhang and Ji-Rong
Wen. 2009. StatSnowball: a Statistical Approach to Extracting Entity
Relationships. 18th international World Wide Web conference (WWW
2009).

César de Pablo-Sanchez, Juan Pereaea,Isabel Segura-Bedmar, Paloma
Martinez. 2009. The UC3M team at the Knowledge Base Population task.

Culotta, A., Mccallum, A. & Betz, J. 2006. Integrating probabilistic
extraction models and data mining to discover relations and patterns
in text. Human Language Technology Conference of the North American
Chapter of the Association of Computational Linguistics, Morristown,
NJ, USA.


COMPÉTENCES REQUISES
   - niveau M2 (ou ingénieur) en Informatique avec une spécialisation
     en Traitement Automatique des Langues
   - langage C++ ainsi qu'un langage de script de type Perl ou Python

MODALITÉS
Le stage sera rémunéré et se déroulera pour une durée de 6 mois au
sein du Laboratoire Vision et Ingénierie des Contenus (LVIC,
anciennement LIC2M) du CEA LIST, situé sur le centre CEA de
Fontenay-aux-Roses (92).


Les candidats intéressés par ce stage sont invités à prendre contact
avec Olivier Ferret ou Romaric Besançon en envoyant un CV accompagné
de quelques éléments de motivation.


Ce stage est également référencé au niveau du site Web du CEA à
l'adresse :
http://www.cea.fr/ressources_humaines/stages_longue_duree/extraction_supervisee_de_relations_entre_entites3

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list