Job: Stage M2, Extraction d'information non supervisee, CEA LIST/LIC2M, Fontenay-aux-Roses

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Tue Feb 3 17:46:36 UTC 2009


Date: Tue, 3 Feb 2009 17:30:26 +0100
From: "FERRET Olivier 174579" <olivier.ferret at cea.fr>
Message-ID: <457C3CAAA0CD2D40A64E4D03419B57AA51BC50 at LaBeaujoire.intra.cea.fr>
X-url: http://www.cea.fr/ressources_humaines/stages_longue_duree/extraction_d_information_non_supervisee


Proposition de stage de master 2 

Extraction d'information non supervisée

Olivier Ferret (ferreto__zoe.cea.fr) et Romaric Besançon
(besanconr__zoe.cea.fr)

CEA LIST/LIC2M, Fontenay-aux-Roses

CONTEXTE 
L'extraction d'information à partir de textes consiste classiquement à
repérer dans les textes des événements d'un type prédéfini ainsi qu'un
ensemble donné d'informations prenant généralement la forme d'entités
nommées et venant s'insérer dans une description a priori de ce type
d'événements appelée template. Pour un événement comme le rachat d'une
société par une autre, l'extraction se focalisera ainsi sur
l'identification de la société acheteuse, de la société achetée, du
montant du rachat et de sa date. Cette approche peut être qualifiée
globalement de dirigée par les buts ou de descendante. Plus récemment,
une approche inverse a fait son apparition, approche que nous
qualifierons ici d'extraction d'information non supervisée (Rosenfeld
et Feldman, 2007 ; Hasegawa et al., 2006 ; Shinyama et Sekine,
2006). Cette approche prend comme point de départ des entités ou des
types d'entités et se fixe comme objectif de mettre en évidence les
relations intervenant entre ces entités puis de regrouper ces
relations en fonction de leurs similarités sémantiques ou
thématiques. Une telle approche s'incarne typiquement dans une
problématique de veille telle que « suivre tous les événements faisant
intervenir les sociétés IBM et Sony », qui conduit par exemple à
extraire les « événements » suivants :

-------------------------------------------------
IBM, Sony et Philips s'allient à Redhat et Novell pour protéger Linux.

IBM, Philips, Sony, Red hat et Suse créent un fonds de brevets pour
protéger Linux
-------------------------------------------------
IBM, Sony et Toshiba présente le processeur Cell.

IBM, Sony et Toshiba veulent imposer le processeur Cell.

Sony, Toshiba et IBM, développeurs du processeur Cell ("cellule" en
anglais), viennent de dévoiler de nouvelles données techniques sur
leur composant.
-------------------------------------------------
IBM, Sony et Nokia s'associent pour le développement durable.

IBM, Sony et Nokia cèdent des brevets « écologiques ».

IBM, Sony, Nokia et Pintey-Bowes ont lancé le 14 janvier la plateforme
Eco-Patent Commons (EPEC) qui donne librement au public une trentaine
de brevets visant à résoudre les problèmes environnementaux des
entreprises.
-------------------------------------------------

et à les regrouper en trois grandes catégories, faisant référence à
trois contextes différents.


OBJECTIFS DU STAGE
Le laboratoire LIC2M du CEA LIST dispose d'une plate-forme modulaire
de traitement des langues permettant de réaliser une analyse
linguistique d'un texte allant jusqu'au niveau syntaxique et intégrant
certaines analyses sémantiques et discursives. Cette plate-forme
inclut également des outils plus spécifiquement liés à l'extraction
d'information comme un module de reconnaissance d'entités
nommées. L'objectif du stage est de concevoir et de développer à
partir de cette plate-forme un système complet d'extraction
d'information non supervisée. Plus précisément, ce développement passe
par la proposition et l'implémentation de solutions pour les trois
sous-problèmes suivants :

  - l'extraction proprement dite de relations en se focalisant, à
    partir du résultat d'une analyse syntaxique des phrases, sur
    l'identification des prédicats intervenant entre les entités
    ciblées et des relations unissant ces prédicats aux entités ;
  - l'appariement des relations extraites pour regrouper les relations
    équivalentes à un niveau sémantique ;
  - le regroupement des relations relatives à un même événement ou à
    la même sous-thématique.

Compte tenu de l'importance de ces problèmes, en particulier des deux
derniers, une approche en deux temps est envisagée. Le premier temps
consistera à s'inspirer des travaux existants, notamment (Rosenfeld et
Feldman, 2007 ; Hasegawa et al., 2006 ; Shinyama et Sekine, 2006),
afin de mettre en oeuvre une première solution pour ces trois
sous-problèmes. Le second temps se focalisera sur les problèmes
d'appariement de relations, soit au niveau sémantique, soit au niveau
thématique, pour proposer des solutions plus originales.

Ce stage est conçu dans la perspective d'une thèse sur le même sujet
pour laquelle un financement CEA a été demandé (la possibilité
d'obtenir un financement de thèse dépend de la valeur du candidat et
d'arbitrages internes au CEA). Seront donc privilégiés les candidats
ayant comme perspective un projet de thèse.


BIBLIOGRAPHIE
Hasegawa, T.; Sekine, S. & Grishman, R. (2004) Discovering Relations
among Named Entities from Large Corpora, 42nd Meeting of the
Association for Computational Linguistics (ACL'04), pp. 415-422.

Rosenfeld, B. & Feldman, R. (2007) Clustering for unsupervised
relation identification, Sixteenth ACM conference on Conference on
information and knowledge management (CIKM'07), ACM, New York, NY,
USA, pp. 411-418.

Shinyama, Y. & Sekine, S. (2006) Preemptive Information Extraction
using Unrestricted Relation Discovery, 'Human Language Technology
Conference of the NAACL, Association for Computational Linguistics,
New York City, USA, pp. 304-311.


COMPÉTENCES REQUISES
   - niveau M2 (ou ingénieur) en Informatique avec une spécialisation
     en Traitement Automatique des Langues
   - langage C++ ainsi qu'un langage de script de type Perl ou Python

MODALITÉS
Le stage sera rémunéré et se déroulera pour une durée de 6 mois au 
sein du Laboratoire d'Ingénierie de la Connaissance Multimédia 
Multilingue (LIC2M) du CEA LIST, situé sur le centre CEA de 
Fontenay-aux-Roses (92).

Les candidats intéressés par ce stage sont invités à prendre contact
avec Olivier Ferret ou Romaric Besançon en envoyant un CV et une 
lettre de motivation.


Ce stage est également référencé au niveau du site Web du CEA à
l'adresse :
http://www.cea.fr/ressources_humaines/stages_longue_duree/extraction_d_information_non_supervisee

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list