Sujet de These: Extraction non supervisee de signatures thematiques structurees, CEA LIST/LIC2M

Sat Mar 14 08:57:00 UTC 2009

Date: Fri, 13 Mar 2009 19:07:18 +0100
From: "FERRET Olivier 174579" <olivier.ferret at cea.fr>
Message-ID: <457C3CAAA0CD2D40A64E4D03419B57AA51C4A3 at LaBeaujoire.intra.cea.fr>
X-url: http://www-instn.cea.fr/rubrique.php3?id_rubrique=67
X-url: http://www-instn.cea.fr/Publication_Sujet.php3?idSujet=540&langue=fr&lang=FR&id_rubrique=70

Proposition d'un sujet de thèse

Extraction non supervisée de signatures thématiques structurées à
partir de textes

Olivier Ferret (ferreto__zoe.cea.fr) et Romaric Besançon
(besanconr__zoe.cea.fr)

CEA LIST/LIC2M, Fontenay-aux-Roses

Nous recherchons des étudiants intéressés par une thèse dans le
domaine de l'extraction d'information et désireux de candidater à un
financement de thèse CEA (cf.
http://www-instn.cea.fr/rubrique.php3?id_rubrique=67 pour les
conditions à remplir par les candidats et les modalités d'une telle
candidature).

L'objectif de la thèse est plus précisément d'étudier les méthodes
pour extraire de l'information à partir de textes, sans connaissance a
priori de la nature et de la structure concrète de l'information
extraite. Il s'agit donc d'apprendre de façon non supervisée, à partir
de corpus, ces structures d'information et de les utiliser pour
extraire et regrouper des informations concernant un acteur ou une
entité donnée.

CONTEXTE
L'objectif classique de l'extraction d'information (Poibeau, 2003 ;
Moens, 2006) est d'identifier des événements ou des faits dans des
textes et de structurer les informations retenues, en utilisant le
plus souvent des formulaires (templates) prédéfinis. Par exemple, pour
un formulaire centré sur la fusion/acquisition de sociétés, le but est
pour chaque fusion/acquisition détectée dans un texte de localiser des
informations telles que l'acquéreur, la société rachetée, le montant
de la transaction ou encore sa date. Un extrait de texte tel que
---------------------------------
Après trois jours de rumeurs incessantes, Google a annoncé lundi soir
l'acquisition du site de partage de vidéos Youtube pour 1,65 milliard
de dollars. L'opération, approuvée par les conseils d'administration
des deux sociétés, devrait être finalisée à la fin du quatrième
trimestre 2006 ...
---------------------------------
doit ainsi permettre à un système d'extraction d'information de
remplir un formulaire typique sur les rachats de sociétés qui aurait
la forme suivante :

FORMULAIRE « RACHAT DE SOCIÉTÉ »
	société acheteuse : Google
	société achetée : Youtube
	montant : 1,65 milliard de dollars
	date : fin du quatrième trimestre 2006

Cette approche est dite supervisée dans la mesure où les informations
extraites sont guidées par un besoin informationnel précis. Sa mise en
oeuvre demande néanmoins des moyens humains importants et ne se
justifie donc que pour un besoin informationnel récurrent.

OBJECTIFS DE LA THESE
La thèse proposée a pour objectif d'explorer des formes plus légères
et moins dirigées d'extraction d'information, que l'on peut désigner
de manière générique sous le vocable d'extraction d'information non
supervisée. Au lieu de rechercher dans les textes les instances d'un
template défini a priori, le but est ici de collecter et de structurer
les relations intervenant entre un ensemble donné d'entités. Cette
forme d'extraction s'inscrit de façon assez directe dans une
problématique de veille en répondant à des requêtes telles que : «
suivre tous les événements faisant intervenir les sociétés IBM et Sony
», ce qui conduit par exemple à extraire les « événements » suivants
et à les regrouper en trois grandes catégories, faisant référence à
trois contextes différents :

---------------------------------
IBM, Sony et Philips s'allient à Redhat et Novell pour protéger Linux.
IBM, Philips, Sony, Red hat et Suse créent un fonds de brevets pour
protéger Linux.
---------------------------------
IBM, Sony et Toshiba présente le processeur Cell.
IBM, Sony et Toshiba veulent imposer le processeur Cell.
Sony, Toshiba et IBM, développeurs du processeur Cell ("cellule" en
anglais), viennent de dévoiler de nouvelles données techniques sur
leur composant.
---------------------------------
IBM, Sony et Nokia s'associent pour le développement durable.
IBM, Sony et Nokia cèdent des brevets « écologiques ».
IBM, Sony, Nokia et Pintey-Bowes ont lancé le 14 janvier la plateforme
Eco-Patent Commons (EPEC) qui donne librement au public une trentaine
de brevets visant à résoudre les problèmes environnementaux des
entreprises.
---------------------------------

Plus précisément, le travail envisagé se décompose en quatre grandes
étapes :

	- repérage des entités ou des types d'entités visés et
  	  extraction des relations intervenant dans les textes entre
  	  ces entités ;

	- regroupement des relations sémantiquement équivalentes. Par
	  exemple, « le rachat de Youtube par Google » ou «
	  l'acquisition par Google du site de partage de vidéos
	  Youtube » expriment deux relations sémantiquement
	  équivalentes ;

	- regroupement des relations faisant référence à un même « «
	  événement » ou plus généralement à un même contexte
	  thématique ;

	- construction d'une représentation synthétique des
	  regroupements thématiques de relations.

La dernière étape vise plus précisément à construire une
représentation des thèmes et des situations propres à un corpus
prenant la forme de schémas comparables dans leur esprit à ceux
utilisés par les systèmes de compréhension de textes tels que FRUMP
(De Jong, 1982). Ces connaissances sont appelées dans le cas présent
des signatures thématiques structurées et ont vocation à rassembler
les entités caractéristiques d'un domaine et à les structurer en
faisant apparaître les prédicats qui les relient au sein de ce
domaine, à l'image de ce que proposent (Harabagiu, 2004), (Bejan,
2008) ou (Qiu, 2008). Par exemple, dans le domaine des
fusions/acquisitions, la notion de fusion peut être représentée par
une structure telle que :

FUSION DE SOCIÉTÉS
	proposer(<ORGANISATION>, <MONTANT-FINANCIER>)
	échanger(<ORGANISATION>, <ORGANISATION>, <NOMBRE>, action)
	remplacer(<PERSONNE>, <PERSONNE>)

Les deux premières étapes du travail envisagé ont déjà fait l'objet de
travaux comme (Rosenfeld & Feldman, 2007) ou (Shinyama & Sekine, 2006)
qui pourront servir de point de départ pour aborder de façon
approfondie les deux dernières étapes, qui formeront le coeur de la
thèse.

Le laboratoire LIC2M du CEA LIST dispose d'une plate-forme modulaire
de traitement des langues permettant de réaliser une analyse
linguistique d'un texte allant jusqu'au niveau syntaxique et intégrant
certaines analyses sémantiques et discursives. Le doctorant réalisera
son travail en s'appuyant sur cette plate-forme et bénéficiera des
premières expériences du laboratoire en extraction d'information
(système d'extraction d'information dans le domaine des événements
sismiques).

BIBLIOGRAPHIE 

- Cosmin Adrian Bejan (2008) Unsupervised Discovery of Event Scenarios
  from Texts, 21st Florida Artificial Intelligence Research Society
  International Conference (FLAIRS-21), Applied Natural Language
  Processing track, Coconut Grove, FL, USA.

- Gerald DeJong (1982) An overview of the FRUMP system. Strategies for
  natural language processing, W. Lehnert and M. Ringle Eds., p.
  149-176, Lawrence Erlbaum Associates.

- Sanda Harabagiu (2004) Incremental topic representations. COLING
  2004, p. 583-589, Geneva, Switzerland.

- Marie-Francine Moens (2006) Information Extraction: Algorithms and
  Prospects in a Retrieval Context, Springer.

- Long Qiu, Min-Yen Kan and Tat-Seng Chua (2008) Modeling Context in
  Scenario Template Creation, Third International Joint Conference on
  Natural Language Processing (IJCNLP'08), Hyderabad, India.

- B. Rosenfeld and R. Feldman (2007) Clustering for unsupervised
  relation identification, Sixteenth ACM conference on Conference on
  information and knowledge management (CIKM'07), ACM, New York, NY,
  USA, pp. 411-418.

- Y. Shinyama and S. Sekine (2006) Preemptive Information Extraction
  using Unrestricted Relation Discovery, 'Human Language Technology
  Conference of the NAACL, Association for Computational Linguistics,
  New York City, USA, pp. 304-311.

- Thierry Poibeau (2003) Extraction d'information : du texte brut au
  web sémantique. Hermès.

Compte tenu de la nature du sujet et de son contexte, les candidats
devront posséder une solide formation en Informatique ainsi qu'une
expérience en Traitement Automatique des Langues.

La thèse se déroulera au sein du Laboratoire d'Ingénierie de la
Connaissance Multimédia Multilingue du CEA LIST, situé sur le centre
CEA de Fontenay-aux-Roses (92).

Les candidats intéressés par ce sujet de thèse sont invités à prendre
contact rapidement avec Olivier Ferret ou Romaric Besançon en envoyant
un CV détaillé.

Ce sujet de thèse est également référencé au niveau du site Web du CEA
à l'adresse :
http://www-instn.cea.fr/Publication_Sujet.php3?idSujet=540&langue=fr&lang=FR&id_rubrique=70

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------