These: Ludovic Jean-Louis, Extraction d'information fondee sur une analyse linguistique profonde

Sat Dec 10 09:40:07 UTC 2011

Date: Wed, 7 Dec 2011 16:39:02 +0100
From: "Ludovic Jean-Louis" <ludovic.jeanlouis at gmail.com>
Message-ID: <4edf88a6.59030e0a.2507.ffffb884 at mx.google.com>

J'ai le plaisir de vous inviter à ma soutenance de thèse, intitulée :

"Extraction d'information à partir de textes fondée sur une analyse
linguistique profonde"

La soutenance aura lieu le Jeudi 15 Décembre 2011 à 14h30 dans la salle
du conseil au LIMSI, bâtiment 508 de l'université Paris XI (LIMSI - CNRS
B.P. 133 91403 ORSAY)

Le jury sera composé de :
- M. Patrice Bellot, Rapporteur (Université Aix-Marseille, LSIS)
- Mme Adeline Nazarenko, Rapporteur (Université Paris Nord, LIPN)
- M. Claude de Loupy,  Examinateur (Syllabs)
- M. Pierre Zweigenbaum, Examinateur (Université Paris Sud, LIMSI)
- M. Olivier Ferret, Directeur de thèse (CEA LIST, LVIC)
- M. Romaric Besançon, Encadrant (CEA LIST, LVIC)

Vous êtes cordialement invités au pot qui suivra. 

Résumé :
La plus grande partie des informations disponibles librement sur le Web
se présentent sous une forme textuelle, c'est-à-dire
non-structurée. Dans un contexte comme celui de la veille, il est très
utile de pouvoir présenter les informations présentes dans les textes
sous une forme structurée en se focalisant sur celles jugées pertinentes
vis-à-vis du domaine d'intérêt considéré. Néanmoins, lorsque l'on
souhaite traiter ces informations de façon systématique, les méthodes
manuelles ne sont pas envisageables du fait du volume important des
données à considérer. 

L'extraction d'information s'inscrit dans la perspective de
l'automatisation de ce type de tâches en identifiant dans des textes les
informations concernant des faits (ou événements) afin de les stocker
dans des structures de données préalablement définies. Ces structures,
appelées templates (ou formulaires), agrègent les informations
caractéristiques d'un événement ou d'un domaine d'intérêt représentées
sous la forme d'entités nommées (nom de lieux, etc.).

Dans ce contexte, le travail de thèse que nous avons mené s'attache à
deux grandes problématiques :

- l'identification des informations liées à un événement lorsque ces
  informations sont dispersées à une échelle textuelle en présence de
  plusieurs occurrences d'événements de même type ; 

- la réduction de la dépendance vis-à-vis de corpus annotés pour la mise
  en oeuvre d'un système d'extraction d'information.

Concernant la première problématique, nous avons proposé une démarche
originale reposant sur deux étapes. La première consiste en une
segmentation événementielle identifiant dans un document les zones de
texte faisant référence à un même type d'événements, en s'appuyant sur
des informations de nature temporelle. Cette segmentation détermine
ainsi les zones sur lesquelles le processus d'extraction doit se
focaliser. La seconde étape sélectionne à l'intérieur des segments
identifiés comme pertinents les entités associées aux événements. Elle
conjugue pour ce faire une extraction de relations entre entités à un
niveau local et un processus de fusion global aboutissant à un graphe
d'entités. Un processus de désambiguïsation est finalement appliqué à ce
graphe pour identifier l'entité occupant un rôle donné vis-à-vis d'un
événement lorsque plusieurs sont possibles.

La seconde problématique est abordée dans un contexte de peuplement de
bases de connaissances à partir de larges ensembles de documents
(plusieurs millions de documents) en considérant un grand nombre (une
quarantaine) de types de relations binaires entre entités
nommées. Compte tenu de l'effort représenté par l'annotation d'un corpus
pour un type de relations donné et du nombre de types de relations
considérés, l'objectif est ici de s'affranchir le plus possible du
recours à une telle annotation tout en conservant une approche par
apprentissage. Cet objectif est réalisé par le biais d'une approche dite
de supervision distante prenant comme point de départ des exemples de
relations issus d'une base de connaissances et opérant une annotation
non supervisée de corpus en fonction de ces relations afin de constituer
un ensemble de relations annotées destinées à la construction d'un
modèle par apprentissage. Cette approche a été évaluée à large échelle
sur les données de la campagne TAC-KBP 2010.

Mots-clés : Extraction d'information, extraction de relations,
extraction d'événements

Abstract : 
The major part of the information available on the web is provided in
textual form, i.e. in unstructured form. In a context such as technology
watch, it is useful to present the information extracted from a text in
a structured form, reporting only the pieces of information that are
relevant to the considered field of interest. Such processing cannot be
performed manually at large scale, given the large amount of data
available. The automated processing of this task falls within the
Information extraction (IE) domain. The purpose of IE is to identify,
within documents, pieces of information related to facts (or events) in
order to store this information in predefined data structures. These
structures, called templates, aggregate fact properties – often
represented by named entities – concerning an event or an area of
interest. 

In this context, the research performed in this thesis addresses two
problems:

- identifying information related to a specific event, when the
  information is scattered across a text and several events of the same
  type are mentioned in the text;

- reducing the dependency to annotated corpus for the implementation of
  an Information Extraction system.

Concerning the first problem, we propose an original approach that
relies on two steps. The first step operates an event-based text
segmentation, which identifies within a document the text segments on
which the IE process shall focus to look for the entities associated
with a given event. The second step focuses on template filling and aims
at selecting, within the segments identified as relevant by the
event-based segmentation, the entities that should be used as fillers,
using a graph-based method. This method is based on a local extraction
of relations between entities, that are merged in a relation graph. A
disambiguation step is then performed on the graph to identify the best
candidates to fill the information template.

The second problem is treated in the context of knowledge base (KB)
population, using a large collection of texts (several millions) from
which the information is extracted. This extraction also concerns a
large number of relation types (more than 40), which makes the manual
annotation of the collection too expensive. We propose, in this context,
a distant supervision approach in order to use learning techniques for
this extraction, without the need of a fully annotated corpus. This
distant supervision approach uses a set of relations from an existing KB
to perform an unsupervised annotation of a collection, from which we
learn a model for relation extraction. This approach has been evaluated
at a large scale on the data from the TAC-KBP 2010 evaluation campaign.

Keywords: Information extraction, relation extraction, event extraction

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------