These: Wei Wang, Extraction d'Information Non Supervisee a Partir de Textes, Extraction et Regroupement de Relations entre Entites

Wed May 15 08:51:33 UTC 2013

Date: Mon, 13 May 2013 22:44:55 +0200
From: WANG Wei <wangwei717 at gmail.com>
Message-ID: <CALsXUA68KrpGC-gLGypPZST0cjmGn1cVJnqr-05X+pe0oKWzgA at mail.gmail.com>

Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse, intitulée :
"Extraction d'Information Non Supervisée à Partir de Textes – Extraction
et Regroupement de Relations entre Entités"

La soutenance aura lieu le Jeudi 16 Mai 2013 à 14h30 dans la salle de
conférence du LIMSI, bâtiment 508 de l'université Paris Sud (LIMSI -
CNRS, B.P. 133, 91403 ORSAY)

Le jury sera composé de :
- M. Gaël Dias, Rapporteur (Université de Caen, GREYC)
- Mme Pascale Sébillot, Rapporteur (IRISA/INSA de Rennes)
- M. Mathieu Roche, Examinateur (Université Montpellier 2, LIRMM)
- Mme Michèle Sebag, Examinateur (Université Paris Sud, LRI, INRIA Saclay)
- Mme Brigitte Grau, Directeur de thèse (ENSIIE, LIMSI)
- M. Olivier Ferret, Encadrant (CEA LIST, LVIC)
- M. Romaric Besançon, Encadrant (CEA LIST, LVIC)

Vous êtes cordialement invités au pot qui suivra.

Wei Wang

Résumé : L'extraction d'information non supervisée en domaine ouvert est
une évolution récente de l'extraction d'information adaptée à des
contextes dans lesquels le besoin informationnel est faiblement
spécifié. Dans ce cadre, la thèse se concentre plus particulièrement sur
l'extraction et le regroupement de relations entre entités en se donnant
la possibilité de traiter des volumes importants de données.

L'extraction de relations se fixe ici pour objectif de faire émerger des
relations de type non prédéfini à partir de textes. Elle est réalisée en
deux temps : des relations candidates sont d'abord extraites sur la base
de critères simples mais efficaces pour être ensuite filtrées selon des
critères plus avancés. Ce filtrage associe lui-même deux étapes: une
première étape utilise des heuristiques pour éliminer rapidement les
fausses relations en conservant un bon rappel tandis qu'une seconde
étape se fonde sur des modèles statistiques pour raffiner la sélection
des relations candidates.

Le regroupement de relations a quant à lui pour objectif d'organiser les
relations extraites pour en caractériser le type et en offrir une vue
synthétique. Il est réalisé dans le cas présent selon une stratégie
multiniveau permettant de prendre en compte à la fois un volume
important de relations et des critères de regroupement élaborés. Un
premier niveau de regroupement, dit de base, réunit des relations
proches de par leur expression linguistique grâce à une mesure de
similarité vectorielle appliquée à une représentation de type
sac-de-mots pour former des clusters fortement homogènes. Un second
niveau de regroupement est ensuite appliqué pour traiter des phénomènes
plus sémantiques tels que la synonymie et la paraphrase et fusionner des
clusters de base recouvrant des relations équivalentes sur le plan
sémantique. Ce second niveau s'appuie sur la définition de mesures de
similarité au niveau des mots, des relations et des clusters de
relations en exploitant soit des ressources de type WordNet, soit des
thésaurus distributionnels. Un clustering des relations de nature
thématique permet enfin d'améliorer la précision des clusters de
relations formés en s'appuyant sur un contexte plus global.

La thèse aborde également le problème de l'évaluation de l'extraction
d'information non supervisée par l'entremise de mesures internes et
externes. Pour les mesures externes, une méthode interactive est
proposée pour construire manuellement un large ensemble de clusters de
référence. Son application sur un corpus journalistique de grande taille
a donné lieu à la construction d'une référence vis-à-vis de laquelle les
différentes méthodes de regroupement proposées dans la thèse ont été
évaluées.

Mots-clés : Extraction d'information non supervisée, extraction de
relations, regroupement de relations, similarité sémantique

Abstract : Unsupervised information extraction in open domain gains more
and more importance recently by loosening the constraints on the strict
definition of the extracted information and allowing to design more open
information extraction systems. In this new domain of unsupervised
information extraction, this thesis focuses on the tasks of extraction
and clustering of relations between entities at a large scale.

The objective of relation extraction is to discover unknown relations
from texts. A relation prototype is first defined, with which candidates
of relation instances are initially extracted with a minimal
criterion. To guarantee the validity of the extracted relation
instances, a two-step filtering procedures is applied: the first step
with filtering heuristics to remove efficiently large amount of false
relations and the second step with statistical models to refine the
relation candidate selection.

The objective of relation clustering is to organize extracted relation
instances into clusters so that their relation types can be
characterized by the formed clusters and a synthetic view can be offered
to end-users. A multi-level clustering procedure is design, which allows
to take into account the massive data and diverse linguistic phenomena
at the same time. First, the basic clustering groups similar relation
instances by their linguistic expressions using only simple similarity
measures on a bag-of-word representation for relation instances to form
high- homogeneous basic clusters. Second, the semantic clustering aims
at grouping basic clusters whose relation instances share the same
semantic meaning, dealing with more particularly phenomena such as
synonymy or more complex paraphrase. Different similarities measures,
either based on resources such as WordNet or distributional thesaurus,
at the level of words, relation instances and basic clusters are
analyzed. Moreover, a topic-based relation clustering is proposed to
consider thematic information in relation clustering so that more
precise semantic clusters can be formed.

Finally, the thesis also tackles the problem of clustering evaluation in
the context of unsupervised information extraction, using both internal
and external measures. For the evaluations with external measures, an
interactive and efficient way of building reference of relation clusters
proposed. The application of this method on a newspaper corpus results
in a large reference, based on which different clustering methods are
evaluated.

Keywords: Unsupervised information extraction, relation extraction,
relation clustering, semantic similarity

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------