These: Davy Weissenbacher, Influence des annotations imparfaites sur les systemes de TAL

Fri Nov 7 15:26:54 UTC 2008

Date: Fri, 07 Nov 2008 00:33:25 +0100
From: Davy.Weissenbacher at lipn.univ-paris13.fr
Message-ID: <20081107003325.lt159w26t7kgkwg0 at intranet.lipn.univ-paris13.fr>
X-url: http://www-lipn.univ-paris13.fr/planfac/?lang=fr)

J'ai le plaisir de vous inviter à la soutenance de ma thèse intitulée
"Influence des annotations imparfaites sur les systèmes de Traitement
Automatique des Langues, un cadre applicatif: la résolution de
l'anaphore pronominale", ainsi qu'au pot qui suivra.

La soutenance aura lieu le Jeudi 20 Novembre à 15h30, salle B311 du
Laboratoire d'Informatique de Paris Nord, Institut Galilée, Université
Paris 13, 99 avenue jean-Baptiste Clément, 93430 Villetaneuse (Pour se
rendre au LIPN: http://www-lipn.univ-paris13.fr/planfac/?lang=fr)

Le jury sera composé de:

M. Bernard Victorri, directeur de recherche CNRS, LATTICE, université
Paris VII, rapporteur
M. Philippe Leray, professeur, Laboratoire d'informatique de Nantes
Atlantique, université de Nantes, rapporteur
M. Jean-Gabriel Ganascia, professeur, LIP6, université Paris VI,
examinateur
M. Sophia Ananiadou, Reader, NaCTeM, university of Manchester,
examinateur
M. Christophe Fouqueré, professeur, LIPN, université Paris XIII,
directeur de thèse
M. Adeline Nazarenko, professeur, LIPN, université Paris XIII,
codirectrice de thèse

Cordialement,

Davy Weissenbacher

Résumé
----------------------------------

  Un système informatique ne peut traiter automatiquement un texte
sans qu'un certain nombre d'informations contenues dans ce texte,
comme les mots ou les phrases, ne soient annotées. Pour ajouter un
nouveau niveau d'annotation un système exploite des annotations
d'entrée, plus 'simples', produites par les systèmes qui ont été
appliqués précédemment au texte. Or aucun système d'annotation, à ce
jour, ne réalise automatiquement une annotation parfaite d'un
texte. En raison de la complexité de la langue naturelle, il est
difficile d'isoler les annotations d'entrée qui sont nécessaires à
l'algorithme pour annoter un texte. De plus, ces annotations d'entrée,
résultant elles-même d'un calcul automatique, sont imparfaites i.e.
imprécises, bruitées et parfois manquantes. En'n, le corpus sur lequel
ont été choisies les annotations d'entrée est un rassemblement
artificiel de textes d'un même domaine qui donne une vue partielle de
la langue. Cette construction implique une variation importante de la
'abilité de ces annotations lorsque le système est appliqué sur un
corpus d'un autre domaine. L'imperfection des annotations d'entrée et
de sortie des systèmes de traitement automatique des langues (TAL)
semble être une fatalité avec laquelle nous devons composer plutôt
qu'un désagrément passager dû à la maturité naissante des techniques
de TAL. L'imperfection des annotations se transmet et augmente à
chaque niveau d'annotation du traitement d'un document. Ce constat
fait, une question s'impose. Quel système de TAL obtient les
meilleures performances: un système qui intègre l'imperfection des
informations d'entrée dans son processus de raisonnement ou un système
prévu pour raisonner à partir d'informations d'entrée parfaites mais
travaillant avec des informations imparfaites'

  Nous avons proposé un modèle d'inférence probabiliste reposant sur
les réseaux bayésiens (RB), un formalisme adapté pour raisonner sur
les données de la langue naturelle. Ce modèle permet d'intégrer dans
une représentation unique un ensemble d'annotations hétérogènes. Lors
de l'inférence toutes les annotations d'entrée pertinentes sont
exploitées pour réaliser une tâche donnée. Les probabilités
conditionnelles a priori associées au réseau expriment un ensemble de
contraintes dont nous nous servons pour estimer les valeurs inconnues
des attributs et renforcer la 'abilité des attributs les plus
bruités. De plus, leur apprentissage automatique permet de les adapter
aux corpus et garantit que les annotations engagés dans l'inférence
sont toujours pertinentes. Nous avons validé notre modèle sur le
problème de la résolution du pronom it anaphorique dans les textes
anglais.  Nous avons conçu un RB pour l'exclusion des pronoms
impersonnels et un RB pour le choix de l'antécédent. Nous avons évalué
ces deux RB sur des corpus différents. L'analyse des résultats du RB
pour l'exclusion des pronoms impersonnels a mis en évidence l'intérêt
de notre approche, les résultats de notre RB sont meilleurs que ceux
des systèmes de l'état de l'art concurrents. Sur la tâche plus
difficile du choix de l'antécédent, les résultats de notre second RB
sont moins satisfaisants mais ils restent comparables aux résultats
des systèmes de l'état de l'art: lorsque l'imperfection des
annotations est prise en compte dans l'inférence, l'emploi
d'annotations de mauvaise qualité ne dégrade que très faiblement les
performances du système; si, sans être parfaits, les annotations sont
de meilleure qualité, leur utilisation améliore significativement les
performances du système. De plus, notre RB modélise encore
imparfaitement le problème du choix de l'antécédent. Pour corriger ces
défauts, nous proposons, en dernière partie de cette thèse, le
prototype d'un nouveau système reposant sur une extension des réseaux
bayésiens dynamiques.

Mots clés: Traitement Automatique des Langues, résolution d'anaphores
pronominales, annotation, Incertitude, probabilités, réseaux bayésiens

Abstract
----------------------------------
It is not possible for a science computing system to process a text
when sequences, like words or sentences, are not annotated. However,
to date, no system has been able to automatically produce a perfect
annotation of a text.  This report poses the following question; which
is the better natural language processing system: a system designed to
integrate imperfect annotations in its reasoning process or a system
designed to work with perfect annotation but dealing with imperfect
annotations' To answer this, we have proposed a probabilistic
inference model based on Bayesian Networks (BN), a formalism well
adapted to reasoning from imperfect data. We have worked on the
resolution of the anaphoric pronoun it and validate our model in
evaluating two BN on different corpora: a BN dedicated to the
impersonal pronoun recognition problem and a BN dealing with the
choice of the antecedent problem. The performance of the first BN
achieves better results than competing state of the art systems thus
highlighting the strengths of our model. The performance of the second
BN on the choice of the antecedent problem, which is known to be a
difficult task, is not as good. However, the results are still
comparable with the performance achieved by the state of the art
systems and lead to an interesting outcome: when the imperfection of
the annotation is taken into account in the inference process, using
bad quality annotations slightly worsens the overall performances of
the system; when using better quality annotations, yet still not
perfect, the results achieved are significantly better.

Key Words: Natural Language Processing, pronominal anaphora
resolution, annotations, uncertainty, probability, Bayesian networks

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------