These: Aurelien Bossard, Contribution au Resume automatique Multi-documents

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Jul 6 13:46:14 UTC 2010


Date: Sun, 4 Jul 2010 08:33:36 +0200
From: Aurélien Bossard <aurelien.bossard at gmail.com>
Message-ID: <AANLkTikT989wx-V5reTweiCzkhJEhAadU9CfMg6j13js at mail.gmail.com>


Aurélien Bossard soutiendra sa thèse, intitulée "Contribution au
Résumé automatique Multi-documents" et sous la direction de Thierry
Poibeau, lundi 12 juillet 2010 à 14h.

La soutenance aura lieu au LIPN, sur le campus de Villetaneuse de
l'Université Paris 13, en salle B311, et sera suivie d'un pot.

----------------------------------------------------------------------------------

Le jury sera composé de :
Juan-Manuel Torres Moreno (rapporteur, MdC HDR, Université d'Avignon)
Guy Lapalme (rapporteur, Pr, Université de Montreal)
Anne Vilnat (Pr, IUT d'Orsay)
Céline Rouveirol (Pr, Université Paris 13)
Daniel Kayser (Pr, Université Paris 13)
Thierry Poibeau (CR HDR, CNRS)

------------------------------------------------------------------------

Résumé de la thèse :

ésumer un texte consiste à réduire ce texte en un nombre limité de
mots. Le texte ainsi réduit doit rester fidèle aux informations et
idées du texte original. Que ce soit pour des professionnels qui
doivent prendre connaissance du contenu de documents en un temps
limité ou pour un particulier désireux de se renseigner sur un sujet
donné sans disposer du temps nécessaire pour lire l'intégralité des
textes qui en traitent, le résumé est une aide contextuelle
importante. Avec l'augmentation de la masse documentaire disponible
électroniquement, résumer des textes automatiquement est devenu un axe
de recherche important dans le domaine du traitement automatique de la
langue. La production automatique de résumés pose le problème de la
détection et de la modélisation des informations contenues dans les
textes. Elle suppose également la hiérarchisation de ces informations
afin d'intégrer au résumé les plus importantes. Cette thèse de
doctorat propose une méthode statistique pour le résumé automatique
par extraction ainsi que l'intégration d'analyses linguistiques au
processus de sélection de phrases.

La méthode que nous proposons est fondée sur une classification des
phrases à résumer en classes sémantiques en utilisant des calculs de
similarité entre les phrases. Cette étape nous permet d'identifier les
phrases qui risquent de présenter des éléments d'information
similaires et ainsi de supprimer toute redondance du résumé
généré. Une seconde étape vise à sélectionner une phrase par classe,
en tenant compte de la similarité des phrases à une éventuelle requête
utilisateur, de la longueur des phrases ainsi que de la centralité
dans leur classe. Les résumés ainsi générés doivent maximiser la
centralité et la diversité des informations. Cette méthode a été
évaluée sur deux tâches de la campagne d'évaluation TAC 2008 : le
résumé de dépêches et le résumé d'opinions issues de blogs. Les
résultats mitigés sur la première tâche et encourageants sur la
deuxième nous ont poussé à prendre en compte des critères de sélection
de phrases spécifiques aux types de documents traités. Nous avons
alors proposé d'établir une catégorisation des dépêches de presse
ainsi que l'annotation automatique de leur structure afin d'améliorer
la qualité des résumés générés par notre système. Nous avons également
étudié l'apport de l'annotation en entités nommées et de la résolution
d'anaphores pour le résumé automatique. Le système et ces trois
derniers modules a été évalué sur la tâche de résumé et mise à jour de
résumé de dépêches de la campagne TAC 2009, se classant dans le
premier quart des participants. Notre méthode de résumé a également
fait l'objet d'une intégration à un système applicatif plus large
visant à aider un possesseur de corpus à visualiser les axes
essentiels et à en retirer automatiquement les informations
importantes.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list