These: Mehdi Yousfi-Monod, Compression automatique ou semi-automatique de textes par elagage des constituants effacables

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Mon Nov 5 16:35:00 UTC 2007


Date: Tue, 30 Oct 2007 16:03:10 +0100
From: Mehdi Yousfi-Monod <yousfi at lirmm.fr>
Message-ID: <472747AE.8050705 at lirmm.fr>
X-url: http://www.edi2s.univ-montp2.fr/site_i2s_2007_HTML/Pages/pcampusstpriest.html
X-url: http://www.lirmm.fr/~yousfi


Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse qui aura lieu
vendredi 16 novembre 2007 à 14h00, à Montpellier, sur le campus
universitaire Saint Priest, dans l'Amphi Saint Priest (au bâtiment de
l'école doctorale I2S).

Pour plus de détails sur les modalités d'accès : 
http://www.edi2s.univ-montp2.fr/site_i2s_2007_HTML/Pages/pcampusstpriest.html

L'intitulé de la thèse est :

"Compression automatique ou semi-automatique de textes par élagage des
constituants effaçables : une approche interactive et indépendante des
corpus"

Elle sera soutenue devant le jury constitué de :

Jacques Vergne, PR, Université de Caen, rapporteur
Jean-Luc Minel, IGR HDR, Université Paris 10, rapporteur
Juan Manuel Torres-Moreno, MCF, Université d'Avignon, examinateur
Augusta Mela, MCF, Université Montpellier 3, examinateur
Jacques Chauché, PR, Université Montpellier 2, examinateur
Violaine Prince, PR, Université Montpellier 2, directrice de thèse

Cordialement,

Mehdi Yousfi-Monod


--Résumé--

Le travail s'inscrit dans le domaine du traitement automatique du
langage naturel et traite plus spécifiquement d'une application de ce
dernier au résumé automatique de textes. L'originalité de la thèse
consiste à s'attaquer à une variété peu explorée, la compression de
textes, par une technique non supervisée. Ce travail propose un
système incrémental et interactif d'élagage de l'arbre syntagmatique
des phrases, tout en préservant la cohérence syntaxique et la
conservation du contenu informationnel important. Sur le plan
théorique, le travail s'appuie sur la théorie du gouvernement de Noam
Chomsky et plus particulièrement sur la représentation formelle de la
théorie X-barre pour aboutir à un fondement théorique important pour
un modèle computationnel compatible avec la compression syntaxique de
phrases. Le travail a donné lieu a un logiciel opérationnel, nommé
COLIN, qui propose deux modalités : une compression automatique, et
une aide au résumé sous forme semi-automatique, dirigée par
l'interaction avec l'utilisateur. Le logiciel a été évalué grâce à un
protocole complexe par 25 utilisateurs bénévoles. Les résultats de
l'expérience montrent que 1) la notion de résumé de référence qui sert
aux évaluations classiques est discutable 2) les compressions
semi-automatiques ont été fortement appréciées 3) les compressions
totalement automatiques ont également obtenu de bons scores de
satisfaction. À un taux de compression supérieur à 40 % tous genres
confondus, COLIN fournit un support appréciable en tant qu'aide à la
compression de textes, ne dépend d'aucun corpus d'apprentissage, et
présente une interface conviviale.


Thesis abstract : This research belongs to the Natural Language
Processing field and more specifically focuses on text
summarization. The originality of this thesis leads in tackling a type
of summarization that has not been studied much, text compression
using an unsupervised method. This work presents an interactive and
incremental system for syntagmatic tree pruning, while preserving the
syntactic coherence and the main informational contents. On the
theoretical side, this work is based on the Government and Biding
theory of Noam Chomsky and more precisely on the formal representation
of the X-bar theory, to aims at a strong foundation for a
computational model compatible with syntactic compression of
sentences. This work led to an operational software, named COLIN,
which proposes two modalities : an automated compression and an
assistance to summarization in a semi-automated form, directed through
a tight interaction with the user. This software has been evaluated
thanks to a quite complex protocol using 25 volunteers. Experiment
results show that 1) the notion of reference abstract which is the
basic of classical evaluation is at least questionable, 2)
semi-automated compression has been given a high value by users 3)
fully automated compressions also get honourable satisfaction
levels. With a compression ratio of over 40 % for all genres of text,
COLIN offers an appreciable support as an assistance to text
compression, without resorting on a learning corpus, and with a
user-friendly interface.



-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list