These: Cedric Lopez, Titrage automatique de documents textuels

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Sep 18 20:13:52 UTC 2012


Date: Sat, 15 Sep 2012 12:22:31 +0200
From: Cédric Lopez <lopez at lirmm.fr>
Message-ID: <CAPrc_-i1gFjxCMscx0m9AvquRXDj5O5QqKY_SoCFDtFGZY0x4Q at mail.gmail.com>


Bonjour,

J’ai le plaisir de vous inviter à ma soutenance de thèse intitulée
"Titrage automatique de documents textuels" qui aura lieu le 1er octobre
2012 au LIRMM (Montpellier) à 14h en salle des séminaires. Elle sera
suivie du traditionnel pot de thèse auquel vous êtes chaleureusement
conviés.

Cordialement,

Cédric Lopez

*Thèse : Titrage automatique de documents textuels*

Jury :

Examinateurs : Emmanuel Morin - Professeur (Univ. de Nantes)
Chantal Soulé-Dupuy - Professeur (Univ. de Toulouse)
Sandra Bringay - Maître de Conférences (Univ. de Montpellier 3)
Rapporteurs : Diana Inkpen - Associate Professor (Univ. de Ottawa, Canada)
Patrice Bellot - Professeur (Univ. de Marseille)
Directeurs : Violaine Prince - Professeur (Univ. de Montpellier 2)
Mathieu Roche - Maître de Conférences HDR (Univ. de Montpellier 2)

Résumé :

Au cours du premier millénaire avant notre ère, les bibliothèques, qui
apparaissent avec le besoin d'organiser la conservation des textes, sont
immédiatement confrontées aux difficultés de l'indexation. Le titre
apparaît alors comme une première solution, permettant d'identifier
rapidement chaque type d'ouvrage et éventuellement de discerner des
ouvrages thématiquement proches.
Alors que dans la Grèce Antique, les titres ont une fonction peu
informative, mais ont toujours pour objectif d'identifier le document,
l'invention de l'imprimerie à caractères mobiles (Gutenberg, XVème
siècle) a entraîné une forte augmentation du nombre de documents,
offrant désormais une diffusion à grande échelle. Avec la recrudescence
des textes imprimés, le titre acquiert peu à peu de nouvelles fonctions,
conduisant très souvent à des enjeux d'influence socioculturelle ou
politique (notamment dans le cas des articles journalistiques).
Aujourd'hui, que le document soit sous forme électronique ou papier, la
présence d'un ou de plusieurs titres est très souvent constatée,
permettant de créer un premier lien entre le lecteur et le sujet abordé
dans le document. Mais comment quelques mots peuvent-ils avoir une si
grande influence ? Quelles fonctions les titres doivent-ils remplir en
ce début du XXIème siècle ? Comment générer automatiquement des titres
respectant ces fonctions ?

Le titrage automatique de documents textuels est avant tout un des
domaines clés de l'accessibilité des pages Web (standards W3C) tel que
défini par la norme proposée par les associations sur le handicap. Côté
lecteur, l'objectif est d'augmenter la lisibilité des pages obtenues à
partir d'une recherche sur mot-clé(s) et dont la pertinence est souvent
faible, décourageant les lecteurs devant fournir de grands efforts
cognitifs. Côté producteur de site Web, l'objectif est d'améliorer
l'indexation des pages pour une recherche plus pertinente. D'autres
intérêts motivent cette étude (titrage de pages Web commerciales,
titrage pour la génération automatique de sommaires, titrage pour
fournir des éléments d'appui pour la tâche de résumé automatique,).

Afin de traiter à grande échelle le titrage automatique de documents
textuels, nous employons dans cette étude des méthodes et systèmes de
TALN (Traitement Automatique du Langage Naturel). Alors que de nombreux
travaux ont été publiés à propos de l'indexation et du résumé
automatique, le titrage automatique demeurait jusqu'alors discret et
connaissait quelques difficultés quant à son positionnement dans le
domaine du TALN. Nous soutenons dans cette étude que le titrage
automatique doit pourtant être considéré comme une tâche à part entière.

Après avoir défini les problématiques liées au titrage automatique, et
après avoir positionné cette tâche parmi les tâches déjà existantes,
nous proposons une série de méthodes permettant de produire des titres
syntaxiquement corrects selon plusieurs objectifs. En particulier, nous
nous intéressons à la production de titres informatifs, et, pour la
première fois dans l'histoire du titrage automatique, de titres
accrocheurs.

Notre système TIT', constitué de trois méthodes (POSTIT, NOMIT et
CATIT), permet de produire des ensembles de titres informatifs dans 81%
des cas et accrocheurs dans 78% des cas.

Cédric Lopez
Doctorant, 3ème année
http://www.lirmm.fr/~lopez/
Équipe TEXTE, LIRMM - UMR 5506
Université Montpellier 2
34392 Montpellier Cedex 5 - France

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list