Sujet de these: Structuration et navigation dans des archives documentaires, INA Paris / Equipe TexMex Rennes
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Wed Jun 30 10:50:10 UTC 2010
Date: Tue, 29 Jun 2010 15:46:20 +0200
From: Pascale Sebillot <pascale.sebillot at irisa.fr>
Message-ID: <4C29F92C.3070006 at irisa.fr>
X-url: http://www.ina.fr,
X-url: http://www.irisa.fr
X-url: http://www.quaero.org
Structuration et navigation dans des archives documentaires
L'Institut national de l'audiovisuel (Ina) archive et valorise le
patrimoine audiovisuel national, à la fois à des fins patrimoniales et
commerciales. Pour cela, il constitue des notices documentaires
décrivant différents types de séquences : extraits d'émissions,
émissions entières (appelées "intégrales"), journaux télévisés dans
leur ensemble, reportages de ces mêmes journaux, etc.
Dans le domaine des actualités, les notices documentaires permettent
de retrouver une information à partir de critères classiques de
recherche d'information: mots-clés, noms propres, date, etc... En
revanche, il reste particulièrement difficile de relier des contenus
entre eux afin de naviguer à partir d'un point d'entrée. Le premier
objectif de la thèse sera donc d'enrichir une collection d'archives
des actualités de l'INA sur une longue période (40 à 50 ans) par des
liens permettant d'une part de mettre en relation les documents sur un
même sujet et, d'autre part, d'organiser temporellement les documents
pour suivre l'évolution d'un sujet d'actualité donné (notion de "topic
threading"). Le second objectif consistera à développer et
expérimenter, en partenariat avec les unités concernées de l'INA, des
modes de navigation à partir des relations qui auront été établies.
On s'intéressera tout d'abord à lier deux documents en fonction de
leur sens, ce qui implique de « comprendre » leurs contenus. Le
recours aux notices documentaires permettra de s'affranchir dans un
premier temps de cette étape de compréhension. Toutefois, on étudiera
également la pertinence de l'utilisation d'une transcription
automatique de la parole contenue dans les reportages, cette dernière
apportant souvent des informations complémentaires par rapport aux
notices. La définition de liens entre documents servira de base à une
structuration navigable de la collection. On étudiera par exemple des
méthodes de construction de graphes à partir d'une mesure de la
distance sémantique entre documents: élagage d'un graphe complet,
recherche des cliques, clustering de noeuds, etc. Enfin, on
s'attachera à développer une interface de navigation exploitant le
résultat de l'étape de structuration. Cette interface pourra être
destinée soit à un usage grand public, dans l'optique de la mise à
disposition d'archives audiovisuelles sur le site Ina.fr, soit à des
usages scientifiques tels que ceux pratiqués par les chercheurs de
l'Inathèque dans le centre de consultation de la Bibliothèque
nationale de France.
Cette thèse se déroulera dans un double contexte industriel et
académique, dans le cadre du projet QUAERO. Elle s'effectuera
majoritairement dans les locaux de l'INA à Paris avec des séjours
réguliers au sein de l'équipe Texmex de l'IRISA (UNR 6074) de Rennes.
Encadrement et contacts : G. Gravier (IRISA/CNRS,
guillaume.gravier at irisa.fr), P. Sébillot (IRISA/INSA,
guillaume.gravier at irisa.fr), J.
Carrive (INA, jcarrive at ina.fr)
Financement : INA, dans le cadre du projet OSEO/QUAERO École doctorale
de rattachement : MATISSE / INSA de Rennes Liens : http://www.ina.fr,
http://www.irisa.fr, http://www.quaero.org
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list