[Corpora-List] sujet de th èse financé à l'INA (institut national de l'audiovisuel) Paris co-encadré par l'équipe TexMex à Rennes

Pascale Sebillot pascale.sebillot at irisa.fr
Tue Jun 29 14:08:45 UTC 2010


Structuration et navigation dans des archives documentaires

L'Institut national de l'audiovisuel (Ina) archive et valorise le 
patrimoine
audiovisuel national, à la fois à des fins patrimoniales et commerciales.
Pour cela, il constitue des notices documentaires décrivant différents 
types
de séquences : extraits d'émissions, émissions entières (appelées
"intégrales"), journaux télévisés dans leur ensemble, reportages de ces
mêmes journaux, etc.

Dans le domaine des actualités, les notices documentaires permettent de
retrouver une information à partir de critères classiques de recherche
d'information: mots-clés, noms propres, date, etc... En revanche, il reste
particulièrement difficile de relier des contenus entre eux afin de 
naviguer
à partir d'un point d'entrée. Le premier objectif de la thèse sera donc
d'enrichir une collection d'archives des actualités de l'INA sur une longue
période (40 à 50 ans) par des liens permettant d'une part de mettre en
relation les documents sur un même sujet et, d'autre part, d'organiser
temporellement les documents pour suivre l'évolution d'un sujet d'actualité
donné (notion de "topic threading"). Le second objectif consistera à
développer et expérimenter, en partenariat avec les unités concernées de
l'INA, des modes de navigation à partir des relations qui auront été
établies.

On s'intéressera tout d'abord à lier deux documents en fonction de leur
sens, ce qui implique de « comprendre » leurs contenus. Le recours aux
notices documentaires permettra de s'affranchir dans un premier temps de
cette étape de compréhension. Toutefois, on étudiera également la 
pertinence
de l'utilisation d'une transcription automatique de la parole contenue dans
les reportages, cette dernière apportant souvent des informations
complémentaires par rapport aux notices. La définition de liens entre
documents servira de base à une structuration navigable de la 
collection. On
étudiera par exemple des méthodes de construction de graphes à partir d'une
mesure de la distance sémantique entre documents: élagage d'un graphe
complet, recherche des cliques, clustering de noeuds, etc. Enfin, on
s'attachera à développer une interface de navigation exploitant le résultat
de l'étape de structuration. Cette interface pourra être destinée soit à un
usage grand public, dans l'optique de la mise à disposition d'archives
audiovisuelles sur le site Ina.fr, soit à des usages scientifiques tels que
ceux pratiqués par les chercheurs de l'Inathèque dans le centre de
consultation de la Bibliothèque nationale de France.

Cette thèse se déroulera dans un double contexte industriel et académique,
dans le cadre du projet QUAERO. Elle s'effectuera majoritairement dans les
locaux de l'INA à Paris avec des séjours réguliers au sein de l'équipe
Texmex de l'IRISA (UNR 6074) de Rennes.

Encadrement et contacts : G. Gravier (IRISA/CNRS, 
guillaume.gravier at irisa.fr), P. Sébillot (IRISA/INSA, 
guillaume.gravier at irisa.fr), J.
Carrive (INA, jcarrive at ina.fr)
Financement : INA, dans le cadre du projet OSEO/QUAERO École doctorale de
rattachement : MATISSE / INSA de Rennes Liens : http://www.ina.fr,
http://www.irisa.fr, http://www.quaero.org


_______________________________________________
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora



More information about the Corpora mailing list