[Corpora-List] th èse CIFRE Technicolor Rennes - IRISA
Pascale Sebillot
pascale.sebillot at irisa.fr
Tue Jun 29 14:09:13 UTC 2010
Enrichissement sémantique d'un portail de vidéo à la demande
Contexte : Technicolor & portails VOD avec films, documentaires,
reportages. Portail courant permettant actuellement seulement de faire
des liens simples pour les films : films du même acteur/réalisateur,
films du même genre, etc.
Afin de proposer de nouvelles fonctionnalités aux portails VOD, nous
souhaitons enrichir chacun des contenus du catalogue par des liens vers
des documents qui abordent le même sujet, aussi bien sur le Web qu'au
sein même du catalogue. De tels liens seront établis à partir des
descriptions textuelles associées aux contenus du catalogue ou, le cas
échéant, à partir d'une transcription automatique de la parole. On
exploitera en premier lieu les synopsis qui fournissent une brève
description du contenu. Dans le cas des films, on pourra également
chercher à tirer profit du script lorsque ce dernier est présent tandis
que pour les documentaires et reportages, on pourra recourir à la
transcription automatique de la parole pour atteindre une compréhension
plus profonde des sujets abordés.
Afin d'établir des liens entre les contenus du catalogue et d'autres
documents, la première étape consiste à extraire des informations
pertinentes des descriptions textuelles disponibles (synopsis, script et
transcription) comme les mots caractéristiques ou encore les entités
nommées (noms de personne, de lieu, dates, etc.). Outre la définition
des informations pertinentes, leur extraction soulève de nombreuses
interrogations en raison de la forme particulière des textes. Soulignons
notamment la taille fortement réduite des synopsis, l'absence de
structure dans les scripts ou encore les erreurs de transcription.
La deuxième étape consiste à établir de manière automatique des liens
vers des contenus présents sur le Web à partir des informations
extraites. Selon la qualité de ces dernières, il est à prévoir qu'un
modèle de recherche d'information classique à base de quelques mots clés
soit insuffisant. On s'attachera donc à définir le modèle le plus
pertinent pour établir les liens : on pourra en particulier s'intéresser
à l'enrichissement de la description ainsi qu'à des approches de
recherche d'information plus linguistiques que l'approche par mots-clés.
La dernière étape consiste à établir des liens entre contenus du
catalogue. Il est bien évidemment possible d'appliquer la même stratégie
de recherche d'information que pour la deuxième étape. Cependant, étant
donnée la qualité limitée des descriptions textuelles, il est peu
probable que cette approche soit satisfaisante. Pour pallier ces
limites, on exploitera les liens vers les documents externes pour
définir la proximité des contenus du catalogue, l'idée étant que des
contenus partageant de nombreux liens sont proches. On pourra par
exemple exploiter la structure de bigraphe résultant de la deuxième
étape pour faire apparaître des proximités sémantiques entre contenus du
catalogue, permettant ainsi la mise en oeuvre d'un système de
recommandation et de découverte de contenus.
La travail de doctorat, à la frontière entre traitement automatique des
langues, recherche d'information et multimédia, s'effectuera en
collaboration étroite entre Technicolor et l'IRISA (équipe Texmex), le
candidat partageant son temps entre les deux sites voisins.
Contact : à l'IRISA : Guillaume Gravier (guillaume.gravier at irisa.fr) et
Pascale Sébillot (pascale.sebillot at irisa.fr)
_______________________________________________
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora
More information about the Corpora
mailing list