[Corpora-List] th èse CIFRE Technicolor Rennes - IRISA

Tue Jun 29 14:09:13 UTC 2010

Enrichissement sémantique d'un portail de vidéo à la demande

Contexte : Technicolor & portails VOD avec films, documentaires, 
reportages. Portail courant permettant actuellement seulement de faire 
des liens simples pour les films : films du même acteur/réalisateur, 
films du même genre, etc.

Afin de proposer de nouvelles fonctionnalités aux portails VOD, nous 
souhaitons enrichir chacun des contenus du catalogue par des liens vers 
des documents qui abordent le même sujet, aussi bien sur le Web qu'au 
sein même du catalogue. De tels liens seront établis à partir des 
descriptions textuelles associées aux contenus du catalogue ou, le cas 
échéant, à partir d'une transcription automatique de la parole. On 
exploitera en premier lieu les synopsis qui fournissent une brève 
description du contenu. Dans le cas des films, on pourra également 
chercher à tirer profit du script lorsque ce dernier est présent tandis 
que pour les documentaires et reportages, on pourra recourir à  la 
transcription automatique de la parole pour atteindre une compréhension 
plus profonde des sujets abordés.

Afin d'établir des liens entre les contenus du catalogue et d'autres 
documents, la première étape consiste à extraire des informations 
pertinentes des descriptions textuelles disponibles (synopsis, script et 
transcription) comme les mots caractéristiques ou encore les entités 
nommées (noms de personne, de lieu, dates, etc.). Outre la définition 
des informations pertinentes, leur extraction soulève de nombreuses 
interrogations en raison de la forme particulière des textes. Soulignons 
notamment la taille fortement réduite des synopsis, l'absence de 
structure dans les scripts ou encore les erreurs de transcription.

La deuxième étape consiste à établir de manière automatique des liens 
vers des contenus présents sur le Web à partir des informations 
extraites. Selon la qualité de ces dernières, il est à prévoir qu'un 
modèle de recherche d'information classique à base de quelques mots clés 
soit insuffisant. On s'attachera donc à définir le modèle le plus 
pertinent pour établir les liens : on pourra en particulier s'intéresser 
à l'enrichissement de la description ainsi qu'à des approches de 
recherche d'information plus linguistiques que l'approche par mots-clés.

La dernière étape consiste à établir des liens entre contenus du 
catalogue. Il est bien évidemment possible d'appliquer la même stratégie 
de recherche d'information que pour la deuxième étape. Cependant, étant 
donnée la qualité limitée des descriptions textuelles, il est peu 
probable que cette approche soit satisfaisante. Pour pallier ces 
limites, on exploitera les liens vers les documents externes pour 
définir la proximité des contenus du catalogue, l'idée étant que des 
contenus partageant de nombreux liens sont proches. On pourra par 
exemple exploiter la structure de bigraphe résultant de la deuxième 
étape pour faire apparaître des proximités sémantiques entre contenus du 
catalogue, permettant ainsi la mise en oeuvre d'un système de 
recommandation et de découverte de contenus.

La travail de doctorat, à la frontière entre traitement automatique des 
langues, recherche d'information et multimédia, s'effectuera en 
collaboration étroite entre Technicolor et l'IRISA (équipe Texmex), le 
candidat partageant son temps entre les deux sites voisins.

Contact : à l'IRISA : Guillaume Gravier (guillaume.gravier at irisa.fr) et 
Pascale Sébillot (pascale.sebillot at irisa.fr)

_______________________________________________
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora