Sujet de these: Enrichissement semantique d'un portail de VoD, CIFRE Technicolor Rennes - IRISA

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Jun 30 10:46:18 UTC 2010


Date: Tue, 29 Jun 2010 15:39:14 +0200
From: Pascale Sebillot <pascale.sebillot at irisa.fr>
Message-ID: <4C29F782.5040404 at irisa.fr>


Sujet de thèse CIFRE Technicolor Rennes - IRISA (50% du temps 
entreprise, 50% laboratoire)

Enrichissement sémantique d'un portail de vidéo à la demande

Contexte : Technicolor & portails VOD avec films, documentaires,
reportages. Portail courant permettant actuellement seulement de faire
des liens simples pour les films : films du même acteur/réalisateur,
films du même genre, etc.

Afin de proposer de nouvelles fonctionnalités aux portails VOD, nous
souhaitons enrichir chacun des contenus du catalogue par des liens
vers des documents qui abordent le même sujet, aussi bien sur le Web
qu'au sein même du catalogue. De tels liens seront établis à partir
des descriptions textuelles associées aux contenus du catalogue ou, le
cas échéant, à partir d'une transcription automatique de la parole. On
exploitera en premier lieu les synopsis qui fournissent une brève
description du contenu. Dans le cas des films, on pourra également
chercher à tirer profit du script lorsque ce dernier est présent
tandis que pour les documentaires et reportages, on pourra recourir à
la transcription automatique de la parole pour atteindre une
compréhension plus profonde des sujets abordés.

Afin d'établir des liens entre les contenus du catalogue et d'autres
documents, la première étape consiste à extraire des informations
pertinentes des descriptions textuelles disponibles (synopsis, script
et transcription) comme les mots caractéristiques ou encore les
entités nommées (noms de personne, de lieu, dates, etc.). Outre la
définition des informations pertinentes, leur extraction soulève de
nombreuses interrogations en raison de la forme particulière des
textes. Soulignons notamment la taille fortement réduite des synopsis,
l'absence de structure dans les scripts ou encore les erreurs de
transcription.

La deuxième étape consiste à établir de manière automatique des liens
vers des contenus présents sur le Web à partir des informations
extraites. Selon la qualité de ces dernières, il est à prévoir qu'un
modèle de recherche d'information classique à base de quelques mots
clés soit insuffisant. On s'attachera donc à définir le modèle le plus
pertinent pour établir les liens : on pourra en particulier
s'intéresser à l'enrichissement de la description ainsi qu'à des
approches de recherche d'information plus linguistiques que l'approche
par mots-clés.

La dernière étape consiste à établir des liens entre contenus du
catalogue. Il est bien évidemment possible d'appliquer la même
stratégie de recherche d'information que pour la deuxième
étape. Cependant, étant donnée la qualité limitée des descriptions
textuelles, il est peu probable que cette approche soit
satisfaisante. Pour pallier ces limites, on exploitera les liens vers
les documents externes pour définir la proximité des contenus du
catalogue, l'idée étant que des contenus partageant de nombreux liens
sont proches. On pourra par exemple exploiter la structure de bigraphe
résultant de la deuxième étape pour faire apparaître des proximités
sémantiques entre contenus du catalogue, permettant ainsi la mise en
oeuvre d'un système de recommandation et de découverte de contenus.

La travail de doctorat, à la frontière entre traitement automatique
des langues, recherche d'information et multimédia, s'effectuera en
collaboration étroite entre Technicolor et l'IRISA (équipe Texmex), le
candidat partageant son temps entre les deux sites voisins.

Contacts : à l'IRISA : Guillaume Gravier (guillaume.gravier at irisa.fr)
et Pascale Sébillot (pascale.sebillot at irisa.fr)

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list