[ln] Sujet de these: TAL et apprentissage (+image) a l'IRISA

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Fri May 20 14:38:02 UTC 2005


Date: Tue, 17 May 2005 14:57:09 +0200
From: Pascale Sebillot <Pascale.Sebillot at irisa.fr>
Message-ID: <4289EA25.9090206 at irisa.fr>
X-url: http://www.irisa.fr/texmex


Sujet de thèse à l'Irisa, projet TexMex (http://www.irisa.fr/texmex)


Titre : Vers une représentation riche des images

Sujet : L'indexation traditionnelle d'images fixes consiste à extraire
automatiquement de ces images des descripteurs numériques de leur
contenu, représentant par exemple les niveaux de bleu, vert ou rouge
de chaque image, sa texture, ses points caractéristiques... Ces
indices, s'ils permettent de comparer des images, sont toutefois peu
utilisables pour questionner une base d'images que l'on aurait
stockées et que l'on souhaiterait interroger de manière plus
"sémantique" (photo de coucher de soleil, photo de Corse où Pierre
apprend à nager...). Pour obtenir automatiquement une représentation
enrichie autorisant un questionnement de ce type, une voie de
recherche est l'ajout automatique d'une description textuelle à
chacune des images, en repérant, dans un ou plusieurs documents mélant
l'image cible et du texte, les zones de textes décrivant effectivement
l'image ou certaines de ses parties. Une première étape consiste donc,
au sein d'un corpus (grande collection) de tels documents de repérer
automatiquement, parmi toutes les phrases qu'il contient, les zones
plus restreintes de texte se focalisant sur la description
d'images. Ce sont ces phrases particulières qu'il faudra exploiter
plus finement, en utilisant un certain nombre de techniques de
traitement automatique des langues et de la recherche d'information
textuelle, pour déterminer les informations qu'il convient d'ajouter à
la description de chaque image (juxtaposition des phrases obtenues,
information plus traditionnelle telle qu'une liste de mots-clés
extraits de ces phrases, résumé/fusion de l'information présente dans
les phrases retenues...).

En s'appuyant sur de premiers travaux réalisés sur le repérage de
zones de texte "parlant" d'interaction entre gènes au sein d'un autre
projet, l'objectif du stage sera donc, à l'aide de méthodes
d'apprentissage artificiel numérique et symbolique, de chercher à
caractériser les phrases comportant ce genre d'information par rapport
aux phrases non porteuses de descriptions de ce type. Une comparaison
de différentes méthodes d'apprentissage, en termes d'efficacité mais
égalementt de coût de mise en place (degré d'automaticité,
portabilité) sera nécessaire, et des tests sur des corpus volumineux
devront ête menés.

Mots-clés : apprentissage artificiel, extraction d'informations à
partir de corpus, annotation d'images

Profil recherché : master de recherche en informatique ayant des
compétences en apprentissage artificiel, IA, TAL et potentiellement
quelques connaissances en traitement d'image

Contact : Pascale Sébillot, sebillot at irisa.fr et Patrick Gros,
pgros at irisa.fr

--
Pascale SÉBILLOT
IRISA (UMR 6074), Campus de Beaulieu, 35042 Rennes cedex, France
tel: 33 2 99 84 73 17, fax: 33 2 99 84 71 71
email: Pascale.Sebillot at irisa.fr

-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list