Sujet de these: Annotation de documents multimedias, IRISA, Rennes

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Jun 16 18:29:48 UTC 2009


Date: Mon, 15 Jun 2009 14:41:17 +0200
From: Vincent Claveau <vincent.claveau at irisa.fr>
Message-ID: <4A36416D.4030801 at irisa.fr>



English version below.

Merci de diffuser cette offre de thèse aux étudiants intéressés.

Sujet
-----
Doctorat en informatique (avec financement)

Mots-clés
---------
Informatique ; Fouille de données ; Traitement automatique des langues ;
Multimédia ; Apprentissage artificiel

Contexte
--------
Dans le cadre du projet Quaero (www.quaero.org), le centre de
recherche IRISA - INRIA Rennes-Bretagne Atlantique offre une bourse de
thèse portant sur l'annotation de documents multimédias.

L'indexation, la navigation ou plus généralement toute manipulation de
documents multimédias, tels que les flux TV, nécessitent une
annotation fine de ces documents.
Cette annotation peut notamment s'appuyer sur les données langagières
contenues dans le document lui-même, mais aussi dans des sources
environnantes.
Par exemple, pour une émission de TV, ces données sont bien sûr les
paroles contenues dans la bande-son, mais aussi le texte incrusté dans
l'image ou le télétexte, et des sources externes comme les programmes
TV, les sites Web décrivant ou commentant les émissions...

L'objet de la thèse est d'étudier tous les aspects se rapportant à
l'annotation de ce type de documents multimédias à partir de ces
indices textuels, et de développer les techniques et les outils pour
ce faire.
Chaque source se distingue par le type d'information portée mais aussi
par sa qualité, notamment du fait de l'utilisation des outils de
conversion en texte (transcription de la parole, OCRisation des
images...).  Les approches développées devront donc tirer parti de cet
aspect multi-sources pour être sûres et robustes.
Les très gros volumes de données inhérents à ces documents orienteront
quant à eux les recherches vers des techniques non supervisées ou
nécessitant peu d'intervention humaine, comme les techniques
d'apprentissage artificiel ou de fouille de données.

La thèse se déroulera au sein de l'équipe TexMex
(www.irisa.fr/texmex).  Dans le cadre de ces travaux, la personne
recrutée sera amenée à collaborer avec les différents partenaires de
Quaero et à participer aux réunions de travail du projet.

Diplôme requis
--------------
Un Master 2 recherche ou équivalent en informatique ou traitement
automatique des langues.

Compétences requises
--------------------
Autonomie de travail ; bon niveau d'anglais.
Excellentes compétences en programmation (notamment Perl, Python ou
shell scripts...), manipulation d'expressions régulières.
Compétences en apprentissage artificiel, fouille de données,
traitement automatique des langues, multimédia fortement souhaitées.

Conditions
----------
Employeur : INRIA
Lieu : IRISA (INRIA Rennes-Bretagne Atlantique), Rennes, France
Type de contrat : bourse de 36 mois sous forme de CDD
Rémunération : suivant le barème INRIA (environ 1500 euros les 2
premières années et 1600 euros la dernière année)
Date de début : à partir d'octobre 2009

Candidature/renseignements
--------------------------
Pour candidater (envoyer CV détaillé et lettre de motivation) ou pour
tout renseignement, envoyer un courriel à :
Pascale.Sebillot at irisa.fr
Vincent.Claveau at irisa.fr

========================================================================

Subject
-------
PhD position in Computer Science

Keywords
---------
Computer science; Data Mining; Natural Language Processing; Multimedia;
Machine Learning

Description
-----------
In the framework of the Quaero project, the research center IRISA -
INRIA Rennes-Bretagne Atlantique offers a PhD position concerning the
annotation of multimedia documents.

Any manipulation of multimedia documents, like indexing or exploring
them, requires their fine-grained annotation.
Notably, this annotation can rely on linguistic information contained in
the document itself, but also in surrounding sources. For instance, in a
TV broadcast, these linguistic data are the speech in the soundtrack,
but also the text overlaid in the images or the teletext, and external
data like TV programs, Web sites describing or commenting the
broadcasts, etc.

The goal of the PhD thesis is to study all the different aspects related
to the annotation of such multimedia documents using linguistic clues,
and to develop techniques and tools dedicated to this purpose.
Each textual source differs from the others by the specific information
it carries and by its quality, due to the process of conversion to text
(speech-to-text, OCR, etc.).
Thus, the developed approaches will have to make the most of this
multi-source aspect in order to be reliable and robust. The very large
amount of data implied by such multimedia documents will also direct the
work towards non-supervised or weakly supervised techniques, such as
those used in machine learning or data-mining.

Required qualification
----------------------
Master's degree/MSc (or any diploma equivalent to a French Master by
research 2nd year) in computer science or natural language processing.

Required skills
--------------------
Good English skills.
Very good programming skills (for example in Perl, Python or shell
scripting, etc.), regular expression processing.
Experience in machine learning, data-mining, natural language processing
or multimedia are definite plus.

Conditions
----------
Employer: INRIA
Place: IRISA (INRIA Rennes-Bretagne Atlantique), Rennes, France
Kind of contract: 36 month contract (French CDD)
Remuneration: according to the INRIA scales (net income: about 1500
euros the first 2 years
and 1600 euros the last year)
Beginning date: around October 2009

Application/inquiries
--------------------------
To apply (please email CV and covering letter) or for inquiries, send an
email to:
Pascale.Sebillot at irisa.fr
Vincent.Claveau at irisa.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list