These: Gregory Beller, Analyse et modele generatif de l'expressivite

Tue Jun 16 18:44:39 UTC 2009

Date: Sun, 14 Jun 2009 18:30:54 +0200
From: Greg Beller <Greg.Beller at ircam.fr>
Message-ID: <4A3525BE.8030905 at ircam.fr>
X-url: http://video.ircam.fr/

English bellow  [Apologies if you receive multiple copies]
________________________________________________________________________

Grégory BELLER soutiendra publiquement sa thèse de doctorat
IRCAM-Paris VI :

"Analyse et modèle génératif de l'expressivité. Application à la
parole et à l'interprétation musicale"

MERCREDI 24 JUIN 2009 à 14H00, en salle Stravinsky, Ircam
IRCAM, 1 pl. Igor Stravinsky, Paris*
*
*
*La thèse est dirigée par Xavier Rodet, et réalisée à l'Ircam au sein
de l'équipe Analyse et synthèse des sons
*
*
La soutenance de thèse se fera devant un jury composé de :
Gérard Bailly rapporteur GIPSA-lab
Christophe D'Alessandro examinateur LIMSI-CNRS
Laurence Devillers rapporteure LIMSI-CNRS
Thierry Dutoit examinateur TCTS
Axel Roebel examinateur Ircam
Xavier Rodet directeur de thèse, Ircam
Jean-Luc Zarader examinateur ISIR

*La soutenance se fera en Français. Elle est publique et vous êtes les
bienvenus dans la limite des places disponibles. Elle sera suivie d'un
pot, sur place. Pour ceux qui ne pourraient se déplacer, elle sera
retransmise à l'adresse suivante: http://video.ircam.fr/

*
*Résumé*
Cette thèse s'inscrit dans les recherches actuelles sur les émotions
et les réactions émotionnelles, sur la modélisation et la
transformation de la parole, ainsi que sur l'interprétation
musicale. Il semble que la capacité d'exprimer, de simuler et
d'identifier des émotions, des humeurs, des intentions ou des
attitudes, soit fondamentale dans la communication humaine. La
facilité avec laquelle nous comprenons l'état d'un personnage, à
partir de la seule observation du comportement des acteurs et des sons
qu'ils émettent, montre que cette source d'information est essentielle
et, parfois même, suffisante dans nos relations sociales. Si l'état
émotionnel présente la particularité d'être idiosyncrasique,
c'est-à-dire particulier à chaque individu, il n'en va pas de même de
la réaction associée qui se manifeste par le geste (mouvement,
posture, visage...), le son (voix, musique...), et qui, elle, est
observable par autrui. Ce qui nous permet de penser qu'il est possible
de transformer cette réaction dans le but de modifier la perception de
l'émotion associée.

C'est pourquoi le paradigme d'analyse-transformation-synthèse des
réactions émotionnelles est, peu à peu, introduit dans les domaines
thérapeutique, commercial, scientifique et artistique. Cette thèse
s'inscrit dans ces deux derniers domaines et propose plusieurs
contributions.

D'un point de vue théorique, cette thèse propose une définition de
l'expressivité, une définition de l'expressivité neutre, un nouveau
mode de représentation de l'expressivité, ainsi qu'un ensemble de
catégories expressives communes à la parole et à la musique. Elle
situe l'expressivité parmi le recensement des niveaux d'information
disponibles dans l'interprétation qui peut être vu comme un modèle de
la performance artistique. Elle propose un modèle original de la
parole et de ses constituants, ainsi qu'un nouveau modèle prosodique
hiérarchique.

D'un point de vue expérimental, cette thèse fournit un protocole pour
l'acquisition de données expressives interprétées. Colatéralement,
elle rend disponible trois corpus pour l'observation de
l'expressivité. Elle fournit une nouvelle mesure statistique du degré
d'articulation ainsi que plusieurs résultats d'analyses concernant
l'influence de l'expressivité sur la parole.

D'un point de vue technique, elle propose un algorithme de traitement
du signal permettant la modification du degré d'articulation. Elle
présente un système de gestion de corpus novateur qui est, d'ores et
déjà, utilisé par d'autres applications du traitement automatique de
la parole, nécessitant la manipulation de corpus. Elle montre
l'établissement d'un réseau bayésien en tant que modèle génératif de
paramètres de transformation dépendants du contexte.

D'un point de vue technologique, un système expérimental de
transformation, de haute qualité, de l'expressivité d'une phrase
neutre, en français, synthétique ou enregistrée, a été produit.

Enfin et surtout, d'un point de vue prospectif, cette thèse propose
différentes pistes de recherche pour l'avenir, tant sur les plans
théorique, expérimental, technique, que technologique. Parmi
celles-ci, la confrontation des manifestations de l'expressivité dans
les interprétations verbale et musicale semble être une voie
prometteuse.

/Mots-clés/
/Émotions, expressivité, performance artistique, interprétation 
musicale, parole, prosodie, transformation du signal de parole, 
modélisation générative, apprentissage, réseau bayésien.

________________________________________________________________________
/

Ph.D. Defense:

Grégory Beller, IRCAM-Paris VI

Analysis and Generative Model of the Expressivity. Application in the
Speech and in the Musical Performance.

WEDNESDAY, JUNE 24TH, 2009 at 2:00 pm, in room Stravinsky, Ircam
IRCAM, 1 pl. Igor Stravinsky, Paris, France

Ph.D. Supervisor: Xavier Rodet (IRCAM)
*
Ph.D. Examining Board
Gérard Bailly* rapporteur GIPSA-lab
*Christophe D'Alessandro* examiner LIMSI-CNRS
*Laurence Devillers* rapporteure LIMSI-CNRS
*Thierry Dutoit* examiner TCTS
*Axel Roebel* examiner IRCAM
*Xavier Rodet* supervisor IRCAM
*Jean-Luc Zarader* examiner ISIR

The defense is public and will be made in French. It will be followed
by a drink, on the spot. For those who could not move, it will be
broadcast at the following address: http://video.ircam.fr/

      Abstract

This thesis joins in the current searches (researches) on the feelings
and the emotional reactions, on the modelling and the transformation
of the speech, as well as on the musical performance. It seems that
the capacity to express, to feign and to identify emotions, humors,
intentions or attitudes, is fundamental in the human
communication. The ease with which we understand the state of a
character, from the only observation of the behavior of the actors and
the sounds which the yutter, shows that this source of information is
essential and, sometimes, sufficient in our social relationships. If
the emotional state presents the peculiarity to be idiosyncratic, that
is private to every individual, it does not also go away of the
associated reaction which shows itself by the gesture (movement,
posture, face), the sound (voice, music), and which, it is observable
by others.

That is why paradigm of analysis-transformation-synthesis of the
emotional reactions grows on into the therapeutic, commercial,
scientific and artistic domains. This thesis joins in these last two
domains and proposes several contributions. From a theoretical point
of view, this thesis proposes a definition of the expressivity, a
definition of the neutral expressivity, a new representation mode of
the expressivity, as well as a set of expressive categories common to
the speech and to the music. It places the expressivity among the
census of the available levels of information in the performance which
can be seen as amodel of the artistic performance. It proposes an
original model of the speech and its constituents, as well as a new
hierarchical prosodic model.

 From an experimental point of view, this thesis supplies a protocol
for the acquisition of performed expressive data. Collaterally, it
makes available three corpora for the observation of the
expressivity. It supplies a new statistical measure of the degree of
articulation as well as several analysis results concerning the
influence of the expressivity on the speech.

 From a technical point of view, it proposes a speech processing
algorithm allowing the modification of the degree of articulation. It
presents an innovative database management system which is used,
already, by some other automatic speech processing applications,
requiring the manipulation of corpus. It shows the establishment of a
bayesian network as generative model of context dependent
transformation parameters.

 From a technological point of view, an experimental system of high
quality transformation of the expressivity of a French neutral
utterance, either synthetic or recorded, has been produced, as well as
a non-line interface for perceptive tests.

Finally and especially, from a forward-looking point of view, this
thesis proposes various research tracks for the future, both on the
theoretical, experimental, technical, and technological aspects.

Among these, the confrontation of the demonstrations of the
expressivity in the speech and in the musical performance seems to be
a promising way.

*Keywords *
Emotions, expressivity, artistic performance, musical performance, 
speech, prosody, speech signal transformation, generative model, machine 
learning, bayesian network.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------