These: Juliette Kahn, Performance et confiance en identification biometrique vocale
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Tue Dec 6 21:05:02 UTC 2011
Date: Mon, 05 Dec 2011 09:27:19 +0100
From: Juliette KAHN <juliette.kahn at univ-avignon.fr>
Message-ID: <20111205092719.18459ficlldm6vs7 at webmail.univ-avignon.fr>
Bonjour à tous,
J'ai le plaisir de vous inviter à ma soutenance de thèse qui aura lieu
le 19 décembre 2011 à 14h30 dans l'amphi Blaise Pascal du Centre
d'Enseignement et de Recherche en Informatique (CERI) de l'Université
d'Avignon et des Pays de Vaucluse (339, chemin des Meinajaries-Agroparc
BP 91228-84911 AVIGNON Cedex 9-FRANCE) . Vous êtes également les
bienvenus au pot de thèse qui suivra la soutenance.
Titre de la thèse
Parole de locuteur : performance et confiance en identification
biométrique vocale
Résumé
Ce travail de thèse explore l'usage biométrique de la parole dont les
applications sont très nombreuses (sécurité, environnements
intelligents, criminalistique, surveillance du territoire ou
authentification de transactions électroniques). La parole est soumise à
de nombreuses contraintes fonction des origines du locuteur
(géographique, sociale et culturelle) mais également fonction de ses
objectifs performatifs. Le locuteur peut être considéré comme un facteur
de variation de la parole, parmi d'autres. Dans ce travail, nous
présentons des éléments de réponses aux deux questions suivantes :
- Tous les extraits de parole d'un même locuteur sont-ils équivalents
pour le reconnaître ?
- Comment se structurent les différentes sources de variation qui
véhiculent directement ou indirectement la spécificité du locuteur ?
Nous construisons, dans un premier temps, un protocole pour évaluer la
capacité humaine à discriminer un locuteur à partir d'un extrait de
parole en utilisant les données de la campagne NIST-HASR 2010. La tâche
ainsi posée est difficile pour nos auditeurs, qu'ils soient naïfs ou
plus expérimentés. Dans ce cadre, nous montrons que ni la
(quasi)unanimité des auditeurs ni l'auto-évaluation de leurs jugements
ne sont des gages de confiance dans la véracité de la réponse soumise.
Nous quantifions, dans un second temps, l'influence du choix d'un
extrait de parole sur la performance des systèmes automatiques. Nous
avons utilisé deux bases de données, NIST et BREF ainsi que deux
systèmes de RAL, ALIZE/SpkDet (LIA) et Idento (SRI).
Les systèmes de RAL, aussi bien fondés sur une approche UBM-GMM que sur
une approche i-vector montrent des écarts de performances importants
mesurés à l'aide d'un taux de variation autour de l'EER moyen, Vr (pour
NIST, VrIdento = 1.41 et VrALIZE/SpkDet =1.47 et pour BREF, Vr = 3.11)
selon le choix du fichier d'apprentissage utilisé pour chaque
locuteur. Ces variations de performance, très importantes, montrent la
sensibilité des systèmes automatiques au choix des extraits de parole,
sensibilité qu'il est important de mesurer et de réduire pour rendre les
systèmes de RAL plus fiables.
Afin d'expliquer l'importance du choix des extraits de parole, nous
cherchons les indices les plus pertinents pour distinguer les locuteurs
de nos corpus en mesurant l'effet du facteur Locuteur sur la variance
des indices. La F0 est fortement dépendante du facteur Locuteur, et ce
indépendamment de la voyelle. Certains phonèmes sont plus discriminants
pour le locuteur : les consonnes nasales, les fricatives, les voyelles
nasales, voyelles orales mi-fermées à ouvertes. Ce travail constitue un
premier pas vers une étude plus précise de ce qu'est le locuteur aussi
bien pour la perception humaine que pour les systèmes automatiques. Si
nous avons montré qu'il existait bien une différence cepstrale qui
conduisait à des modèles plus ou moins performants, il reste encore à
comprendre comment lier le locuteur à la production de la parole. Enfin,
suite à ces travaux, nous souhaitons explorer plus en détail l'influence
de la langue sur la reconnaissance du locuteur. En effet, même si nos
résultats indiquent qu'en anglais américain et en français, les mêmes
catégories de phonèmes sont les plus porteuses d'information sur le
locuteur, il reste à confirmer ce point et à évaluer ce qu'il en est
pour d'autres langues.
Jury
Mme Régine ANDRE-OBRECHT Professeur, IRIT, Toulouse Rapporteur
M. Anders ERIKSSON Professeur, Université de Göteborg, Göteborg
(Suède) Rapporteur
Mme Martine ADDA-DECKER Professeur, LPP, Paris Présidente du jury
M. Edouard GEOFFROIS Ingénieur, DGA, Paris Examinateur
Mme Solange ROSSATO Maître de Conférences, LIG, Grenoble Co-encadrante
M. Jean-François BONASTRE Professeur, LIA, Avignon Directeur de thèse
Juliette Kahn
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list