These: Vincent Jousse, Identification nommee du locuteur
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Fri Apr 29 20:32:16 UTC 2011
Date: Fri, 29 Apr 2011 11:38:39 +0200
From: Vincent Jousse <vincent.jousse at lium.univ-lemans.fr>
Message-ID: <4DBA871F.2070208 at lium.univ-lemans.fr>
Bonjour,
J'ai le plaisir de vous inviter à la soutenance de ma thèse intitulée
"Identification nommée du locuteur : exploitation conjointe du signal
sonore et de sa transcription".
Cette soutenance se déroulera le mercredi 04 mai 2011 à 9h30 dans
l'amphithéâtre de l'Institut d'informatique Claude Chappe (LIUM) au
Mans.
Le jury sera composé de :
Frédéric Béchet, Professeur (Rapporteur)
Frédéric Bimbot, Directeur de Recherche (Rapporteur)
Claude Barras, Maître de Conférences (Examinateur)
Béatrice Daille, Professeur (Directrice de thèse)
Sylvain Meignier, Maître de Conférences (Co-encadrant de thèse)
Christine Jacquin, Maître de Conférences (Co-encadrant de thèse)
Simon Petitrenaud, Maître de Conférences (Invité)
Vous êtes également conviés au pot qui suivra la soutenance.
------------
Résumé :
Le traitement automatique de la parole est un domaine qui englobe un
grand nombre de travaux : de la reconnaissance automatique du locuteur
à la détection des entités nommées en passant par la transcription en
mots du signal audio. Les techniques de traitement automatique de la
parole permettent d’extraire nombre d’informations des documents audio
(réunions, émissions, etc.) comme la transcription, certaines
annotations (le type d’émission, les lieux cités, etc.) ou encore des
informations relatives aux locuteurs (changement de locuteur, genre du
locuteur). Toutes ces informations peuvent être exploitées par des
techniques d’indexation automatique qui vont permettre d’indexer de
grandes collections de documents.
Les travaux présentés dans cette thèse s’intéressent à l’indexation
automatique de locuteurs dans des documents audio en français. Plus
précisément nous cherchons à identifier les différentes interventions
d’un locuteur ainsi qu’à les nommer par leur prénom et leur nom. Ce
processus est connu sous le nom d’identification nommée du locuteur
(INL). La particularité de ces travaux réside dans l’utilisation
conjointe du signal audio et de sa transcription en mots pour nommer
les locuteurs d’un document. Le prénom et le nom de chacun des
locuteurs est extrait du document lui même (de sa transcription
enrichie plus exactement), avant d’être affecté à un des locuteurs du
document.
Nous commençons par rappeler le contexte et les précédents travaux
réalisés sur l’INL avant de présenter Milesin, le système développé
lors de cette thèse. L’apport de ces travaux réside tout d’abord dans
l’utilisation d’un détecteur automatique d’entités nommées (LIA_NE)
pour extraire les couples prénom / nom de la transcription. Ensuite,
ils s’appuient sur la théorie des fonctions de croyance pour réaliser
l’affectation aux locuteurs du document et prennent ainsi en compte
les différents conflits qui peuvent apparaître. Pour finir, un
algorithme optimal d’affectation est proposé. Ce système obtient un
taux d’erreur compris entre 12 et 20 % sur des transcriptions de
référence (réalisées manuellement) en fonction du corpus utilisé. Nous
présentons ensuite les avancées réalisées et les limites mises en
avant par ces travaux. Nous proposons notamment une première étude de
l’impact de l’utilisation de transcriptions entièrement automatiques
sur Milesin.
Mots-clés : Identification nommée du locuteur, reconnaissance du
locuteur, transcription enrichie.
Cordialement,
Vincent Jousse
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list