Job: Stage M2R LIMSI, fouilles de donnees et parole

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Sat Jan 21 21:25:57 UTC 2012


Date: Thu, 19 Jan 2012 19:05:29 +0100
From: Sophie Rosset <sophie.rosset at limsi.fr>
Message-ID: <20120119180529.GB30246 at m17.limsi.fr>


Proposition de stage M2R (fouille de données et parole)

Contact : Sophie Rosset (rosset at limsi.fr)

Lieu : LIMSI - CNRS, bat 508, BP 133, 91403 Orsay Cedex, groupe
Traitement du Langage Parlé

Titre : Fouilles de données appliquées à des données audio : erreurs et
entités nommées

Contexte 
Ce stage de M2 s'inscrit dans les domaines du Traitement Automatique des
Langues (TAL) et de la Parole (TAP) ainsi que celui de la fouille de
données. Nous nous intéressons plus particulièrement à la
caractérisation des erreurs d'un système de transcription de la parole
dont les sorties sont utilisées par un système de reconnaissance
d'Entités Nommées. Il s'agit de mettre en place une méthode permettant
de classifier et de caractériser les erreurs de plusieurs systèmes de
transcription de la parole en quantifiant leur impact sur un (ou
plusieurs) systèmes de reconnaissance d'Entités Nommées. Cette méthode
devra être généralisable à d'autres types d'applications comme la
traduction automatique ou un système de dialogue homme/machine.

Sujet

Les systèmes de reconnaissance de la parole sont évalués en utilisant le
taux d'erreurs de mots (WER ou Word Error Rate) qui considère chaque mot
comme ayant une importance égale. Or on constate que cette métrique
d'évaluation ne permet de mesurer la difficulté qu'aura un système
d'extractions d'information. Autrement dit, si on applique un même
système de détection d'entités nommées sur deux sorties de système de
reconnaissance ayant pourtant un même WER, le taux d'erreur du système
de détection d'entités nommées sera différent.

L'objectif de ce stage est donc de caractériser les erreurs d'un système
de reconnaissance de la parole en fonction d'une tâche de détection
d'entités nommées et de l'impact qu'ont ces erreurs.

Nous nous focaliserons au cours de ce stage sur la parole journalistique
en utilisant les données d'une campagne d'évaluation récente. Cette
campagne a mis en évidence une très grosse perte de résultats des
systèmes de reconnaissance d'entités nommées sur des sorties de système
de reconnaissance automatique de la parole (30% de perte) [1].

Les sorties de trois systèmes de transcription seront étudiées. Leur
impact devra être étudié sur au moins un système d'identification
d'Entités Nommées également fourni par le LIMSI. Ces systèmes sont à
l'état de l'art et pourront donc servir de première référence.

[1] Olivier Galibert; Sophie Rosset; Cyril Grouin; Pierre Zweigenbaum;
Ludovic Quintard. Structured and Extended Named Entity Evaluation in
Automatic Speech Transcriptions. IJCNLP 2011
(http://aclweb.org/anthology-new/I/I11/I11-1058.pdf)

Informations pratiques

Le stage, d'une durée de 5 mois, se déroulera au LIMSI, dans le groupe
Traitement du Langage Parlé et le stagiaire recevra une gratification
(de l'ordre de 480 euros/mois).

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list