Job: Stage, Phonetisation, Thales R&T

Fri Dec 15 15:46:12 UTC 2006

Date: Wed, 13 Dec 2006 16:28:02 +0100
From: benedicte.goujon at thalesgroup.com
Message-ID: <45801C02.30807 at thalesgroup.com>

Proposition de stage

Sujet du stage : Définition d'un modèle de langage filtrant par
phonétisation multiple.

Descriptif :

L'équipe Human Interaction Technologies (HIT) de Thales Research &
Technology France traite différents aspects relatifs à son thème de
prédilection comme la modélisation de l'information, les facteurs
humains et le traitement de la parole. C'est dans ce dernier axe de
recherche qu'est traité le filtrage de documents audio par détection
de thème. Dans l'outil existant, la définition d'un thème se fait par
un ensemble de mots-clés représentés sous forme phonétique. Cet
ensemble agit comme un filtre sur la transcription en treillis de
phonèmes du signal vocal. Le treillis de phonèmes est obtenu en
remplaçant, dans le système de reconnaissance automatique de la
parole, le modèle de langage classique par un modèle de langage
beaucoup plus léger traitant seulement des probabilités d'enchaînement
entre phonèmes.

Aujourd'hui, le système est limité par le fait que la transcription
des éléments du filtre thématique en phonèmes est univoque. Par
exemple, Saddam Hussein est idéalement représenté par la suite de
phonème " s aa d ah m hh uw s ey n ". Or, dans le langage parlé, il
est très rare que les mots soient prononcés de manière
canonique. Ainsi, dans un document audio notre exemple sera transcrit
de la manière suivante : " s ae m s eh ey n ". De ce fait, le système
a du mal à trouver une correspondance entre le filtre et le flux
sonore à filtrer. Il est donc nécessaire de faire correspondre à
chaque élément du filtre un ensemble de prononciations possibles, et
ce de manière automatique.

Dans la mesure où le modèle de langage utilisé agit sur le treillis de
phonèmes en sortie du système de reconnaissance, il sera nécessaire,
dans une première partie de stage d'une durée d'un mois, de définir un
modèle de langage à partir de données sélectionnées. Puis, dans une
deuxième partie plus longue (quatre mois), il conviendra de mettre au
point un système de conversion texte vers transcription phonétique
multiple. La dernière partie sera consacrée, pendant un mois, à
l'évaluation du système doté d'un nouveau filtre et à la rédaction
d'un rapport.

Compétences souhaitées :

* Bonne connaissance du traitement automatique de la parole avec des
  notions précises de phonétique

* Bonne connaissance en programmation Java et script

* Bon niveau en anglais

Informations diverses :
* Niveau requis : Bac+5 (Master Recherche, Master Pro, Ecole
  d'ingénieur)

* Date de début : avril 2007 (négociable)

* Durée : 5 à 6 mois

* Lieu :    Thales Research & Technology France
    RD128 - 91767 Palaiseau Cedex - France

Contacts :

M. Olivier Grisvard, responsable de l'équipe HIT (responsable 
administratif du stage)
E-mail : olivier.grisvard at thalesgroup.com / Tel : 01 69 415 680 / Fax : 
01 69 416 001

M. Thibaut Ehrette, ingénieur de recherche HIT (co-encadrant du stage)
E-mail : thibaut.ehrette at thalesgroup.com / Tel : 01 69 415 681 / Fax : 
01 69 416 001

Mlle Bénédicte Goujon, ingénieur de recherche HIT (co-encadrante du stage)
E-mail : benedicte.goujon at thalesgroup.com / Tel : 01 69 415 685 / Fax : 
01 69 416 001

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------