These: Stanislas Oger, Modeles de langage ad hoc pour la reconnaissance automatique de la parole

Wed Nov 30 15:03:24 UTC 2011

Date: Mon, 28 Nov 2011 18:15:27 +0100
From: Stanislas Oger <stanislas.oger at laposte.net>
Message-ID: <4ED3C1AF.9000500 at laposte.net>

Bonjour,

J'ai le plaisir de vous convier à ma soutenance de thèse qui aura lieu
le mercredi 30 novembre à 10h30 dans l'amphi Blaise Pascal du CERI,
Université d'Avignon et des Pays de Vaucluse, campus Agroparc. Vous êtes
également cordialement invités au traditionnel pot de thèse qui suivra
la soutenance.

Titre de la thèse : Modèles de langage ad hoc pour la reconnaissance
automatique de la parole

Résumé :

Les trois piliers d’un système de reconnaissance automatique de la
parole sont le lexique, le modèle de langage et le modèle acoustique. Le
lexique fournit l’ensemble des mots qu’il est possible de transcrire,
associés à leur prononciation. Le modèle acoustique donne une indication
sur la manière dont sont réalisés les unités acoustiques et le modèle de
langage apporte la connaissance de la manière dont les mots
s’enchaînent. Dans les systèmes de reconnaissance automatique de la
parole markoviens, les modèles acoustiques et linguistiques sont de
nature statistique. Leur estimation nécessite de gros volumes de données
sélectionnées, normalisées et annotées.

A l’heure actuelle, les données disponibles sur le Web constituent de
loin le plus gros corpus textuel disponible pour les langues française
et anglaise. Ces données peuvent potentiellement servir à la
construction du lexique et à l’estimation et l’adaptation du modèle de
langage. Le travail présenté ici consiste à proposer de nouvelles
approches permettant de tirer parti de cette ressource.

Ces travaux s'articulent autour de deux axes. Le premier traite de
l’utilisation des données présentes sur le Web pour mettre à jour
dynamiquement le lexique du moteur de reconnaissance automatique de la
parole. L’approche proposée consiste à augmenter dynamiquement et
localement le lexique du moteur de reconnaissance automatique de la
parole lorsque des mots inconnus apparaissent dans le flux de parole.
Les nouveaux mots sont extraits du Web grâce à la formulation
automatique de requêtes soumises à un moteur de recherche. La
phonétisation de ces mots est obtenue grâce à un phonétiseur
automatique.

Le second axe consiste à proposer une nouvelle manière de considérer
l’information que représente le Web et des éléments de la théorie des
possibilités sont utilisés pour la modéliser. Un modèle de langage
possibiliste est alors proposé. Il fournit une estimation de la
possibilité d’une séquence de mots à partir de connaissances relatives à
l’existence de séquences de mots sur le Web. Un modèle probabiliste Web
reposant sur le compte de documents fourni par un moteur de recherche
Web est également présenté. Plusieurs approches permettant de combiner
ces modèles avec des modèles probabilistes classiques estimés sur corpus
sont proposées. Les résultats montrent que combiner les modèles
probabilistes et possibilistes donne de meilleurs résultats que les
modèles probabilistes classiques. De plus, les modèles estimés à partir
des données Web donnent de meilleurs résultats que ceux estimés sur
corpus.

Jury :

M. Laurent Besacier, Professeur, LIG, Grenoble (Rapporteur)
M. Kamel Smaïli, Professeur, LORIA, Nancy (Rapporteur)
M. Alexandre Allauzen, Maître de Conférence, LIMSI, Paris (Examinateur)
M. Yannick Estève, Professeur, LIUM, Le Mans (Examinateur)
M. Pascal Nocéra, Maître de Conférence, LIA, Avignon (Examinateur)
M. Georges Linarès, Professeur, LIA, Avignon (Directeur de thèse)

Stanislas Oger.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------