[ln] These: Camal TAZINE, Modelisation statistique en reconnaissance automatique de la parole
Thierry Hamon
thierry.hamon at LIPN.UNIV-PARIS13.FR
Fri Apr 15 16:13:40 UTC 2005
Date: Thu, 14 Apr 2005 17:24:11 +0200
From: "tazine camal" <tazine.camal at noos.fr>
Message-Id: <20050414152352.368F326B4B at pm-mx5.mx.noos.fr>
X-url: http://www.w3.org/TR/REC-html40
Bonjour,
Je soutiens ma thèse le jeudi 21 avril à 14h00 au LIA, à Avignon.
Au plaisir de vous voir,
Camal TAZINE
_____
Modélisation statistique du langage pour un domaine spécifique en
reconnaissance automatique de la parole
Les modèles de langage des systèmes de reconnaissance de la parole
large vocabulaire sont souvent basés sur des méthodes statistiques
nécessitant de larges corpus spécifiques au domaine d'application
traité. La constitution de ce type de corpus est très coûteuse car
elle nécessite un travail humain important. De plus, les corpus
influençant énormément les modèles de langages qu'ils génèrent,
l'utilisation d'un même corpus pour d'autres domaines d'application
est difficile sans perte sévère de précision. Pour cette raison, il
est difficile d'utiliser directement un corpus «général» pour traiter
des domaines spécifiques. Pourtant, un corpus général est de loin
moins coûteux à constituer quun corpus spécifique.
Une manière d'obtenir un modèle de langage spécifique en
minimisant la main d'oeuvre humaine consisterait à l'obtenir en
utilisant un corpus «général» de grande taille, non étiqueté. En
effet, un tel corpus peut offrir des optiques intéressantes, aussi
bien sur le caractère général de la langue que sur le caractère
spécifique du domaine dapplication à traiter. Ainsi, dans ce
manuscrit, nous défendons lidée quil est possible de rapprocher un
corpus général de grande taille non étiqueté, avec un corpus
spécifique de petite taille. Pour cela, nous faisons lhypothèse quun
corpus du domaine est enfoui dans le corpus général. Nous explorons
quelques méthodes de classification automatique de documents, et
montrons quil est possible datteindre daussi bons résultats que
ceux obtenus avec un corpus étiqueté manuellement. De tels procédés
permettent la réduction du coût de la collecte de corpus, et ainsi une
conception rapide d'un modèle de langage pour un système de
reconnaissance de la parole large vocabulaire.
-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version : http://www.biomath.jussieu.fr/LN/LN/
Archives : http://listserv.linguistlist.org/archives/ln.html
La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list