[ln] These: Camal TAZINE, Modelisation statistique en reconnaissance automatique de la parole

Fri Apr 15 16:13:40 UTC 2005

Date: Thu, 14 Apr 2005 17:24:11 +0200
From: "tazine camal" <tazine.camal at noos.fr>
Message-Id: <20050414152352.368F326B4B at pm-mx5.mx.noos.fr>
X-url: http://www.w3.org/TR/REC-html40

Bonjour,

Je soutiens ma thèse le jeudi 21 avril à 14h00 au LIA, à Avignon.

Au plaisir de vous voir,

Camal TAZINE

  _____

Modélisation statistique du langage pour un domaine spécifique en
reconnaissance automatique de la parole

    Les modèles de langage des systèmes de reconnaissance de la parole
large vocabulaire sont souvent basés sur des méthodes statistiques
nécessitant de larges corpus spécifiques au domaine d'application
traité. La constitution de ce type de corpus est très coûteuse car
elle nécessite un travail humain important. De plus, les corpus
influençant énormément les modèles de langages qu'ils génèrent,
l'utilisation d'un même corpus pour d'autres domaines d'application
est difficile sans perte sévère de précision. Pour cette raison, il
est difficile d'utiliser directement un corpus «général» pour traiter
des domaines spécifiques. Pourtant, un corpus général est de loin
moins coûteux à constituer qu’un corpus spécifique.

    Une manière d'obtenir un modèle de langage spécifique en
minimisant la main d'oeuvre humaine consisterait à l'obtenir en
utilisant un corpus «général» de grande taille, non étiqueté. En
effet, un tel corpus peut offrir des optiques intéressantes, aussi
bien sur le caractère général de la langue que sur le caractère
spécifique du domaine d’application à traiter.  Ainsi, dans ce
manuscrit, nous défendons l’idée qu’il est possible de rapprocher un
corpus général de grande taille non étiqueté, avec un corpus
spécifique de petite taille. Pour cela, nous faisons l’hypothèse qu’un
corpus du domaine est enfoui dans le corpus général. Nous explorons
quelques méthodes de classification automatique de documents, et
montrons qu’il est possible d’atteindre d’aussi bons résultats que
ceux obtenus avec un corpus étiqueté manuellement. De tels procédés
permettent la réduction du coût de la collecte de corpus, et ainsi une
conception rapide d'un modèle de langage pour un système de
reconnaissance de la parole large vocabulaire.

-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------