Job: Post-doc position at LORIA, Nancy, France

Thierry Hamon hamon at LIMSI.FR
Tue Oct 7 19:25:18 UTC 2014


Date: Thu, 2 Oct 2014 17:29:21 +0200 (CEST)
From: Irina Illina <irina.illina at loria.fr>
Message-ID: <777414447.32669713.1412263761916.JavaMail.zimbra at loria.fr>


Proposition de post-doc au LORIA (Nancy, France)
---------------------------------------------------

Reconnaissance automatique de la parole : contextualisation du modèle de
langage par ajustement dynamique

Cadre du projet ANR ContNomina 
------------------------------
Les technologies impliquées dans la recherche d’informations dans de
grandes bases de données audio/vidéo reposent le plus souvent sur
l'analyse de grands corpus fermés et sur des techniques d'apprentissage
automatique et de modélisation statistique du langage écrit ou
oral. L'efficacité de ces approches est maintenant unanimement reconnue
mais elles présentent néanmoins des défauts majeurs, en particulier pour
la prise en charge des noms propres, qui sont cruciales pour
l'interprétation des contenus.

Dans le cadre des données diachroniques (qui évoluent dans le temps) de
nouveaux noms propres apparaissent continuellement ce qui nécessite de
gérer dynamiquement les lexiques et modèles de langage utilisés par le
système de reconnaissance de la parole. 

En conséquence, le projet ANR ContNomina (2013-2017) se concentre sur le
problème des noms propres dans les systèmes de traitement automatique
des contenus audio en exploitant au mieux le contexte des documents
traités. Pour ce faire, le sujet de ce post-doc se focalisera sur la
contextualisation de la reconnaissance à travers l’ajustement dynamique
du modèle de langage de manière à le rendre plus précis.


Sujet du post-doc 
------------------
Le modèle de langage du système reconnaissance  est fondé sur des
réseaux de neurones appris sur un grand corpus de texte. Le problème est
d’estimer la probabilité d’un mot ajouté en fonction de son
contexte. Plusieurs pistes pourront être explorées: adapter le modèle de
langage, utiliser un modèle de classe ou étudier la notion d’analogie. 

Notre équipe a développé un système complet de reconnaissance
automatique de la parole permettant de transcrire une émission de radio
à partir du fichier audio correspondant. Le post-doctorant devra
développer un nouveau module dont la fonction est d’intégrer de nouveaux
noms propres dans le modèle de langage.


Compétences demandées

Avoir obtenu une thèse en TAL (Traitement Automatique des Langues), être
familier avec les outils de reconnaissance automatique de la parole,
avoir de bonnes bases en statistiques et maîtriser les langages de
programmation C, la programmation orientée objets et le Perl. 

Durée : Environ 12 mois,  début durant fin 2014 ou début 2015(la date de
début est flexible)
Localisation et contact : Laboratoire Loria, équipe Parole, Nancy,
France
irina.illina at loria.fr dominique.fohr at loria.fr
Envoyer par mail un CV détaillé avec une liste de publications, diplômes
et une lettre de motivations

------------------------------------------------------------------------
------------------------------------------------------------------------
Post-doc position at LORIA (Nancy, France)
--------------------------------------------
Automatic speech recognition: contextualisation of the language model by
dynamic adjustment

Framework of ANR project  ContNomina 
------------------------------------
The technologies involved in information retrieval in large audio/video
databases are often based on the analysis of large, but closed, corpora,
and on machine learning techniques and statistical modeling of the
written and spoken language. The effectiveness of these approaches is
now widely acknowledged, but they nevertheless have major flaws,
particularly for what concern proper names, that are crucial for the
interpretation of the content.

In the context of diachronic data (data which change over time) new
proper names appear constantly requiring dynamic updates of the lexicons
and language models used by the speech recognition system.

As a result, the ANR project ContNomina (2013-2017) focuses on the
problem of proper names in automatic audio processing systems by
exploiting in the most efficient way the context of the processed
documents. To do this, the post-doc student will address the
contextualization of the recognition module through the dynamic
adjustment of the language model in order to make it more accurate.

Post-doc subject
------------------
The language model of the recognition system is based on a neural
network learned from a large corpus of text. The problem is to estimate
the probability of a new proper name depending on its context. Several
tracks will be explored: adapting the language model, using a class
model or studying the notion of analogy.

Our team has developed a fully automatic system for speech recognition
to transcribe a radio broadcast from the corresponding audio file. The
post-doc will develop a new module whose function is to integrate new
proper names in the language model.

Required skills
----------------
A PhD in NLP (Natural Language Processing), be familiar with the tools
for automatic speech recognition, background  in statistics and computer
program skills (​​C, object-oriented programming and Perl).

Post-doc duration: 12 months, start during the end of 2014 or the begin
of 2015 (these is some flexibility)
Localization and contacts: Loria laboratory, Speech team, Nancy, France
irina.illina at loria.fr dominique.fohr at loria.fr
Candidates should email a letter of application, a detailed CV with a
list of publications and diploma

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------



More information about the Ln mailing list