[Corpora-List] Postdoc position in natural language processing and speech recognition - IRISA (Rennes, France)
Pascale Sebillot
pascale.sebillot at irisa.fr
Wed Oct 8 15:36:31 UTC 2008
The postdoc position, because of its subject, is dedicated to people
fluent enough in French. The description is thus given in that language.
Intégration de connaissance syntaxique et sémantique en reconnaissance automatique de la parole.
La principale limite des systèmes actuels de transcription automatique de la parole provient sans aucun doute de l'absence de connaissances de haut niveau sur le langage. Savoir reconnaître le thème abordé dans un segment à transcrire peut ainsi influer la production de mots plus probables ; comprendre que deux mots sont proches au niveau du sens peut affermir ou amoindrir la croyance en la pertinence d'une hypothèse de transcription contenant ces deux termes ; reconnaître l'agrammaticalité d'une hypothèse produite peut conduire à mettre en avant une solution plus sûre. Malgré des expériences variées concernant l'intégration de connaissances linguistiques,
l'exploitation des informations par exemple d'ordre sémantique ou pragmatique est toutefois très marginale.
L'Action de Recherche Concertée de l'INRIA RAPSODIS a pour objectif d'intégrer des connaissances linguistiques de haut niveau, de type syntaxique et sémantique, en transcription automatique de la parole. Le projet s'articule autour de trois axes : l'extraction de relations lexicales sémantiques (synonymes, hyperonymes, etc.) à partir de corpus, le développement d'outisl d'analayse syntaxique partielle de transcriptions automatiques et l'intégration de ces connaissances pour améliorer la reconnaissance de la parole.
Le sujet proposé s'inscrit dans le troisième axe et a pour buts de proposer, d'étudier et d'évaluer des méthodes permettant une intégration effective des connaissances extraites par ces analyses syntaxiques et sémantiques dans notre système de transcription automatique. On pourra étudier dans un premier temps l'utilisation de telles connaissances pour réordonner des listes d'hypothèses de transcription. On s'interessera également à leur impact sur les mesures de confiance. Dans un deuxième temps, on pourra s'intéresser à des modes d'intégration plus complexes, soit par le biais de graphes de mots, soit directement au niveau de l'algorithme de décodage initial.
Les méthodes proposées seront évaluées sur une tâche de transcription d'émissions radiophoniques telles que proposée dans la campagne ESTER 2.
Profil
Thèse en TAL ou RAP (modèles de langues,
acquisition de connaissances sémantiques, analyse syntaxique, etc.).
Contact
Guillaume Gravier, guillaume.gravier at irisa.fr
Pascale Sébillot, pascale.sebillot at irisa.fr
Liens
Rapsodis http://rapsodis.inria.fr
ESTER http://www.afcp-parole.org/ester/index.html
Dates
Date limite pour postuler : 31 octobre 2008
Début du post-doc : décembre 2008
_______________________________________________
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora
More information about the Corpora
mailing list