Sujet de these: CIFRE, Extraction d'informations semantiques a partir de donnees orales

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Oct 19 20:04:56 UTC 2010


Date: Thu, 14 Oct 2010 13:34:25 +0200
From: Chloe CLAVEL <chloe.clavel at edf.fr>
Message-ID: <OFD455EDEC.78884953-ONC12577BC.003EAF66-C12577BC.00403ADB at notes.edfgdf.fr>


Financement : thèse CIFRE en traitement automatique de la langue
parlée

Lieu :   EDF R&D,    1, av du Général de Gaulle,  92141 Clamart (80%)
         LIMSI, Université Paris XI, Orsay (20%)

Début : Janvier 2011
Durée : 3 ans


Titre : Extraction d'informations sémantiques à partir de données
orales: application aux corpus EDF de dialogues client/conseiller

Encadrement académique : Martine Adda-Decker (CNRS LIMSI/LPP, Univ.
Paris 3), Ioana Vasilescu (CNRS LIMSI, Univ Paris 11), Sophie Rosset
(CNRS LIMSI, Univ Paris 11)

Encadrement industriel : Chloé Clavel (EDF R&D)

Sujet : L'extraction d'information à partir de données acoustiques de
parole lance aujourd'hui un défi important aux chercheurs du
traitement automatique de la parole: aller au-delà de la
transformation du signal sonore en une simple suite de mots
(transcription automatique) en y intégrant des informations
sémantiques.  Ces informations sémantiques sont notamment utilisées
pour indexer les données acoustiques en fonction des thèmes abordés,
des sujets traités, voire même des opinions exprimées sur ces sujets.

De nombreuses recherches portées par la communauté TAL (traitement
automatique des langues) abordent également la problématique de
l'extraction d'information à partir de données textuelles de plus en
plus variées et de sources hétérogènes (blogs, forum de discussions,
etc.). En particulier, l'utilisation de techniques issues de
l'indexation de documents textuels, appliquées à la transcription
automatique de parole constitue un thème de recherche en plein essor
qui soulève de nombreux problèmes scientifiques.  Ces problèmes sont
liés au traitement de la variabilité dans la parole, aux erreurs (ou
au bruit) de la transcription automatique ainsi qu'aux modes
d'expressions spontanés différents de ceux de l'expression écrite.

Le sujet de thèse porte sur l'extraction d'information dans des
données conversationnelles EDF à partir des transcriptions
automatiques. Ce travail est à la fois concerné par l'extraction
d'information à partir du texte et par l'analyse et la gestion des
aspects liés à l'expression orale via le traitement des erreurs de
transcription automatique.  Les données conversationnelles EDF
(centres d'appel, enquêtes de satisfaction) représentent un corpus
riche fournissant un cadre de travail particulièrement motivant en
termes de recherche fondamentale et d'enjeux applicatifs. La palette
thématique et expressive est à la fois large et circonscrite par le
cadre applicatif.  Les sources de variabilités (variantes de
prononciation, phénomènes dits « disfluents » et structures dites
«agrammaticales», accents (étrangers, régionaux etc., bruits
environnants etc.) sont particulièrement présentes dans ces données.

Le travail envisagé portera sur:

1. la modélisation sémantique de l'information à extraire. 

(i) Un premier volet portera sur l'indexation thématique en fonction
    des données exploitées et des besoins opérationnels (ex: repérer
    les conversations où les clients abordent un thème donné).

(ii) Un deuxième volet de recherche visera à expliciter les raisons de
     satisfaction ou d'insatisfaction.  Le travail effectué sera
     examiné dans le cadre des recherches sur la fouille d'opinions
     (opinion mining).

2. l'adaptation aux transcriptions. 

Il s'agira d'adapter les techniques d'extraction d'information aux
spécificités de l'oral: disfluences, faible cohérence syntaxique,
marqueurs pragmatiques (ex: marqueurs de discours, indices
dialogiques).  Des traitements spécifiques seront à envisager afin de
minimiser l'impact du bruit de transcription automatique (erreurs de
transcription).  Une étape préalable consistera à faire une analyse
systématique des erreurs de transcription automatique en fonction de
l'information recherchée et du cadre dialogique (profils
conseiller/client).

Profil recherché : Bac+5 dans le domaine du TALN et/ou du traitement
de la parole.
Français et Anglais courant. 

Contexte : Cette thèse s'effectuera entre le LIMSI, groupe TLP
(Traitement du Langage Parlé) et le département ICAME (Innovation
Commerciale pour l'Analyse des Marchés et de leur Environnement) d'EDF
R&D

Candidature : Envoyer un CV, une lettre de motivation, et les
coordonnées d'au moins un référent universitaire à l'ensemble des
adresses suivantes :

chloe.clavel at edf.fr , anne.peradotto at edf.fr
madda at limsi.fr, ioana at limsi.fr, sophie.rosset at limsi.fr

  
 
Chloe CLAVEL
Ingénieur chercheur
EDF 
ICAME
1, av. du Général de Gaulle
92141 Clamart
 
chloe.clavel at edf.fr
Tél. : 33 (0)1 47 65 43 15
  
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list