Job: Stage M2, Etude et modelisation des marqueurs discursifs dans un corpus oral EDF de conversations, LIMSI, Orsay
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Sun Feb 6 19:04:43 UTC 2011
Date: Thu, 3 Feb 2011 12:46:50 +0100 (CET)
From: ioana at limsi.fr
Message-ID: <3f4db725619763c61d860043d0b8f46f.squirrel at webmail.limsi.fr>
Etude et modélisation des marqueurs discursifs dans un corpus oral EDF
de conversations téléphoniques client/conseiller
Responsables:
Sophie Rosset, Ioana Vasilescu (LIMSI-CNRS) et Chloé Clavel (R&D EDF,
Clamart 92)
Ce sujet de stage porte sur l'étude et la modélisation des marqueurs
discursifs et des phénomènes dits "disfluents" (par . ex. les
hésitations) dans les corpus oraux d'EDF.
La R&D d'EDF met en œuvre des techniques de text mining pour
optimiser sa relation client, en analysant des questions ouvertes
d'enquête de satisfaction, des retranscriptions de conversations
issues des centres d'appels, et des corpus web avec le but de classer
ces données selon différentes thématiques et opinions. Que ces données
soient issues de l'oral (centres d'appel) ou du web (blogs, forums,
réseaux sociaux), les entrées de la chaîne text mining diffèrent de
celles classiquement traitées. Ces spécificités sont liées à
l'expression spontanée et sont difficiles à appréhender, notamment
lors de l'étape d'extraction de concepts métiers. Parmi les événements
qui caractérisent ce type de données les phénomènes dits
« disfluents » (incluant des hésitations comme « euh » et
reformulations diverses mais aussi des marqueurs discursifs comme
« bon », « bein », « donc ») sont fréquents et soulèvent la question
de leur traitement par rapport à l'objectif principal qui est de
modéliser les concepts métiers.
Nous voulons mettre en évidence/modéliser le fonctionnement des
phénomènes dits "disfluents" et des marqueurs discursifs dans les
corpus oraux d'EDF.
Ce sujet convient à un(e) étudiant(e) en M2, intéréssé(e) par la
linguistique en lien avec les technologiques vocales, ayant ainsi un
solide bagage linguistique mais possédant également des connaissances
en traitemant automatique des langues.
Description du stage:
Le dialogue homme/homme témoigne d'une variété de stratégies
interactionnelles où le contenu verbal d'un échange est accompagné de
nombre de phénomènes lexicaux et non-lexicaux ayant le rôle d'assurer
la gestion efficace de l'interaction : prendre la parole,
conserver/céder le tour de parole, indiquer des difficultés de mise en
mots. Les marqueurs discursifs font partie de ces événements verbaux
ayant le rôle de régulation de l'interaction. Quant aux "disfluences"
et en particulier aux hésitations telles que "euh" en français, des
études ont montré leur rôle dans la recherche lexicale: les locuteurs
semblent faire appel à ces événements afin d'indiquer qu'ils se
trouvent en plein processus de mise en mots d'une information
pertinente au sein de leur tour de parole.
A titre d'exemple, des études récentes sur des corpus homme/machine
ont montré que ces événements loin d'être "disfluents" permettent
d'indiquer des zones d'information pertinente, susceptibles de subir
une reformulation.
Le travail de ce stage portera sur l'analyse des corpus oraux
homme/homme disponibles à EDF ainsi que sur la modélisation des
phénomènes observés. Il s'agira de mettre en évidence les différentes
fonctions des (classes de) marqueurs discursifs et hésitations dans le
corpus, de valider ces fonctions à travers une analyse statistique des
données et de définir les paramètres d'une modélisation automatique
puis de l'implémenter.
Plus précisément, les étapes de ce travail sont: (i) analyse
morpho-syntaxique de corpus (analyse, définition et extraction de
classes de marqueurs discursifs, étude et définition de contextes
d'occurences, classification automatique des marqueurs
discursifs/contextes d'occurences, exploitation d'outils d'analyse
morpho-syntaxique), (ii) validation statistique des données, (iii)
formalisation des résultats, (iv) développement d'un système de
classification des différentes classes de disfluences, (v) outil de
visualisation des documents analysés.
Références:
On the role of discourse markers in interactive spoken question
answering systems / Vasilescu, I. ; Rosset, S. ; Adda-Decker,
M.. LREC 2010. Seventh International Conference on Language Resources
and Evaluation, Valetta, Malta : 2010. - 7p
On the functions of the vocalic hesitation euh in interactive
man-machine question answering dialogs in French / Vasilescu, I. ;
Rosset, S. ; Adda-Decker, M.. , DISS 2010, Tokyo Japan: 2010. - 4p
Profil de la/du candidat(e):
Ce stage s'adresse aux étudiant(e)s en M2 ayant suivi un parcours
linguistique/informatique/traitement automatique de la parole et de la
langue. Connaissances souhaitées: Linguistiques:
phonétique/morpho-syntaxe, analyse statistique de
données. Informatiques: environnement linux/unix, algorithme
d'apprentissage et de classification.
Lieu et durée du stage:
Le stage se déroulera au laboratoire LIMSI-CNRS
(http://www.limsi.fr/Pratique/acces/), dans le groupe "Traitement du
Langage Parlé". La durée prévue du stage est de 5 mois (plein temps, a
partir de mars/avril 2011). Le sujet de stage peut être poursuivi dans
le cadre d'une thèse.
Rémunération: ~400 euros/mois (gratification selon les tarifs en
vigueur).
Encadrants (contacts): Sophie Rosset (rosset at limsi point fr), Ioana
Vasilescu (ioana at limsi point fr), Chloé Clavel (chloe clavel at edf
point fr).
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list