Job: Proposition de stage Master / Ingenieur, Enrichissement de lexique emotionnel pour l'informatique affective

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Nov 15 20:58:44 UTC 2013


Date: Fri, 15 Nov 2013 02:41:01 +0100
From: Jean Yves ANTOINE <Jean-Yves.Antoine at univ-tours.fr>
Message-ID: <52857BAD.7000804 at univ-tours.fr>
X-url: http://li.univ-tours.fr/equipes/equipe-bdtln-198022.kjsp
X-url: http://www-seaside.irisa.fr/


Proposition de stage
-------------------------------

Proposition de stage de fin d’études (Master, Ecole Ingénieur) en
informatique appliqué au Traitement Automatique des Langues Naturelles,
d’une durée minimale de 4 mois.
Titre : Enrichissement de lexique émotionnel pour l’informatique
affective

Contexte scientifique
--------------------------------

En collaboration avec le Laboratoire d’Informatique de l’Université de
Tours, le laboratoire IRISA, antenne de Lorient (56 – Morbihan) propose
un sujet de stage dans le cadre du projet de recherche DAPAI-EMO financé
par la société BAMSOO.

Le projet DAPAI-EMO fait suite à un projet (EmotiRob) concernant le
développement d’un robot compagnon affectif pour des enfants en
hospitalisation longue. Cette poursuite de travaux fait abstraction ici
de sa dimension robotique pour se concentrer sur ses aspects liés à la
compréhension émotionnelle de la langue. Au cours du projet EmotiRob,
nous avons développé EmoLogus, un système de détection des émotions qui
intervient à la suite d’un système logique de compréhension de message
appelé Logus. EmoLogus utilise la structure sémantique de l’énoncé
fourni par Logus pour mettre en œuvre un calcul de la valence
émotionnelle portée par l’énoncé, c'est-à-dire pour savoir si celui-ci
porte une émotion positive, négative ou neutre. Ce calcul logique se
base principalement sur l’utilisation de normes lexicales émotionnelles
qui décrivent le système de valeurs du système : à chaque mot du
vocabulaire est associée une valence (positif, neutre, négatif) et une
intensité (nul, faible, fort) émotive. Le lexique émotionnel sur lequel
se base le système a été élaboré en collaboration avec l’équipe de
psycholinguistique d’Arielle Syssau, de l’Université Montpellier 2. Basé
sur des jugements évaluatifs contrôlés auprès d’une population de test
échantillonnée avec soin, il nous garantit la représentativité du
système de valeurs d’EmoLogus.

Le système a montré une bonne robustesse de détection dans le cadre
restrictif d’une communication enfantine. Il souffre toutefois du manque
de couverture de son lexique émotionnel. A l’heure actuelle, le système
EmoLogus intègre en effet un lexique limité à un millier de mots, alors
que la langue française générale compte entre 50 000 et 100 000 entrées
lexicales. Dans le cadre de ce projet, nous proposons d’utiliser des
techniques d’extension automatique de lexique émotionnel à partir d’une
ressource initiale telle que celle du système EmoLogus. Parmi les
méthodes proposées pour étendre automatiquement un lexique émotionnel
étendu, on distingue deux types d'approches :

- celles basées sur des réseaux sémantiques comme WordNet, où sont
  décrits des relations de synonymies entre tous les mots d’une
  langue. On peut alors rechercher des synonymes des mots germes
  présents dans le lexique originel et leur appliquer un algorithme de
  propagation de valence,

- celles basées sur des techniques d’analyse de données sur des corpus
  textuels. Dans ce second cas, on va étudier les cooccurrences de mots
  dans un corpus pour calculer des similarités sémantiques (remplaçant
  les liens de synonymie explicites de Wordnet) et les intégrer dans le
  calcul de la valence des mots du lexique. Dans le cadre de ce stage,
  on se propose ainsi d’utiliser la technique de l’analyse sémantique
  latente (LSA : Latent Semantic Analysis) pour calculer ces proximités
  sémantiques et s’en servir pour estimer la valence d’un mot.  Les mots
  germes déjà présents dans la norme lexicale émotionnelle actuelle
  serviront de base à l’espace vectoriel sur lequel sera opérée
  l’analyse de données permettant l’extension du lexique.

Ce stage visera à développer au moins une de ces deux techniques pour
étendre le lexique émotionnel d’EmoLogus, et tester l’apport de cette
extension sur un corpus de test. En cas d’avancée significative, ce
travail pourra donner lieu à communication dans une conférence
scientifique à laquelle sera invité à participer le stagiaire.

Travail à réaliser
----------------------

La personne recrutée sera en charge de la conception de nouvelles
techniques d’extension de lexique émotionnel, du développement d’un
lexique à large couverture pour le système EmoLogus ainsi que de la
réalisation de tests d’évaluation du système étendu obtenu. Le stage se
déroulera en trois étapes successives :

- Phase n°1 – Préparation des données (T0 – T0+1) : Veille technologie
  sur le sujet, définition des formats d’échange entre les différentes
  techniques d’extension du lexique, caractérisation d’une ou plusieurs
  application test et définition des données de test en relation et du
  protocole d’évaluation final.

- Phase n°2 – Extension de lexique par relations sémantiques (T0+1 –
  T0+3) : Extension du lexique germe par analyse des relations de
  synonymie et d’antinomie entre éléments (synsets) de Wordnet,
  évaluation de l’approche sur données de test (comparaison des
  performances d’EmoLogus avec ou sans le lexique étendu).

- Phase n°3 – Extension de lexique par analyse de données (T0+4 – T0+6)
  : Extension du lexique germe par analyse sémantique
  latente. Évaluation sur tests unitaires de l’approche, évaluation de
  l’approche sur données de test (comparaison des performances
  d’EmoLogus avec ou sans le lexique étendu). Cette phase ne sera
  abordée qu’en cas de stage de durée supérieure à quatre mois.

Profil recherché
---------------------

La personne recrutée sera en cycle terminal d’études en informatique, de
niveau Bac+5 (Master informatique professionnel, recherche ou
indifférencié, école d’ingénieur). Des connaissances en Traitement
Automatique des Langues et en analyse de données seront appréciées, sans
être un pré-requis à recrutement. Dans le cas d’un(e) étudiant(e) en
Master Recherche, le sujet de stage pourra être adapté aux attentes de
l’étudiant.

Rémunération
------------------

Rémunération minimale prévue par la règlementation à savoir 436,05 € par
mois. Cette rémunération sera assurée dans le cadre d’un projet
industriel financé par la société BAMSOO.

Durée du stage et lieu d’exercice
------------------------------------------

La personne recrutée travaillera au sein du laboratoire IRISA, dans les
locaux de l’ENSIBS, à Lorient (Morbihan). Il s’intégrera dans une équipe
projet composée de Jeanne Villaneau (IRISA, équipe SEASIDE) et Jean-Yves
Antoine (Laboratoire d’Informatique de l’Université François Rabelais de
Tours, équipe BDTLN).

La durée minimale de stage sera de 4 mois. Une prolongation de stage est
envisageable à la demande du stagiaire ou de son établissement.

Contact – Dépôts de candidature
-------------------------------------------

Contact : Jeanne.Villaneau at univ-ubs.fr

Dépôt des candidatures : auprès de Jeanne Villaneau. Merci de déposer un
CV détaillé de vos activités passées, accompagné d’une lettre de
motivation et de vos relevés de notes des deux dernières années
d’études. Un développement Java sera demandé pour la sélection du
candidat.

Liens utiles
---------------

Laboratoire LI, équipe BDTLN : 
http://li.univ-tours.fr/equipes/equipe-bdtln-198022.kjsp

Laboratoire IRISA, équipe SEASIDE : http://www-seaside.irisa.fr/

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------



More information about the Ln mailing list