Job: Post-doc, acquisition automatique de ressources pour l'analyse d'opinion, CEA LIST/LVIC, Fontenay-aux-Roses

Sat Sep 11 19:18:25 UTC 2010

Date: Thu, 9 Sep 2010 18:51:42 +0200
From: "FERRET Olivier 174579" <olivier.ferret at cea.fr>
Message-ID: <457C3CAAA0CD2D40A64E4D03419B57AAE6883E at LaBeaujoire.intra.cea.fr>

***** Post-doc sur l'acquisition de ressources lexicales pour l'analyse d'opinion *****

Compétences : Traitement automatique des langues, apprentissage
automatique ; des connaissances en acquisition lexicale ou en analyse
d'opinion seront appréciées

Durée : 1 an
Début : avant fin 2010
Lieu : CEA LIST, Laboratoire Vision et Ingénierie des Contenus (LVIC),
Fontenay-aux-Roses
Salaire : selon la grille des salaires CEA
Candidature : CV + liste des publications
Contact : Olivier Ferret (ferreto at zoe.cea.fr)

******************************************************

CONTEXTE
Le CEA LIST a initié en 2006 un projet appelé WASP (Web-Based
Acquisition of Semantics and Pragmatics) dans le but de construire une
carte sémantique de la langue française à partir du Web. Plus
précisément, cette carte a pour but de rendre compte de la façon dont
les mots du Français sont utilisés sur Internet. Cette carte prend
concrètement la forme d'un très vaste réseau de cooccurrences
syntaxiques transposant à l'échelle d'une partie du Web français le
travail réalisé pour construire une base telle que "Les Voisins De Le
Monde" (http://www.irit.fr:8080/voisinsdelemonde).
La fondation Jean-Luc Lagardère apporte son concours à ce projet en
finançant plusieurs post-doctorants pour une période de un an chacun.

Les travaux réalisés jusqu'à présent ont permis la réalisation de
l'infrastructure de construction de la carte sémantique et
l'utilisation de cette infrastructure pour produire une carte
sémantique constituée de 68 000 lemmes à partir de 2 millions de pages
WEB en Français. Dans un deuxième temps, l'effort s'est focalisé sur
la déclinaison thématique de la notion de carte sémantique,
c'est-à-dire la possibilité de créer une carte sémantique restreinte à
un domaine donné au travers de la classification des pages WEB
collectées. La construction de cartes sémantiques pour 10 grands
domaines issus du niveau supérieur du répertoire DMOZ de l'Open
Directory a ainsi été entreprise.

OBJECTIFS DU POST-DOC
Le post-doc proposé a globalement pour objectif d'ajouter une
composante "opinion" à la notion de carte sémantique en l'articulant
avec sa dimension thématique. Plus précisément, les travaux en analyse
d'opinion montrent que s'il est possible de mettre en évidence un
vocabulaire porteur d'opinion hors contexte (cf. WordNet Affect par
exemple), l'utilisation de ce seul vocabulaire n'est pas suffisante
pour obtenir de bonnes performances en matière d'analyse
d'opinion. L'analyse de cet état de fait révèle qu'une part du
vocabulaire que l'on qualifierait hors contexte de non porteur
d'opinion acquiert une valeur de ce point de vue dans un contexte
thématique spécifique. Par exemple, le terme "navet", assez neutre en
langue générale où il fait référence à un légume, possède une
connotation très nettement péjorative dès lors que l'on se trouve dans
le domaine cinématographique. L'objectif du post-doc est ainsi
d'acquérir pour un large ensemble de domaines le vocabulaire
permettant de mettre en oeuvre une analyse d'opinion adaptée à ces
différents domaines.

Pour ce faire, la première phase du post-doc se situera dans le
prolongement direct des derniers travaux réalisés dans le cadre du
projet en mettant l'accent sur la dimension thématique. Trois tâches
principales sont envisagées :

- construction d'un référentiel thématique "homogène" à partir du DMOZ
  et des classifieurs permettant de sélectionner les pages WEB lié à
  un domaine de ce référentiel ;

- équilibrage thématique des pages Web collectées. Le processus actuel
  de collecte, réalisé en utilisant les mots d'un lexique du français
  comme amorce, subit le biais des moteurs de recherche. Par exemple,
  le terme "avocat" renvoie pour l'essentiel des pages dans le domaine
  juridique et peu faisant référence au fruit. Les classifieurs
  construits permettront d'équilibrer la représentation des différents
  domaines considérés ;

- construction des cartes sémantiques par domaine à partir des outils
  déjà existant.

La seconde phase du post-doc sera centrée sur l'acquisition de
lexiques d'opinion pour les différents domaines distingués lors de la
première phase. Plus précisément, plusieurs problématiques de travail
sont visées :

- l'acquisition automatique à partir des pages WEB collectées pour un
  domaine d'un lexique caractérisant l'expression d'une polarité
  positive ou négative propre à ce domaine. Sans présumer de l'optique
  qui sera adoptée, un mécanisme d'amorçage reposant sur un lexique
  "général" de polarité apparaît comme une solution possible. Ce
  mécanisme pourrait en outre exploiter une similarité lexicale de
  nature distributionnelle, à l'instar de travaux déjà réalisés dans
  ce domaine dans le laboratoire (Pitel & Grefenstette, 2008) ;

- l'application des lexiques acquis à l'analyse de la polarité
  (positive/négative/neutre) de documents. Cette application pourra
  s'appuyer sur les travaux déjà réalisés sur ce sujet au LVIC ;

- l'évaluation des résultats de l'analyse d'opinion développée, avec
  la prise en compte du problème de la diversité des champs
  thématiques abordés ;

- de manière exploratoire, l'extension à un ensemble plus riche de
  dimensions caractérisant les opinions (joie/tristesse,
  amusement/horreur ...), dans le prolongement de (Pitel &
  Grefenstette, 2008).

Guillaume Pitel and Gregory Grefenstette (2008) Semi-automatic
Building Method for a Multidimensional Affect Dictionary for a New
Language, 6th Conference on Language Resources and Evaluation (LREC
2008), Marrakech, Morocco

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------