These: Alexander Pak, Fouille d'opinion

Fri Jun 1 19:39:50 UTC 2012

Date: Thu, 31 May 2012 18:21:16 +0200
From: Patrick Paroubek <pap at limsi.fr>
Message-ID: <1338481276.3036.17.camel at localhost>
X-url: http://www.limsi.fr

Alexander Pak soutiendra sa thèse intitulée "Automatic, Adaptive,and
Applicative Sentiment Analysis" - Analyse de sentiments automatique,
adaptative et applicative, le 13 juin 2012 au LIMSI-CNRS (Université
Paris XI, Bat. 508, Orsay, http://www.limsi.fr)

Résumé:

L'analyse de sentiments est un des nouveaux défis apparus en traitement
automatique des langues avec l'avènement des réseaux sociaux sur le
WEB. Profitant de la quantité d'information maintenant disponible, la
recherche et l'industrie se sont mises en quête de moyens pour analyser
automatiquement les opinions exprimées dans les textes. Pour nos
travaux, nous nous plaçons dans un contexte multilingue et multi-domaine
afin d'explorer la classification automatique et adaptative de polarité.

Nous proposons dans un premier temps de répondre au manque de ressources
lexicales par une méthode de construction automatique de lexiques
affectifs multilingues à partir de microblogs. Pour valider notre
approche, nous avons collecté plus de 2 millions de messages de Twitter,
la plus grande plate-forme de microblogging et avons construit à partir
de ces données des lexiques affectifs pour l'anglais, le français,
l'espagnol et le chinois.

Pour une meilleure analyse des textes, nous proposons aussi de remplacer
le traditionnel modèle n-gramme par une représentation à base d'arbres
de dépendances syntaxiques. Dans notre modèle, les n-grammes ne sont
plus construits à partir des mots mais des triplets constitutifs des
dépendances syntaxiques. Cette manière de procéder permet d'éviter la
perte d'information que l'on obtient avec les approches classiques à
base de sacs de mots qui supposent que les mots sont indépendants.

Finalement, nous étudions l'impact que les traits spécifiques aux
entités nommées ont sur la classification des opinions minoritaires et
proposons une méthode de normalisation des décomptes d'observables, qui
améliore la classification de ce type d'opinion en renforçant le poids
des termes affectifs.

Nos propositions ont fait l'objet d'évaluations quantitatives pour
différents domaines d'applications (les films, les revues de produits
commerciaux, les nouvelles et les blogs) et pour plusieurs langues
(anglais, français, russe, espagnol et chinois), avec en particulier une
participation officielle à plusieurs campagnes d'évaluation
internationales (SemEval 2010, ROMIP 2011, I2B2 2011).

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------