Job: Post-doc TAL, 6 mois

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Sat Jun 8 07:58:48 UTC 2013


Date: Thu, 06 Jun 2013 14:57:20 +0200
From: Isabelle Tellier <isabelle.tellier at univ-paris3.fr>
Message-ID: <20130606145720.87865r4zz0y87ods at webmail.univ-paris3.fr>
X-url: http://mastodons.lip6.fr

PROPOSITION DE POST-DOC ARESOS

Reconnaissance automatique des acteurs et des sujets de discussion

pour la reconstruction de dynamiques socio-sémantiques 

post-doc en informatique (traitement automatique des langues) de 6 mois

à démarrer en juillet-août 2013 

Dans le cadre du projet ARESOS (http://mastodons.lip6.fr) soutenu par
l'appel Mastodons du CNRS sur les grandes masses de données, le Lattice
(http://www.lattice.cnrs.fr) et l'Institut des Systèmes Complexes
(http://www.iscpif.fr) proposent un post-doc de 6 mois en traitement
automatique des langues.

L'objectif du post-doc sera de développer des outils d'extraction
automatique « d'acteurs » (personnes physiques, associations,
institutions, etc.) et de « sujets de discussions » dans des grands
corpus textuels francophones issus de multiples sources du Web (blogs,
forums, médias sociaux) et portant sur différentes controverses
socio-techniques (biologie de synthèse, biofuel, etc.). Cette extraction
a pour but de représenter le contenu sémantique des textes de façon
compacte et néanmoins précise, en vue d'analyses à plus large échelle
permettant de décrire la structure des débats et leur
dynamique. L'analyse des cooccurrences entre sujets permettra
d'identifier comment les discours des acteurs d'une controverse agencent
des arguments d'une certaine façon contribuant à modeler des blocs
argumentatifs plus ou moins stables ou partagés. L'extraction des
acteurs à partir des contenus textuels nous permettra de construire le
réseau hétérogène dynamique liant les acteurs principaux d'une
controverse aux principales positions existantes. A terme la
modélisation d'un tel système socio-sémantique devrait nous aider à
mieux comprendre la dynamique d'émergence des controverses.

Pour analyser finement ces contenus textuels, il est en effet essentiel
de repérer automatiquement les agents porteurs d'opinion (désignés par
des groupes nominaux ou des entités nommées) et les sujets sur lesquels
ils s'expriment. L'association entre ces deux entités pourra ensuite
être qualifiée par la nature de l'opinion émise. Pour réaliser cette
extraction, le/la candidat(e) retenu(e) pourra s'aider d'outils déjà
existants pour le français : extracteur de termes, étiqueteur en partie
du discours (POS), chunker, reconnaisseur d'entités
nommées... L'approche privilégiée fera appel en priorité à des
techniques d'apprentissage automatique supervisé (notamment CRF, mais
d'autres approches pourront être essayées). La solution devra être
robuste afin de s'adapter aux différents types de textes
traités. L'extraction textuelle sera ensuite couplée à des outils
d'analyse et de cartographie de réseaux hétérogènes pour explorer les
potentialités d'une approche « socio-sémantique » dans la compréhension
de la dynamique des controverses.

Compétences souhaitées : thèse en TALN, apprentissage automatique,
reconnaissance des entités nommées, réseaux complexes

Encadrement : Isabelle Tellier , Thierry Poibeau (Lattice),
Jean-Philippe Cointet (ISC)

envoyer CV + lettre de motivation à isabelle.tellier at univ-paris3.fr,
jean-philippe cointet (jphcoi at yahoo.fr)

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list