[parislinguists] Détection et caractérisation de l’idéologie sur Twitter: Stage de M2 Informatique et/ou TAL et/ou linguistique de corpus

Julien Sdl juliensdl@yahoo.fr [parislinguists] parislinguists-noreply at yahoogroupes.fr
Wed Jan 21 17:24:49 UTC 2015


Stage de M2Informatique et/ou Traitement automatique du langage et/ou linguistique decorpus


 
Détection etcaractérisation de l’idéologie sur Twitter

 Encadrants :

-         Julien Longhi, MCF, UCP, julien.longhi[@]u-cergy.fr

-         Claudia Marinica, MCF, UCP, claudia.marinica[@]u-cergy.fr


 
Durée du stage :

3 à6 mois (en fonction des spécificités de la formation du candidat) - gratification selon les conventions habituelles

 Lieu du stage :

ETIS- UMR CNRS 8051 Université de Cergy-Pontoise, St-Martin 1

2,avenue Adolphe-Chauvin F 95302 CERGY-PONTOISE CEDEX

 Contexte :

Projet :Institutions, communautés et idéologies dans les médias sociaux et le web2.0 : de la détection à l’interprétation (ICI 2.0) – dirigé par JulienLonghi


 
Descriptif du projet et types de missions :

Les réseaux sociaux, et plus particulièrement lemicroblogging, occupent une place importante dans la société. Les utilisateurspartagent leurs opinions sur différents sujets. Ce partage peut devenir unenjeu pour l’analyse du discours politique quand les hommes/femmes politiques yparticipent.

Des indicateurs ont déjà été mis en place dans lalittérature pour évaluer l'importance d'un message ou/et d'une personne, ainsi quela détection de communautés. Ces indicateurs sont souvent statistiques etprennent très peu en compte la dimension sémantique des messages. De plus,quand la sémantique est prise en charge, elle correspond généralement àl'utilisation de vocabulaires/taxonomies/ontologies, alors que ces notions netraitent pas le sens complet des messages. 

Une précédente recherche a permis de constituer uneméthodologie de questionnement du sens produit et circulant sur Twitter, enalliant les méthodes quantitatives des informaticiens et qualitatives deslinguistes (à partir notamment des travaux de Sarfati et Longhi). Cetteméthodologie (passage d’une base de données à la constitution d’un corpusnumérique, implémentation de critères linguistiques dans des outils detraitement des données textuelles) doit à présent faire l’objet de troisquestionnements :

-         validation des résultats et du système élaboré(validations et questionnaires à envisager par des experts ou instances devalidation) ;

-         élaboration d’une démarche basée sur différentssous-corpus constitués (« golden corpus ») afin de faire émerger descaractéristiques peut-être non prises en compte initialement ;

-         réflexion sur les outils et moyens de détectionet d’implémentation de critères linguistiques pour la détection mais aussi lacaractérisation d’idéologies.


 
Article de référence :

 « Whatdoes Twitter have to say about ideology ? » (https://halshs.archives-ouvertes.fr/halshs-01058867)

 Corpus de travail : 


 
Longhi, J., Marinica, C., Borzic, B.,Alkhouli, A., 2014 : Polititweets, corpus de tweetsprovenant de comptes politiques influents. In Chanier T. (ed) Banque decorpus CoMeRe. Ortolang.fr : Nancy. [cmr-polititweets- tei-v1] - accessible via ce permalien : Overview of a CoMeRe corpus


|   |
|   |   |   |   |   |
| Overview of a CoMeRe corpusThis page: http://hdl.handle.net/11403/comere/cmr-polititweets Back to Repository main page: http://hdl.handle.net/11403/comere  |
|  |
| Afficher sur www.ortolang.fr | Aperçu par Yahoo |
|  |
|   |


-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20150121/907f70c8/attachment.htm>


More information about the Parislinguists mailing list