S=?ISO-8859-1?Q?=E9minaire_?=de Cortext Lab le jeudi 23 mai

Wed May 22 12:44:58 UTC 2013

Avec toutes nos excuses pour les envois multiples.
R.C.

Chers et chères collègues,

Dans le cadre de la 11ième séance du séminaire de Cortext Lab, nous avons
le plaisir d'accueillir deux intervenants Alain Lelu (Université de
Franche-Comté), et Emilie Née (Univ. de Paris-Créteil), qui nous parlerons
de textométrie et d'analyse du discours.

Cette "après-midi de la connaissance" aura lieu le jeudi 23 mai de 14h à
17h, dans la salle de réunion C219 du Latts (Université Paris-Est Marne la
Vallée - rue Galilée, bâtiment du Bois de l’Etang - 2ème étage - aile C).
Voir plan ci-joint.

Alain Lelu , Univ. de Franche-Comte et associé au LORIA (équipe KIWI)
Le clustering : des décennies de solutions partiellement satisfaisantes, et
quelques résultats nouveaux.

Après avoir abordé dans sa première intervention les avancées en matière de
pré-traitements et fonctions offertes aux utilisateurs de recherche
d'information, Alain Lelu se concentrera ici sur la question centrale de la
classification non-supervisée (clustering), très loin d'être épuisée comme
en témoigne la suite ininterrompue - et croissante semble-t-il - de travaux
depuis un demi-siècle. Il abordera les problèmes en suspens, résolus de
façons encore partielles et insuffisantes, et dans lesquels il a contribué
à des avancées :
- Quelle "meilleure" transformation des données ? Des travaux sur les
"Spherical K-Means" (I. Dhillon) et, innombrables, sur le Spectral Graph
Clustering ont conforté les choix qui avaient été les siens dans les
K-Means Axiales (espace sphérique avec distance de Hellinger, proche
cousine de celle à l'oeuvre dans l'analyse des laplaciens de graphes et
l'Analyse des Correspondances).
- Quels types de représentation en sortie pour les documents et les termes
? Nombre d'auteurs ont justifié la nécessité d'une représentation floue et
recouvrante des termes de chaque cluster (synonymie, polysémie...), voire
des documents, se rapprochant de celles fournies par les décompositions de
matrices en facteurs non nécessairement orthogonaux (Non-negative Matrix
Decomposition, Independent Component Analysis, et leurs multiples
variantes), qu'Alain Lelu comparera aux KMA sur un exemple concret.
- Comment obtenir des représentations les plus "parcimonieuses" possibles
(sparse) ? Certains algorithmes à l'oeuvre dans la méthode "Sparse PCA"
(montées en gradient à partir de projections tronquées) ne sont pas sans
rapport avec celui de l'Analyse en Composantes Locales, dont les résultats
seront comparés.
- Réduire l'espace de représentation, comme le font les méthodes de
Spectral Graph Clustering, c'est bien, mais combien de dimensions retenir ?
L'intervenant présentera ses travaux récents sur l'obtention de la valeur
optimale K* par une procédure statistique rigoureuse quand la
dimensionnalité des données dépasse la capacité des heuristiques de type
"coude dans le graphe des valeurs propres". Il s'est également penché sur
la validation statistique du contenu des clusters, ainsi que des liens
entre termes.
- La problématique du clustering dynamique est désormais incontournable :
l'intervenant présentera et discutera sa tentative (Germen) de réponse au
problème.
En bref, un cahier des charges fourni assis sur des réalisations... Comment
se situent les projets français et européens en la matière ? Il sera
intéressant d'en débattre en conclusion.

------------------------------**------------------------------**----

Emilie Née - UPEC - Céditec (EA 3119)
L’insécurité en campagne électorale : une analyse de discours à entrée
lexicale.

L’insécurité en campagne électorale : une analyse de discours à entrée
lexicale.
Il s’agira dans cette présentation d’interroger le surgissement et la
trajectoire médiatique de la thématique sécuritaire … en « prenant le
discours au(x) mot(s) ». Pour cela, nous reviendrons sur l’emploi du mot
insécurité dans le quotidien Le Monde pendant la campagne électorale pour
les élections présidentielles 2001-2002. En particulier, nous nous
concentrerons sur un des phénomènes le plus saillant, la répétition du
signe insécurité, qui constitue la base de la lexicométrie et qui renvoie à
la circulation des discours. Celle-ci a inévitablement un impact sur le
discours et sa réception. Elle crée un effet d’évidence et de consensus
au-delà même des affrontements et ouvre la voie à des processus de
figements discursifs voire à la diffusion d’une phraséologie sécuritaire
électorale.
La présentation mettra l’accent sur la méthodologie employée, c'est-à-dire
une analyse de discours à entrée lexicale articulant sémantique du nom
abstrait et analyse lexicométrique d’un grand corpus médiatique.

-- 
Nicolas Turenne

Chargé de Recherche
INRA - UR SenS
email: nturenne.inra at yahoo.fr
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20130522/643a7555/attachment.htm>