Sujet de these: Stylistique automatique et identification d'auteurs, These en informatique, LIP6/Labex OBVIL

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Thu May 2 09:54:06 UTC 2013


Date: Mon, 29 Apr 2013 15:19:52 +0200
From: Jean-Gabriel Ganascia <Jean-Gabriel at Ganascia.name>
Message-Id: <06412D45-D274-4068-AD4F-0C3E7D3C1977 at Ganascia.name>
X-url: http://lip6.fr/

Stylistique automatique et identification d'auteurs

Sujet proposé par Jean-Gabriel GANASCIA (Jean-Gabriel.Ganascia at lip6.fr)
Unité de recherche UMR 7606 Laboratoire d'informatique de Paris 6

Date limite de soumission : les personnes intéressées doivent envoyer un
CV et une lettre de motivation à Jean-Gabriel Ganascia
(Jean-Gabriel.Ganascia at lip6.fr) avant le 24 mai 2013.

Domaine principal: Sciences et technologies de l'information et de la
communication 
Domaine secondaire : analyse littéraire
Thèmes: intelligence artificielle, fouille de données, traitement
automatique des langues naturelles.


Projet

Cette thèse porte sur la stylistique automatique à l'aide de techniques
d'apprentissage automatique. Il s'agit de caractériser l'auteur, le
genre ou l'époque. Dans le passé, beaucoup de travaux ont porté sur
l'attribution de paternité de textes. Il s'agit de reprendre ces études
avec deux ambitions:

- renouveler les méthodes: à la différence des méthodes classique fondée
  sur la lexicométrie, l'approche proposée fera appel à une extraction
  de motifs syntaxiques.

- identifier les caractéristiques du style: les motifs syntaxiques
  devraient aider à expliciter les caractéristiques du style de tel
  auteur, de tel type de texte ou de telle époque.

Pour mener à bien ce travail, on aura recours à

- des techniques de traitement automatique des langues (étiquetage
  syntaxique, analyse syntaxique, etc.)
- de la fouille de textes (extraction de motifs récurrents)
- de l'apprentissage supervisé

Les recherches se poursuivront dans le cadre du Labex OBVIL qui fait
collaborer l'équipe ACASA du LIP6 avec les équipes de littérature de
l'université Paris-Sorbonne. Cela permettra de valider les approches
proposées en contact avec des équipes de littérature. Cela fournira
aussi des corpus pertinents. A titre d'illustration, une première
validation doit porter sur les romans érotiques du XIXe siècle, dont les
auteurs sont en partie anonymes.

Enjeux

Les défis scientifiques de cette thèse sont doubles:

Il faut améliorer les techniques d'attribution de paternité de
textes. Pour cela on fera des comparaisons sur des corpus connus avec
les techniques classiques fondées sur la lexicométrie, c'est-à-dire sur
des vecteurs de mots.

Le second défi porte sur le renouveau de la stylistique: il faut induire
des caractéristiques lisibles, c'est-à-dire des motifs syntaxiques
suffisamment longs. Cela exige le recours à des analyseurs syntaxiques
automatiques, puis à des approches d'extraction de motifs.

Ouverture à l'international

Comme dit plus haut, ce projet se réalisera dans le cadre du Labex
OBVIL. Ce Labex entretien des liens privilégié avec le projet ARTFL de
l'université de Chicago avec qui nous aurons plusieurs échanges.

Une thèse de littérature en co-tutelle entre le Labex OBVIL et une
équipe de linguistique informatique de l'université de Saint-Petersburg
(Russie) se déroule actuellement. Elle porte sur l'identification des
auteurs de plusieurs romans érotiques du XIXe siècle. Cette thèse se
fera en collaboration avec cette équipe.

Enfin, dans le cadre du Labex OBVIL, il existe des partenariats
européens et avec les Etats-Unis.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list