Job: Stage M2, Extraction automatique d'information de contenus textuels

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Nov 14 17:43:26 UTC 2012


Date: Sat, 10 Nov 2012 18:28:17 +0100
From: Alexandre Pauchet <alexandre.pauchet at insa-rouen.fr>
Message-ID: <509E8EB1.7070705 at insa-rouen.fr>
X-url: http://asi.insa-rouen.fr/enseignants/~apauchet/

** Stage de M2 Recherche : Extraction automatique d'information de
contenus textuels

** Mots-clefs : Extraction de connaissances, analyse de 
dialogue/conversation, traitement automatique de la langue.

** Contexte :

Plixee est une startup fondée par trois ingénieurs de l'INSA de Rouen.
Elle développe une solution à destination du grand public, associations
et TPE visant à faciliter la communication et l'organisation de projets.
L'offre comble un manque constaté d'outils simples pour s'organiser de
manière dématérialisée. Elle permet d'éviter les discussions par emails
ou le panachage de plusieurs services dispersant l'information. Elle se
différencie des solutions existantes en ne fournissant que des outils
simples et ne se substitue pas aux logiciels avancés de gestion de
projets.
Une des grandes forces de Plixee est d'accompagner l'utilisateur dans le
processus créatif. En créant un espace dédié à leur projet, les
utilisateurs disposent d'un espace de discussion au sein duquel ils
peuvent échanger autour de leurs idées. Au fur et à mesure de leurs
discussions, les idées vont germer et amener à prendre des décisions.
Celles-ci se matérialisent par des éléments de projet que les
utilisateurs peuvent extraire directement depuis les messages
(questions, tâches, etc.). Ces éléments construisent alors petit à petit
le projet qui sera achevé au terme de leur consultation/réalisation.

** Objectif du stage :
Le processus d'extraction d'éléments au sein des discussions est pour le
moment réalisé manuellement par les utilisateurs. L'objectif de ce stage
est de faciliter ce processus en proposant des algorithmes et outils
suggérant ou extrayant automatiquement les éléments adéquats grâce à une
analyse du contenu de la discussion. On peut ainsi imaginer que dans une
conversation portant sur le choix d'une date de départ en vacances, le
système suggère automatiquement une question reprenant les différentes
possibilités évoquées dans des messages précédents.
Pour répondre à cette problématique, nous envisageons donc de recourir à
des systèmes d'analyse de contenu. Trois approches sont envisagées : Une
approche symbolique à l'aide de patrons linguistiques, qu'ils soient
construits manuellement ou automatiquement (voir [1] comme exemple
appliqué à la détection d'événements).
Une approche numérique permettant d'apprendre automatiquement les
informations à extraire (voir [2] pour une approche entièrement
automatique).
Une approche hybride, combinant les deux approches précédentes.  Par
ailleurs, la structure dialogique pourra également être exploitée afin
de faciliter l'extraction des éléments en question. [3], par exemple,
propose une méthodologie d'analyse de dialogues dont l'approche hybride
pourrait servir à détecter des structures courant sur plusieurs
messages.

** Travail à effectuer :
- Modélisation formelle du problème
- Étude bibliographique des solutions existantes
- Méthode(s) d'extraction automatique de connaissances
- Implantation et évaluation des résultats
Comme base de travail seront fournis : un corpus annoté et un prototype
simplifié issu d'un développement réalisé par deux étudiants en projet.

** Encadrement :
Vincent Durmont (Plixee) : vincent at plixee.com
Alexandre Pauchet (MIU at LITIS - INSA de Rouen) : pauchet at insa-rouen.fr
Quentin Suire (Plixee) : quentin at plixee.com

** Équipe d'accueil et déroulement du stage
Le stagiaire sera intégré dans la société Plixee et dans l'équipe
"Modélisation Interaction et Usages" (MIU) du LITIS (EA 4108) à l'INSA
de Rouen. De façon générale, l'équipe MIU adopte une approche
pluridisciplinaire de sciences cognitives. Elle s'intéresse notamment à
la relation entre l'homme et les systèmes d'information et de sa
modélisation, posant comme axiome que les interactions sont
représentatives de l'usage. Le défi scientifique est de comprendre
comment modéliser les interactions entre l'homme et la machine ou entre
l'homme et l'homme avec la machine comme interface.
Le stage se déroulerait de février 2013 à juin 2013. L'étudiant serait
hébergé dans les locaux du laboratoire LITIS qui lui fournirait le
matériel nécessaire à son travail. La rémunération de l'étudiant serait
assurée par la société Plixee au tarif légal en vigueur (436,05EUR par
mois).

** Références bibliographiques
[1] L. Serrano, T. Charnois, S. Brunessaux, B. Grilhères, M. Bouzid.
Combinaison d'approches pour l'extraction automatique d'événements.
JEP-TALN-RECITAL'2012 - Grenoble, France.
[2] R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu and P.
Kuksa. Natural Language Processing (Almost) from Scratch. Journal of
Machine Learning Research, 12:2493-2537, 2011.
[3] Z. Alès, G. Dubuisson Duplessis, O. Serban, A. Pauchet, A
Methodology to Design Human-Like Embodied Conversational Agents based on
Dialogue Analysis, Workshop HAIDM at AAMAS, Valencia, Spain, pp.34-49,
2012.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list