Job: Post-doc, Fouille de donnees et contraintes, GREYC, Caen

Wed Jun 15 15:36:32 UTC 2011

Date: Tue, 14 Jun 2011 15:37:14 +0200
From: Thierry Charnois <thierry.charnois at unicaen.fr>
Message-ID: <4DF7640A.1090808 at unicaen.fr>
X-url: http://bingo2.greyc.fr
X-url: http://www.orpha.net/

Le laboratoire GREYC CNRS UMR 6072 de l'université de Caen
Basse-Normandie propose un post-doc financé par la Région
Basse-Normandie sur un projet de recherche.

Sujet : développement de méthodes de fouille de données pour
l'extraction de connaissances à partir de textes
=====

Contexte
========

L'objectif général de ce travail est de développer de nouvelles
méthodes de fouille de données adaptées aux spécificités du texte en
tirant profit des complémentarités des techniques de traitement
automatique des langues avec celles des techniques de fouille.

L'idée consiste à tirer parti de la capacité des méthodes de fouille à
faire émerger des régularités et des motifs sur des données
volumineuses, - les motifs découverts étant ensuite utilisables en TAL
en tant que patrons linguistiques ou règles d'extraction -, ainsi qu'à
développer des méthodes de fouille adaptées aux spécificités du texte.
L'originalité de ce sujet est ainsi de croiser les techniques de TAL
(notamment pour l'extraction d'information) et de fouille de données.

Il existe un savoir-faire au GREYC sur les méthodes de fouille de
données et du traitement automatique des langues (TAL), notamment en
extraction d'information, et depuis peu d'années, nous développons une
thématique émergente autour de l'hybridation de ces deux domaines
(Charnois 09 ; Plantevit 09 ; Cellier 10a ) dans le cadre du projet
Bingo2 (2008-2011, http://bingo2.greyc.fr) financé par l'ANR. Le
post-doc proposé se situe dans le prolongement de ce projet, et
s'appuie sur le projet ANR Hybride acceptée à l'appel à projets blanc
2011 de l'ANR.  Hybride regroupe le GREYC (équipe CoDaG), le LORIA
(équipe Orpailleur), MoDyCo (Paris X) et l'INSERM (Orphanet, sur les
maladies rares). Il a pour ambition de développer de nouvelles
méthodes et outils pour guider la découverte de connaissances à partir
de textes.

Travail proposé
==============

Pour adapter les algorithmes de fouille de données aux données
textuelles, le post-doctorant pourra, selon son profil, travailler sur
l'un ou l'autre des deux volets suivants :

1 ** Conception et mise au point d'une méthode pour la fouille de
données sous contraintes textuelles.**

Cet aspect pourra être initié par la réalisation d'un extracteur de
fouille de données séquentielles prenant en compte des itemsets et
intégrant des contraintes syntaxiques classiques (par ex. gap,
longueur, etc) mais aussi des contraintes "textuelles" : par
ex. l'appartenance ou non d'un type particulier d'item dans les motifs
extraits, ce type pouvant être spécifié par une information
linguistique (exemple : présence de la catégorie "verbe", ou encore
"verbe d'interaction"...) ; la formalisation et l'intégration des
contraintes textuelles sera à développer. L'objectif applicatif est
d'associer des informations linguistiques variées (morphologiques,
syntaxiques, sémantiques...) à des unités textuelles de différents
niveaux (mot, proposition, phrase...) : les unités textuelles sont par
nature ordonnées donc séquentielles, alors que les informations
linguistiques sont de type ensembliste (itemsets). L'expérimentation
consistera en un cas d'étude sur une collection de textes issue
d'Orphanet (base de données internationale sur les maladies rares
accessible via le web : http://www.orpha.net/). Pour aller au-delà de
la fouille de séquences, un prolongement de ce volet pourra porter sur
la fouille de graphes.

2 ** Etude de faisabilité de l'extension du cadre de la programmation
par contraintes à la fouille de séquences sous contraintes. **

Des travaux sur les liens PPC et fouille ont déjà été réalisés au
GREYC (Khiari 10) dans le cas des itemsets (qui est un cadre
ensembliste). Il s'agit maintenant d'étendre ces travaux pour prendre
en compte la séquentialité non seulement de données textuelles mais
aussi plus largement de toutes données ordonnées (fouille de
séquences). Une idée est l'exploitation de contraintes PPC comme la
contrainte REGULAR proposée par G. Pesant (CP'2004) pour l'extraction
de séquences fréquentes. Une extension de ce travail pourra porter sur
la fouille séquentielle sous contraintes souples.

* Profil
=======

Nous recherchons un informaticien ayant des connaissances dans au
moins l'un des domaines suivants : fouille de données, fouille de
textes, programmation par contraintes (PPC), apprentissage
automatique.

* Lieu, durée et rémunération
===========================

Contrat de 12 mois (possibilité de prolongation), à pourvoir à partir
de septembre 2011
Rémunération : aux alentours de 1950 euros net par mois
Le poste est à pourvoir au GREYC.

* Comment candidater
====================

Les candidatures sont à envoyer dès que possible et seront étudiées
jusqu'à ce que le poste soit pourvu.

Envoyer un CV et une lettre de motivation, ainsi que deux noms de
personnes susceptibles de recommander le candidat, par courrier
électronique à
Thierry.Charnois at unicaen.fr
Bruno.Cremilleux at unicaen.fr

Thierry Charnois +33 2 31 56 73 77
Bruno Crémilleux +33 2 31 56 74 35
GREYC - CNRS UMR 6072, Université de Caen, Campus Côte de Nacre F-14032
Caen
Cedex - France
************************************************************************

Références
=======

Thierry Charnois, Marc Plantevit, Christophe Rigotti and Bruno
Crémilleux. Fouille de données séquentielles pour l'extraction
d'information dans les textes. Revue internationale TAL, 50(3) :
59--87, 2009.

Peggy Cellier, Thierry Charnois, Marc Plantevit and Bruno Crémilleux,
Recursive Sequence Mining to Discover Named Entity Relations, In
Proceedings of the the 9th International Symposium on Intelligent Data
Analysis, (IDA 2010), pages 537-548 LNCS, Tucson, USA, May 2010.

Mehdi Khiari, Patrice Boizumault, Bruno Crémilleux. Constraint
Programming for Mining n-ary Patterns, 6th International Conference on
Principles and Practice of Constraint Programming (CP'10), Lecture
Notes in Computer Science, N. 6308, Springer, pp. 552-567, St Andrews,
Scotland, September 2010.

Gilles Pesant. A Regular Language Membership Constraint for Finite
Sequences of Variables. CP 2004: 482-495

Marc Plantevit, Thierry Charnois, Jir(í Kléma, Christophe Rigotti and
Bruno Crémilleux. Combining Sequence and Itemset Mining to Discover
Named Entities in Biomedical Texts : A New Type of Pattern.
International Journal of Data Mining, Modelling and Management, 1(2) :
119--148, 2009.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------