Sujet de these: hybridation fouille de donnees et TAL, GREYC, Caen

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri May 28 20:36:28 UTC 2010


Date: Fri, 28 May 2010 15:19:46 +0200
From: Thierry Charnois <thierry.charnois at info.unicaen.fr>
Message-ID: <4BFFC2F2.7050004 at info.unicaen.fr>
X-url: http://bingo2.greyc.fr/


Hybridation fouille de données et traitement automatique des langues
pour l'extraction de connaissances dans les textes

Sujet de thèse informatique - octobre 2010
--------------

Encadrants : Bruno Crémilleux et Thierry Charnois
---------

Lieu : GREYC - CNRS - UMR 6072, équipe Données, Document et Langue
(DoDoLa)
Université de Caen
-----

Sujet :
------

L'objectif général de cette thèse est de rendre complémentaire les
techniques du traitement automatique des langues (TAL) et de fouille
de données pour la découverte de connaissances dans les textes.

Au niveau du TAL, les méthodes d'analyse automatique du contenu
textuel pour l'extraction d'information s'appuient sur des ressources
élaborées manuellement et sont dédiées à un type de corpus spécifique.
L'acquisition automatique de ces ressources par des méthodes
d'apprentissage automatique et de fouille de textes pour prendre en
compte la diversité des corpus et leur évolution est une voie
prometteuse.  L'idée consiste à tirer parti de la capacité des
méthodes de fouille à faire émerger des régularités et des motifs sur
des données volumineuses.  Cependant, si les méthodes actuelles sont
bien adaptées aux données structurées, elles ne peuvent être
appliquées directement sur des textes par nature non structurés.  Il
faut donc intégrer les spécificités de la langue aux systèmes de
fouille, ce qui consistera à :

- concevoir des méthodes pour la création et l'enrichissement de
  corpus d'apprentissage : il existe des données textuelles
  d'apprentissage fournis par la communauté ou par les organisateurs
  de compétitions en fouille de textes (défis BioCreative ou Deft par
  exemple). Mais ces données ne sont pas utilisables telles quelles
  par les solveurs de fouille : en effet, un ensemble de
  pré-traitements linguistiques est nécessaire.  Cela suppose la
  conception et la réalisation de nouvelles méthodes, comme par
  exemple la segmentation d'unités textuelles à prendre en compte pour
  la fouille, ou encore l'enrichissement des textes par des
  annotations de différents ordres (morpho-syntaxique, lexical,
  sémantique,...)

- guider la fouille : il s'agit d'intégrer les spécificités du texte
  et une modélisation linguistique au sein du processus de fouille,
  notamment en formalisant la notion de ``contraintes
  linguistiques''. En effet, l'extraction de motifs sous contraintes
  est une solution à l'un des principaux problèmes posés par les
  méthodes de recherche de motifs fréquents, à savoir le grand nombre
  de motifs généralement produits.  L'intégration de contraintes
  linguistiques au sein des processus de fouille permettra dans ce
  cadre de pouvoir sélectionner les motifs qui sont pertinents pour
  les systèmes de TAL et conduira à adapter les algorithmes de
  fouille, ou à en développer de nouveaux.

Un prolongement du travail consistera à généraliser l'approche à un
niveau discursif. Cet axe sera initié par la découverte de patrons de
modalité. Ce problème soulève les questions de découverte de patrons
linguistiques convoyant des relations (modales) portant sur des
relations (e.g. relation entre entités nommées), et de la prise en
compte de la portée de l'opérateur. Puis, l'objectif est de concevoir
et développer des méthodes de fouilles adaptées à l'analyse
discursive. Un des enjeux majeurs est la découverte de motifs
considérant plusieurs niveaux de granularité dans un document : la
granularité est une notion centrale en analyse du discours, elle
permet aussi d'appréhender le texte selon plusieurs points de vue. Ce
travail s'inscrit dans une approche à plus long terme où il s'agit de
dégager des dimensions structurelles sur les données comme par exemple
leur séquentialité, leur granularité, leur structuration (e.g., XML,
graphes) pour produire des méthodes de fouille reposant sur ces
dimensions et non liées à la représentation classique (proche de la
structure physique) des données.

Cadre de travail
---------------

Ce travail s'inscrit dans le prolongement de deux projets soutenus par
l'ANR : le projet Annodis sur l'annotation discursive, la production
de corpus et d'outils d'aide à l'annotation et le projet Bingo2
(http://bingo2.greyc.fr/) sur la conception et la réalisation de
méthodes génériques en fouille de données et de textes. Le sujet
proposé bénéficiera donc de la complémentarité de ces deux projets (le
premier étant plus axé sur les méthodes de traitement automatique de
la langue, le deuxième sur la fouille de données mais en traitant la
problématique de l'extraction d'information dans les texte
biologiques) et des collaborations avec les différents laboratoires
impliqués. En complément, ce travail s'appuie sur les compétences du
GREYC et les premiers résultats obtenus [1], [2], [3] sur le
croisement des deux disciplines -- fouille de données et traitement
automatique des langues --.


Bibliographie
------------

[1] P. Cellier, T. Charnois T. et M. Plantevit. Sequential Patterns to
Discover and Characterise Biological Relations, 11th Int. Conference
on Intelligent Text Processing and Computational Linguistics
(CICLing'10)}, Iaşi, Romania, March 2010. Springer, Lecture Notes in
Computer Science.

[2] T. Charnois, M. Plantevit, C. Rigotti, and B. Crémilleux.  Fouille
de données séquentielles pour l'extraction d'information dans les
textes.  revue Traitement Automatique des Langues, 50(3) : 30 pages,
2009.

[3] M. Plantevit, T. Charnois, J. Kléma, C. Rigotti, and
B. Crémilleux.  Combining sequence and itemset mining to discover
named entities in biomedical texts: A new type of pattern.  Int. J. of
Data Mining, Modelling and Management, 1(2):119--148, 2009.

Financement
----------
Candidature allocation ministérielle du GREYC pour lequel le sujet est
prioritaire.


Contacts
-------
Bruno.Cremilleux at info.unicaen.fr
Thierry.Charnois at info.unicaen.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list