Sujet de these: Fouille de texte et detection des entites nommees, Tours

Tue Mar 31 15:02:44 UTC 2009

Date: Mon, 30 Mar 2009 21:02:05 +0200
From: Jean-Yves ANTOINE <Jean-Yves.Antoine at univ-tours.fr>
Message-ID: <49D1172D.7060301 at univ-tours.fr>

=======================================================
Bourse doctorale ministerielle - 2009/2012 - Laboratoire LI - équipe BDTLN
=======================================================
SUJET : Fouille de texte et détection des entités nommées
=======================================================

Contexte
----------

L'équipe BDTLN du laboratoire LI est à la recherche d'un(e)
étudiant(e) en thèse financé par une bourse doctorale ministérielle.

Le sujet qui est proposé peut-être adapté à une des thématiques de
recherche de l'équipe, en fonction des affinités et compétences de la
personne sélectionnée. Ce message présente un de ces sujets, à
orientation TALN : il concerne la mise en oeuvre de techniques
détection des entités nommées mettant en jeu à la fois une
modélisation à base de transducteurs à état finis et des techniques de
fouilles de données pour l'apprentissage automatique de motifs de
description des entités nommées.

Sujet détaillé
----------------

L'objectif de cette thèse est la mise en place d'un système robuste de
détection et de typage des entités nommées pouvant travailler aussi
bien sur du langage écrit (typiquement, écrit journalistique, base de
petites annonces etc..) que sur des transcriptions automatiques de
parole issues d'enregistrements sonores d'un point de vue applicatif,
on pense particulièrement aux émissions radio ou télé-diffusées qui
font de plus en plus l'objet d'une indexation et diffusion sur
Internet).

Une entité nommée est une unité linguistique qui désigne un élément
précis de l'univers du discours. Ce peut-être un nom propre (Sarkozy,
France), un mot polylexical (le président du directoire) mais
également une mesure (un prix, par exemple) ou encore une date. Les
entités nommées désignant le plus souvent les éléments sur lesquels
portent le discours, leur détection est donc essentielle dans les
applications d'extraction ou de recherche d'information textuelle.
La détection des entités nommées a donné lieu à de nombreuses
campagnes d'évaluation d'envergure (MUC et TREC pour l'anglais,
Amaryllis et Ester II pour le français par exemple). Les entités
nommées dénotent par ailleurs des éléments de nature très différentes
: par exemple, des personnes (on parle alors d'anthroponymes), des
lieux ou entités géographiques (toponymes), les organisations ou les
organismes etc. La caractérisation de la nature de l'entité nommée est
donc tout aussi essentielle que sa détection. Par exemple, il est
important de comprendre si l'entité nommée La Maison Blanche désigne
simplement un lieu ou au contraire correspond à un emploi métonymique
pour désigner la présidence américaine.

Les recherche menées sur le sujet depuis près d'une quinzaine d'année
ont conduit à l'élaboration de techniques relativement robustes de
détection des entités nommées sur des textes écrits de nature
journalistique. L'objectif de cette thèse est d'étendre la portée dans
plusieurs directions :

- meilleure gestion des entités nommées polylexicales (par exemple «
  le Conseil des Ministres de l'Union Européenne », « la présidence
  française de l'union »), en particulier au niveau de leur flexion.

- évolution vers une détection plus profonde des entités nommées, par
  exemple pour caractériser des relations sémantiques ou anaphoriques
  entre entités.

- adaptation à la détection d'entités nommées sur des transcriptions
  automatiques de parole conversationnelle. Le système réalisé devra
  conserver un comportement robuste sur des données bruitées à la fois
  par les erreurs de reconnaissance de la parole et par la présence de
  disfluences orales (répétitions, corrections, incises...).

L'équipe BDTLN dispose déjà d'une forte expérience en matière de
détection des entités nommées. Elle participe à des projets ANR sur le
sujet (EPAC, Variling) et a développé un système (CasSys) reposant sur
une modélisation symbolique à base de transducteurs. Pour atteindre
les objectifs listés ci-dessus, il est nécessaire de se poser la
question de l'acquisition automatique des connaissances utilisées par
le système.  Nous proposons d'y répondre à l'aide de techniques
originales de fouilles de données réalisés dans l'axe "BD et décision"
de l'équipe.  Les méthodes d’exploration de données qui seront
étudiées ici dans une approche récursive (bootstrap) exploitent la
notion de séquences afin d’extraire de textes des informations
pertinentes. Par rapport aux approches statistiques, largement
répandues en détection des entités nommées, de telles méthodes
possèdent l’avantage de s’appuyer sur la structuration des données
(comme la séquentialité et la multi-dimensionnalité). Elles permettent
également d’intégrer des connaissances du domaine afin d’éliminer les
informations triviales ou erronées.

La dimension fouille de texte de ce sujet de thèse est essentielle :
les candidats devront donc avoir une appétence particulière pour les
démarches plurisdiciplinaires, à l'interface entre le TALN et les
techniques d'analyse de données.

Contact
----------

Jean-Yves Antoine
Courriel : Jean-Yves.Antoine at univ-tours.fr
Toile : www.info.univ-tours.fr/~antoine

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------