Sujet de these: Fouille de texte et detection des entites nommees, Tours
Thierry Hamon
thierry.hamon at LIPN.UNIV-PARIS13.FR
Tue Mar 31 15:02:44 UTC 2009
Date: Mon, 30 Mar 2009 21:02:05 +0200
From: Jean-Yves ANTOINE <Jean-Yves.Antoine at univ-tours.fr>
Message-ID: <49D1172D.7060301 at univ-tours.fr>
=======================================================
Bourse doctorale ministerielle - 2009/2012 - Laboratoire LI - équipe BDTLN
=======================================================
SUJET : Fouille de texte et détection des entités nommées
=======================================================
Contexte
----------
L'équipe BDTLN du laboratoire LI est à la recherche d'un(e)
étudiant(e) en thèse financé par une bourse doctorale ministérielle.
Le sujet qui est proposé peut-être adapté à une des thématiques de
recherche de l'équipe, en fonction des affinités et compétences de la
personne sélectionnée. Ce message présente un de ces sujets, à
orientation TALN : il concerne la mise en oeuvre de techniques
détection des entités nommées mettant en jeu à la fois une
modélisation à base de transducteurs à état finis et des techniques de
fouilles de données pour l'apprentissage automatique de motifs de
description des entités nommées.
Sujet détaillé
----------------
L'objectif de cette thèse est la mise en place d'un système robuste de
détection et de typage des entités nommées pouvant travailler aussi
bien sur du langage écrit (typiquement, écrit journalistique, base de
petites annonces etc..) que sur des transcriptions automatiques de
parole issues d'enregistrements sonores d'un point de vue applicatif,
on pense particulièrement aux émissions radio ou télé-diffusées qui
font de plus en plus l'objet d'une indexation et diffusion sur
Internet).
Une entité nommée est une unité linguistique qui désigne un élément
précis de l'univers du discours. Ce peut-être un nom propre (Sarkozy,
France), un mot polylexical (le président du directoire) mais
également une mesure (un prix, par exemple) ou encore une date. Les
entités nommées désignant le plus souvent les éléments sur lesquels
portent le discours, leur détection est donc essentielle dans les
applications d'extraction ou de recherche d'information textuelle.
La détection des entités nommées a donné lieu à de nombreuses
campagnes d'évaluation d'envergure (MUC et TREC pour l'anglais,
Amaryllis et Ester II pour le français par exemple). Les entités
nommées dénotent par ailleurs des éléments de nature très différentes
: par exemple, des personnes (on parle alors d'anthroponymes), des
lieux ou entités géographiques (toponymes), les organisations ou les
organismes etc. La caractérisation de la nature de l'entité nommée est
donc tout aussi essentielle que sa détection. Par exemple, il est
important de comprendre si l'entité nommée La Maison Blanche désigne
simplement un lieu ou au contraire correspond à un emploi métonymique
pour désigner la présidence américaine.
Les recherche menées sur le sujet depuis près d'une quinzaine d'année
ont conduit à l'élaboration de techniques relativement robustes de
détection des entités nommées sur des textes écrits de nature
journalistique. L'objectif de cette thèse est d'étendre la portée dans
plusieurs directions :
- meilleure gestion des entités nommées polylexicales (par exemple «
le Conseil des Ministres de l'Union Européenne », « la présidence
française de l'union »), en particulier au niveau de leur flexion.
- évolution vers une détection plus profonde des entités nommées, par
exemple pour caractériser des relations sémantiques ou anaphoriques
entre entités.
- adaptation à la détection d'entités nommées sur des transcriptions
automatiques de parole conversationnelle. Le système réalisé devra
conserver un comportement robuste sur des données bruitées à la fois
par les erreurs de reconnaissance de la parole et par la présence de
disfluences orales (répétitions, corrections, incises...).
L'équipe BDTLN dispose déjà d'une forte expérience en matière de
détection des entités nommées. Elle participe à des projets ANR sur le
sujet (EPAC, Variling) et a développé un système (CasSys) reposant sur
une modélisation symbolique à base de transducteurs. Pour atteindre
les objectifs listés ci-dessus, il est nécessaire de se poser la
question de l'acquisition automatique des connaissances utilisées par
le système. Nous proposons d'y répondre à l'aide de techniques
originales de fouilles de données réalisés dans l'axe "BD et décision"
de l'équipe. Les méthodes d’exploration de données qui seront
étudiées ici dans une approche récursive (bootstrap) exploitent la
notion de séquences afin d’extraire de textes des informations
pertinentes. Par rapport aux approches statistiques, largement
répandues en détection des entités nommées, de telles méthodes
possèdent l’avantage de s’appuyer sur la structuration des données
(comme la séquentialité et la multi-dimensionnalité). Elles permettent
également d’intégrer des connaissances du domaine afin d’éliminer les
informations triviales ou erronées.
La dimension fouille de texte de ce sujet de thèse est essentielle :
les candidats devront donc avoir une appétence particulière pour les
démarches plurisdiciplinaires, à l'interface entre le TALN et les
techniques d'analyse de données.
Contact
----------
Jean-Yves Antoine
Courriel : Jean-Yves.Antoine at univ-tours.fr
Toile : www.info.univ-tours.fr/~antoine
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list