[ln] Sujet de These: FTR&D, Lannion, Apprentissage de concepts

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Wed May 4 08:16:54 UTC 2005


Date: Wed, 27 Apr 2005 16:52:16 +0200
From: "COLLIN Olivier RD-TECH-LAN" <olivier.collin at francetelecom.com>
Message-ID: <D2AA6DF1AEE4404F8D983B68BAC97CD201AA37B4 at ftrdmel3.rd.francetelecom.fr>




Titre de la thèse : Apprentissage de concepts : restriction aux
entités nommées


Encadrement et contact :
Olivier Collin  FranceTelecom R&D/TECH/EASY/LN   (Lannion 22)
olivier.collin at francetelecom.com
02 96 05 26 10

Sujet de thèse :
L'apprentissage complètement  automatique d'un analyseur d'une langue
naturelle semble actuellement hors de portée.Par contre l'acquisition
d'analyseurs spécialisés pour un domaine et une application donnée,
pour une exploration des propriétés linguistiques d'un corpus ou une
aide interactive à la constitution de ces données, nous paraît
réaliste et d' actualité.


L'activité de traitement de la langue naturelle est fortement centrée
sur la notion de "concepts".  On peut décrire shématiquement deux
modèles principaux de concepts :


1 ) Un modèle à base de connaissance :
Ce modèle est aujourd'hui utilisé et construit manuellement par l'
équipe LN. Il représente shématiquement un "concept" comme étant un
ensemble de mots partageants des propriétés communes.

Ces propriétés sont d' une part des attributs vus habituellement comme
des propriétés syntaxiques (nom,verbe,...) et d' autre part des
attributs organisés sous la forme d'un réseau sémantique. Ce Réseau
est un graphe de relations typées entre les mots  : concept_arbre
->"element de"-> concept_forêt ; concept_chien->"est un" ->
concept_animal; concept_roue->"partie_de"->concept_voiture
Ces relations constituent des attributs "relationnels" des concepts.

2) Un modèle distribué appris :
Ce modèle est généralement appris à partir de corpus textuels. Il
représente shématiquement un "concept" comme étant un ensemble de mots
appartenant à une même classe. Cette appartenance est quantifié sous
la forme d'une probabilité ou d' une métrique de type
Euclidienne. Comme dans le modèle 1) , les mots d'une même classe
partagent des propriétés qui sont généralement des relations de
coocurences entre le mot considéré et tout ou partie des autres mots
du lexique.

Le travail proposé consiste à réaliser un modèle de concepts pour les
applications du TALN qui intègre les deux modèles précédemment
décrits.Les termes pourront être décrits par des vecteurs d' attributs
provenants des données expertes et des données acquises.Le concept
pourra être modélisé et appris à partir de cette double
représentation : connaissance / données.


Pour restreindre le champ d'application et d'évaluation de ce modèle,
nous nous restreindrons aux  concepts liés aux entités nommées (noms
de personnes, sociétés...) et à leur relations.

Le modèle pourra intégrer différents niveaux d'information et de
contexte correspondants aux niveaux d'analyse de notre système, de
manière à tirer partie de cette analyse, mais aussi pour en compléter
les ressources.


*	Aucun contexte, classification "morphologique" des  EN :Mac
         Donald, Popescu possèdent des caractéristiques morphologiques
         liés à la langue
*	Contexte local : acquisition de marqueurs contextuels : Mr
         ..., Le président ...., utilisation  de ces marqueurs dans
         une grammaire régulière de détection des EN
*	Contexte argumental, l'acquisition des concepts liés aux EN
         fait intervenir de manière duale l'acquisition des relations
         prédicatives, prenant pour arguments ces entités : La Maison
         Blanche a dit que => DIRE(PERSONNE).Ce contexte pourra être
         acquis à partir des données sémantiques de notre thésaurus
         mais devrait aussi permettre de les compléter.

.
Nous souhaitons d' autre part que ce processus  de modélisation et
d'acquisition possède les propriétés suivantes :


*	Utilisation de peu de données de supervision, mais  le
         contrôle global du processus reste humain
*      Méthode  incrémentale et réutilisable

Profil du candidat :
	DEA en informatique avec une forte connotation
	"apprentissage", classification ou de bonnes bases en
	mathématiques et statistiques
	Ouverture vers les techniques du TALN

Particularités :
	CDD FranceTelecom ou contrat CIFRE
	Travail majoritairement réalisé à Lannion (22)

-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list