Job: Stage Thales R&T
Thierry Hamon
thierry.hamon at LIPN.UNIV-PARIS13.FR
Tue Feb 21 16:59:51 UTC 2006
Date: Tue, 21 Feb 2006 09:11:56 +0100
From: Benedicte Goujon <benedicte.goujon at thalesgroup.com>
Message-ID: <43FACB4C.109E6229 at thalesgroup.com>
Proposition de stage: Utilisation d'un modèle du domaine pour
l'extraction d'informations
Sujet du stage : Etude, spécification et développement d'un module de
transformation d'un modèle du domaine en sa représentation
linguistique pour l'extraction d'informations.
Descriptif :
L'équipe interaction humaine (HIT) de THALES Research & Technology
France a une expérience de longue date dans le traitement automatique
du langage naturel, et notamment dans le traitement des documents
textuels. Sur ce thème, un premier travail a été réalisé sur
l'extraction d'informations textuelles de type « entités nommées
». Par la suite, une seconde étude a abouti à la réalisation d'un
premier démonstrateur (Sem+) permettant l'extraction de relations
entre entités nommées à partir de corpus de textes, par une méthode
d'apprentissage. Aujourd'hui, nous souhaitons faire évoluer ce
démonstrateur afin de l'intégrer dans une plate-forme plus large de
gestion de l'information pour améliorer la connaissance de la
situation. Cette plate-forme contiendra plusieurs modules
complémentaires : extraction d'informations, fusion d'informations,
raisonnement, etc. Dans ce contexte, nous voulons permettre
l'utilisation d'un modèle du domaine en entrée. Ce modèle décrit les
éléments du domaine et leurs relations. Le but est d'obtenir, après
analyse des textes, différentes relations correspondant à certaines
des relations entre éléments issues du modèle.
L'objectif de ce stage est donc de réaliser un module permettant
l'utilisation d'un modèle du domaine pour extraire des informations
textuelles.
Le travail du stage sera décomposé en trois phases :
1. Étude du contexte (1 mois) :
Compréhension de notre problématique d'extraction d'informations ;
Compréhension de l'approche globale d'amélioration de la
connaissance de la situation ;
2. Travail sur le passage d'un modèle à sa représentation en langue (3
mois) :
Etude de la problématique concernant l'acquisition de
connaissances linguistiques associées aux entités (pas forcément
nommées) d'un modèle de domaine, et enrichissement de la méthode
utilisée par Sem+ pour l'acquisition des connaissances
linguistiques associées aux relations ;
Analyse des spécificités de la manipulation de noms communs (vs
entités nommées) ;
Analyse des spécificités de la gestion de groupes ou pluriels («
les trois hommes ») ;
3. Développement du module (2 mois) :
Développement en java ;
Tests ;
Préparation d'une démonstration.
Compétences requises :
Bonnes connaissances en traitement automatique du langage naturel
(modélisation, automates et transducteurs)
Maîtrise du langage de programmation Java
Bon niveau en anglais
Conditions du stage :
Niveau requis : BAC+5 (Master Recherche, Master Pro, Ecole
d'ingénieur)
Date de début : 1er trimestre 2006 (à définir)
Durée : 6 mois.
Nationalité : française
Lieu : THALES Research & Technology France
RD 128, 91767 Palaiseau cedex
Contacts :
Olivier Grisvard, responsable de l'équipe HIT (responsable administratif
du stage)
E-mail : olivier.grisvard at thalesgroup.com
Tél. : 01 69 41 56 80 Fax : 01 69 41 60 01
Bénédicte Goujon, ingénieur de recherche HIT (encadrante du stage)
E-mail : benedicte.goujon at thalesgroup.com
Tél. : 01 69 41 56 85 Fax : 01 69 41 60 01
-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listes.cines.fr/wws/arc/ln
http://listserv.linguistlist.org/archives/ln.html
La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list