Job: PostDoc, Orange Labs (Lannion, 22)

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Jun 18 20:29:45 UTC 2013


Date: Mon, 17 Jun 2013 08:55:37 +0000
From: <malek.boualem at orange.com>
Message-ID: <4696_1371459338_51BECF0A_4696_373_1_ED32B5012BA99F4AA999E2765EF060F20C2564 at PEXCVZYM12.corporate.adroot.infra.ftgroup>

Proposition de sujet de PostDoc à Orange Labs (Lannion, 22)

Projection des données lexicales (françaises) sur des connaissances

Contexte :
Un enjeu majeur du traitement automatique des langues naturelles
consiste à générer une représentation conceptuelle des documents afin de
factoriser des termes synonymes ou au contraire différencier des termes
homonymes. Les différents concepts associés à terme peuvent être générés
manuellement ou automatiquement mais constituent dans tous les cas un
espace de concepts nécessaire à toute opération ultérieure
(désambigüisation, arguments de relations sémantiques, thématisation,
...).

Sujet :
L'équipe CONTENT/FAST d'Orange Labs travaille sur l'extraction
d'information des textes (en français) afin d'en obtenir une
représentation RDF. Nous nous appuyons sur des bases de connaissances
(internes ou issues des efforts communautaires comme LinkedOpenData par
ex. DBpedia). Pour cela, nos données linguistiques (lexiques, thésaurus)
doivent être alignées avec les instances et classes de la base de
connaissances.

Le sujet proposé vise tout d'abord à étendre notre espace sémantique par
l'utilisation de ressources publiques du LOD ou LLOD telles qu'OpenCyc,
WordNet, BabelNet, DBpédia YAGO2, Wiktionary. Cet accroissement doit
être quantitatif par ajout d'entités nommées notamment mais aussi
qualitatif en visant (par owl:sameAs) une hiérarchie de concepts (par
ex. WordNet).
Dans un deuxième temps, le candidat mettra en oeuvre un accès à cet
espace en le couplant à nos outils de TALN (extraction des liens
sémantiques d'un texte). Le traitement global sera appliqué à des corpus
proposés par Orange de manière à étudier l'impact de chaque ressource
sur le résultat d'une analyse dont le résultat est la projection de
chaque terme sur ces concepts associés. Le résultat de l'étude doit nous
permettre de décider de l'intérêt effectif de ces ressources et de la
manière de les utiliser conjointement.

Une autre étude plus fondamentale portera sur la granularité
conceptuelle. Le nombre et la nature des différents concepts associés à
un terme est un problème ouvert qui dépend probablement des données à
traiter. Dans cette optique, l'émergence de concepts par des approches
de type data-mining peut fournir une aide. Cette étude pourra donc
s'orienter soit vers la mise au point d'un critère théorique soit vers
un calcul d'optimalité lié à un corpus.

Profil souhaité :
- Un doctorat en informatique ou TAL (thèse soutenue depuis moins de 12
  mois).
- connaissances en alignement d'ontologies et Web Sémantique
  (technologies, formats, ontologies, thesarus, ...)
- connaissances en traitement automatique des langues (TAL)
- pratique de programmation (Java, C++), Linux

Divers :
CDD de 12 mois.
Date de début du post-doctorat : dès que possible (4e trimestre 2013).
Lieu : Orange Labs à Lannion (Côtes d'Armor, Bretagne).

Pour plus d'information, contacter :
Johannes Heinecke
Tél : 02 96 05 21 77
Email : johannes.heinecke(at)orange.com

Abdel-Malek Boualem
R&D Project Manager
France Telecom Orange Labs
FT/OLNC/OLPS/OPENSERV/CONTENT/FAST
Phone : +33 (0)2 96 05 29 83
Mobile : +33 (0)6 85 71 40 63
Email : malek.boualem at orange.com

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list