Sujet de these: 2 theses, Modyco, Paris 10
Thierry Hamon
thierry.hamon at LIPN.UNIV-PARIS13.FR
Sun Feb 15 18:54:37 UTC 2009
Date: Sat, 14 Feb 2009 18:05:47 +0100
From: jminel at u-paris10.fr
Message-ID: <20090214180547.0aedoh1buo4cc08o at icare.u-paris10.fr>
X-url: http://panini.u-paris10.fr/jlm
X-url: http://www.modyco.fr
Projets de thèses partiellement financées.
Dans le cadre de deux projets de recherche financés en collaboration
avec des industriels, le laboratoire MoDyCo propose deux sujets de
thèse :
1) Projet Analyse des offres d'emploi
Les offres d'emploi disponibles sur Internet constituent un matériau
potentiellement très riche pour la connaissance du marché du travail.
L'intérêt de ce matériau est, d'une part, qu'il n'est pas nécessaire
de le « produire » par enquête et, d'autre part, qu'il est disponible
en temps réel.
Mais son analyse est rendue difficile par cinq facteurs :
- la masse d'information à analyser,
- la dispersion et la variété des supports de publication,
- la faible standardisation des formats d'annonce,
- l'absence de référence à des nomenclatures communes,
- le caractère souvent implicite des contenus des annonces et leur
anonymisation partielle.
Le présent projet se donne pour objectif de développer une réflexion
et des technologies permettant automatiquement de récupérer les offres
d'emploi disponibles sur Internet et d'en faire des traitements
sémantiques permettant d'en lever l'implicite afin de produire des
catégories d'analyse.
Les outils d'analyse textuelle avancée seront au centre des
traitements à mettre en oeuvre dans le projet, principalement ceux qui
reposent sur l'inférence textuelle.
Financement de 24 mois (1500 Euros net par mois)
2) Projet extraction d'informations évènementielles dans le domaine
du loisir
Les particuliers ou professionnels qui cherchent de l'information
loisir sont aujourd'hui confrontés à l'éclatement des sources
d'information, à la diversité des supports (guides papier, sites
internet ou mobiles) et à l'hétérogénéité des contenus (texte, audio,
vidéo). L'accès à l'information loisir varie également selon les pays,
les langues pratiquées et les supports à disposition (ordinateur relié
à internet, téléphone mobile'). L'extraction et l'agrégation de
grandes masses d'informations loisirs, de sources et de formats variés
d'une part, l'analyse sémantique et l'enrichissement de ces
informations pour passer du contenu à la connaissance d'autre part et
enfin la mise à disposition de l'information contextuellement à un
support, une localisation, une langue ou une période de temps sont 3
étapes à étudier pour être en mesure de distribuer efficacement et
largement de l'information loisir. Ces 3 étapes mettent en jeux des
problématiques complexes dont certaines ont fait l'objet de projets
antérieurs (projets RelaxMultiMédias et Eiffel notamment) ou sont
traitées par des produits sur le marché sur lesquels nous nous
appuierons (ontologie du tourisme, outils de « TextMining »,
plateforme de diffusion d'information sur tout types de téléphones
mobiles'), il en reste que ce projet vise plus spécifiquement l'étude
des enjeux d'extraction d'informations évènementielles Financement de
30 mois (1500 Euros net par mois)
Les deux sujets nécessitent d'excellentes compétences en linguistique,
la maitrise des outils de représentations de la galaxie XML (de XMl à
OWL) et des outils de traitements (langages de script type Perl,
Python et/ou XSLT) appliqués aux traitements de corpus.
Pour le projet 1, des connaissances dans le domaine de l'apprentissage
automatique seraient aussi intéressantes sans constituer une exigence.
Les deux sujets peuvent être entrepris immédiatement ou à partir du
mois de septembre 2009.
Adresser un CV détaillé à Jean-Luc Minel
Directeur du laboratoire MoDyCo
UMR 7114 Université Paris Ouest Nanterre La Défense - CNRS)
www.modyco.fr
jean-luc.minel at u-paris10.fr
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list