Sujet de these: donnees semantiques pour l'indexation, Orange Labs, Lannion
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Tue Jun 16 18:27:22 UTC 2009
Date: Mon, 15 Jun 2009 11:26:46 +0200
From: <olivier.collin at orange-ftgroup.com>
Message-ID: <E6AA070839B987489960B202AD80E18D15B7D1 at ftrdmel0.rd.francetelecom.fr>
L'unité de Recherche et Développement "Futur Architectures and Textual
technologies" des Orange Labs envisage de recruter un(e) candidat(e)
pour une thèse de doctorat en linguistique informatique (TALN)
Sujet de thèse: Création automatique de données sémantiques pour
l'indéxation
Durée : 3 ans
Lieu : Orange Labs - France Telecom, Lannion (22)
Contexte de la thèse :
Pour la classification, l'indexation des textes, la segmentation
thématique et le search, la simple utilisation des mots (chaine ou
leurs formes normalisées, c'est à dire leurs lemmes) n'est pas
suffisante : il faudrait aussi prendre en compte les différents sens
d'un mot donné. Il existe plusieurs stratégies de désambiguïsation,
l'une d'elles évalue les sens d'un mot en fonction des sens des autres
mots présents dans son contexte (c'est-à-dire la phrase, le
paragraphe, le texte, la requête, ...). Afin de pouvoir effectuer un tel
traitement, on doit avoir associé à chaque mot un ou plusieurs
sens. Ces sens doivent être organisés dans une hiérarchie
thématique. Une telle hiérarchie est difficile à obtenir ou à
maintenir, donc une approche automatique est indispensable.
Description de la thèse proposée :
L'objectif de la thèse est de concevoir un système de désambiguïsation
et d'expansion sémantique capable de s'adapter automatiquement à
chaque application visée. Cela passe par la définition automatique en
contexte du sens de chaque mot.
Ces travaux s'inscrivent dans un cadre applicatif regroupant
différentes tâches :
- L'analyse et la désambiguïsation de requêtes utilisateurs dans le
cadre du Search. Cette analyse dépend partiellement de la Verticale
visée. Exemple : pour une application donnée tracteur, bus, voiture
doivent être traités comme des quasi-synonymes ; mais pour une
autre, il s'agit d'objets différents devant donner lieu à des
analyses sémantiques distinctes.
- L'expansion de requêtes (par ex. location de Renault à location de
voitures ; pizzeria à restos italiens à restaurants ; climat à
temps) permettant :
o la redirection vers des services complémentaires
o la réorientation vers d'autres services en cas de non réponse
- La segmentation thématique
- La transformation vers des représentations ontologiques
- L'enrichissement de contenu (création de méta-données avant
indexation par exemple)
- La classification d'entités nommées (ou tout autre instance
applicative) en fonction de données sémantiques générales (issues
d'un thesaurus multilingue)
Les ressources à utiliser pour ce travail sont les suivantes :
- Données sémantiques de différents niveaux : thèmes, domaines,
co-hyponymes larges (= mots avec un hypéronyme commun par
ex. voiture, bus, camion ont comme hypéronyme commun véhicule) dont
il faudra évaluer la pertinence, synonymes, modèle sémantique avec
concepts, prédicats, restrictions de sélection, ...
- Corpus textuels : listes de requêtes utilisateurs, flux de news, de
sous-titres de films, corpus de texte libre ou structurés
sémantiquement issus du web (wikipédia, freebase, dbpedia, ...),
dictionnaires et thesaurus libres (Wordnet, ...)
Concrètement, il s'agira de :
- Étendre le modèle sémantique et compléter le thesaurus multilingue
en fonction de ce modèle (hiérarchisation sous forme d'arbre ou
réseau). Ensuite il faudra attribuer des étiquettes adaptées à
chaque nœud - notamment aux groupes de co-hyponymes issus d'un
calcul de proximité sémantique entre mots à partir de l'analyse des
contextes syntaxiques (analyse distributionnelle).
- Mettre en place des critères qui définissent le niveau sémantique
afin de permettre le paramétrage du futur système (ce paramétrage se
fera en fonction des applications visées)
- Déterminer automatiquement le niveau de concepts sémantiques (et les
relations entre ces concept) adapté pour une application
donnée. Cela donnera lieu à la génération d'un thesaurus applicatif
contenant à la fois des concepts généraux, et des concepts propres à
l'application en cas de manque dans les données générales.
Plus d'information :
Johannes Heinecke
FT/IMG/RD/TECH/ACTS/FAST
tél. +33 (0)2 96 05 21 77
Johannes(point)heinecke(arobase)orange-ftgroup(point)com
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list