Sujet de these: donnees semantiques pour l'indexation, Orange Labs, Lannion

Tue Jun 16 18:27:22 UTC 2009

Date: Mon, 15 Jun 2009 11:26:46 +0200
From: <olivier.collin at orange-ftgroup.com>
Message-ID: <E6AA070839B987489960B202AD80E18D15B7D1 at ftrdmel0.rd.francetelecom.fr>

L'unité de Recherche et Développement "Futur Architectures and Textual
technologies" des Orange Labs envisage de recruter un(e) candidat(e)
pour une thèse de doctorat en linguistique informatique (TALN)

Sujet de thèse: Création automatique de données sémantiques pour
l'indéxation

Durée : 3 ans

Lieu : Orange Labs - France Telecom, Lannion (22)

Contexte de la thèse : 

Pour la classification, l'indexation des textes, la segmentation
thématique et le search, la simple utilisation des mots (chaine ou
leurs formes normalisées, c'est à dire leurs lemmes) n'est pas
suffisante : il faudrait aussi prendre en compte les différents sens
d'un mot donné. Il existe plusieurs stratégies de désambiguïsation,
l'une d'elles évalue les sens d'un mot en fonction des sens des autres
mots présents dans son contexte (c'est-à-dire la phrase, le
paragraphe, le texte, la requête, ...). Afin de pouvoir effectuer un tel
traitement, on doit avoir associé à chaque mot un ou plusieurs
sens. Ces sens doivent être organisés dans une hiérarchie
thématique. Une telle hiérarchie est difficile à obtenir ou à
maintenir, donc une approche automatique est indispensable.

Description de la thèse proposée :

L'objectif de la thèse est de concevoir un système de désambiguïsation
et d'expansion sémantique capable de s'adapter automatiquement à
chaque application visée. Cela passe par la définition automatique en
contexte du sens de chaque mot.

Ces travaux s'inscrivent dans un cadre applicatif regroupant
différentes tâches :

- L'analyse et la désambiguïsation de requêtes utilisateurs dans le
  cadre du Search. Cette analyse dépend partiellement de la Verticale
  visée. Exemple : pour une application donnée tracteur, bus, voiture
  doivent être traités comme des quasi-synonymes ; mais pour une
  autre, il s'agit d'objets différents devant donner lieu à des
  analyses sémantiques distinctes.

- L'expansion de requêtes (par ex. location de Renault à location de
  voitures ; pizzeria à restos italiens à restaurants ; climat à
  temps) permettant :

o la redirection vers des services complémentaires

o la réorientation vers d'autres services en cas de non réponse

- La segmentation thématique

- La transformation vers des représentations ontologiques

- L'enrichissement de contenu (création de méta-données avant
  indexation par exemple)

- La classification d'entités nommées (ou tout autre instance
  applicative) en fonction de données sémantiques générales (issues
  d'un thesaurus multilingue)

Les ressources à utiliser pour ce travail sont les suivantes :

- Données sémantiques de différents niveaux : thèmes, domaines,
  co-hyponymes larges (= mots avec un hypéronyme commun par
  ex. voiture, bus, camion ont comme hypéronyme commun véhicule) dont
  il faudra évaluer la pertinence, synonymes, modèle sémantique avec
  concepts, prédicats, restrictions de sélection, ...

- Corpus textuels : listes de requêtes utilisateurs, flux de news, de
  sous-titres de films, corpus de texte libre ou structurés
  sémantiquement issus du web (wikipédia, freebase, dbpedia, ...),
  dictionnaires et thesaurus libres (Wordnet, ...)

Concrètement, il s'agira de :

- Étendre le modèle sémantique et compléter le thesaurus multilingue
  en fonction de ce modèle (hiérarchisation sous forme d'arbre ou
  réseau). Ensuite il faudra attribuer des étiquettes adaptées à
  chaque nœud - notamment aux groupes de co-hyponymes issus d'un
  calcul de proximité sémantique entre mots à partir de l'analyse des
  contextes syntaxiques (analyse distributionnelle).

- Mettre en place des critères qui définissent le niveau sémantique
  afin de permettre le paramétrage du futur système (ce paramétrage se
  fera en fonction des applications visées)

- Déterminer automatiquement le niveau de concepts sémantiques (et les
  relations entre ces concept) adapté pour une application
  donnée. Cela donnera lieu à la génération d'un thesaurus applicatif
  contenant à la fois des concepts généraux, et des concepts propres à
  l'application en cas de manque dans les données générales.

Plus d'information :

Johannes Heinecke
FT/IMG/RD/TECH/ACTS/FAST
tél. +33 (0)2 96 05 21 77
Johannes(point)heinecke(arobase)orange-ftgroup(point)com

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------