Job: Post-doctorat, extraction de connaissances a partir de corpus semi-annotes, Orange

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Feb 13 09:09:28 UTC 2013


Date: Wed, 13 Feb 2013 07:11:26 +0000
From: <romain.laroche at orange.com>
Message-ID: <11323_1360739491_511B3CA3_11323_6140_1_92ee97bb-d99d-47bf-bca5-0c7b5fdfd71e at PEXCVZYH01.corporate.adroot.infra.ftgroup>
X-url: http://www.intelliagence.fr/Page/Offer/ShowOffer.aspx?OfferId=46980


Chers collègues,

Orange propose actuellement un post-doctorat intitulé "Méthodes
d’analyse sémantique statistique pour l’extraction de connaissances à
partir de corpus semi-annotés". Merci de consulter l'offre rédigée
ci-après et, le cas échéant de postuler par retour de mail ou sur le
site de l'ABG à l'adresse suivante :
http://www.intelliagence.fr/Page/Offer/ShowOffer.aspx?OfferId=46980.

Cordialement,

Romain Laroche
ft/nsm/rd/tech/asap/nadia 
Ingénieur de recherche sur les systèmes de dialogue 
Research engineer on dialogue systems
phone: 01 45 29 62 77 
romain.laroche at orange-ftgroup.com 

------------------------------------------------------------------------

TITRE :
Méthodes d’analyse sémantique statistique pour l’extraction de
connaissances à partir de corpus semi-annotés

MOTS CLEFS : 
Analyse sémantique, Apprentissage actif, Interaction Homme-Machine,
Dialogue naturel

CONTEXTE :
Le sujet de post-doctorat se rapporte à la problématique de l’analyse
sémantique dans les systèmes dialogue en général. L’analyse sémantique
consiste à transformer un énoncé dans une interprétation (catégorie
sémantique) pour permettre au système de dialogue de poursuivre ses
calculs. L’analyseur sémantique de Disserto s’appuie sur une approche à
base de règles. Le traitement s’effectue en deux étapes : étiqueter les
mots en « tags », puis appliquer les règles sémantiques appropriées aux
tags, de telle manière qu’une combinaison ou association donnée de tags
fournisse une interprétation correcte. Ce principe d’analyse sémantique
à base de règles d’étiquetage et d’association peut être utilisé dans
n’importe quelle langue. 

Cependant, cette méthode est manuelle et nécessite l’intervention d’un
développeur (knowledge engineer). Ce dernier va analyser un corpus de
phrases issues d’interactions de différents utilisateurs avec le service
de dialogue, afin d’élaborer les règles d’analyse sémantiques les plus
pertinentes. Les phrases contenues dans ce type de corpus peuvent être :

- non annotées (par exemple lorsqu’elles sont issues des logs d’un
  service en exploitation)

- annotées manuellement par un opérateur : par exemple dans le cas de
  service mettant en œuvre des fonctions de magicien d’Oz sur la
  reconnaissance vocale (on parle alors de Reconnaissance Vocal Assistée
  par Opérateur) ou sur l’analyse sémantique (illustrée dans
  l’application DissertOz).

Le rôle du post-doctorant sera de développer de nouveaux algorithmes et
de fournir les outils associés qui permettent de faciliter et
d’optimiser le travail du développeur lors de l’élaboration des règles
d’analyse sémantique de Disserto. 

Les travaux du post-doctorant seront menés sur 2 champs : 

- la sélection automatique des phrases les plus pertinentes à prendre en
  compte pour la définition des nouvelles règles d’analyse sémantique:
  phrases avec de nouveaux mots, tags, règles ou interprétations.

- l’étude des énoncés conduisant à une interprétation erronée de
  l’analyseur de manière à identifier des termes communs, à donner des
  explications de l’erreur et à détecter les énoncés « poubelle » à
  rejeter (trash).

Ce sujet est la suite d’un travail accompli par l’université de Poznań
en 2011 et 2012 dans le cadre d’un contrat de recherche externe sous la
direction d’Orange.

TACHES :
Prendre en main les algorithmes développés par l’université de Poznań et
les améliorer :
- Calcul de score de confiance de la classification de l’analyseur
  sémantique pour un énoncé donné
- Identification de règles d’association liant les formes des énoncés
  aux erreurs de classification de l’analyseur sémantique
- Détection des énoncés poubelle

Sur la base de corpus non-annotés de taille gigantesque (plusieurs
millions d’énoncés) et de corpus annotés de taille réduite (plusieurs
milliers d’énoncés), définir un algorithme d’apprentissage actif
permettant :
- de repérer les « trous » d’annotation, c'est-à-dire les formes
  d’énoncés fréquentes du corpus non-annotés qui ne sont pas, ou peu,
  représenté dans le corpus annoté
- de prédire les énoncés les plus pertinents pour être annotés, sur la
  base du calcul de score de confiance en l’analyseur sémantique
- de sélectionner l’ensemble optimal de n énoncés à annoter, en évitant
  les redondances et en contrôlant que les informations apportées par
  ces annotations se complètent.

Rédiger un rapport d’étude sur les méthodes et algorithmes développés
lors de cette étude et sur leur évaluation.

NATURE DU FINANCEMENT : 
CDD France Télécom de 12 mois avec un début envisagé au 01/04/2013


------------------------------------------------------------------------

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list