Sujet de these: These CIFRE, Construction d'ontologies et de reseaux semantiques types

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Jul 22 20:13:00 UTC 2011


Date: Wed, 20 Jul 2011 10:32:51 +0200
From: Guillaume Cleuziou <guillaume.cleuziou at univ-orleans.fr>
Message-ID: <4E2692B3.3030800 at univ-orleans.fr>
X-url: http://www.univ-orleans.fr/lifo/Members/cleuziou/


Bonjour,

Vous trouverez ci-dessous une proposition de sujet de thèse sur la
construction d'ontologies et de réseaux sémantiques typés à partir
d'analyse de corpus textuels et application à l'analyse et la
construction de représentation sémantique du texte applicatif.

Il s'agit d'un contrat CIFRE entre l'entreprise Orange R&D (Lannion) et 
le LIFO (université d'Orléans) à partir du mois d'octobre 2011.

Envoyer les candidatures (CV+lettre de motivation+notes) dès maintenant à :

edmond.lassalle at orange-ftgroup.com et guillaume.cleuziou at univ-orleans.fr

Merci de diffuser cette annonce largement.

Cordialement,

Guillaume Cleuziou
Maître de Conférences --- Assistant Professor
IUT d'Orléans, Département Informatique
LIFO
Tel LIFO : (+33) (0)2 38 49 25 91
Tel IUT  : (+33) (0)2 38 49 44 59
http://www.univ-orleans.fr/lifo/Members/cleuziou/
guillaume.cleuziou at univ-orleans.fr

------------------------------------------------------------------------

Thèse (h/f) : Construction d'ontologies et de réseaux sémantiques
typés à partir d'analyse de corpus textuels et application à l'analyse
et la construction de représentation sémantique du texte applicatif

Lannion
France
département

France Télécom Orange est un des principaux opérateurs de
télécommunications au monde. Le Groupe sert ainsi plus de 182 millions
de clients sur les cinq continents, dont les deux tiers sous la marque
Orange.

Les Orange Labs constituent le réseau mondial d'innovation du Groupe
France Telecom Orange. Crées en 2006, ils regroupent 3800 chercheurs
répartis au sein de 18 laboratoires sur 4 continents. La R&D est
source principale d'innovation pour le Groupe avec plus de 8500
brevets à son actif, contribuant à développer la nouvelle génération
de services de communications intégrés, innovants et simples
d'utilisation.

Le Centre de R&D Technologies a pour mission de permettre à Orange de
faire en avance de phase les bons choix technologiques en s'appuyant
sur sa forte expertise et sur sa connaissance de l'écosystème
industriel et académique.

Votre rôle

La qualité des données sémantiques et leur utilité en Recherche
d'Informations dépendent du type d'applications, de la granularité des
informations traitées. Pour des applications de moteur de recherche
classique, où la granularité d'information correspond au document, les
techniques de mot-clés associés à des mesures de fréquence
d'occurrence ont fait la preuve d'un bon compromis entre la
performance, la robustesse et la précision. Pour des fonctionnalités à
granularité plus fine (reformulation, Question/Réponse, titrage,
recherche agrégé, pervasivité...), une représentation appropriée de
l'information traitée est plutôt de nature sémantique.

La thèse se place dans le domaine de l'extraction d'informations fines
à partir de données textuelles. Il s'agit d'une étude exploratoire
traitant les difficultés citées précédemment et de montrer qu'une fois
résolues, il est possible de réaliser des applications de recherche
d'informations avancées, ce très rapidement et à un faible coût, et
corrélativement de pourvoir en déployer à plus grande échelle.

L'objectif de la thèse porte sur la technologie avancée en
apprentissage et sur les modèles de calcul permettant d'exploiter le
résultat de l'apprentissage. Il s'agit d'acquérir les données
sémantiques et linguistiques à partir de corpus de texte et donc
d'extraire de ces corpus d'apprentissage le maximum d'informations
sémantiques et linguistiques tout en minimisant l'apport initial de
connaissances (approche hybride). Il s'agira aussi de définir la
technologie d'analyse de dépendance en aval et de ne s'intéresser à
des données linguistiques et sémantiques apprises en adéquation avec
le mécanisme d'analyse de phrases.

Le résultat «proof of concept» (PoC) attendu est la conception et la
réalisation d'une maquette incluant des technologies permettant
l'acquisition de données sémantiques et linguistiques, la mise en
œuvre d'une mécanique d'analyse et de construction de structures de
dépendance, la mise en œuvre d'une application de recherche
d'informations fines et, à travers l'application, la preuve de la
facilité de réaliser toute fonctionnalité applicative, lors que les
deux difficultés citées ont été traitées.

Il s'agit essentiellement de faire converger les technologies de
traitement linguistique traditionnel et celles d'apprentissage
statistique, ce de manière fine pour éviter les problèmes de biais
statistique constatés trop souvent dans les modèles hybrides connus.

L'approche envisagée s'articule en deux parties. La première, en terme
d'apprentissage hybride, vise à extraire automatiquement des relations
sémantiques typées à partir d'une analyse de dépendance dans les
phrases, et d'une structuration des groupes nominaux autour des
verbes. Pour ce faire, l'obstacle majeur est de mettre en œuvre des
grammaires de chunking développées en interne (outil de traitement
linguistique des textes) mais adaptées à des analyses de grands
volumes de données avec des performances correctes dans ce contexte
d'analyse (travail hors thèse). Une structuration des syntagmes autour
des verbes, une analyse de régularité des verbes visent ensuite une
abstraction de ces derniers dans un comportement prédicatif uniforme
(par exemple regrouper les notions acheter, acquérir ...)  Dans la
seconde partie de construction de la structure de dépendance,
l'analyse elle-même ne serait pas réalisée par des règles de
grammaires de dépendance mais plutôt sur un calcul d'entropie à partir
des distributions probabilistes observées pour chaque mot dans l'étape
d'analyse de coccurrences. Elle consiste à définir une construction de
l'arbre de dépendance. Une démarche pressentie est de recourir à
l'extraction d'un arbre maximal recouvrant à partir d'un graphe de
relations sémantiques représentant potentiellement la phrase
analysée. Ce type d'analyse nécessite d'avoir des données sémantiques
annotées de poids probabilistes.

Un dernier volet dans la structuration du réseau est relatif à la
construction d'ontologie. Les travaux du LIFO à partir de
structuration prétopologique présente à ce titre un axe de recherche
prometteur et à explorer dans le cadre de la thèse.

Le travail prendra aussi en compte la possibilité d'alimenter le
système par des connaissances sémantiques a priori et devra évaluer
leur impact sur la qualité des résultats. Dans une optique de
supervision humaine a posteriori, ces connaissances pourraient
provenir d'une session antérieure d'apprentissage et auraient été
révisées manuellement avant d'être réinjectées dans le système.

votre profil

Etudiant niveau Bac+5 – Master 2
Compétences souhaitées :
- Apprentissage, acquisition automatique de données par des modèles
  hybrides
- Traitement automatique du langage naturel
- Recherche d'informations
- Programmation en C/C++

Contrat
Thèse

Localisation du poste : Lannion (22307)
Contact : edmond.lassalle at orange-ftgroup.com
Contact : regine.angoujard at orange-ftgroup.com

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list