These: Ismail El Maarouf, Formalisation de connaissances a partir de corpus

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Nov 25 13:58:15 UTC 2011


Date: Wed, 23 Nov 2011 13:30:51 +0000 (GMT)
From: El Maarouf Ismaïl <elmaarouf.ismail at yahoo.fr>
Message-ID: <1322055051.93054.YahooMailNeo at web28203.mail.ukl.yahoo.com>

Bonjour,


C'est avec plaisir que je vous convie à la soutenance de ma thèse, qui
aura lieu le Mardi 6 Décembre à 14h, à Vannes, ainsi qu'au pot qui
suivra.  Adresse : Amphithéâtre Yves COPENS, Campus UBS- Tohannic, Rue
Yves Mainguy. 56000 VANNES

La thèse, réalisée au Laboratoire Valoria de l'Université Bretagne-Sud,
sous la direction de J. Villaneau, s'intitule


"Formalisation de connaissances à partir de corpus : Modélisation
linguistique du contexte pour l'extraction automatique de relations
sémantiques"


Le jury est composé de (par ordre alphabétique)


* Jean-Yves ANTOINE, PU, LI (examinateur)
* Pierre-François MARTEAU, PU, VALORIA (examinateur)
* Thierry POIBEAU, DR CNRS, LATTICE (rapporteur)
* Sophie ROSSET, CR CNRS, LIMSI (rapporteur)

* Jeanne VILLANEAU, MC, VALORIA (Directrice)


Ci-joint le résumé, en attendant sa publication sur TEL :

---

Les corpus, collections de textes sélectionnés dans un objectif
spécifique, occupent une place de plus en plus déterminante en
Linguistique comme en Traitement Automatique des Langues
(TAL). Considérés à la fois comme source de connaissances sur l'usage
authentique des langues, ou sur les entités que désignent des
expressions linguistiques, ils sont notamment employés pour évaluer la
performance d'applications de TAL. Les critères qui prévalent à leur
constitution ont un impact évident, mais encore délicat à caractériser,
sur (i) les structures linguistiques majeures qu'ils renferment, (ii)
les connaissances qui y sont véhiculées, et, (iii) la capacité de
systèmes informatiques à accomplir une tâche donnée.
Ce mémoire étudie des méthodologies d'extraction automatique de
relations sémantiques dans des corpus de textes écrits. Un tel sujet
invite à examiner en détail le contexte dans lequel une expression
linguistique s'applique, à identifier les informations qui déterminent
son sens, afin d'espérer relier des unités sémantiques. Généralement, la
modélisation du contexte est établie à partir de l'analyse de
co-occurrence d'informations linguistiques issues de ressources ou
obtenues par des systèmes de TAL. Les intérêts et limites de ces
informations sont évalués dans le cadre de la tâche d'extraction de
relations sur des corpus de genre différent (article de presse, conte,
biographie). Les résultats obtenus permettent d'observer que pour
atteindre une représentation sémantique satisfaisante ainsi que pour
concevoir des systèmes robustes, ces informations ne suffisent pas.
Deux problèmes sont particulièrement étudiés. D'une part, il semble
indispensable d'ajouter des informations qui concernent le genre du
texte. Pour caractériser l'impact du genre sur les relations
sémantiques, une méthode de classification automatique, reposant sur les
restrictions sémantiques qui s'exercent dans le cadre de relations
verbo-nominales, est proposée. La méthode est expérimentée sur un corpus
de conte et un corpus de presse.  D'autre part, la modélisation du
contexte pose des problèmes qui relèvent de la variation discursive de
surface. Un texte ne met pas toujours bout à bout des expressions
linguistiques en relation et il est parfois nécessaire de recourir à des
algorithmes complexes pour détecter des relations à longue portée. Pour
répondre à ce problème de façon cohérente, une méthode de segmentation
discursive, qui s'appuie sur des indices de structuration de surface
apparaissant dans des corpus écrits, est proposée. Elle ouvre le champ à
la conception de grammaires qui permettent de raisonner sur des
catégories d'ordre macro-syntaxique afin de structurer la représentation
discursive d'une phrase. Cette méthode est appliquée en amont d'une
analyse syntaxique et l'amélioration des performances est évaluée.

Les solutions proposées à ces deux problèmes nous permettent d'aborder
l'extraction d'information sous un angle particulier : le système
implémenté est évalué sur une tâche de correction d'Entités Nommées dans
le contexte d'application des Systèmes de Question-Réponse.  Ce besoin
spécifique entraîne l'alignement de la définition d'une catégorie sur le
type de réponse attendue par une question.


Ismaïl EL MAAROUF
Doctorant en Informatique et Sciences du Langage
Phd Student in Computer Science and Linguistics
B. 215, Centre de Recherche Christiaan Huygens
Université de Bretagne Sud, BP 92116,
56321 Lorient cedex
Tel: 06 66 20 58 00

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list