These: Veronique Malaise, Methodologie linguistique et terminologique pour la structuration d'ontologies

Fri Oct 7 09:14:21 UTC 2005

Date: Thu, 06 Oct 2005 11:49:46 +0200
From: "veronique malaise" <veroniquemalaise at hotmail.com>
Message-ID: <BAY104-F289D51BDDB3297302AC92BD9850 at phx.gbl>

Vous êtes cordialement invités à assister à la soutenance de ma thèse
intitulée "Méthodologie linguistique et terminologique pour la
structuration d'ontologies différentielles à partir de corpus
textuels", ainsi qu'au pot qui s'ensuvra. La soutenance aura lieu le
19 octobre à 14h dans les locaux de l'Inserm U729 / Laboratoire SPIM,
Escalier D, 2ième étage, 15, rue de l'école de Médecine, 75006
PARIS. Le résumé de la thèse, la composition du jury et les détails
pratiques concernant la soutenance figurent ci-dessous.

Cordialement,
Véronique Malaisé

Méthodologie linguistique et terminologique pour la structuration
d'ontologies différentielles à partir de corpus textuels

Linguistic and Terminological methodology for the structuring of
differential ontologies from textual corpora

Véronique Malaisé
Equipe : Direction Recherche et Experimentation de l'Institut National de 
l'Audiovisuel, STIM et INSERM U729
Courriel : veroniquemalaise at hotmail.com

Mots-clés : Ontologie différentielle, Traitement Automatique des
Langues, Patrons lexico-syntaxiques, Enoncé définitoire.

Keywords: Differential Ontologies, Natural Language Processing,
Lexico-syntactic patterns, Defining Context.

Résumé : Des ressources telles que les terminologies ou les ontologies
sont utilisées dans différentes applications, notamment dans la
description documentaire et la recherche d'information. Différentes
méthodologies ont été proposées pour construire ce type de ressources,
que ce soit à partir d'entrevues avec des experts du domaine ou à
partir de corpus textuels. Nous nous intéressons dans ce mémoire à
l'utilisation de méthodologies existantes dans le domaine du
Traitement Automatique des Langues, destinées à la construction
d'ontologies à partir de corpus textuels, pour la construction d'un
type de ressource particulier : des ontologies différentielles. Ces
ontologies sont structurées selon un système d'identité et de
différence sémantique entre leurs constituants : les termes du domaine
et des catégories dites "de haut niveau". Nous présentons différentes
expérimentations qui ont été menées pour éliciter, structurer, définir
et interdéfinir les éléments terminologiques pertinents à la
réalisation d'une tâche particulière. Notre premier contexte
applicatif a été le projet OPALES, et nous devions fournir à des
anthropologue le vocabulaire conceptuel destiné à annoter des
documents audiovisuels traitant de la petite enfance. Nous nous sommes
servie du corpus constitué à cette occasion pour tester les
méthodologies et outils linguistiques proposés pour l'aide à la
construction d'ontologie, et avons défini notre propre chaîne de
traitement. Celle-ci, appellée SODA, est basée sur l'extraction et
l'exploitation d'énoncés définitoires en corpus pour repérer des
éléments terminologiques, les structurer et donner des éléments de
communauté sémantique permettant de les comparer.

Abstract: Resources like terminologies or ontologies are used in a
number of applications, including documentary description and
information retrieval.  Different methodologies have been proposed to
build such resources, on the basis of experts' interviews or of
textual corpora. This thesis focuses on the use of existing Natural
Language Processing methodologies, meant to help the building of
ontologies from textual corpora, to build a particular type of
resource: differential ontologies. These ontologies are structured
according to a system of semantic identities and differences between
their constituents: terms of the domain and categorisation items
called "top level categories". We present different experiments that
we have done to elicit, structure, define and "interdefine" the
terminological items relevant for a given task. Our first use case was
the OPALES project, in which we had to provide a group of
anthropologists with the conceptual vocabulary that they needed to
annotate audiovisual documents about childhood. We have used the
textual corpus that we have built in this project to test linguistic
tools and methodologies for building ontologies from textual data, and
we have defined our own programs. The suite of resulting programs is
called SODA, and they focus on the extraction and use of defining
contexts in corpora to spot terminological items, to structure them
and to provide semantic similarity information that enables to compare
them.

Jury :
- Anne Condamines, Rapporteur
- Adeline Nazarenko, Rapporteur
- Bruno Bachimont, Co-directeur
- Laurence Danlos, Examinatrice
- Monique Slodzian, Examinatrice
- Pierre Zweigenbaum, Directeur

Université : Université Paris 7 - Denis Diderot

Discipline : Linguistique

Date de soutenance : 19 octobre 2005, 14h

Lieu de soutenance : Inserm U729 / Laboratoire SPIM,
Escalier D, 2ième étage,
15, rue de l'école de Médecine, 75006 PARIS

-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.biomath.jussieu.fr/LN/LN-F/
English version          : http://www.biomath.jussieu.fr/LN/LN/
Archives                 : http://listserv.linguistlist.org/archives/ln.html

La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion  : http://www.atala.org/
-------------------------------------------------------------------------