Info: stage intensif NooJ, fevrier 2010

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Nov 27 21:28:09 UTC 2009


Date: Wed, 25 Nov 2009 15:59:32 +0100
From: "Max Silberztein" <max.silberztein at gmail.com>
Message-ID: <4b0d465b.0305560a.637e.4658 at mx.google.com>


Stage intensif NooJ à l’INALCO, 1-5 février 2010

INTRODUCTION

NooJ est un environnement de développement linguistique qui propose des
méthodologies et des outils pour formaliser les langues en construisant des
ressources linguistiques, tester ces ressources linguistiques en les
appliquant à des textes de taille importante, et gérer, accumuler et
combiner un grand nombre de ressources.

NooJ permet de formaliser cinq niveaux de phénomènes linguistiques :
orthographe, morphologie, lexique, syntaxe et sémantique. Pour chacun de ces
niveaux, NooJ propose une méthodologie, un ou plusieurs formalismes adaptés,
des outils-logiciels de développement et un ou plusieurs analyseurs
automatiques de textes. Par exemple, au niveau morphologique, NooJ fournit
deux formalismes pour décrire la flexion et la dérivation, un formalisme
pour décrire la morphologie lexicale (par ex. pour représenter les familles
de mots) et un formalisme pour entrer des règles de morphologie productive
(par ex. pour formaliser la création de néologismes).

Les outils et formalismes de NooJ sont tous compatibles entre eux de façon
ascendante, et sont graduellement plus puissants au fur et à mesure qu’on
monte dans la hiérarchie linguistique. Par exemple, le niveau orthographique
utilise des machines à états finis ; le niveau syntaxique utilise des
grammaires hors contexte ; le niveau sémantique utilise des réseaux de
transition augmentés (Augmented Transition Networks ou ATN) dont la
puissance est équivalente à celle d’une machine de Turing. Cette approche «
multiple » apporte de nombreux avantages pour les travaux de description
linguistique car les linguistes disposent d’outils de développement et
d’analyse adaptés à chaque niveau de formalisation. Par ailleurs, des
phénomènes très spécifiques à des langues très différentes, comme par
exemple la variation orthographique (massive) en chinois, le traitement des
voyelles absentes en arabe, la morphologie massive en hongrois etc. sont
traités avec des outils spécifiques. NooJ fournit un environnement unifié à
l’intérieur duquel ces outils spécialisés communiquent entre eux grâce à une
structure d’annotations (« Text Annotation Structure » ou TAS). La TAS
permet de formaliser des phénomènes à cheval sur plusieurs niveaux
linguistiques.

PROGRAMME

Le stage consiste en 2 séances de cours/TPs chaque matin, et une
présentation externe l’après-midi. Les points suivants seront couverts :

Lundi 1er février : Traitement de corpus : ouvrir un texte, gérer des
corpus, la norme XML, lancer des requêtes et construire des concordances

Présentation & tutoriel 14H-15H30 : Huei-Chi Lin, Université de
Franche-Comté : Traitement des homonymes et des variantes graphiques en
chinois

En chinois contemporain, il existe plusieurs types d’homonymie et de
variantes graphiques : les variantes monosyllabiques, les variantes de mots
simples polysyllabiques et les variantes des mots composés. Dans cette
présentation, nous présenterons les cas de correspondance entre les sons,
les morphèmes et les caractères graphiques. Ensuite, nous décrirons leur
formalisation lors du développement du module chinois dans NooJ. En
conclusion, nous montrerons le résultat d’analyse.


Mardi 2 février :

Cours 9H-12H30 : Formalisation de la morphologie : morphologie flexionnelle
(ex. conjugaison des verbes), morphologie dérivationnelle (ex.
nominalisation d’un verbe), morphologie productive (ex. néologismes).

Présentation & tutoriel 14H-15H30 : Mathieu Roy, INALCO : Reconnaissance
automatique des chaînes d’accords nominaux en kiswahili (Tanzanie).

Le kiswahili est une langue bantu appartenant au groupe G62 selon la
classification de MalcomGuthrie. Cette langue se caractérise principalement
par le fait que chacun de ses nominaux appartient à une classe. Les classes
se repèrent par la chaine d’accords réguliers qu’un nominal appartenant à
une classe déterminée pilote sous la forme de préfixes sur les différentes
parties du discours en relation avec lui (verbes, adjectifs). La détection
des chaines d'accords nominaux permet un premier niveau d’analyse
grammaticale et de reconnaissance des diverses catégories d’un énoncé. Cette
identification pourrait par la suite être le support de différentes
transformations, comme le passage à titre d’exercice de cours du singulier
au pluriel. L’analyse sera appliqué à un roman écrit en kiswahili standard,
standard qui s’est appuyé principalement sur les variétés tanzaniennes du
kiswahili et qui a connu un beau succés dans sa diffusion du fait du soutien
indéfectible de l’Etat tanzanien.


Mercredi 3 février : Construction d’un dictionnaire NooJ : mots simples,
mots composés et expressions figées

Présentation & tutoriel 14H-15H30 : Odile Piton, Université Paris 1 :
Morphologie avec NooJ, application à l'albanais.

Nous allons montrer comment NooJ permet de reconnaître les mots albanais.
Précisons que l'albanais est une langue à déclinaison. La morphologie
flexionnelle  sera traitée par des exemples concernant la déclinaison des
noms et la conjugaison. Nous utiliserons la morphologie dérivationnelle
pour reconnaître des familles de mots. La  morphologie productive est
particulièrement intéressante pour reconnaître des mots albanais car il
existe des "listes ouvertes", qui ne peuvent être listées intégralement dans
un dictionnaire, et qui nécessitent donc des outils permettant leur
reconnaissance dynamique. Nous verrons comment les graphes de Nooj nous
permettent d'effectuer de telles reconnaissances, et nous apprendrons à
construire les dictionnaires utilisant les graphes.


Jeudi 4 février : Syntaxe : requêtes syntaxiques, grammaires locales, le
groupe nominal, analyse structurelle de la phrase

Présentation & tutoriel 14H-15H30 : Anaïd Donabédian, INALCO : L'élaboration
des ressources linguistiques pour le module arménien de NooJ : défis et
méthode.

Nous présenterons la méthode qui a été suivie pour développer les ressources
destinées à la lemmatisation du corpus arménien occidental avec NooJ, et
répondant aux spécificités linguistiques de l'arménien (alphabet propre,
signes de ponctuation au fonctionnement spécifique, morphologie nominale
agglutinante, morphologie verbale flexionnelle, nominalisations étendues,
dérivation proliférante). Une grande partie du travail a été réalisée avec
très peu de moyens humains et matériels, et cette présentation pourra donner
des points de repère à ceux qui souhaitent entamer la réalisation d'un
module dans une langue non encore traitée avec NooJ.


Vendredi 5 février : Sémantique : extraction d’entités nommées, construction
automatique de paraphrases, analyse sémantique automatique

Présentation 14H-15H : Denis Le Pesant, Université Paris 10 : Analyse
syntaxique d'une classe de verbes de communication et traitement de corpus
avec NooJ.

Après avoir présenté les ressources lexicographiques dont nous disposons, à
savoir trois très grands dictionnaires électroniques de Jean Dubois, nous
faisons une analyse linguistique détaillée d'une classe de verbes de
communication. Puis nous présentons le dictionnaire NooJ des verbes
français, ainsi que les grammaires NooJ associées à la classe de verbes de
communication concernée. Nous terminons par la présentation de tâches
d'annotation syntaxique et sémantique de grands corpus, et analysons les
résultats.

Présentation & tutoriel 15H-16H30 : Mei Wu, Université de Franche-Comté :
Traduction automatique.

Traduction français-chinois : Un traducteur automatique français-chinois
pour les groupes nominaux simples. Basé sur le texte La mare au diable
(1846) de George Sand, nous avons procédé à l’analyse et la traduction de
612 groupes nominaux simples français. Nous discuterons des problèmes
linguistiques et techniques que nous avons rencontrés : la traduction
polysémique ; la construction de classes sémantiques ; l’ordre des mots ;
les contraintes lexicales.

Tutoriel : Créer un dictionnaire bilingue et les fichiers de propriétés.
Transformer une phrase active en phrase passive (EN). Traduire les
expressions de dates (EN-FR). Traduire une phrase simple française en
anglais (FR-EN).

INSCRIPTIONS

Le stage est gratuit, mais les inscriptions sont obligatoires et les places
sont limitées. Chaque participant doit venir avec son ordinateur portable
sur lequel NooJ a déjà été installé.
Pour s’inscrire, envoyez un message à : max.silberztein at univ-fcomte.fr. en
spécifiant votre nom, votre statut (étudiant / doctorant / M1 / M2,
chercheur, enseignant, etc.), votre institution (laboratoire, université,
etc) ainsi que votre domaine d’intérêt.


-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list