Info: Session intensive NooJ, Inalco, Clichy
Thierry Hamon
thierry.hamon at LIPN.UNIV-PARIS13.FR
Mon Nov 17 11:24:41 UTC 2008
Date: Sat, 15 Nov 2008 12:16:33 +0100
From: Anaid Donabedian <adonabedian at inalco.fr>
Message-ID: <491EAF91.4030606 at inalco.fr>
X-url: http://www.nooj4nlp.net
*Stage intensif : traiter un corpus avec NooJ*
Formation organisée par le Cercle de linguistique de l’Inalco
*26-30 janvier 2009
de 9h30 à 17h30*
Centre Clichy
104, quai de Clichy 92110 CLICHY – Salle d’informatique de Clichy
Ouvert aux étudiants de Master et de doctorat, ainsi qu’aux
enseignants chercheurs
(pour les étudiants de Master 1 ou 2, inscription pédagogique
recommandée sous les codes LGE07115 et LGE08115 pour un total de 6
ECTS en ouverture)
Animé par :
Max Silberztein, INALCO, Université de Franche-Comté
www.nooj4nlp.net <http://www.nooj4nlp.net>
NooJ est un environnement de développement linguistique qui propose
des méthodologies et des outils pour annoter et étudier des corpus
linguistiques dans des langues de tous types. Il permet de construire
des ressources linguistiques, les tester en les appliquant à des
textes de taille importante, et d’explorer un corpus en élaborant des
requêtes adaptées à l’objectif et au cadre théorique de
l’utilisateur. NooJ est un outil puissant, permettant de traiter des
corpus de très grande taille. Son utilisation ne requiert pas de
connaissances en programmation ou traitement automatique des
langues. Au cours de ce séminaire intensif, je présenterai les points
suivants :
1. Traitement de corpus : ouvrir un texte, gérer des corpus, lancer
des requêtes et construire des concordances
2. Formalisation de la morphologie : morphologie flexionnelle (ex.
conjugaison des verbes), morphologie dérivationnelle
(ex. nominalisation d’un verbe), morphologie productive
(ex. néologismes)
3. Construction d’un lexique NooJ : mots simples, mots composés et
expressions figées
4. Syntaxe : requêtes syntaxiques, grammaires locales, le groupe nominal
5. Sémantique : extraction d’entités nommées, construction de
paraphrases, analyse sémantique
Les atouts de NooJ :
NooJ permet de formaliser cinq niveaux de phénomènes linguistiques :
orthographe, morphologie, lexique, syntaxe et sémantique. Pour chacun
de ces niveaux, NooJ propose une méthodologie, un ou plusieurs
formalismes adaptés, des outils-logiciels de développement et un ou
plusieurs analyseurs automatiques de textes. Par exemple, au niveau
morphologique, NooJ fournit deux formalismes pour décrire la flexion
et la dérivation, un formalisme pour décrire la morphologie lexicale
(par ex. pour représenter les familles de mots) et un formalisme pour
entrer des règles de morphologie productive (par ex. pour formaliser
la création de néologismes).
Les outils et formalismes de NooJ sont tous compatibles entre eux de
façon ascendante, et sont graduellement plus puissants au fur et à
mesure qu’on monte dans la hiérarchie linguistique. Par exemple, le
niveau orthographique utilise des machines à états finis ; le niveau
syntaxique utilise des grammaires hors contexte ; le niveau sémantique
utilise des réseaux de transition augmentés (Augmented Transition
Networks ou ATN) dont la puissance est équivalente à celle d’une
machine de Turing.
Cette approche « multiple » apporte de nombreux avantages pour les
travaux de description linguistique car chaque niveau de formalisation
est décrit de la façon la plus naturelle possible : les linguistes
disposent donc d’outils de développement et d’analyse parfaitement
adaptés à leurs besoins de formalisation. Par ailleurs, des phénomènes
très spécifiques à des langues très différentes, comme par exemple la
variation orthographique (massive) en chinois, le traitement des
voyelles absentes en arabe, la morphologie massive en hongrois
etc. sont traités avec des outils parfaitement adaptés.
NooJ fournit un environnement unifié à l’intérieur duquel ces outils
communiquent entre eux grâce à une structure d’annotations (« Text
Annotation Structure » ou TAS). Au-delà de la possibilité d’intégrer
des ressources linguistiques de niveaux différents, la TAS permet de
formaliser des phénomènes à cheval sur plusieurs niveaux
linguistiques.
Dans la limite des places disponibles
Inscription : INALCO – École Doctorale
Sandrine WONG (e-mail: sandrine.wong at inalco.fr
<mailto:sandrine.wong at inalco.fr>)
49 bis, avenue de la Belle Gabrielle
75012 PARIS
Tél.: 01 80 51 95 06
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list