Ressource: Les voisins de Le Monde
Thierry Hamon
thierry.hamon at LIPN.UNIV-PARIS13.FR
Fri Feb 10 15:51:39 UTC 2006
Date: Fri, 10 Feb 2006 13:54:38 +0100
From: Didier BOURIGAULT <didier.bourigault at univ-tlse2.fr>
Message-ID: <43EC8D0E.4020408 at univ-tlse2.fr>
X-url: http://www.univ-tlse2.fr/erss/voisinsdelemonde/
Nous sommes heureux de vous annoncer la mise en ligne de la base de
données lexicale "Les voisins de Le Monde".
http://www.univ-tlse2.fr/erss/voisinsdelemonde/
Les voisins de Le Monde est une base lexicale distributionnelle du
français construite automatiquement, à partir d'un corpus comprenant
l'ensemble des articles du quotidien Le Monde sur une période de 10
ans (1991-2000). Le corpus Le Monde a été obtenu auprès de l'agence
ELRA. Il a été étiqueté au niveau morphosyntaxique par Treetagger, de
l'Université de Stuttgart. L'extraction des contextes syntaxiques a
été réalisée par l'analyseur syntaxique Syntex, développée dans le
cadre d'une collaboration entre le laboratoire ERSS et la société
Synomia. L'analyse distributionnelle a été réalisée par l'outil Upery
développé à l'ERSS.
Pour chaque unité lexicale (nom, verbe, adjectif), on donne accès :
- à ses "cooccurrents syntaxiques"
Par exemple, le nom "peur" apparaît de façon très régulière dans les
contextes syntaxiques "trembler de ~", "frissonner de ~", "~
tenailler", "exorciser ~", etc.
- à ses "voisins distributionnels"
Par exemple, le nom "traité" a pour voisins "convention", "accord",
"constitution" car tous ces noms ont comme cooccurrents syntaxiques :
"stipulation de ~", "ratifier ~", "renégociation de ~", "ratification
de ~", "signataire de ~", "signature de ~", "parapher ~", etc.
N'hésitez pas à nous contacter pour toute remarque ou question.
Bien cordialement,
Didier BOURIGAULT
Franck SAJOUS
ERSS - CNRS & Université Toulouse le Mirail
-------------------------------------------------------------------------
Message diffusé par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listes.cines.fr/wws/arc/ln
http://listserv.linguistlist.org/archives/ln.html
La liste LN est parrainée par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhésion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list