Dos nuevos recursos de tecnolog ía lingüíst ica para el español: CESS-ESP y AnCora-Esp
Carlos Subirats
carlos.subirats at GMAIL.COM
Tue Nov 27 01:19:56 UTC 2007
------------------- INFOLING --------------------
Lista de distribución sobre lingüística del español (ISSN: 1576-3404): http://elies.rediris.es/infoling/
Envío de información: infoling-request at listserv.rediris.es
EDITORES:
Carlos Subirats Rüggeberg, UAB <carlos.subirats at uab.es>
Mar Cruz Piñol, U. Barcelona <mcruz at ub.edu>
Eulalia de Bobes Soler, U. Abat Oliba-CEU <debobes1 at uao.es>
Equipo de edición: http://elies.rediris.es/infoling/editores.html
Estudios de Lingüística del Español (ELiEs): http://elies.rediris.es
es una red temática de lingüística del español asociada a INFOLING.
---------------------------------------------------------------------
INFOLING: una lista de distribución independiente y plural
© Infoling, Barcelona (España) 1998-2007. Reservados todos los derechos
-----------------------------------------------------------------------------------------------------
Dos nuevos recursos de tecnología lingüística para el español:
CESS-ESP y AnCora-Esp:
http://clic.ub.edu/cessece/index.php y http://clic.ub.edu/ancora/
-----------------------------------------------------------------------------------------------------
El Centro de Lenguaje y Computación de la Universidad de Barcelona
(CLiC), conjuntamente con los grupos de Procesamiento del Lenguaje
Natural de la Universidad de Alicante (España) y la Universidad
Politécnica de Cataluña (Barcelona, España) han creado el CESS-ESP y
AnCora, dos nuevos recursos de tecnología lingüística para el español:
- CESS-ESP es un corpus de árboles sintácticos de 500.000 palabras,
anotado morfológica y sintácticamente (constituyentes y funciones).
CESS-ESP está disponible también en formato de dependencias. El corpus
se puede descargar desde:
http://clic.ub.edu/cessece/index.php
Y se puede consultar vía web desde:
http://clic.ub.edu/ancora?page=cerques.php
El recurso lingüístico CESS se ha desarrollado también para el catalán
(CESS-CAT) y el vasco (CES-EUS).
- AnCora-Esp es un corpus de árboles sintácticos de 500.000 palabras,
enriquecido con información semántica de diversa índole:
1) cada función sintáctica tiene asociado el argumento y el papel
temático correspondiente;
2) cada verbo pertenece a una clase semántica, en función de su
estructura eventiva y su comportamiento diatético;
3) cada nombre tiene asignado un sentido de la base de conocimiento WordNet y
4) cada entidad nombrada (es decir, personas, organizaciones, lugares,
fechas, etc.) está identificada y categorizada.
Como resultado del proceso de anotación, se dispone también de un
léxico verbal de 2.000 entradas aprox. con información sobre:
- la clase semántica del verbo y la subcategorización sintáctica,
- la estructura argumental y los roles temáticos para cada uno de los sentidos.
El corpus AnCora-Esp así como los léxicos verbales derivados
AnCora-Verb están disponibles (consultas y descargas) en la página:
http://clic.ub.edu/ancora/
El corpus AnCora también se ha desarrollado para el catalán.
Más información:
http://clic.ub.edu/cessece/index.php
http://clic.ub.edu/ancora/
----------------------------------------------------------------------
Utiliza el buscador de Estudios de Lingüística del Español (ELiEs) en
http://elies.rediris.es para realizar búsquedas en los contenidos de la
web de ELiEs.
----------------------------------------------------------------------
More information about the Infoling
mailing list