Dos nuevos recursos de tecnolog ía lingüíst ica para el español: CESS-ESP y AnCora-Esp

Tue Nov 27 01:19:56 UTC 2007

-------------------          INFOLING          --------------------
Lista de distribución sobre lingüística del español (ISSN: 1576-3404):  http://elies.rediris.es/infoling/
Envío de información: infoling-request at listserv.rediris.es
EDITORES:
Carlos Subirats Rüggeberg, UAB <carlos.subirats at uab.es>
Mar Cruz Piñol, U. Barcelona <mcruz at ub.edu>
Eulalia de Bobes Soler, U. Abat Oliba-CEU <debobes1 at uao.es>
Equipo de edición: http://elies.rediris.es/infoling/editores.html
Estudios de Lingüística del Español (ELiEs): http://elies.rediris.es
es una red temática de lingüística del español asociada a INFOLING.
---------------------------------------------------------------------

      INFOLING: una lista de distribución independiente y plural
 © Infoling, Barcelona (España) 1998-2007. Reservados todos los derechos

-----------------------------------------------------------------------------------------------------
Dos nuevos recursos de tecnología lingüística para el español:
CESS-ESP y AnCora-Esp:
http://clic.ub.edu/cessece/index.php y http://clic.ub.edu/ancora/
-----------------------------------------------------------------------------------------------------

El Centro de Lenguaje y Computación de la Universidad de Barcelona
(CLiC), conjuntamente con los grupos de Procesamiento del Lenguaje
Natural de la Universidad de Alicante (España) y la Universidad
Politécnica de Cataluña (Barcelona, España) han creado el CESS-ESP y
AnCora, dos nuevos recursos de tecnología lingüística para el español:

- CESS-ESP es un corpus de árboles sintácticos de 500.000 palabras,
anotado morfológica y sintácticamente (constituyentes y funciones).
CESS-ESP está disponible también en formato de dependencias. El corpus
se puede descargar desde:
http://clic.ub.edu/cessece/index.php
Y se puede consultar vía web desde:
http://clic.ub.edu/ancora?page=cerques.php
El recurso lingüístico CESS se ha desarrollado también para el catalán
(CESS-CAT) y el vasco (CES-EUS).

- AnCora-Esp es un corpus de árboles sintácticos de 500.000 palabras,
enriquecido con información semántica de diversa índole:
1) cada función sintáctica tiene asociado el argumento y el papel
temático correspondiente;
2) cada verbo pertenece a una clase semántica, en función de su
estructura eventiva y su comportamiento diatético;
3) cada nombre tiene asignado un sentido de la base de conocimiento WordNet y
4) cada entidad nombrada (es decir, personas, organizaciones, lugares,
fechas, etc.) está identificada y categorizada.

Como resultado del proceso de anotación, se dispone también de un
léxico verbal de 2.000 entradas aprox. con información sobre:
- la clase semántica del verbo y la subcategorización sintáctica,
- la estructura argumental y los roles temáticos para  cada uno de los sentidos.

El corpus AnCora-Esp así como los léxicos verbales derivados
AnCora-Verb están disponibles (consultas y descargas) en la página:
http://clic.ub.edu/ancora/
El corpus AnCora también se ha desarrollado para el catalán.

Más información:
http://clic.ub.edu/cessece/index.php
http://clic.ub.edu/ancora/

----------------------------------------------------------------------
Utiliza el buscador de Estudios de Lingüística del Español (ELiEs) en
http://elies.rediris.es para realizar búsquedas en los contenidos de la
web de ELiEs.
----------------------------------------------------------------------