Nueva versi ón del Corpus del Españ ol: http://www.corpusdelespanol.org

Carlos Subirats carlos.subirats at GMAIL.COM
Fri Dec 28 17:39:29 UTC 2007


-------------------          INFOLING          --------------------
Lista de distribución sobre lingüí­stica del español (ISSN: 1576-3404):  http://elies.rediris.es/infoling/
Enví­o de información: infoling-request at listserv.rediris.es
EDITORES:
Carlos Subirats Rüggeberg, UAB <carlos.subirats at uab.es>
Mar Cruz Piñol, U. Barcelona <mcruz at ub.edu>
Eulalia de Bobes Soler, U. Abat Oliba-CEU <debobes1 at uao.es>
Equipo de edición: http://elies.rediris.es/infoling/editores.html
Estudios de Lingüí­stica del Español (ELiEs): http://elies.rediris.es
es una red temática de lingüística del español asociada a INFOLING.

© Infoling, Barcelona (España) 1996-2007. Reservados todos los derechos

---------------------------------------------------------------------

          INFOLING: informando a una comunidad virtual
   integrada por 3.000 miembros procedentes de más de 50 países.

               Con el apoyo de Editorial Arco Libros S.L
Consulta su catálogo de Lingüística, E/LE, Historia y Publicaciones periódicas:
           http://www.arcomuralla.com/Arco/Shop/default.asp

----------------------------------------------------------------------------------------------------------------
Nueva versión del Corpus del Español: http://www.corpusdelespanol.org
Información de Mark Davies distribuida por Linguist List:
http://linguistlist.org/issues/18/18-3797.html
----------------------------------------------------------------------------------------------------------------

El Corpus del Español, que está en la red desde 2002, tiene 100
millones de palabras y está formado por textos de distintos períodos,
que van desde el siglo XIII hasta el siglo XX.

La nueva versión del Corpus del Español
(http://www.corpusdelespanol.org) permite realizar búsquedas y
operaciones que no se podían realizar con la versión anterior. Entre
ellas cabe destacar las siguientes:

- Encontrar las colocaciones ('palabras cercanas') de una determinada
palabra -- por ejemplo, las palabras que quedan dentro de cinco
palabras a la izquierda o a la derecha de 'mujer'; sustantivos cerca
de 'grave'; o los adjetivos que están cerca de 'rostro'). Esta
información puede resultar muy útil para entender el significado de
una determinada palabra.

- Con una simple consulta, comparar las colocaciones de dos palabras
(para ver la diferencia entre palabras relacionadas, por ejemplo
'pelo/cabello',  'comenzar/iniciar' o 'gozar/disfrutar').

- Comparar las colacaciones en dos períodos históricos o en dos
géneros (por ejemplo, una comparación de las colocaciones de 'mujer'
entre el siglo XIX y XX, o las colocaciones de 'cadena' en ficción y
en textos académicos).

- Ordenar las colocaciones según la frecuencia global en el Corpus
(usando la ''Información Mutua''). Por ejemplo, en lugar de 'rostro
de, en, que, etc.', la consulta 'rostro *' produce 'rostro ovalado,
desencajado, amoratado, etc.'.

- Ver un gráfico de barras que muestra la frecuencia global de una
palabra, frase o construcción gramatical entre los siglos XIII-XX, así
como en los cuatro registros del siglo XX (oral, ficción, periodístico
y académico).

- Guardar los resultados de una búsqueda y recuperarlos (y usarlos)
después de un tiempo.

- Registrar series más amplias de palabras, hasta 21 palabras en una
serie (comparado con las 3-4 en la versión anterior).

- El Corpus se ha re-lematizado y re-etiquetado y es mucho más exacto
que antes. Con la nueva arquitectura, será posible hacer búsquedas
utilizando ocurrencias para categorías léxicas poco específicas (por
ejemplo, [v*] para todos los verbos) o para categorías léxicas
específicas (por ejemplo, [*n*ms] para todos los nombres en masculino
singular).

- El Corpus textual se ha reorganizado. Para el siglo XX ahora hay
cuatro divisiones de igual tamaño: oral (5 millones de palabras),
ficción (5 millones), periodismo (5 millones) y texto académico (5
millones).

- La interfaz y la sintaxis de las consultas se han modificado
completamente para hacer búsquedas más intuitivas y fáciles de
realizar.

Acceso al Corpus del Español: http://www.corpusdelespanol.org

----------------------------------------------------------------------

Editorial Arco Libros S.L: un editor que apoya a Infoling
Consulta su catálogo de Lingüística, E/LE, Historia y Publicaciones periódicas:
http://www.arcomuralla.com/Arco/Shop/default.asp

----------------------------------------------------------------------
Puedes personalizar tus opciones de suscripción, darte de alta, etc.,
desde la web de Infoling en http://elies.rediris.es/infoling . Para ello,
tienes que pinchar el enlace -> Suscripción del menú de la izquierda.
----------------------------------------------------------------------



More information about the Infoling mailing list