Diccionarios electronicos del espa ñol de domi nio público: Universidad Politécnica de Madrid

Carlos Subirats carlos.subirats at GMAIL.COM
Tue Jan 29 07:29:39 UTC 2008


-------------------          INFOLING          --------------------
Lista de distribución sobre lingüí­stica del español (ISSN: 1576-3404):  http://elies.rediris.es/infoling/
Enví­o de información: infoling-request at listserv.rediris.es
EDITORES:
Carlos Subirats Rüggeberg, UAB <carlos.subirats at uab.es>
Mar Cruz Piñol, U. Barcelona <mcruz at ub.edu>
Eulalia de Bobes Soler, U. Abat Oliba-CEU <debobes1 at uao.es>
Equipo de edición: http://elies.rediris.es/infoling/editores.html
Estudios de Lingüí­stica del Español (ELiEs): http://elies.rediris.es
es una red temática de lingüística del español asociada a INFOLING.

© Infoling, Barcelona (España) 1996-2008. Reservados todos los derechos

---------------------------------------------------------------------

INFOLING: 3.000 participantes en más de 50 países

-----------------------------------------------------------------------------------------------------
Diccionario electrónico del español de dominio público
Universidad Politécnica de Madrid (España)
Descarga de la versión 1.9 (noviembre de 2005):
http://www.datsi.fi.upm.es/~coes/espa~nol-1.9.tar.gz
Información general: http://www.datsi.fi.upm.es/~coes/
Coeditor para esta información: Marc Ortega, Universidad Autónoma de Barcelona
---------------------------------------------------------------------------------------------------

El proyecto COES, desarrollado por S. Rodríguez y J. Carretero, ambos
profesores de la Facultad de Informática de la Universidad Politécnica
de Madrid (España), ha creado un sistema de diccionarios electrónicos
del español de dominio público y libre distribución. Este sistema está
integrado por los siguientes componentes [cf. NOTA 1 al final de esta
información]:

- un diccionario electrónico en formato texto, que contiene 53.000
lemas (cf. Fig. 1),
- un fichero de clases morfológicas flexivas del español y
- un script, que permite generar un diccionario expandido en formato
binario (cf. Fig. 2), que contiene todas las formas flexivas de los
verbos, los nombres y los adjetivos del diccionario de lemas, junto
con las formas invariables, como adverbios, conjunciones, etc.


catedral/S
catedralicio/PS
catedralidad/S
catedrilla/S
categ'orico/MPS
categor'ia/S
categorismo/S
categorizar/HPSTVWX
catenario/PS
catenular/S
catequ'istico/PS
catequesis
catequismo/S
catequista/S
catequizador/PS
catequizar/LPSVWX

Fig. 1. Extracto del diccionario electrónico de lemas (espa~nol.words)
del proyecto COES


El diccionario en formato binario se puede integrar en un sistema de
corrección ortográfica del español para sistemas operativos Unix,
mediante la utilización de la herramienta de dominio público "ispell"
(cf. http://fmg-www.cs.ucla.edu/fmg-members/geoff/ispell.html).

A partir del diccionario electrónico expandido en formato binario
espa~nol.hash y del diccionario de lemas espa~nol.words, es posible
generar el diccionario de formas expandidas en formato texto
espa~nol.wl (cf. Fig. 2):

ispell -e -d ./espa~nol.hash < espa~nol.words > espa~nol.wl


catedral catedrales
catedralicio catedralicias catedralicios catedralicia
catedralidad catedralidades
catedrilla catedrillas
categ'orico categ'oricas categ'oricos categ'oricamente categ'orica
categor'ia categor'ias
categorismo categorismos
categorizaci'on categorizaciones
categorizar categoriz'o categoric'e categorizar'e categorizar'a
categorizar'as categoriz'asemos categoriz'aremos categoricemos
categorizaremos categorizar'iamos categoriz'aramos categoriz'abamos
categorizamos categoriz'andolos categorizarlos categorizados
categoric'eis categorizar'eis categoriz'ais categorizasteis
categorizaseis categorizareis categorizar'iais categorizarais
categorizabais categorizases categorizares categoriz'andoles
categorizarles categorices categorizar'ias categorizaras
categoriz'andolas categorizarlas categorizadas categorizabas
categorizas categoriz'andolo categorizarlo categorizando categorizado
categorizo categorizar'an categorizaron categorizasen categorizaren
categoricen categorizar'ian categorizaran categorizaban categorizan
categorizaste categorizase categorizare categoriz'andole categorizarle
categorice categorizad categorizar'ia categorizara categoriz'andola
categorizarla categorizada categorizaba

Fig. 2. Extracto del diccionario expandido en fomato texto
(espa~nol.wl): flexión morfológica de los lemas de la Fig. 1


Disponer del diccionario electrónico expandido en formato texto (cf.
Fig. 2) puede resultar particularmente importante para los
desarrolladores de tecnologías lingüísticas del español --tanto de
Universidades como de empresas-- que necesiten integrar un diccionario
de formas flexivas en aplicaciones específicas, especialmente,
teniendo en cuenta que los diccionarios del proyecto COES son los
únicos  diccionarios electrónicos del español de dominio público y de
libre distribución (sin licencia).


Descarga de la versión 1.9 de noviembre de 2005:
http://www.datsi.fi.upm.es/~coes/espa~nol-1.9.tar.gz
Información general: http://www.datsi.fi.upm.es/~coes/


-------------------------------

NOTA 1

El conjunto completo de diccionarios y otros componentes que se crean
a partir del fichero espa~nol-1.9.tar.gz  --que se puede descargar
desde http://www.datsi.fi.upm.es/~coes/espa~nol-1.9.tar.gz -- son los
siguientes (cf.
http://www.datsi.fi.upm.es/~coes/espell_leame/espell_leame.html#SECTION00050000000000000000
):

- espa~nol.aff: fichero de sufijos de flexión morfológica de verbos,
nombres y adjetivos del español;
- espa~nol.words: una lista de palabras, que aparecen en el
Diccionario de la Real Academia Española de la Lengua (vigésima
primera edición);
- espa~nol.nofl: una lista de palabras que no aparecen en el
Diccionario de la Real Academia Española de la Lengua, pero son de uso
corriente en español;
- espa~nol.comp: una lista de palabras que, aunque no aparecen en el
Diccionario de la Real Academia Española de la Lengua, se utilizan
habitualmente en informática;
- antiguas.words: una lista de palabras que, aunque aparecen en el
Diccionario de la Real Academia Española de la Lengua, corresponden a
acepciones que no tienen un uso real en el español actual;
- espa~nol.words+: la lista expandida de palabras correspondiente a
los ficheros espa~nol.words y espa~nol.comp en formato binario;
- e~nes: un script que remplaza las cadenas 'n y 'N por ~n y ~N en los
ficheros espa~nol.aff, espa~nol.words y espa~nol.words+. Si se utiliza
la segunda manera de especificar esta letra, se tiene que ejecutar el
script e~nes. Éste se ha desarrollado con la versión de sed de GNU
2.05. Si desea ejecutar este script asegúrese que tiene instalada
dicha versión y teclee:
    make e~ne
- Makefile: Es un fichero Makefile que permite generar el fichero
(espa~nol.hash) a partir del fichero de afijos y de la lista de
palabras sin expandir (espa~nol.words).

----------------------------------------------------------------------
Utiliza el buscador de Estudios de Lingüística del Español (ELiEs) en
http://elies.rediris.es para realizar búsquedas en los contenidos de la
web de ELiEs.
----------------------------------------------------------------------



More information about the Infoling mailing list