Novedad bibliográfica: ALMELA, R.; CANTOS, P.; SÁNCHEZ, A.; SARMIENTO, R.; ALMELA, M. Frecuencias del español. Diccionario y estudios léxicos y morfológicos. Madrid: Universitas

Fri Jun 3 17:26:20 UTC 2005

--------------------------   INFOLING   ------------------------------
 Lista de distribución de lingüística del español (ISSN: 1576-3404)
                  http://elies.rediris.es/infoling/
    Envío de información: infoling-request at listserv.rediris.es
                             EDITORES:
       Carlos Subirats Rüggeberg, UAB <carlos.subirats at uab.es>
           Mar Cruz Piñol, U. Barcelona <mcruz at ub.edu>
        Eulalia de Bobes Soler, UAB <Eulalia.deBobes at uab.es>
 Equipo de edición: http://elies.rediris.es/infoling/editores.html
Estudios de Lingüística del Español (ELiEs): http://elies.rediris.es
es una red temática de lingüística del español asociada a INFOLING.
----------------------------------------------------------------------

Infoling y ELiEs se editan con el patrocinio del Ministerio de
Ciencia y Tecnología de España (DIF2003-10302-E): http://www.mcyt.es

----------------------------------------------------------------------
                        Novedad bibliogrÃ¡fica:
    ALMELA, RamÃ³n; CANTOS, Pascual; SÃNCHEZ, Aquilino; SARMIENTO, RamÃ³n;
ALMELA, MoisÃ©s. 2005. Frecuencias del espaÃ±ol. Diccionario y estudios
lÃ©xicos y morfolÃ³gicos. Madrid: Universitas. (ISBN: 84-7991-171-9,
591 pÃ¡gs.)

      Web del editor: http://www.universitas.es/default.asp
----------------------------------------------------------------------

                              Resumen:

    Esta obra constituye un diccionario del espaÃ±ol mÃ¡s utilizado en la
actualidad. Sus listados de frecuencia estÃ¡n basados en el Corpus
Cumbre, de 20 millones de palabras referidas al espaÃ±ol hablado y
escrito actualmente en EspaÃ±a y en todos los paÃses de habla hispana.
Las listas de palabras mÃ¡s frecuentes son ya herramientas necesarias
para lingÃ¼istas, para autores de manuales y para profesores de espaÃ±ol
como lengua materna  o como lengua extranjera.

    El retraso tradicional que las ciencias antropolÃ³gicas han tenido
respecto de las ciencias cosmolÃ³gicas se observa tambiÃ©n en el Ã¡mbito de
lo que se puede llamar los mÃ©todos cuantitativos. Las ciencias del
lenguaje no son una excepciÃ³n. Durante siglos se ha venido construyendo
un edificio (inacabado e inacabable) de afinadas y atinadas teorÃas que
se basan en la indagaciÃ³n del sistema. Esto es y serÃ¡ necesario. Sin
embargo, hasta no hace mucho estos estudios especulativos no estaban
acompaÃ±ados de una (correspondiente) investigaciÃ³n cuantitativa. Esta
deficiencia estÃ¡ corrigiÃ©ndose. La lengua es un organismo vivo. Los
hablantes la hacen y la hacen evolucionar, en cada uno de sus niveles.
Es en el nivel de las palabras en el que la evoluciÃ³n de las lenguas se
hace mÃ¡s patente. Por eso siempre es conveniente conocer el uso real de
las unidades lÃ©xicas.

    Este libro ofrece los datos sobre la frecuencia con que los
hispanohablantes usamos actualmente las palabras y los afijos de nuestra
lengua. Viene a llenar un hueco mÃ¡s que evidente. Hasta ahora contÃ¡bamos
para el espaÃ±ol con el diccionario de frecuencias de las palabras del
espaÃ±ol preparado por Alphons Juilland y E. Chang RodrÃguez. Redactado
en inglÃ©s y publicado en 1964, fuera de EspaÃ±a, los resultados se
basaron en un corpus de 500.000 palabras procedentes de fuentes no
diversificadas.

    El libro de frecuencias del espaÃ±ol, por el contrario, estÃ¡ basado
en el Corpus Cumbre. Este Corpus, de 20 millones de palabras, recoge
fragmentos variados de textos orales y escritos actuales de EspaÃ±a e
HispanoamÃ©rica; por el volumen de textos y palabras que contiene y por
sus procedencias, cuidadosamente seleccionadas, puede ser considerado
razonablemente representativo del espaÃ±ol actual.

    El libro consta de una secciÃ³n explicativa y de una secciÃ³n de
anexos. En la secciÃ³n explicativa se incluyen una introducciÃ³n, seis
capÃtulos, un glosario y la bibliografÃa. En la secciÃ³n de anexos se
presentan los datos de frecuencia extraÃdos del Corpus.

    La IntroducciÃ³n presenta el diseÃ±o del Corpus Cumbre, el mÃ©todo
seguido en el trabajo, asÃ como los argumentos que avalan una
investigaciÃ³n de estas caracterÃsticas. No les falta razÃ³n a los autores
cuando afirman que en el estudio del lenguaje no se puede seguir el
mismo mÃ©todo que se sigue en el estudio de la filosofÃa o en el anÃ¡lisis
de la reacciÃ³n subjetiva ante un fenÃ³meno artÃstico. El lenguaje â€“dicenâ€‘
Â«en un porcentaje altÃsimo, se fundamenta en elementos formales y
claramente objetivables, cuales son, por ejemplo, los sonidos, las
palabras o las formas en general y su ordenaciÃ³n en el discurso. En este
sentido, no habrÃa razÃ³n para no adoptar, en los estudios sobre el
lenguaje, mÃ©todos de investigaciÃ³n menos especulativos y mÃ¡s
dependientes de los datos que la realidad lingÃ¼Ãstica nos proporciona.Â»
La imagen intuitiva que tenemos de la estructura y de la frecuencia del
lÃ©xico de nuestra lengua dista mucho a veces de responder a la realidad.
Los datos revelan que la mayor parte de las palabras tienen una
frecuencia baja o muy baja, mientras que son relativamente pocas las que
usan los hablantes con frecuencia muy alta.

    Conviene distinguir entre el uso de las palabras como â€˜formas
flexivasâ€™ y de las palabras como â€˜lemasâ€™. El CapÃtulo 1 recoge el uso de
las palabras consideradas como formas individuales, no integradas en la
categorÃa del lema que les pudiera corresponder. Es interesante conocer
este dato, porque nos permitirÃ¡ comprobar que no todas las formas de un
lema son objeto de la misma intensidad de uso. Cabe constatar, por
ejemplo, que si bien el verbo tener es frecuentemente usado, la forma
tiene es la mÃ¡s usada de todas sus flexiones. De igual manera la forma
mÃ¡s frecuente del verbo ser es la tercera persona singular del presente
de indicativo (es), como lo es estÃ¡ en relaciÃ³n con el verbo estar. A un
profesor de espaÃ±ol como lengua extranjera le deberÃa interesar este
dato para convencerle â€“ si no lo estuviera- que vale la pena aprender
pronto una forma irregular como tiene o es. Y a un lingÃ¼ista le podrÃa
sugerir alguna idea Ãºtil sobre las razones del desdoblamiento vocÃ¡lico
de la e espaÃ±ola, el hecho de que tal desdoblamiento aparece en las
formas mÃ¡s frecuentes y usadas del verbo tener (tiene, tienen, tienesâ€¦).
De no menor interÃ©s es constatar que las 100 primeras formas
lingÃ¼Ãsticas ofrecen un gran contraste de frecuencia: de mÃ¡s de
1.223.000 (de) a 14.965 (poco). Estas distancias en la frecuencia son
notoriamente menores en el resto de la lista.

     El CapÃtulo 2 aborda el anÃ¡lisis de los lemas. La asignaciÃ³n de
cada forma al lema que le corresponde requiere una revisiÃ³n manual para
ser fiable. De ahÃ que el listado de los lemas se haya elaborado a
partir de un subcorpus de Cumbre, de 2 millones de palabras etiquetadas
y revisadas. Dicho subcorpus se recopilÃ³ con criterios similares al
corpus general, precisamente para garantizar una razonable
representatividad del espaÃ±ol actual. Del anÃ¡lisis de los resultados se
deduce que el nÃºmero de lemas en espaÃ±ol es aproximadamente la mitad que
el nÃºmero de formas (de ahÃ que este listado de 5.000 lemas equivalga en
realidad al listado anterior, de 10.000 formas), que el lema mÃ¡s
frecuente es el artÃculo el (y no la preposiciÃ³n de, primera en la lista
de formas), y que las diferencias en frecuencia son bruscas hasta el
lema nÃºmero 20 (como), disminuyendo en intensidad al ascender en la lista.

    Con el fin de dar cuenta de la realidad a caballo entre la forma
directamente observable y los aspectos mÃ¡s abstractos de la
funcionalidad y del potencial comunicativo, el libro incluye, en el
CapÃtulo 3,  un anÃ¡lisis de la frecuencia de grupos de formas
categorizadas en funciÃ³n de criterios gramaticales y lÃ©xicoâ€‘semÃ¡nticos.
La aplicaciÃ³n del primer criterio se concreta en la preparaciÃ³n de un
listado con los 5.000 lemas mÃ¡s frecuentes del espaÃ±ol, ordenados por
frecuencia (Anexo III). Los datos son extraÃdos del mismo subcorpus, de
2 millones de palabras.

    Junto a los datos descriptivos ya conocidos: (frecuencia Corpus y
frecuencia relativa/millÃ³n) se analizan tambiÃ©n la banda de frecuencia y
la categorÃa gramatical (adjetivo, adverbio, conjunciÃ³n, artÃculo,
interjecciÃ³n, preposiciÃ³n, pronombre, sustantivo y verbo). En la medida
en que estos 5.000 lemas puedan ser considerados como representativos
del espaÃ±ol actual, estos cÃ³mputos reflejan que la categorÃa gramatical
mÃ¡s frecuente es el sustantivo, con casi el 54% sobre el total de los
lemas, seguido a una distancia considerable por el verbo y el adjetivo,
22% y 18%, respectivamente. Se aprecia claramente que los lemas lÃ©xicos
(sustantivos, verbos, adjetivos, adverbios e interjecciones) destacan
sobre los lemas funcionales (conjunciones, artÃculos, preposiciones y
pronombres): 96,92% frente a 3,08%.

    El capÃtulo se completa con una abstracciÃ³n de tipo
lÃ©xicoâ€‘semÃ¡ntico: los distintos usos concretos de cada uno de los lemas
de un grupo escogido se agrupan en acepciones, y Ã©stas se someten a un
anÃ¡lisis cuantitativo. AdemÃ¡s, para algunos lemas se incluye un desglose
de la frecuencia de uso de cada acepciÃ³n por formas del mismo lema. El
estudio parte de los datos del Corpus Cumbre y toma como referencia las
entradas lexicogrÃ¡ficas del Gran Diccionario de Uso del EspaÃ±ol Actual,
que estÃ¡ basado en el mismo corpus y fue dirigido por uno de los autores
del libro. Las conclusiones apuntan a que el potencial semÃ¡ntico de una
palabra no es indiferente a la frecuencia de uso de sus acepciones, y a
que Ã©stas no tienen por quÃ© relacionarse por igual con todas las formas
flexivas del lema.

    El CapÃtulo 4 ofrece el primer diccionario de frecuencias de los
afijos del espaÃ±ol. Se centra en los sufijos y en los prefijos. Tras la
justificaciÃ³n teÃ³rica y la detallada explicaciÃ³n del mÃ©todo seguido, los
autores muestran: la frecuencia de los sufijos y los prefijos del
espaÃ±ol por orden alfabÃ©tico, asÃ como su frecuencia por orden
decreciente de las formas y de los lemas que les sirven de base; por
ejemplo: el sufijo â€“iÃ³n es el primero por cantidad de formas que lo
llevan y â€“al es el segundo, pero por cantidad de lemas que los llevan
â€“iÃ³n es el segundo y â€“al es el quinto; en cuanto a los prefijos inâ€‘
afecta a mayor nÃºmero de formas y desâ€‘ es el dÃ©cimo, pero desâ€‘ afecta a
mÃ¡s lemas que inâ€‘. Presenta despuÃ©s una sencilla descripciÃ³n lingÃ¼Ãstica
de 10 sufijos elegidos entre los 20 mÃ¡s frecuentes, y de los 10 prefijos
mÃ¡s frecuentes. De cada uno de esos 20 afijos se han seleccionado los 30
lemas mÃ¡s frecuentes, con lo cual se alcanza la suma de 600 lexemas:
situaciÃ³n, director, social, importante, verdadero, disponer,
informaciÃ³n, encargar, transformar, explicarâ€¦ Tras haber examinado los
contextos del Corpus Cumbre correspondientes a esos 600 eductos se
extraen los sentidos (o rasgos designativos generales) asignados a cada
uno de los 20 afijos elegidos â€‘10 sufijos y 10 prefijosâ€‘; una muestra
limitada de tales contextos acompaÃ±a a la explicaciÃ³n de tales sentidos.

    El CapÃtulo 5 resume los datos referidos a las 1.000 combinaciones
de palabras mÃ¡s frecuentes del espaÃ±ol (las 500 combinaciones de dos y
tres palabras mÃ¡s comunes del espaÃ±ol). Los datos estadÃsticos de las
500 combinaciones de dos palabras mÃ¡s frecuentes del espaÃ±ol suman una
frecuencia total de casi 3.120.000. Importa destacar que todas estas
combinaciones estÃ¡n catalogadas como muy frecuentes. Se trata, pues, de
estructuras sintagmÃ¡ticas muy utilizadas por los hablantes del espaÃ±ol
(p. ej.: de la, en el, de los, en la, etc.), lexicalizadas o
combinaciones inseparables (p. ej.: creo que, hay que, despuÃ©s de, sin
embargo, a ver, etc.). En cuanto a las combinaciones de tres palabras,
los datos descriptivos arrojan notables diferencias con respecto a sus
homÃ³logas de dos palabras. Se aprecia un descenso muy notable en las
frecuencias con respecto a las combinaciones menos usadas de dos
palabras. Las combinaciones de tres palabras mÃ¡s usadas por los
hablantes tienen casi la misma frecuencia que las menos frecuentes de
dos palabras. Entre las combinaciones de tres palabras mÃ¡s frecuentes
figuran: preposiciÃ³n + artÃculo + sustantivo (17%; de la vida, en el
caso, por otra parte, etc.), artÃculo + sustantivo + preposiciÃ³n (11%;
el caso de, una serie de, la mayorÃa de, etc.) y preposiciÃ³n + artÃculo
+ pronombre (7%; en el que, a la que, etc.).

    El CapÃtulo 6 presenta un modelo de anÃ¡lisis de las coâ€‘ocurrencias y
los colocados de una palabra determinada. El objetivo de los autores es
ofrecer un mÃ©todo de trabajo y sugerir nuevos y mÃ¡s eficientes
procedimientos de anÃ¡lisis. Para ello se analizan y contrastan las
coâ€‘ocurrencias y los colocados de los sustantivos mujer y hombre.

    Tras el glosario de tÃ©rminos estadÃsticos y una bibliografÃa
elemental, siguen mÃ¡s de 400 pÃ¡ginas con los anexos. La reseÃ±a de los
anexos es innecesaria; pero sÃ destacaremos algunos aspectos
significativos: los anexos 1 y 2 incluyen datos especÃficos referidos a
la frecuencia absoluta, frecuencia relativa por millÃ³n y banda de
frecuencia sobre cada una de las formas y lemas; el anexo 3 incluye
ademÃ¡s la categorÃa gramatical referida a cada lema; los anexos 4 y 5,
centrados en las combinaciones de dos y tres palabras mÃ¡s frecuentes,
contienen las mismos datos que los incluidos en los anexos 1 y 2;
finalmente, los distintos apartados del anexo 6 ofrecen mapas de las
co-ocurrencias y listados de colocaciones de mujer y hombre.

    La relativa novedad de este tipo de estudios hace que todavÃa no se
hayan puesto de manifiesto los beneficios que pueden aportar en Ã¡reas
como la lexicografÃa, la lexicologÃa, la morfologÃa en general, la
sintaxis o, mÃ¡s especÃficamente, la enseÃ±anza del espaÃ±ol como lengua no
materna. Disponer de una obra de estas caracterÃsticas ayudarÃ¡ a
calibrar, con datos objetivos, el peso de una palabra, de una
combinaciÃ³n, de un afijoâ€¦ Es posible determinar que algunos sentidos que
aparecen en muchos diccionarios apenas tienen relevancia para los
hablantes. O que un adjetivo prefiere una posiciÃ³n anterior cuando
acompaÃ±a a un determinado sustantivo, o posterior cuando acompaÃ±a a
otro: la combinaciÃ³n persona alta es mucho mÃ¡s frecuente que alta
persona, pero alta personalidad lo es mucho mÃ¡s que personalidad alta.
Incluso para quien busca, por razones estilÃsticas, la
desautomatizaciÃ³n, puede hallar aquellas palabras o combinaciones de
palabras mÃ¡s infrecuentes.

    Creo que hay que dar la bienvenida a este libro, que ofrece tantas
buenas razones cuantitativas para conocer mejor nuestra lengua. Lo que
nos ofrece directamente es la norma (= uso consolidado) del espaÃ±ol;
pero no olvidemos que la norma es la cara visible del sistema.

                              Ãndice

IntroducciÃ³n general

CapÃtulo 1. Las 10.000 formas mÃ¡s frecuentes

CapÃtulo 2. Los 5.000 lemas mÃ¡s frecuentes

CapÃtulo 3. AgrupaciÃ³n de los 5.000 lemas mÃ¡s frecuentes por categorÃas
gramaticales

CapÃtulo 4. Los afijos

CapÃtulo 5. Las 1.000 combinaciones de palabras mÃ¡s frecuentes

CapÃtulo 6. Co-ocurrencias y colocados: un modelo de anÃ¡lisis

Glosario de tÃ©rminos estadÃsticos utilizados

BibliografÃa

Anexos

----------------------------------------------------------------------
Desde la web de Infoling en http://elies.rediris.es/infoling/ puedes
consultar todos los mensajes mandados a la lista desde 1998.
----------------------------------------------------------------------