Novedad bibliográfica: ALMELA, R.; CANTOS, P.; SÁNCHEZ, A.; SARMIENTO, R.; ALMELA, M. Frecuencias del español. Diccionario y estudios léxicos y morfológicos. Madrid: Universitas

Carlos Subirats Rüggeberg carlos.subirats at UAB.ES
Fri Jun 3 17:26:20 UTC 2005


--------------------------   INFOLING   ------------------------------
 Lista de distribución de lingüística del español (ISSN: 1576-3404)
                  http://elies.rediris.es/infoling/
    Envío de información: infoling-request at listserv.rediris.es
                             EDITORES:
       Carlos Subirats Rüggeberg, UAB <carlos.subirats at uab.es>
           Mar Cruz Piñol, U. Barcelona <mcruz at ub.edu>
        Eulalia de Bobes Soler, UAB <Eulalia.deBobes at uab.es>
 Equipo de edición: http://elies.rediris.es/infoling/editores.html
Estudios de Lingüística del Español (ELiEs): http://elies.rediris.es
es una red temática de lingüística del español asociada a INFOLING.
----------------------------------------------------------------------

Infoling y ELiEs se editan con el patrocinio del Ministerio de
Ciencia y Tecnología de España (DIF2003-10302-E): http://www.mcyt.es

----------------------------------------------------------------------
                        Novedad bibliográfica:
    ALMELA, Ramón; CANTOS, Pascual; SÁNCHEZ, Aquilino; SARMIENTO, Ramón;
ALMELA, Moisés. 2005. Frecuencias del español. Diccionario y estudios
léxicos y morfológicos. Madrid: Universitas. (ISBN: 84-7991-171-9,
591 págs.)

      Web del editor: http://www.universitas.es/default.asp
----------------------------------------------------------------------

                              Resumen:

    Esta obra constituye un diccionario del español más utilizado en la
actualidad. Sus listados de frecuencia están basados en el Corpus
Cumbre, de 20 millones de palabras referidas al español hablado y
escrito actualmente en España y en todos los países de habla hispana.
Las listas de palabras más frecuentes son ya herramientas necesarias
para lingüistas, para autores de manuales y para profesores de español
como lengua materna  o como lengua extranjera.

    El retraso tradicional que las ciencias antropológicas han tenido
respecto de las ciencias cosmológicas se observa también en el ámbito de
lo que se puede llamar los métodos cuantitativos. Las ciencias del
lenguaje no son una excepción. Durante siglos se ha venido construyendo
un edificio (inacabado e inacabable) de afinadas y atinadas teorías que
se basan en la indagación del sistema. Esto es y será necesario. Sin
embargo, hasta no hace mucho estos estudios especulativos no estaban
acompañados de una (correspondiente) investigación cuantitativa. Esta
deficiencia está corrigiéndose. La lengua es un organismo vivo. Los
hablantes la hacen y la hacen evolucionar, en cada uno de sus niveles.
Es en el nivel de las palabras en el que la evolución de las lenguas se
hace más patente. Por eso siempre es conveniente conocer el uso real de
las unidades léxicas.

    Este libro ofrece los datos sobre la frecuencia con que los
hispanohablantes usamos actualmente las palabras y los afijos de nuestra
lengua. Viene a llenar un hueco más que evidente. Hasta ahora contábamos
para el español con el diccionario de frecuencias de las palabras del
español preparado por Alphons Juilland y E. Chang Rodríguez. Redactado
en inglés y publicado en 1964, fuera de España, los resultados se
basaron en un corpus de 500.000 palabras procedentes de fuentes no
diversificadas.

    El libro de frecuencias del español, por el contrario, está basado
en el Corpus Cumbre. Este Corpus, de 20 millones de palabras, recoge
fragmentos variados de textos orales y escritos actuales de España e
Hispanoamérica; por el volumen de textos y palabras que contiene y por
sus procedencias, cuidadosamente seleccionadas, puede ser considerado
razonablemente representativo del español actual.

    El libro consta de una sección explicativa y de una sección de
anexos. En la sección explicativa se incluyen una introducción, seis
capítulos, un glosario y la bibliografía. En la sección de anexos se
presentan los datos de frecuencia extraídos del Corpus.

    La Introducción presenta el diseño del Corpus Cumbre, el método
seguido en el trabajo, así como los argumentos que avalan una
investigación de estas características. No les falta razón a los autores
cuando afirman que en el estudio del lenguaje no se puede seguir el
mismo método que se sigue en el estudio de la filosofía o en el análisis
de la reacción subjetiva ante un fenómeno artístico. El lenguaje –dicen‑
«en un porcentaje altísimo, se fundamenta en elementos formales y
claramente objetivables, cuales son, por ejemplo, los sonidos, las
palabras o las formas en general y su ordenación en el discurso. En este
sentido, no habría razón para no adoptar, en los estudios sobre el
lenguaje, métodos de investigación menos especulativos y más
dependientes de los datos que la realidad lingüística nos proporciona.»
La imagen intuitiva que tenemos de la estructura y de la frecuencia del
léxico de nuestra lengua dista mucho a veces de responder a la realidad.
Los datos revelan que la mayor parte de las palabras tienen una
frecuencia baja o muy baja, mientras que son relativamente pocas las que
usan los hablantes con frecuencia muy alta.

    Conviene distinguir entre el uso de las palabras como ‘formas
flexivas’ y de las palabras como ‘lemas’. El Capítulo 1 recoge el uso de
las palabras consideradas como formas individuales, no integradas en la
categoría del lema que les pudiera corresponder. Es interesante conocer
este dato, porque nos permitirá comprobar que no todas las formas de un
lema son objeto de la misma intensidad de uso. Cabe constatar, por
ejemplo, que si bien el verbo tener es frecuentemente usado, la forma
tiene es la más usada de todas sus flexiones. De igual manera la forma
más frecuente del verbo ser es la tercera persona singular del presente
de indicativo (es), como lo es está en relación con el verbo estar. A un
profesor de español como lengua extranjera le debería interesar este
dato para convencerle – si no lo estuviera- que vale la pena aprender
pronto una forma irregular como tiene o es. Y a un lingüista le podría
sugerir alguna idea útil sobre las razones del desdoblamiento vocálico
de la e española, el hecho de que tal desdoblamiento aparece en las
formas más frecuentes y usadas del verbo tener (tiene, tienen, tienes…).
De no menor interés es constatar que las 100 primeras formas
lingüísticas ofrecen un gran contraste de frecuencia: de más de
1.223.000 (de) a 14.965 (poco). Estas distancias en la frecuencia son
notoriamente menores en el resto de la lista.

     El Capítulo 2 aborda el análisis de los lemas. La asignación de
cada forma al lema que le corresponde requiere una revisión manual para
ser fiable. De ahí que el listado de los lemas se haya elaborado a
partir de un subcorpus de Cumbre, de 2 millones de palabras etiquetadas
y revisadas. Dicho subcorpus se recopiló con criterios similares al
corpus general, precisamente para garantizar una razonable
representatividad del español actual. Del análisis de los resultados se
deduce que el número de lemas en español es aproximadamente la mitad que
el número de formas (de ahí que este listado de 5.000 lemas equivalga en
realidad al listado anterior, de 10.000 formas), que el lema más
frecuente es el artículo el (y no la preposición de, primera en la lista
de formas), y que las diferencias en frecuencia son bruscas hasta el
lema número 20 (como), disminuyendo en intensidad al ascender en la lista.

    Con el fin de dar cuenta de la realidad a caballo entre la forma
directamente observable y los aspectos más abstractos de la
funcionalidad y del potencial comunicativo, el libro incluye, en el
Capítulo 3,  un análisis de la frecuencia de grupos de formas
categorizadas en función de criterios gramaticales y léxico‑semánticos.
La aplicación del primer criterio se concreta en la preparación de un
listado con los 5.000 lemas más frecuentes del español, ordenados por
frecuencia (Anexo III). Los datos son extraídos del mismo subcorpus, de
2 millones de palabras.

    Junto a los datos descriptivos ya conocidos: (frecuencia Corpus y
frecuencia relativa/millón) se analizan también la banda de frecuencia y
la categoría gramatical (adjetivo, adverbio, conjunción, artículo,
interjección, preposición, pronombre, sustantivo y verbo). En la medida
en que estos 5.000 lemas puedan ser considerados como representativos
del español actual, estos cómputos reflejan que la categoría gramatical
más frecuente es el sustantivo, con casi el 54% sobre el total de los
lemas, seguido a una distancia considerable por el verbo y el adjetivo,
22% y 18%, respectivamente. Se aprecia claramente que los lemas léxicos
(sustantivos, verbos, adjetivos, adverbios e interjecciones) destacan
sobre los lemas funcionales (conjunciones, artículos, preposiciones y
pronombres): 96,92% frente a 3,08%.

    El capítulo se completa con una abstracción de tipo
léxico‑semántico: los distintos usos concretos de cada uno de los lemas
de un grupo escogido se agrupan en acepciones, y éstas se someten a un
análisis cuantitativo. Además, para algunos lemas se incluye un desglose
de la frecuencia de uso de cada acepción por formas del mismo lema. El
estudio parte de los datos del Corpus Cumbre y toma como referencia las
entradas lexicográficas del Gran Diccionario de Uso del Español Actual,
que está basado en el mismo corpus y fue dirigido por uno de los autores
del libro. Las conclusiones apuntan a que el potencial semántico de una
palabra no es indiferente a la frecuencia de uso de sus acepciones, y a
que éstas no tienen por qué relacionarse por igual con todas las formas
flexivas del lema.

    El Capítulo 4 ofrece el primer diccionario de frecuencias de los
afijos del español. Se centra en los sufijos y en los prefijos. Tras la
justificación teórica y la detallada explicación del método seguido, los
autores muestran: la frecuencia de los sufijos y los prefijos del
español por orden alfabético, así como su frecuencia por orden
decreciente de las formas y de los lemas que les sirven de base; por
ejemplo: el sufijo –ión es el primero por cantidad de formas que lo
llevan y –al es el segundo, pero por cantidad de lemas que los llevan
–ión es el segundo y –al es el quinto; en cuanto a los prefijos in‑
afecta a mayor número de formas y des‑ es el décimo, pero des‑ afecta a
más lemas que in‑. Presenta después una sencilla descripción lingüística
de 10 sufijos elegidos entre los 20 más frecuentes, y de los 10 prefijos
más frecuentes. De cada uno de esos 20 afijos se han seleccionado los 30
lemas más frecuentes, con lo cual se alcanza la suma de 600 lexemas:
situación, director, social, importante, verdadero, disponer,
información, encargar, transformar, explicar… Tras haber examinado los
contextos del Corpus Cumbre correspondientes a esos 600 eductos se
extraen los sentidos (o rasgos designativos generales) asignados a cada
uno de los 20 afijos elegidos ‑10 sufijos y 10 prefijos‑; una muestra
limitada de tales contextos acompaña a la explicación de tales sentidos.

    El Capítulo 5 resume los datos referidos a las 1.000 combinaciones
de palabras más frecuentes del español (las 500 combinaciones de dos y
tres palabras más comunes del español). Los datos estadísticos de las
500 combinaciones de dos palabras más frecuentes del español suman una
frecuencia total de casi 3.120.000. Importa destacar que todas estas
combinaciones están catalogadas como muy frecuentes. Se trata, pues, de
estructuras sintagmáticas muy utilizadas por los hablantes del español
(p. ej.: de la, en el, de los, en la, etc.), lexicalizadas o
combinaciones inseparables (p. ej.: creo que, hay que, después de, sin
embargo, a ver, etc.). En cuanto a las combinaciones de tres palabras,
los datos descriptivos arrojan notables diferencias con respecto a sus
homólogas de dos palabras. Se aprecia un descenso muy notable en las
frecuencias con respecto a las combinaciones menos usadas de dos
palabras. Las combinaciones de tres palabras más usadas por los
hablantes tienen casi la misma frecuencia que las menos frecuentes de
dos palabras. Entre las combinaciones de tres palabras más frecuentes
figuran: preposición + artículo + sustantivo (17%; de la vida, en el
caso, por otra parte, etc.), artículo + sustantivo + preposición (11%;
el caso de, una serie de, la mayoría de, etc.) y preposición + artículo
+ pronombre (7%; en el que, a la que, etc.).

    El Capítulo 6 presenta un modelo de análisis de las co‑ocurrencias y
los colocados de una palabra determinada. El objetivo de los autores es
ofrecer un método de trabajo y sugerir nuevos y más eficientes
procedimientos de análisis. Para ello se analizan y contrastan las
co‑ocurrencias y los colocados de los sustantivos mujer y hombre.

    Tras el glosario de términos estadísticos y una bibliografía
elemental, siguen más de 400 páginas con los anexos. La reseña de los
anexos es innecesaria; pero sí destacaremos algunos aspectos
significativos: los anexos 1 y 2 incluyen datos específicos referidos a
la frecuencia absoluta, frecuencia relativa por millón y banda de
frecuencia sobre cada una de las formas y lemas; el anexo 3 incluye
además la categoría gramatical referida a cada lema; los anexos 4 y 5,
centrados en las combinaciones de dos y tres palabras más frecuentes,
contienen las mismos datos que los incluidos en los anexos 1 y 2;
finalmente, los distintos apartados del anexo 6 ofrecen mapas de las
co-ocurrencias y listados de colocaciones de mujer y hombre.

    La relativa novedad de este tipo de estudios hace que todavía no se
hayan puesto de manifiesto los beneficios que pueden aportar en áreas
como la lexicografía, la lexicología, la morfología en general, la
sintaxis o, más específicamente, la enseñanza del español como lengua no
materna. Disponer de una obra de estas características ayudará a
calibrar, con datos objetivos, el peso de una palabra, de una
combinación, de un afijo… Es posible determinar que algunos sentidos que
aparecen en muchos diccionarios apenas tienen relevancia para los
hablantes. O que un adjetivo prefiere una posición anterior cuando
acompaña a un determinado sustantivo, o posterior cuando acompaña a
otro: la combinación persona alta es mucho más frecuente que alta
persona, pero alta personalidad lo es mucho más que personalidad alta.
Incluso para quien busca, por razones estilísticas, la
desautomatización, puede hallar aquellas palabras o combinaciones de
palabras más infrecuentes.

    Creo que hay que dar la bienvenida a este libro, que ofrece tantas
buenas razones cuantitativas para conocer mejor nuestra lengua. Lo que
nos ofrece directamente es la norma (= uso consolidado) del español;
pero no olvidemos que la norma es la cara visible del sistema.



                              Índice

Introducción general

Capítulo 1. Las 10.000 formas más frecuentes

Capítulo 2. Los 5.000 lemas más frecuentes

Capítulo 3. Agrupación de los 5.000 lemas más frecuentes por categorías
gramaticales

Capítulo 4. Los afijos

Capítulo 5. Las 1.000 combinaciones de palabras más frecuentes

Capítulo 6. Co-ocurrencias y colocados: un modelo de análisis

Glosario de términos estadísticos utilizados

Bibliografía

Anexos

----------------------------------------------------------------------
Desde la web de Infoling en http://elies.rediris.es/infoling/ puedes
consultar todos los mensajes mandados a la lista desde 1998.
----------------------------------------------------------------------



More information about the Infoling mailing list