Corpus de Referencia del Español Actual de la Real Academia =?iso-8859-1?Q?Espa=F1ola?=: Descripción y consulta desde Internet

Carlos Subirats Rüggeberg Carlos.Subirats at UAB.ES
Mon Jul 19 11:51:34 UTC 1999


INFOLING  Lista moderada de lingüística española
http://listserv.rediris.es/archives/infoling.html
http://www.rediris.es/list/info/infoling.html
Estudios de Lingüística Española: http://elies.rediris.es/
Envío de información: infoling-request at listserv.rediris.es
Editor: Carlos Subirats Rüggeberg <Carlos.Subirats at uab.es>
Colaboradoras:
Paola Bentivoglio <pbentivo at reacciun.ve>, U. Central
Venezuela
Mar Cruz <mcruz at lingua.fil.ub.es>, U. Barcelona
Eulalia de Bobes <ebobes at seneca.uab.es>, U. Autónoma
Barcelona
Emma Martinell <martinell at lingua.fil.ub.es>, U. Barcelona
Rosa Ribas <Ribas at em.uni-frankfurt.de>, U. Frankfurt
____________________________________________________________

    Corpus de Referencia del Español Actual (CREA) de la
Real Academia Española: Descripción y consulta desde
Internet
                   De: http://www.rae.es/
____________________________________________________________

                Índice de esta información:
1. Descripción del Corpus de Referencia del Español Actual
   (CREA) de la Real Academia Española
           De: http://www.rae.es/NIVEL1/CREA.HTM
2. Información sobre la nueva versión del programa de
   consulta del CREA:
          De: http://www.rae.es/NIVEL1/CORPUS.HTM
3. Modalidades de consulta:
         De: http://www.rae.es/NIVEL1/CORPUSAD.HTM

                 Resumen de la información:
    La Real Academia Española ha creado un servicio de
consulta a través de Internet del Corpus de Referencia del
Español Actual (CREA).
    Hay dos modalidades de consulta al CREA:
    - el modo restringido, que es de acceso público, y
    - el modo ilimitado, que requiere una petición previa
      a la RAE.
                     __________________

1. Descripción del Corpus de Referencia del Español Actual
   (CREA) de la Real Academia Española:
             http://www.rae.es/NIVEL1/CREA.HTM

                        ¿Qué es el CREA?
    El CREA es un banco de datos del español
contemporáneo, es decir, un conjunto de textos de diversa
procedencia almacenados en soporte informático del que es
posible extraer información para estudiar las palabras,
sus significados, la gramática y su uso. A estos
conjuntos de textos, seleccionados y ordenados según unos
criterios establecidos, se les denomina corpus en la
lingüística y lexicografía modernas.

                    ¿Qué significa CREA?
    CREA quiere decir Corpus de Referencia del Español
Actual. En la lingüística de corpus, un corpus de
referencia es aquel que está diseñado para proporcionar
información exhaustiva acerca de una lengua en un momento
determinado de su historia.

                     ¿Cuándo se empezó?
    El CREA se empezó en 1994. Se ha desarrollado con la
colaboración de la Secretaría de Estado de Universidades,
Investigación y Desarrollo, cuya aportación económica ha
servido para mantener el equipo de filológos del Instituto
de Lexicografía que trabajan en él.

                   ¿Qué extensión tiene?
    Un corpus de referencia ha de ser lo suficientemente
extenso para representar todas las variedades relevantes
de la lengua en cuestión. Atendiendo a este criterio, CREA
cuenta hasta ahora con 100 millones de palabras, que está
previsto vayan aumentando hasta conseguir al menos 125
millones.

                  ¿De qué está compuesto?
    El banco de datos del español actual se compone de una
amplia variedad de textos escritos y orales, producidos en
todos los países de habla hispana desde 1975 hasta la
actualidad. Los textos escritos, procedentes tanto de
libros como de periódicos y revistas, abarcan más de cien
materias distintas. La lengua hablada está representada
por transcripciones de textos del más diverso tipo:

    conversaciones, noticias, reportajes,
    documentales, entrevistas, magacines.

    A todos los materiales procesados en el CREA, se les
ha añadido una serie de marcas textuales, establecidas
según un estándar internacional, que permitirán múltiples
posibilidades de recuperación de la información. Además,
en este momento se está trabajando en la anotación
lingüística de estos materiales, lo que, sin duda,
facilitará enormemente el trabajo de lexicógrafos y
estudiosos de la lengua:
             http://www.rae.es/NIVEL1/anota.htm

               ¿Cómo se elabora y actualiza?
    Se adquieren nuevos datos diariamente. Los textos de
prensa se reciben en formato electrónico y luego son
procesados para convertirlos en un formato estándar. Los
libros se escanean utilizando programas de reconocimiento
óptico de caracteres (OCR). Además, un equipo
especializado transcribe las grabaciones que se incluyen
en la parte oral del corpus.

    La mezcla y variedad de los textos representados en el
CREA se mantiene en constante revisión y se introducen
nuevas muestras para conservar el equilibrio del material,
de modo que sea representativo de las diversas tendencias
del español de hoy en día.

                     ¿Para qué se usa?
    Los lexicógrafos y lingüistas que trabajan para el
Instituto de Lexicografía en los distintos diccionarios
académicos tienen estaciones de trabajo en sus mesas que
les dan acceso a un proceso de recuperación de los
materiales del corpus. Pueden realizar búsquedas por
modelos de combinaciones de palabras, comprobar
frecuencias de aparición, ver ejemplos de uso de
determinadas palabras, estudiar la época o país en que tal
uso resulta más frecuente, y analizar los resultados de
modo que la información que se registre en los
diccionarios resulte ajustada a la realidad de la lengua.


2. Información sobre nueva versión del programa de
   consulta del CREA:
            http://www.rae.es/NIVEL1/CORPUS.HTM

    La Academia ofrece la posibilidad de consultar el CREA
a través de Internet:
             Acceso a la pantalla de consulta:
          http://pheme.rae.es/java.ext/corpus.htm

    Se trata de un servicio en desarrollo y, por tanto,
está sujeto a posibles modificaciones y discontinuidades.

    Para acceder a la Consulta necesita disponer de un
navegador que ejecute el lenguaje JAVA Versión 1.1 (por
ejemplo, Netscape 4.06 o Internet Explorer 4.0)


                3. Modalidades de consulta:
           http://www.rae.es/NIVEL1/CORPUSAD.HTM

    La Real Academia Española ofrece distintas modalidades
de acceso al banco de datos y a algunos otros materiales y
recursos actualmente en elaboración. Los diferentes tipos
de acceso, que comparten la intención de colaborar al
máximo en el estudio y difusión de la lengua española,
estarán sujetos a ciertas condiciones, que se resumen en
los siguientes puntos:

    - Acceso público libre:
        El servicio público de consulta está limitado
    para evitar el colapso de las líneas de
    comunicación. Permite acceder a todo el corpus y
    obtener una estadística de la distribución total,
    pero se recibe un número limitado de ejemplos.

    - Acceso para investigadores:
        Este nivel dispone de un acceso sin
    limitaciones, además de otros recursos útiles para
    los especialistas en distintos campos de la
    investigación lingüística. Entre ellos destaca la
    posibilidad de consultar la biblioteca virtual de
    todos los diccionarios académicos, así como
    herramientas avanzadas de consulta de corpus a
    medida que estas se hallen disponibles.
            Este tipo de acceso está condicionado a
    una suscripción especial. Para ello, será
    necesario solicitarlo previamente y firmar un
    compromiso de utilización de los datos obtenidos
    con fines exclusivamente de investigación.
        Se puede obterner una copia del impreso de
    solicitud en:
           http://www.rae.es/NIVEL1/SOLICITU.HTM

    - Acceso sujeto a convenio:
        Cualquier otra posibilidad de tratamiento de
    los datos estará sujeta a convenios particulares,
    establecidos bilateralmente para cada petición
    específica.

----------------------------------------------------
Para darse de baja INFOLING pincha y envia el siguiente url
mailto:INFOLING-signoff-request at listserv.rediris.es
----------------------------------------------------




More information about the Infoling mailing list