Resumen de tesis doctoral:=?iso-8859-1?Q?P=C9REZ?=, Chantal. 2000. Explotación de los córpora textuales informatizados para la creación de bases de datos terminológicas. Universidad de Málaga (=?iso-8859-1?Q?Espa=F1a?=)

Tue Sep 24 14:15:40 UTC 2002

INFOLING. Lista moderada de lingüística española (ISSN: 1576-3404):
              http://elies.rediris.es/infoling/
                 Repetidor (mirror) en EE.UU:
     http://listserv.linguistlist.org/archives/infoling.html
   Envío de información: infoling-request at listserv.rediris.es
                           EDITORES:
      Carlos Subirats Rüggeberg <subirats at icsi.berkeley.edu>
          Mar Cruz Piñol, U. Barcelona <mcruz at fil.ub.es>
       Eulalia de Bobes Soler, UAB <Eulalia.deBobes at uab.es>
                      EQUIPO DE EDICIÓN:
        http://elies.rediris.es/infoling/editores.html
   La lista de distribución Infoling está asociada a la red temática
     ESTUDIOS DE LINGÜÍSTICA ESPAÑOLA http://elies.rediris.es
____________________________________________________________________

                   Resumen de tesis doctoral:
   PÉREZ HERNÁNDEZ, Chantal. 2000. Explotación de los córpora textuales
informatizados para la creación de bases de datos terminológicas.
Universidad de Málaga (España)
____________________________________________________________________

1. Autora:
   Chantal Pérez Hernández

2. Título de la tesis:
   Explotación de los córpora textuales informatizados para la
   creación de bases de datos terminológicas
   2.1 Número de páginas: 628
   2.2 Palabras clave: Corpus textual, terminografía, terminología,
                       representación del conocimiento, ontología,
                       bases de datos terminológicas

3. Fecha de lectura o defensa:
   6 de noviembre de 2000

4. Departamento, centro o laboratorio en el que se ha desarrollado:
   Departamento de Filología Inglesa, Francesa y Alemana
   Facultad de Filosofía y Letras
   Universidad de Málaga
   España

5. Directora:
   Dra. Pamela Faber, Universidad de Granada

6. Proyecto o línea de investigación en el que se incluye:
   ONCOTERM®: Sistema bilingüe de información y recursos oncológicos
   (PB 98-1342)

7. Resumen e índice:

   El presente trabajo de investigación se enmarca dentro de la rama
aplicada de la terminología, es decir, la terminografía. El trabajo que
aquí presentamos forma parte de un proyecto de investigación mucho más
amplio, denominado ONCOTERM®: Sistema bilingüe de información y recursos
oncológicos, en el que se integran investigadores de la Universidad de
Granada, la Universidad Nacional de Educación a Distancia, la
Universidad de Málaga y el Hospital Virgen de las Nieves de Granada.

    El objetivo final de dicho proyecto es la elaboración de un sistema
de información integrado en Internet y dedicado al subdominio médico de
la oncología. El componente central del sistema de información de
OncoTerm® está constituido por un repositorio terminológico, es decir,
una base de datos en la que sea posible almacenar conocimiento
específico del subdominio de la oncología.

   La creación de repositorios terminológicos, misión fundamental de la
terminografía, puede resumirse en dos fases fundamentales: la extracción
y recopilación de la información terminológica y su posterior
representación. En estas dos tareas específicas de la construcción de la
base de datos de OncoTerm se concentra nuestro trabajo.

   En ambas fases, el terminógrafo encuentra problemas y dificultades.
La extracción de la información, si se realiza de forma manual, es una
labor tediosa, en la que en ocasiones puede ser materialmente imposible
recopilar la información necesaria de forma consistente y completa. En
el caso de la representación de dicha información, los problemas a los
que los terminógrafos deben hacer frente son múltiples:

  - Por un lado, los sistemas gestores de bases de datos
    terminológicas actuales son, en la mayoría de los casos,
    reproducciones informatizadas de las fichas terminológicas
    impresas tradicionales, faltos de versatilidad y economía de
    almacenamiento, en los que no es posible representar determinados
    tipos de información y son muy restrictivos en la organización de
    la información.
  - Otro problema, no menos importante, concierne al formato en el
    que la información se representa, puesto que afecta directamente
    a la reutilización e intercambio de los recursos terminológicos
    creados.

   La perspectiva desde la que hemos abordado ambos problemas se
encuentra resumida en el título de nuestro trabajo. Al primero de ellos,
la extracción y recopilación de información terminológica, nos hemos
aproximado partiendo de la lingüística y, a través de ella, desde la
lexicografía. Nuestra intención ha sido integrar y sistematizar en la
práctica terminográfica los avances conseguidos en las áreas de la
investigación lingüística y lexicográfica. En este sentido, y movidos
por nuestras experiencias profesionales e investigadoras previas, este
trabajo propone la integración de metodologías de extracción de
información de córpora textuales informatizados, adaptándolas a las
necesidades y requerimientos específicos de los terminógrafos, tanto en
lo que se refiere a la amplitud de la cobertura lingüística como en lo
que se refiere a la orientación onomasiológica que caracteriza al
trabajo terminográfico.

   Una vez que la información ha sido extraída, el terminógrafo debe
enfrentarse a la segunda de las tareas, la representación de dicha
información. Al igual que en el caso anterior, el terminógrafo posee
necesidades específicas, puesto que deberá representar la información
conceptual relevante a su dominio de especialidad y la información
lingüística y de uso de las unidades terminológicas que designan dichos
conceptos. Deberá, además, hacerlo en un formato que asegure la
consistencia y la integridad de los datos y su posterior reutilización
en otros proyectos y el intercambio con otros centros de investigación
terminológica. En este sentido, nuestra propuesta se centrará en la
incorporación de técnicas de representación de la información que
acercan la terminografía a otra disciplina con la que comparte objetivos
comunes: la ingeniería del conocimiento.

   Nuestro trabajo propone la representación de la información del
dominio de especialidad en una base de datos terminológica basada en el
conocimiento, gestionada por OntoTerm®, en la que la información
conceptual del dominio de especialidad se representa y formaliza por
medio de una ontología de conceptos, y la información lingüística y de
uso se representa siguiendo el formato de representación de información
terminológica propuesto por el estándar ISO 12620, recogido en el
denominado CLS Framework.

                             INDICE

1       INTRODUCCIÓN
1.1     MARCO TEÓRICO Y METODOLOGÍA DE INVESTIGACIÓN
1.2     DELIMITACIÓN E INTEGRACIÓN DE NUESTRA INVESTIGACIÓN EN EL
        MARCO DEL PROYECTO ONCOTERM

2       ESTUDIOS BASADOS EN CORPUS: LA NECESIDAD DE ESTUDIAR LA
        LENGUA EN USO
2.1     PLANTEAMIENTOS TEÓRICOS PARA LA INVESTIGACIÓN BASADA EN
        CORPUS
2.1.1   La dicotomía chomskiana frente a la teoría contextual del
        significado
2.1.2   La necesidad de estudiar el uso lingüístico
2.2     EL CORPUS EN LOS ESTUDIOS LINGÜÍSTICOS
2.3     EL CONCEPTO DE CORPUS Y SU DEFINICIÓN
2.3.1   Recopilación y diseño: representatividad del corpus
2.3.2   Tipología de córpora
2.3.3   Codificación (anotación y etiquetado) de los córpora
2.4     RECURSOS LINGÜÍSTICOS EN EUROPA: INICIATIVAS PARA LA CREACIÓN
        Y DISTRIBUCIÓN DE CÓRPORA Y ARCHIVOS TEXTUALES
2.4.1   Centros de investigación y asociaciones dedicadas a la
        creación de recursos lingüísticos
2.4.2   Córpora y bancos de texto
2.4.2.1 Proyectos de creación de corpus en lengua inglesa
2.4.2.2 Proyectos de creación de corpus en lengua española
2.5     ANÁLISIS CUALITATIVO Y CUANTITATIVO: HERRAMIENTAS PARA EL
        TRATAMIENTO DE LOS CÓRPORA
2.6     HERRAMIENTAS BÁSICAS DE MANEJO Y ANÁLISIS DE CÓRPORA
2.7     LEXICOGRAFÍA BASADA EN CORPUS
2.7.1   Los córpora textuales informatizados como fuente de
        información lexicográfica
2.7.2   Consideraciones sobre la lexicografía bilingüe y el uso de
        los córpora textuales informatizados
2.8     CONCLUSIONES Y DISCUSIÓN

3       "-LOGÍAS" Y "-GRAFÍAS": DE LO GENERAL Y LO ESPECIALIZADO
3.1     LA TERMINOLOGÍA: CIENCIA INTERDISCIPLINAR
3.1.1   La importancia de la terminología en la sociedad de la
        información
3.1.2   Problemas y limitaciones de la terminología actual
3.2     TERMINOLOGÍA DESCRIPTIVA Y PRESCRIPTIVA (NORMALIZADORA)
3.2.1   Normalización terminológica: esfuerzos de estandarización e
        instituciones normalizadoras
3.2.2   Terminología descriptiva: el vínculo necesario entre realidad
        y normalización
3.3     TERMINOGRAFÍA Y LEXICOGRAFÍA
3.3.1   El enfoque terminológico y el enfoque lexicográfico
3.3.2   Terminografía y lexicografía especializada: acercamiento de
        las dos disciplinas
3.4     LA BARRERA ENTRE LO GENERAL Y LO ESPECIALIZADO
3.4.1   Lengua general y lenguajes de especialidad
3.4.2   Palabras y términos
3.4.3   Diccionarios generales, diccionarios especializados y bancos
        terminológicos
3.5     CONCLUSIONES Y DISCUSIÓN

4       TERMINOGRAFÍA BASADA EN CORPUS: ASPECTOS FUNDAMENTALES DE LA
        GESTIÓN TERMINOLÓGICA
4.1     DIMENSIONES QUE CONFORMAN LAS UNIDADES TERMINOLÓGICAS
4.1.1   Conceptos y términos
4.1.2   Unidades terminológicas y su dimensión conceptual
4.1.3   Unidades terminológicas y léxico: la dimensión lingüística
4.1.4   Unidades terminológicas y su dimensión comunicativa: la
        documentación especializada
4.2     EL USO DE CÓRPORA TEXTUALES INFORMATIZADOS EN TERMINOLOGÍA
4.3     RECOPILACIÓN, DISEÑO Y ANÁLISIS DE CORPUS ESPECIALIZADO
4.3.1   Criterios generales para la selección de los textos de un
        corpus especializado
4.3.2   Herramientas de análisis de corpus: necesidades específicas
        de los terminólogos
4.3.3   Información oncológica disponible en formato electrónico
4.3.3.1 Fuentes documentales en CD-ROM
4.3.3.2 Fuentes documentales en la red
4.3.3.3 Glosarios, clasificaciones y léxicos especializados
        disponibles en la red
4.3.3.4 Información disponible de libre acceso y derechos de autor
4.4     CONCLUSIONES Y DISCUSIÓN

5       REPRESENTACIÓN DE LA INFORMACIÓN TERMINOLÓGICA EN ONTOTERM®:
        UN GESTOR DE BASE DE DATOS TERMINOLÓGICA BASADO EN EL
        CONOCIMIENTO
5.1     FORMAS TRADICIONALES DE REPRESENTACIÓN DEL CONOCIMIENTO
        ESPECIALIZADO
5.1.1   Descripción de los conceptos y sistemas conceptuales
5.1.2   Representación del concepto: las definiciones terminológicas
5.2     REPRESENTACIONES FORMALES DEL CONOCIMIENTO
5.2.1   Resituando el concepto de concepto
5.2.2   Bases de datos y bases de conocimiento
5.2.3   Esquemas de representación de conocimiento formalizados
5.3     TERMINOLOGÍA BASADA EN ONTOLOGÍAS
5.3.1   Definición de ontología como especificación del conocimiento
5.3.2   Ontologías para el Procesamiento del Lenguaje Natural y la
        Terminología
5.3.3   La ontología de Mikrokosmos y su reutilización para el
        subdominio del cáncer
5.4     EL SISTEMA GESTOR DE REPRESENTACIÓN DE CONOCIMIENTO:
        ONTOTERM®
5.5     CATEGORÍAS DE DATOS EN LAS BASES DE DATOS TERMINOLÓGICAS Y SU
        ESTRUCTURACIÓN
5.5.1   El CLS Framework y las categorías de datos de la norma ISO
        12620
5.5.2   Estructura de una base de datos en el CLS Framework
5.5.3   Categorías de datos de la norma ISO 12620 y su aplicación
5.5.4   El intercambio de información terminológica
5.6     EL EDITOR DE BASE DE DATOS TERMINOLÓGICAS DE ONTOTERM®
5.7     CONCLUSIONES Y DISCUSIÓN

6       EL USO DEL CORPUS PARA EXTRACCIÓN DE INFORMACIÓN Y SU
        REPRESENTACIÓN
6.1     EL CORPUS COMO HERRAMIENTA DE ANÁLISIS TERMINOGRÁFICO
6.1.1   Estadísticas de composición del corpus y ratio
        palabras/formas
6.1.2   Frecuencia de las formas en el corpus
6.1.3   Palabras-clave en los textos: comparación de frecuencia de
        formas
6.1.4   Enlaces de palabras clave
6.1.5   Key-KeyWords: comparación de palabras clave en los textos
6.2     ANÁLISIS CONCEPTUAL Y SU REPRESENTACIÓN EN EL GESTOR DE
        ONTOLOGÍAS DE ONTOTERM®
6.2.1   Relaciones semánticas y estructuras lingüísticas
6.2.2   Sondas de búsqueda de información conceptual
6.2.3   Propiedades del concepto: relaciones complejas
6.2.4   Representación de las relaciones en la ontología
6.3     INFORMACIÓN METALINGÜÍSTICA EN EL CORPUS
6.3.1   Sondas de conocimiento metalingüístico
6.3.2   Análisis de clusters: delimitación de las unidades
        terminológicas
6.4     CONCLUSIONES Y DISCUSIÓN

7       CONCLUSIONES FINALES

8       REFERENCIAS

APÉNDICE I
APÉNDICE II
APÉNDICE III
APÉNDICE IV

8. Correo-e de la autora: <mph at uma.es>

9. Acceso a este trabajo en su totalidad en Estudios de Lingüística
   Española:
                  http://elies.rediris.es/elies18/

----------------------------------------------------
Para darse de baja INFOLING pinche y envíe el siguiente url
mailto:infoling-signoff-request at listserv.rediris.es
----------------------------------------------------