Resumen de tesis doctoral: Bernardos, Mª del S. 2003. Marco metodológico para la construcción de sistemas de =?iso-8859-1?Q?generaci=F3n?=de lenguaje natural.Departamento de Inteligencia Artificial, Universidad Politécnica de Madrid.

Carlos Subirats Rüggeberg carlos.subirats at UAB.ES
Tue Sep 23 12:06:56 UTC 2003


                             INFOLING
 Lista de distribución de lingüística del español (ISSN: 1576-3404)
                  http://elies.rediris.es/infoling/
    Envío de información: infoling-request at listserv.rediris.es
                             EDITORES:
    Carlos Subirats Rüggeberg, UAB <subirats at icsi.berkeley.edu>
           Mar Cruz Piñol, U. Barcelona <mcruz at fil.ub.es>
        Eulalia de Bobes Soler, UAB <Eulalia.deBobes at uab.es>
 Equipo de edición: http://elies.rediris.es/infoling/editores.html
  "Estudios de Lingüística del Español": http://elies.rediris.es
es una red temática de lingüística del español asociada a Infoling.

------------------------------------------------------------------------

                         Resumen de tesis doctoral:

  1. Autora:
     Bernardos Galindo, Mª del Socorro

  2. Título de la tesis:
     Marco metodológico para la construcción de sistemas de generación
     de lenguaje natural

       2.1 Número de páginas: 400 + 14 (índices)
       2.2 Palabras clave: generación de lenguaje natural, estándares
           para desarrollar el proceso de ciclo de vida de un sistema
           software, reutilización, elaboración de corpus para
           generación, construcción de gramáticas,

  3. Fecha de defensa:
     16 de julio de 2003

  4. Departamento, centro o laboratorio en el que se ha desarrollado:
     Departamento de Inteligencia Artificial
     Facultad de Informática
     Universidad Politécnica de Madrid, España

  5. Directoras:
     Guadalupe Aguado de Cea
     Asunción Gómez Pérez

  6. Proyecto o línea de investigación en el que se incluye:
     Generación de lenguaje natural


  7. Resumen e índice:

  La Generación de Lenguaje Natural (GLN) es una subárea del
Procesamiento de Lenguaje Natural (PLN) que trata de la producción
automática de textos en una lengua humana a partir de una representación
computacional de la información.

   La GLN es una disciplina relativamente reciente, que no ha sido
considerada como una materia con entidad propia hasta la década de 1980.
Como se sabe, una de las principales dificultades que presentan las
nuevas tecnologías es la carencia de estándares o metodologías
comúnmente aceptadas. En el caso de la construcción de sistemas de GLN
la situación es la siguiente. Por un lado, si bien se han descrito
métodos y técnicas para resolver ciertas cuestiones de la GLN, no se ha
planteado un conjunto de pasos sistemáticos que abarque la elaboración
completa de un sistema de GLN. Por otro lado, los sistemas ya
desarrollados sólo pueden utilizarse, en el mejor de los casos, como
apoyo en la realización de algunos de los módulos del nuevo sistema;
primero porque se han construido específicamente para un dominio, de
forma que adoptan soluciones particulares que no son generalizables, y,
segundo, porque normalmente sólo se tiene acceso a información muy
general sobre los mismos o sobre algún método utilizado en una tarea
concreta, es decir, no se dispone de documentación que explique
detalladamente la construcción de esos sistemas de principio a fin.

   Con el fin de tener un punto de referencia para futuros proyectos de
GLN,  esta tesis se propone como objetivo elaborar un marco metodológico
que sirva de guía en el desarrollo de un sistema de GLN y que abarque
todas las actividades implicadas en ese proceso. Así, el fin último de
este trabajo es ayudar a convertir el proceso de construcción de un
sistema de GLN, actualmente muy artesanal, en una disciplina propia del
ámbito de la ingeniería (de manera similar a lo ocurrido con los
sistemas de ingeniería del software e ingeniería del conocimiento). Es
decir, que produzca sistemas de GLN sin fallos, acabados a tiempo,
dentro del presupuesto y que satisfagan las necesidades del usuario,
usando para ello un enfoque sistemático, disciplinado y cuantificable
que se sirva de métodos y técnicas formales. Para conseguir esto se
proporciona:

  * Una revisión crítica de la GLN. Para ello se elaboran definiciones
    de los diferentes conceptos, unificando visiones complementarias y
    relacionando los términos empleados con los que utilizan distintos
    investigadores y desarrolladores en el ámbito de la GLN.

  * Un conjunto de actividades que hay que realizar para construir un
    sistema de GLN. Con esto se busca obtener una relación de todo lo
    que se debe hacer cuando se quiere elaborar un sistema de este tipo.

  Se toma como base un estándar para el desarrollo del proceso de ciclo
de vida de un sistema software, en concreto, el IEEE 1074-1997, y se
modifica para poder aplicarlo a la GLN.

  * Una indicación de cómo llevar a cabo esas actividades, centrándose
    en aquellas que presentan diferencias con el estándar. Siempre que
    la experiencia en GLN lo permite, se señalan los métodos y técnicas
    (previamente existentes o propuestas nuevas planteadas en esta
    tesis) que se pueden aplicar para llevar a cabo las actividades, y
    se resaltan los aspectos más importantes que hay que tener en cuenta
    cuando se están realizando dichas actividades.

  * Una estrategia de construcción. Se intenta ayudar a crear un ciclo
    de vida del sistema de GLN estableciendo un orden general de
    realización de las actividades anteriores, que luego se tendrá que
    refinar para cada proyecto concreto.

   Todas estas aportaciones se validan mediante la realización de un
proyecto de GLN, que consiste en la construcción de un sistema de
consulta sobre plantas medicinales que produce respuestas en español.



                                Índice

  SIGLAS    xiii

  1    Introducción    1
  1.1    Motivación y objetivos    1
  1.2    Hipótesis de trabajo    5
  1.3    Estructura de la tesis    8

  2    Introducción a la GLN    11
  2.1    La GLN dentro del PLN    12
  2.2    Otros campos relacionados con la GLN    15
  2.3    Breve recorrido histórico de la GLN    16
  2.4    Aplicación de la tecnología de GLN    19
  2.5    Resumen y conclusiones    24

  3    Teorías principales en la GLN    25
  3.1    La teoría sobre la estructura retórica    25
  3.1.1    La teoría de representación del discurso    27
  3.2    La teoría de Grosz y Sidner    28
  3.2.1    La RST y la GST    29
  3.3    La teoría del centramiento    31
  3.4    La teoría sentido-texto    32
  3.5    La gramática sistémico-funcional    33
  3.6    La gramática de unificación funcional    35
  3.7    Resumen y conclusiones    35

  4    La GLN paso a paso    37
  4.1    Las tareas de un sistema de GLN    37
  4.1.1    Resumen y conclusiones    41
  4.2    Enfoques generales utilizados en la GLN    41
  4.2.1    Resumen y conclusiones    45
  4.3    Determinación del contenido del texto    45
  4.3.1    Enfoques, métodos y técnicas para la determinación del
           contenido
  46
  4.3.2    Resumen y conclusiones    50
  4.4    Estructuración retórica del texto    50
  4.4.1    Enfoques, métodos y técnicas para la estructuración
retórica    51
  4.4.1.1    Enfoques de arriba abajo    52
  4.4.1.1.1    Esquemas    52
  4.4.1.1.2    Planificación    55
  4.4.1.2    Enfoques de abajo a arriba    61
  4.4.1.3    Búsqueda    65
  4.4.1.4    Ordenamiento    66
  4.4.2    Resumen y conclusiones    69
  4.5    Lexicalización del texto    70
  4.5.1    Enfoques, métodos y técnicas para la lexicalización    71
  4.5.2    Resumen y conclusiones    75
  4.6    Agregación del texto    75
  4.6.1    Enfoques, métodos y técnicas para la agregación    77
  4.6.1.1    Combinación de elementos informativos    77
  4.6.1.2    Ordenamiento    84
  4.6.2    Resumen y conclusiones    85
  4.7    Generación de las expresiones de referencia del texto    86
  4.7.1    Enfoques, métodos y técnicas para la generación de
           expresiones de referencia    87
  4.7.1.1    Algoritmos para la generación de expresiones de
referencia
  4.7.2    Resumen y conclusiones    96
  4.8    Realización gramatical del texto    97
  4.8.1    Enfoques, métodos y técnicas para la realización
gramatical    98
  4.8.1.1    Realización con una gramática bidireccional    101
  4.8.1.2    Realización con una SFG    105
  4.8.1.3    Realización con una gramática de la MTT    105
  4.8.1.4    Realización con métodos estadísticos    106
  4.8.1.5    Realización con aprendizaje automático    107
  4.8.1.6    Realización con una gramática de atributos    110
  4.8.1.7    Realización con una TAG    111
  4.8.1.8    Realización con una HPSG    113
  4.8.1.9    Realización con una ATN    114
  4.8.2    Componentes de realización disponibles    116
  4.8.2.1    Tipos de especificaciones que entran a un realizador    116
  4.8.2.2    KPML    119
  4.8.2.3    FUF/SURGE    121
  4.8.2.4    RealPro    123
  4.8.3    Resumen y conclusiones    125
  4.9    Realización de la presentación del texto    127
  4.9.1    Enfoques, métodos y técnicas para la realización de la
           presentación    127
  4.9.2    Resumen y conclusiones    128
  4.10    Resumen y conclusiones    129

  5    Arquitectura de los sistemas de GLN    131
  5.1    Paradigmas arquitectónicos    131
  5.1.1    Arquitectura integrada    133
  5.1.2    Arquitectura modular    134
  5.1.2.1    Arquitectura secuencial    135
  5.1.2.2    Arquitectura con retroalimentación    138
  5.1.2.3    Arquitectura con revisión    140

  5.2    Arquitecturas de referencia    143
  5.2.1    Arquitectura del proyecto RAGS    144
  5.2.2    Arquitectura de Reiter y Dale    149
  5.3    Resumen y conclusiones    152

  6    Revisión de algunos sistemas de GLN    155
  6.1    Descripción de los sistemas de GLN    155
  6.1.1    ERMA        155
  6.1.2    BABEL        156
  6.1.3    ANA        157
  6.1.4    GOSSIP        158
  6.1.5    FoG        160
  6.1.6    LFS        161
  6.1.7    STREAK    163
  6.1.8    AlethGen    165
  6.1.9    GIST        166
  6.1.10    PostGraphe y Seltex    168
  6.1.11    ModelExplainer    170
  6.1.12    STOP        172
  6.2    Características de comparación    174
  6.3    Resumen y conclusiones    181

  7    Estándares para el desarrollo del proceso de ciclo de vida de un
       sistema software    183
  7.1    El grupo de estándares ISO 12207    184
  7.1.1    El estándar ISO 12207    185
  7.1.2    El estándar IEEE/EIA 12207    186
  7.2    El estándar IEEE 1074    186
  7.3    Resumen y conclusiones    192

  8    Presentación de la guía para desarrollar el proceso de ciclo de
       vida de un sistema de GLN    193

  9    Actividades de iniciación del proyecto (A.1.1)    207
  9.1    Crear un proceso de ciclo de vida del software (A.1.1.1)    207
  9.1.1    Seleccionar un modelo de ciclo de vida    208
  9.1.1.1    Modelo de ciclo de vida en cascada    208
  9.1.1.1.1    Modelo de ciclo de vida de refinamiento sucesivo    210
  9.1.1.1.2    Normas militares y prácticas industriales    210
  9.1.1.2    Modelo de ciclo de vida incremental    211
  9.1.1.2.1    Modelo de ciclo de vida con emisión gradual    211
  9.1.1.2.2    Modelo de ciclo de vida basado en prototipos    211
  9.1.1.3    Modelos de ciclo de vida alternativos    212
  9.1.1.4    Recomendaciones    213
  9.2    Realizar estimaciones (A.1.1.2)    214

  10    Actividades de exploración del concepto (A.2.1)    219
  10.1    Formular enfoques potenciales (A.2.1.1)    219
  10.2    Realizar estudios de viabilidad (A.2.1.3)    222

  11    Actividades de acceso a la información del dominio (A.2.4)
  11.1    Identificar los requisitos de la información del dominio
  11.2    Evaluar las fuentes de información del dominio disponibles (si
          procede) (A.2.4.2)    228
  11.2.1    La fuente de información existe y está bien estructurada
  11.2.2    La fuente de información existe, pero no está bien
            estructurada   230
  11.2.3    No existe una fuente de información adecuada    230
  11.2.4    Las ontologías como fuentes de información del dominio  231
  11.3    Seleccionar la fuente de información del dominio   233
  11.4    Importar la fuente de información del dominio (A.2.4.4)    234

  12    Actividades de requisitos (A.3.1)    235
  12.1    Definir los objetivos generales (A.3.1.1')    235
  12.2    Definir los requisitos funcionales específicos (A.3.1.2')
  12.2.1    Método para la elaboración de un corpus    237
  12.2.1.1    Recopilación de textos    238
  12.2.1.2    Determinación de las posibles entradas    239
  12.2.1.3    Análisis de los textos y de las entradas    240
  12.2.1.4    Construcción de un corpus    241
  12.2.1.5    Extracción de patrones    243
  12.3    Definir los requisitos de las interfaces (A.3.1.3')    244

  13    Actividades de educción de conocimientos (A.3.4)    247
  13.1    Realizar la educción de conocimientos (A.3.4.1)    247
  13.1.1    Método de análisis de corpus    252

  14    Actividades de diseño (A.3.2)    255
  14.1    Realizar el diseño arquitectónico (A.3.2.1)    255
  14.1.1    Aspectos que debe reunir una arquitectura de referencia
  14.1.2    Interacción entre las tareas de GLN    259
  14.1.3    Entradas y recursos utilizados en un sistema de GLN    264
  14.1.3.1    Relación entre las entradas y los recursos con las tareas
              de GLN    273
  14.2    Realizar el diseño detallado de los recursos (A.3.2.2')    274
  14.2.1    Método para elaborar una gramática (sistémico-funcional) 275
  14.2.1.1    Decisión sobre la gramática modelo    276
  14.2.1.2    Construcción de la gramática    277
  14.2.1.2.1    Escritura de especificaciones de oración    277
  14.2.1.2.2    Adaptaciones en la gramática    279
  14.2.1.2.3    Validación    279

  14.2.1.3    Modificación del corpus    280
  14.2.1.4    Documento de cambios en la gramática    280
  14.3    Realizar el diseño detallado de los módulos (A.3.2.3')    283
  14.4    Realizar el diseño detallado de las interfaces (A.3.2.4')  284

  15    Actividades de evaluación (A.5.1)    287
  15.1    Desarrollar procedimientos de prueba (A.5.1.4)    287
  15.1.1    Enfoques, métodos y técnicas de evaluación    289
  15.1.2    Criterios para evaluar un sistema de GLN    293

  16    Actividades de reutilización (A.5.5)    299
  16.1    Identificación de posibles elementos reutilizables
(A.5.5.1)    300
  16.2    Evaluación de los elementos reutilizables (si procede)
  301
  16.3    Selección de un elemento reutilizable (si procede) (A.5.5.3)
  16.4    Importación del elemento seleccionado (si procede) (A.5.5.4)

  17    Dependencias entre las actividades del marco metodológico    305

  18    Estrategia para la construcción de sistemas de GLN    335

  19    Validación del marco metodológico    341
  19.1    Análisis de los resultados    344

  20    Conclusiones    349

  21    Líneas de trabajo futuro    357

  22    Bibliografía y referencias    361

  Glosario    395



  8. Correo-e de la autora:
     <sbernardos at sip.ucm.es>


  9. Cómo obtener la tesis:
     Ponerse en contacto con la autora: <sbernardos at sip.ucm.es

----------------------------------------------------------------------
Los mensajes de INFOLING llegan hasta tu buzón gracias al servicio
t\351cnico de RedIRIS (Madrid, España): http://www.rediris.es
----------------------------------------------------------------------



More information about the Infoling mailing list