Resumen de tesis doctoral: Bernardos, Mª del S. 2003. Marco metodológico para la construcción de sistemas de =?iso-8859-1?Q?generaci=F3n?=de lenguaje natural.Departamento de Inteligencia Artificial, Universidad Politécnica de Madrid.
Carlos Subirats Rüggeberg
carlos.subirats at UAB.ES
Tue Sep 23 12:06:56 UTC 2003
INFOLING
Lista de distribución de lingüística del español (ISSN: 1576-3404)
http://elies.rediris.es/infoling/
Envío de información: infoling-request at listserv.rediris.es
EDITORES:
Carlos Subirats Rüggeberg, UAB <subirats at icsi.berkeley.edu>
Mar Cruz Piñol, U. Barcelona <mcruz at fil.ub.es>
Eulalia de Bobes Soler, UAB <Eulalia.deBobes at uab.es>
Equipo de edición: http://elies.rediris.es/infoling/editores.html
"Estudios de Lingüística del Español": http://elies.rediris.es
es una red temática de lingüística del español asociada a Infoling.
------------------------------------------------------------------------
Resumen de tesis doctoral:
1. Autora:
Bernardos Galindo, Mª del Socorro
2. Título de la tesis:
Marco metodológico para la construcción de sistemas de generación
de lenguaje natural
2.1 Número de páginas: 400 + 14 (índices)
2.2 Palabras clave: generación de lenguaje natural, estándares
para desarrollar el proceso de ciclo de vida de un sistema
software, reutilización, elaboración de corpus para
generación, construcción de gramáticas,
3. Fecha de defensa:
16 de julio de 2003
4. Departamento, centro o laboratorio en el que se ha desarrollado:
Departamento de Inteligencia Artificial
Facultad de Informática
Universidad Politécnica de Madrid, España
5. Directoras:
Guadalupe Aguado de Cea
Asunción Gómez Pérez
6. Proyecto o línea de investigación en el que se incluye:
Generación de lenguaje natural
7. Resumen e índice:
La Generación de Lenguaje Natural (GLN) es una subárea del
Procesamiento de Lenguaje Natural (PLN) que trata de la producción
automática de textos en una lengua humana a partir de una representación
computacional de la información.
La GLN es una disciplina relativamente reciente, que no ha sido
considerada como una materia con entidad propia hasta la década de 1980.
Como se sabe, una de las principales dificultades que presentan las
nuevas tecnologías es la carencia de estándares o metodologías
comúnmente aceptadas. En el caso de la construcción de sistemas de GLN
la situación es la siguiente. Por un lado, si bien se han descrito
métodos y técnicas para resolver ciertas cuestiones de la GLN, no se ha
planteado un conjunto de pasos sistemáticos que abarque la elaboración
completa de un sistema de GLN. Por otro lado, los sistemas ya
desarrollados sólo pueden utilizarse, en el mejor de los casos, como
apoyo en la realización de algunos de los módulos del nuevo sistema;
primero porque se han construido específicamente para un dominio, de
forma que adoptan soluciones particulares que no son generalizables, y,
segundo, porque normalmente sólo se tiene acceso a información muy
general sobre los mismos o sobre algún método utilizado en una tarea
concreta, es decir, no se dispone de documentación que explique
detalladamente la construcción de esos sistemas de principio a fin.
Con el fin de tener un punto de referencia para futuros proyectos de
GLN, esta tesis se propone como objetivo elaborar un marco metodológico
que sirva de guía en el desarrollo de un sistema de GLN y que abarque
todas las actividades implicadas en ese proceso. Así, el fin último de
este trabajo es ayudar a convertir el proceso de construcción de un
sistema de GLN, actualmente muy artesanal, en una disciplina propia del
ámbito de la ingeniería (de manera similar a lo ocurrido con los
sistemas de ingeniería del software e ingeniería del conocimiento). Es
decir, que produzca sistemas de GLN sin fallos, acabados a tiempo,
dentro del presupuesto y que satisfagan las necesidades del usuario,
usando para ello un enfoque sistemático, disciplinado y cuantificable
que se sirva de métodos y técnicas formales. Para conseguir esto se
proporciona:
* Una revisión crítica de la GLN. Para ello se elaboran definiciones
de los diferentes conceptos, unificando visiones complementarias y
relacionando los términos empleados con los que utilizan distintos
investigadores y desarrolladores en el ámbito de la GLN.
* Un conjunto de actividades que hay que realizar para construir un
sistema de GLN. Con esto se busca obtener una relación de todo lo
que se debe hacer cuando se quiere elaborar un sistema de este tipo.
Se toma como base un estándar para el desarrollo del proceso de ciclo
de vida de un sistema software, en concreto, el IEEE 1074-1997, y se
modifica para poder aplicarlo a la GLN.
* Una indicación de cómo llevar a cabo esas actividades, centrándose
en aquellas que presentan diferencias con el estándar. Siempre que
la experiencia en GLN lo permite, se señalan los métodos y técnicas
(previamente existentes o propuestas nuevas planteadas en esta
tesis) que se pueden aplicar para llevar a cabo las actividades, y
se resaltan los aspectos más importantes que hay que tener en cuenta
cuando se están realizando dichas actividades.
* Una estrategia de construcción. Se intenta ayudar a crear un ciclo
de vida del sistema de GLN estableciendo un orden general de
realización de las actividades anteriores, que luego se tendrá que
refinar para cada proyecto concreto.
Todas estas aportaciones se validan mediante la realización de un
proyecto de GLN, que consiste en la construcción de un sistema de
consulta sobre plantas medicinales que produce respuestas en español.
Índice
SIGLAS xiii
1 Introducción 1
1.1 Motivación y objetivos 1
1.2 Hipótesis de trabajo 5
1.3 Estructura de la tesis 8
2 Introducción a la GLN 11
2.1 La GLN dentro del PLN 12
2.2 Otros campos relacionados con la GLN 15
2.3 Breve recorrido histórico de la GLN 16
2.4 Aplicación de la tecnología de GLN 19
2.5 Resumen y conclusiones 24
3 Teorías principales en la GLN 25
3.1 La teoría sobre la estructura retórica 25
3.1.1 La teoría de representación del discurso 27
3.2 La teoría de Grosz y Sidner 28
3.2.1 La RST y la GST 29
3.3 La teoría del centramiento 31
3.4 La teoría sentido-texto 32
3.5 La gramática sistémico-funcional 33
3.6 La gramática de unificación funcional 35
3.7 Resumen y conclusiones 35
4 La GLN paso a paso 37
4.1 Las tareas de un sistema de GLN 37
4.1.1 Resumen y conclusiones 41
4.2 Enfoques generales utilizados en la GLN 41
4.2.1 Resumen y conclusiones 45
4.3 Determinación del contenido del texto 45
4.3.1 Enfoques, métodos y técnicas para la determinación del
contenido
46
4.3.2 Resumen y conclusiones 50
4.4 Estructuración retórica del texto 50
4.4.1 Enfoques, métodos y técnicas para la estructuración
retórica 51
4.4.1.1 Enfoques de arriba abajo 52
4.4.1.1.1 Esquemas 52
4.4.1.1.2 Planificación 55
4.4.1.2 Enfoques de abajo a arriba 61
4.4.1.3 Búsqueda 65
4.4.1.4 Ordenamiento 66
4.4.2 Resumen y conclusiones 69
4.5 Lexicalización del texto 70
4.5.1 Enfoques, métodos y técnicas para la lexicalización 71
4.5.2 Resumen y conclusiones 75
4.6 Agregación del texto 75
4.6.1 Enfoques, métodos y técnicas para la agregación 77
4.6.1.1 Combinación de elementos informativos 77
4.6.1.2 Ordenamiento 84
4.6.2 Resumen y conclusiones 85
4.7 Generación de las expresiones de referencia del texto 86
4.7.1 Enfoques, métodos y técnicas para la generación de
expresiones de referencia 87
4.7.1.1 Algoritmos para la generación de expresiones de
referencia
4.7.2 Resumen y conclusiones 96
4.8 Realización gramatical del texto 97
4.8.1 Enfoques, métodos y técnicas para la realización
gramatical 98
4.8.1.1 Realización con una gramática bidireccional 101
4.8.1.2 Realización con una SFG 105
4.8.1.3 Realización con una gramática de la MTT 105
4.8.1.4 Realización con métodos estadísticos 106
4.8.1.5 Realización con aprendizaje automático 107
4.8.1.6 Realización con una gramática de atributos 110
4.8.1.7 Realización con una TAG 111
4.8.1.8 Realización con una HPSG 113
4.8.1.9 Realización con una ATN 114
4.8.2 Componentes de realización disponibles 116
4.8.2.1 Tipos de especificaciones que entran a un realizador 116
4.8.2.2 KPML 119
4.8.2.3 FUF/SURGE 121
4.8.2.4 RealPro 123
4.8.3 Resumen y conclusiones 125
4.9 Realización de la presentación del texto 127
4.9.1 Enfoques, métodos y técnicas para la realización de la
presentación 127
4.9.2 Resumen y conclusiones 128
4.10 Resumen y conclusiones 129
5 Arquitectura de los sistemas de GLN 131
5.1 Paradigmas arquitectónicos 131
5.1.1 Arquitectura integrada 133
5.1.2 Arquitectura modular 134
5.1.2.1 Arquitectura secuencial 135
5.1.2.2 Arquitectura con retroalimentación 138
5.1.2.3 Arquitectura con revisión 140
5.2 Arquitecturas de referencia 143
5.2.1 Arquitectura del proyecto RAGS 144
5.2.2 Arquitectura de Reiter y Dale 149
5.3 Resumen y conclusiones 152
6 Revisión de algunos sistemas de GLN 155
6.1 Descripción de los sistemas de GLN 155
6.1.1 ERMA 155
6.1.2 BABEL 156
6.1.3 ANA 157
6.1.4 GOSSIP 158
6.1.5 FoG 160
6.1.6 LFS 161
6.1.7 STREAK 163
6.1.8 AlethGen 165
6.1.9 GIST 166
6.1.10 PostGraphe y Seltex 168
6.1.11 ModelExplainer 170
6.1.12 STOP 172
6.2 Características de comparación 174
6.3 Resumen y conclusiones 181
7 Estándares para el desarrollo del proceso de ciclo de vida de un
sistema software 183
7.1 El grupo de estándares ISO 12207 184
7.1.1 El estándar ISO 12207 185
7.1.2 El estándar IEEE/EIA 12207 186
7.2 El estándar IEEE 1074 186
7.3 Resumen y conclusiones 192
8 Presentación de la guía para desarrollar el proceso de ciclo de
vida de un sistema de GLN 193
9 Actividades de iniciación del proyecto (A.1.1) 207
9.1 Crear un proceso de ciclo de vida del software (A.1.1.1) 207
9.1.1 Seleccionar un modelo de ciclo de vida 208
9.1.1.1 Modelo de ciclo de vida en cascada 208
9.1.1.1.1 Modelo de ciclo de vida de refinamiento sucesivo 210
9.1.1.1.2 Normas militares y prácticas industriales 210
9.1.1.2 Modelo de ciclo de vida incremental 211
9.1.1.2.1 Modelo de ciclo de vida con emisión gradual 211
9.1.1.2.2 Modelo de ciclo de vida basado en prototipos 211
9.1.1.3 Modelos de ciclo de vida alternativos 212
9.1.1.4 Recomendaciones 213
9.2 Realizar estimaciones (A.1.1.2) 214
10 Actividades de exploración del concepto (A.2.1) 219
10.1 Formular enfoques potenciales (A.2.1.1) 219
10.2 Realizar estudios de viabilidad (A.2.1.3) 222
11 Actividades de acceso a la información del dominio (A.2.4)
11.1 Identificar los requisitos de la información del dominio
11.2 Evaluar las fuentes de información del dominio disponibles (si
procede) (A.2.4.2) 228
11.2.1 La fuente de información existe y está bien estructurada
11.2.2 La fuente de información existe, pero no está bien
estructurada 230
11.2.3 No existe una fuente de información adecuada 230
11.2.4 Las ontologías como fuentes de información del dominio 231
11.3 Seleccionar la fuente de información del dominio 233
11.4 Importar la fuente de información del dominio (A.2.4.4) 234
12 Actividades de requisitos (A.3.1) 235
12.1 Definir los objetivos generales (A.3.1.1') 235
12.2 Definir los requisitos funcionales específicos (A.3.1.2')
12.2.1 Método para la elaboración de un corpus 237
12.2.1.1 Recopilación de textos 238
12.2.1.2 Determinación de las posibles entradas 239
12.2.1.3 Análisis de los textos y de las entradas 240
12.2.1.4 Construcción de un corpus 241
12.2.1.5 Extracción de patrones 243
12.3 Definir los requisitos de las interfaces (A.3.1.3') 244
13 Actividades de educción de conocimientos (A.3.4) 247
13.1 Realizar la educción de conocimientos (A.3.4.1) 247
13.1.1 Método de análisis de corpus 252
14 Actividades de diseño (A.3.2) 255
14.1 Realizar el diseño arquitectónico (A.3.2.1) 255
14.1.1 Aspectos que debe reunir una arquitectura de referencia
14.1.2 Interacción entre las tareas de GLN 259
14.1.3 Entradas y recursos utilizados en un sistema de GLN 264
14.1.3.1 Relación entre las entradas y los recursos con las tareas
de GLN 273
14.2 Realizar el diseño detallado de los recursos (A.3.2.2') 274
14.2.1 Método para elaborar una gramática (sistémico-funcional) 275
14.2.1.1 Decisión sobre la gramática modelo 276
14.2.1.2 Construcción de la gramática 277
14.2.1.2.1 Escritura de especificaciones de oración 277
14.2.1.2.2 Adaptaciones en la gramática 279
14.2.1.2.3 Validación 279
14.2.1.3 Modificación del corpus 280
14.2.1.4 Documento de cambios en la gramática 280
14.3 Realizar el diseño detallado de los módulos (A.3.2.3') 283
14.4 Realizar el diseño detallado de las interfaces (A.3.2.4') 284
15 Actividades de evaluación (A.5.1) 287
15.1 Desarrollar procedimientos de prueba (A.5.1.4) 287
15.1.1 Enfoques, métodos y técnicas de evaluación 289
15.1.2 Criterios para evaluar un sistema de GLN 293
16 Actividades de reutilización (A.5.5) 299
16.1 Identificación de posibles elementos reutilizables
(A.5.5.1) 300
16.2 Evaluación de los elementos reutilizables (si procede)
301
16.3 Selección de un elemento reutilizable (si procede) (A.5.5.3)
16.4 Importación del elemento seleccionado (si procede) (A.5.5.4)
17 Dependencias entre las actividades del marco metodológico 305
18 Estrategia para la construcción de sistemas de GLN 335
19 Validación del marco metodológico 341
19.1 Análisis de los resultados 344
20 Conclusiones 349
21 Líneas de trabajo futuro 357
22 Bibliografía y referencias 361
Glosario 395
8. Correo-e de la autora:
<sbernardos at sip.ucm.es>
9. Cómo obtener la tesis:
Ponerse en contacto con la autora: <sbernardos at sip.ucm.es
----------------------------------------------------------------------
Los mensajes de INFOLING llegan hasta tu buzón gracias al servicio
t\351cnico de RedIRIS (Madrid, España): http://www.rediris.es
----------------------------------------------------------------------
More information about the Infoling
mailing list