Información sobre la empresa de ingeniería lingüística SIGNUM

Carlos Subirats Rüggeberg Carlos.Subirats at UAB.ES
Wed Apr 21 12:18:24 UTC 1999


INFOLING  Lista moderada de lingüística española
http://listserv.rediris.es/archives/infoling.html
http://www.rediris.es/list/info/infoling.html
Envío de información: INFOLING-request at listserv.rediris.es
Editor: Carlos Subirats Rüggeberg <Carlos.Subirats at uab.es>
Colaboradoras:
Paola Bentivoglio <pbentivo at reacciun.ve>, U. Central Venezuela
Mar Cruz <mcruz at lingua.fil.ub.es>, U. Barcelona
Eulalia de Bobes <ebobes at seneca.uab.es>, U. Autónoma Barcelona
Emma Martinell <martinell at lingua.fil.ub.es>, U. Barcelona
Rosa Ribas <Ribas at em.uni-frankfurt.de>, U. Frankfurt
____________________________________________________________

      Información sobre la empresa de ingeniería lingüística
                              SIGNUM
           De: Plutarco Naranjo <plutarco at lenguaje.com>
                      http://www.lenguaje.com
____________________________________________________________

                           Introducción
    SIGNUM es una empresa de ingeniería lingüística dedicada al
español. Tiene un producto para usuarios finales, Ortógrafo, que
es un corrector ortográfico del español con más de cinco millones
de palabras. Ha sido seleccionada por Microsoft para proporcionar
sus motores para la venidera versión del Microsoft Office. La
compañía SIGNUM fue galardonada por Alcatel Ecuador con su premio
a la innovación tecnológica.

    SIGNUM Cía. Ltda. se fundó en 1988 con el fin de prestar
servicios de investigación y desarrollo en el campo del lenguaje
y su procesamiento. Inicialmente realizó trabajos de localización
de software para empresas norteamericanas como Apple Computer,
Autodesk, Software Publishing Corporation, Aldus Corporation y
otras. A partir de 1994 se dedicó únicamente a investigar el
léxico, la morfología y la sinonimia del español.

SIGNUM Cía. Ltda.
Avenida 12 de Octubre E24-994
Casilla 17-07-9918
Quito, Ecuador
Correo-e: servicio at lenguaje.com
http://www.lenguaje.com
Tel.: (593-2) 568037 / 568038
Fax:  (593-2) 568114


             Motores para el procesamiento del español
    SIGNUM ha desarrollado motores lingüísticos del español que
pueden formar parte de aplicaciones informáticas:
    - módulos de corrección ortográfica,
    - módulos o de división en sílabas;
    - apoyo léxico y morfológico para obtener lemas y
      etiquetar;
    - búsqueda de palabras homófonas o parónimas para un
      término;
    - diccionario de sinónimos totalmente declinable.


                              Léxico
    El léxico de SIGNUM está basado en un núcleo de más de
115.000 vocablos; incluye la terminología local de cada país
hispanohablante y el vocabulario técnico de casi todos los campos
de la ciencia. Contiene nuevos términos que son comúnmente usados
hoy en día en publicaciones, pero que no aparecen en muchos
diccionarios, así como términos no frecuentes, que suelen
aparecer en literatura especializada.

    El núcleo de 115.000 vocablos está complementado por todas
las formas flexivas que estas palabras pueden tener. Contempla
variaciones de género, número, diminutivos, aumentativos,
superlativos y desienencias peyorativas; todas las conjugaciones
verbales, los enclíticos más usados en español; asimismo contiene
morfemas derivativos como "-mente" "-ismo" "super-" "semi-"
"pre-" "pos-" entre otros. Tomando en cuenta todas estas
formaciones morfológicas, el tamaño del léxico es de más de
5.000.000 de palabras.

    Cada término del léxico tiene docenas de atributos,
proveyendo así datos morfológicos, gramaticales, semánticos y
otro tipo de datos como el "índice de frecuencia", que nos indica
cuán común o rara es la palabra.

    Dos características importantes se pueden resaltar del léxico
de SIGNUM:
    - éste es utilizado de forma óptima por nuestros motores
lingüísticos y forma así su diccionario base, sobre el cual
trabajan muchos de estos motores;
    - y también, a partir de este léxico, podemos generar listas
de palabras que consistan de determinados tipos de lemas, formas
flexivas o palabras con características especiales, de acuerdo
con los requerimientos específicos de una aplicación o de un
usuario que necesite un léxico depurado y de alta calidad.


                       Beneficios del léxico
     Dispondrá de un léxico muy completo y actualizado del idioma
     español.
     El contenido léxico ha sido revisado, depurado de errores y
     es altamente confiable.
     Léxico categorizado y etiquetado con información morfológica,
     y sintáctica.
     El usuario que necesita una lista de palabras puede
     especificar qué tipo de información relevante, contenida en
     nuestro léxico, le interesa.
     Los motores lingüísticos de SIGNUM se basan en un amplio
     léxico de alta calidad.


                            Lematizador
    Al reconocer una palabra, el lematizador de SIGNUM presenta
su lema (raíz) e información sobre el tipo de flexión de la
palabra consultada. La base de este motor es el léxico de SIGNUM
con sus 5 millones de palabras.

    En el caso de la palabra "perritas", por ejemplo, el
lematizador determina que se trata del lema "perro" con los
atributos femenino, plural y diminutivo. Similarmente, si
ingresamos la palabra "leerá", nos indicará que es la tercera
persona del singular del futuro del indicativo del verbo "leer".
El usuario puede resolver ambigüedades semánticas para aquellas
palabras que pueden tener dos o más lemas: el lematizador está en
capacidad de encontrar todos los posibles lemas; así, si se busca
la palabra "suma" el lematizador retorna lo siguiente:

     Raíz del sustantivo "suma".
     Tercera persona singular del presente de indicativo del verbo
     "sumar".
     Primera persona del presente del subjuntivo y tercera persona
     singular del imperativo del verbo "sumir".
     Femenino singular del adjetivo "sumo".

Parte de la información que se puede obtener de cada palabra, es
la siguiente:

     Lema o lemas de la palabra analizada.
     Índice de rareza de la palabra; éste ha sido calculado en
     base al uso de la palabra, un término usado frecuentemente en
     el español tendrá un índice mayor que aquel no casi no se
     utiliza.
     Indicador de mayúsculas; determina si la palabra requiere
     mayúscula inicial, esto es si es un nombre propio.
     Indicador de abreviatura; si la palabra ingresada es una
     abreviatura común en español.
     Categoría gramatical, indicando si la palabra analizada es
     sustantivo, adjetivo, adverbio, verbo, etc.
     Heterónimos; indica la formación de un femenino o un
     masculino irregular, por ejemplo: emperador y emperatriz,
     macho y hembra, etc.
     Flexión; indica la relación morfológica de la palabra
     respecto a su lema. Si se ingresa la palabra "organizamos" se
     tiene que corresponde a la primera persona del plural del
     presente del indicativo.
     Indicador de significación por género masculino; esta
     información permite saber cuando un término tiene un
     significado especial en el género masculino, así: "gato"
     solamente en masculino toma dos significados particulares, de
     "herramienta, palanca, prensa" y el de "bolso, talego";
     mientras que "gato" cuando puede aplicarse en ambos géneros
     como "gato" y "gata" tiene como significado el de animal.

Se puede obtener otros datos como por ejemplo, si el verbo es
pronominal o, en algunas palabras, el ámbito regional y temático.

    Este motor está en capacidad de almacenar información
adicional para cada lema como: definición, sinónimos, información
semántica, imagen, o cualquier otro dato que el usuario desee
asociar con la palabra.


                  Características del lematizador
     Capacidad de reconocer el léxico más completo, incluyendo a
     la rica morfología del español.
     Obtención de todos los lemas posibles de las palabras
     consultadas, con la posibilidad de determinar el tipo de
     declinación que tienen.
     Permite almacenar junto a cada palabra cualquier otro tipo de
     información que el usuario necesite asociar a las palabras.
     El lematizador puede ser utilizado dentro de las aplicaciones
     del cliente, siendo así una poderosa plataforma para el
     procesamiento del español.


                        Motor de flexiones
    El motor de flexiones de SIGNUM provee la funcionalidad para
generar todas las formas posibles de una palabra española.
Dependiendo de la naturaleza de la palabra, se generan, entre
otras, las flexiones de género, número, diminutivos,
aumentativos, superlativos y formas peyorativas; en el caso de
los verbos, todas las conjugaciones verbales y los enclíticos más
comunes.

    Este motor recibe como entrada un palabra, la analiza, si
está correctamente escrita y la encuentra en su base
léxico-morfológica, procede a generar todas las formas
morfológicas que este término puede aceptar. Además, proporciona
información sobre el tipo de forma flexiva  generada.

    Por ejemplo, si se ingresa el término "perro" obtendremos
información como la siguiente:

     "perro" masculino singular
     "perros" masculino plural
     "perrito" masculino diminutivo singular
     "perritos" masculino diminutivo plural
     "perrillo" masculino diminutivo-2 singular
     "perrillos" masculino diminutivo-2 plural
     "perrote" masculino aumentativo singular
     "perrotes" masculino aumentativo plural
     "perrazo" masculino aumentativo-2 singular
     "perrazos" masculino aumentativo-2 plural
     "perra" femenino singular
     "perras" femenino plural
     "perrita" femenino diminutivo singular
     "perritas" femenino diminutivo plural
     "perrilla" femenino diminutivo-2 singular
     "perrillas" femenino diminutivo-2 plural
     "perrota" femenino aumentativo singular
     "perrotas" femenino aumentativo plural
     "perraza" femenino aumentativo-2 singular
     "perrazas" femenino aumentativo-2 plural

    De manera similar, se pueden consultar las flexiones
completas de un verbo, presentando todas sus formas conjugadas,
su participio con sus formas correspondientes, así como también
el grupo de enclíticos más usados. Por otra parte, si únicamente
se desean obtener las conjugaciones verbales, por ser tan útiles
al momento de resolver dudas, se recomienda usar el motor de
conjugaciones que es una herramienta sumamente didáctica


                  Beneficios del motor de flexión
     Posibilidad de crear con mucha precisión y agilidad léxicos o
     listas de palabras flexionadas.
     Rapidez en la generación y presentación de las posibles
     flexiones que acepta una palabra.
     Información morfológica completa, confiable y de alta
     calidad.


                  Motor de corrección ortográfica
    El motor ortográfico de SIGNUM provee a sus usuarios finales
múltiples beneficios que no pueden ser obtenidos de motores
similares, gracias a sus avanzadas características:

     Vocabulario de más de 5.000.000 de palabras que comprende
     términos locales y técnicos con una vasta capacidad
     morfológica.
     Motor de sugerencias construido para la fonética española,
     provee excelentes sugerencias para errores tipográficos y
     ortográficos.
     Reconocimiento inteligente y señalamiento de los conflictivos
     homófonos y parónimos del español, es decir, aquellas
     palabras cuya pronunciación es muy similar, pero que se
     escriben de una manera diferente y que tienen, por lo tanto,
     diferentes significados. Por ejemplo, "ingerir" e "injerir",
     o "binario" y "vinario".
     Manejo adecuado de las frases que actúan como palabras. Se
     consideran tres casos: aquellas que deben ser escritas como
     dos palabras "a través" aquellas que pueden cambiar de
     significado si son escritas como dos palabras o como una sola
     "apropósito - a propósito" y aquellas que deben ser escritas
     en una sola palabra "autocrítica".
     Señalamiento de palabras especiales. Por ejemplo el programa
     señala a la palabra "indefensible" y recomienda
     "indefendible" como un término más culto; o sugiere
     "transporte" como una forma más tradicional que "trasporte";
     para un error común como "accesar" sugiere el término propio
     "acceder"; o el término extranjero "cash" recibe su
     equivalente en español "en efectivo".
     Ejemplos aclaratorios para muchas de las sugerencias. Ayudan
     a sus usuarios a decidir entre formas similares de escritura
     y dan al programa un alto valor didáctico.
     Listas de sugerencias cortas, precisas e inteligentes para
     los errores ortográficos de los usuarios.
     Características especiales para usuarios de OCR.
     Amplia gama de opciones para el usuario con el fin de hacer
     la revisión más permisiva o más estricta acorde al nivel de
     conocimientos ortográficos del usuario.


          Beneficios del motor de corrección ortográfica
     Cuenta con el motor de corrección ortográfica más avanzado y
     completo del español.
     Gracias a su amplio vocabulario no se detiene inútilmente en
     palabras poco usuales, técnicas o localismos que están bien
     escritos y, por lo tanto, la corrección es más rápida.
     Dispone del léxico más completo y confiable del español.
     Poderoso módulo de reconocimiento de homófonos y parónimos
     que con sus ejemplos aclaran las dudas y resulta muy
     didáctico.
     Atrapa errores fáciles de cometer, que muchas veces ni
     siquiera nos traen dudas.
     Opciones de corrección ortográfica para una adaptación ceñida
     al nivel ortográfico del usuario.

                  Motor de sinónimos y antónimos
    El motor de sinónimos y antónimos de SIGNUM acepta palabras
flexionadas y presenta los sinónimos en la misma forma flexiva
que la palabra buscada; por ejemplo, para el término "librito" se
tienen los sinónimos "obrita, tratadito, manualito, textito",
entre otros. Este diccionario contiene aproximadamente 50.000
entradas y más 500.000 sinónimos, antónimos y expresiones
relacionadas.

    Cuando la palabra buscada es una forma flexiva que puede
provenir de más de un lema, este motor presenta los sinónimos que
corresponden a cada uno de los lemas, así para la palabra "fui"
que proviene del verbo "ir" se tiene "marché, caminé, partí" y
otros; para "fui" del verbo "ser" se tiene "existí, estuve, me
hallé" y demás. El motor puede presentar la categoría gramatical
de cada sinónimo y antónimo encontrado, así como también, indicar
a qué declinación morfológica corresponde.


           Beneficios del motor de sinónimos y antónimos
     El más sofisticado diccionario electrónico de sinónimos listo
     para usarse en su aplicación.
     Poderosa herramienta que proporciona sinónimos y antónimos en
     la misma forma declinada en que se encuentra la palabra
     buscada.
     Al presentar todos los posibles significados de una palabra
     el usuario puede resolver ambigüedades y obtener los
     sinónimos correspondientes a cada significado.


                         Motor de guiones
    El motor de guiones de SIGNUM no sólo separa a una palabra en
sílabas en la forma académicamente correcta, sino que corta a la
palabra en puntos estratégicos para que, cuando ésta se divida al
final de una línea, el resultado sea estético y fácil de leer.

    Esta forma de separar una palabra permite un considerable
ahorro de espacio en los textos y brinda facilidad de lectura y
entendimiento.

    A continuación detallamos unos pocos ejemplos para mostrar
las diferencias entre nuestro motor de guiones y aquellos que se
encuentran en otros productos:

                  SIGNUM  OTROS
                  al-helí alhe-lí
                  bien-in-ten-cio-na-do bie-nin-ten-cio-na-do
                  bio-éti-ca bioé-ti-ca
                  en-hora-bue-na enho-ra-bue-na
                  ve-he-men-te vehe-men-te


                  Beneficios del motor de guiones
     Separa las palabras en forma estética y fácil de leer.
     Optimiza la distribución del texto en un párrafo y reduce su
     número de líneas ahorrando espacio.


                      Motor de conjugaciones
    El motor de conjugaciones de SIGNUM puede generar, con total
exactitud, la conjugación completa de más de 13.000 verbos.
Incluye todos los modos verbales, tiempos y personas.


               Beneficio del motor de conjugaciones
     Aclara las dudas con algunas formas verbales cuya escritura
     trae problemas.
     Agrega valor a cualquier diccionario o programa de
     procesamiento del lenguaje.
     Sumamente didáctico.


                    Motor de semejanza fonética
    Con nuestro motor de semejanza fonética sus aplicaciones
pueden incluir la notable función de "suena como" para el
español. Esto tiene muchos usos, por ejemplo, búsquedas de
palabras en textos completos; reconocimiento del habla;
generación de homófonos y parónimos; detección de marcas y
nombres comerciales semejantes; generación de sugerencias en caso
de palabras mal escritas; entre otras.


            Beneficios del motor de semejanza fonética
     Aumenta la versatilidad de aplicaciones que trabajan con el
     lenguaje natural dotándoles de capacidades fonéticas que
     mejoran significativamente determinadas funciones.

                         Más información:
                      http://www.lenguaje.com
     Otras informaciones sobre SIGNUM aparecidas en Infoling:
http://listserv.rediris.es/cgi-bin/wa?A2=ind9904&L=infoling&D=1&H=1&O=D&P=1908

----------------------------------------------------
Formatos para enviar informacion a INFOLING.
Enviar a LISTSERV at LISTSERV.REDIRIS.ES
la orden:	INFO INFOLING
----------------------------------------------------




More information about the Infoling mailing list