Corpora: Thesis: Machine Translation and Controlled Language

MIT2USA at aol.com MIT2USA at aol.com
Mon Nov 27 23:29:04 UTC 2000


Thesis Title: "Improvement of French generation for the KANT machine 
translation system"

Degree Title: "Diplôme de Recherche Technologique" (post-)graduate degree

Degree awarded to: Eric Crestan

Field of Research: "Communication Homme-Machine" (Human Computer Interaction)

Institution: Institut Universitaire Professionnalisé (IUP) of the Université 
d'Avignon, France. This thesis was completed via a 18-month internship 
conducted on-site at the Center for Machine Translation of Carnegie Mellon 
University (Pittsburgh, Pennsylvania, USA).

Thesis defense date: public defense took place on 10 November 2000 by Eric 
CRESTAN in Avignon, France.


Abstract in English:

The Carnegie Mellon University KANT system is a knowledge-based interlingual 
machine translation system developed to translate English documents into a 
wide range of languages. It is a high quality machine translation system 
requiring controlled English sentences as input. First, we give an overview 
of machine translation. Then we describe the KANT project and the 
architecture of the system. Third, we present the largest part of our work on 
improving French generation, including work on gerund translation and 
examples of lexical selection rules. These rules have been written under a 
formalism developed at the Center for Machine Translation. This formalism has 
been conceived in order to achieve the constitution of F-Structures from 
Interlinguas. Finally, we propose the utilization of a unilingual statistical 
language model in order to correct erroneous determiners and prepositions in 
French sentences generated from the KANT system. We illustrate the behavior 
of the model through experimental results.


Résumé en français:

Le système KANT est un programme de traduction à base de connaissances. Il 
est destiné à la traduction de documents techiques rédigés en anglais vers 
une variété d'autres langues. Son fonctionnement s'appuie sur une 
représentation universelle intermédiaire dénommé Interlingua. Si ce système 
de traduction atteint un haut niveau de qualité, ceci est entre autres dû au 
fait qu'il a été conçu pour traiter des textes sources rédigés en anglais 
contrôlé. Nous donnons tout d'abord un aperçu du domaine de la traduction 
automatique. Puis, nous nous intéressons plus particulièrement au projet KANT 
et détaillons l'architecture du système. Ensuite, nous présentons l'essentiel 
de notre travail : plusieurs améliorations apportées à la génération du 
français, dont notamment les travaux effectués sur la traduction des formes 
-ing anglaises, mais également des exemples de règles de sélection lexicale. 
Ces règles ont été écrites dans un formalisme développé par l'équipe CMT de 
CMU en charge d'assurer une transduction en F-structures de phrases 
représentées selon les formes appropriées de l'Interlingua. Pour finir, nous 
proposons l'emploi d'un modèle de langage statistique unilingue, destiné à 
corriger les phrases générées en français par le système KANT lorsqu'elles 
contiennent des prépositions ou des déterminants erronés. Nous illustrons le 
comportement de ce modèle au travers de quelques résultats expérimentaux.

Thesis committee members:

Marc El-Bèze : Directeur de recherche / Thesis Advisor (home institution)
Eric Nyberg : Examinateur / Examiner & Co-Advisor (host institution) 
Paul Sabatier : Rapporteur / Official Reader
Eric Gaussier : Rapporteur / Official Reader
Henri Meloni : Examinateur / Examiner 
Jeffrey Allen : Président du jury et Examinateur / Thesis Committee 
Chairperson and Examiner

=========
Jeffrey Allen
CEO, Mason Integrated Technologies Ltd (MIT2)
Boston, USA & Paris, France
Mobile phone: (+33) 6 74 47 98 01
e-mail: mit2ceo at aol.com
http://hometown.aol.com/mit2usa/Index2.html



More information about the Corpora mailing list