Sujet de these: Analyse syntaxique et traduction automatique, Equipe TAL du LIRMM, rentree 2009

Fri May 15 14:33:13 UTC 2009

Date: Wed, 13 May 2009 08:40:06 +0200
From: Violaine PRINCE <prince at lirmm.fr>
Message-Id: <7F3A8F3E-696A-45C9-A9AD-FD62F77D384A at lirmm.fr>

SUJET DE THESE : Contribution de l'analyse syntaxique à la traduction
automatique

directeur :V. Prince

Equipe TAL-LIRMM.

Université Montpellier 2,

161 rue Ada 34392 Monpellier cedex 5 France

prince at lirmm.fr

La traduction automatique a fait d'énormes progrès en ce qui concerne
le transfert lexical (traduction des mots), et la traduction des
expressions figées, grâce à des techniques statistiques lexicales, des
ressources multilingues évoluées et la mise à disposition de corpus
alignés. Aujourd'hui, le nouveau défi consiste à étendre ces
compétences à la construction correcte de phrases en langue cible,
afin de produire des textes grammaticalement acceptables. Plusieurs
techniques sont en concurrence dans ce domaine dont deux principales :
1) les générateurs de structures de surface à partir d'une
représentation pivot, 2) les méthodes d'apprentissage de formes
grammaticales et de tournures de phrases à partir de corpus.  Les
problèmes rencontrés sont les suivants : la génération à partir d’une
structure pivot suppose un double effort d’analyse, de traduction dans
le pivot, et de génération à partir du pivot. Elle implique
l’existence de grammaires évoluées en analyse et en génération des
deux langues (la source et la cible), ce qui correspond à la
difficulté majeure (l’effort d’écriture des grammaires est très
important). En contrepartie, elle suppose la réversibilité du
processus de traduction entre deux langues. Le deuxième type de
technique cherche à apprendre des correspondances grammaticales
courantes dans de grandes masses de données bilingues, et à appliquer
ces correspondances sur des corpus d’essai. En ce sens, ces techniques
sont beaucoup moins coûteuses, mais leur portée est limitée en général
à la typologie de leur corpus d’apprentissage. L’absence de généricité
contraint fortement l’apport scientifique du domaine.

Le sujet de la thèse proposée consiste en l'étude théorique et
expérimentale de la contribution de l'analyse syntaxique de la langue
source à la génération (allégée) de phrases grammaticalement correctes
en langue cible. Il s’agit en fait d’un compromis entre les deux
précédentes approches. Disposant d’une grammaire d’analyse fortement
élaborée de la langue source, (ressource existante) et cherchant
également à inférer non pas des correspondances grammaticales, mais
l’existence de transformations grammaticales dans les corpus, le
dispositif proposé tente de minimiser l’effort conceptuel tout en
augmentant la portée de la traduction. Cela se fera au prix de la non
réversibilité de la traduction, avec prédominance de l’analyse de la
langue source.

Les travaux de l'équipe (Chauché et Prince 2006, Bonnin et Prince
2007, disponibles dans la documentation en ligne du LIRMM, sur HAL),
montrent que la construction syntaxique en langue cible, si celle-ci
n'est pas très éloignée de la langue source (comme les couples
français-anglais, français-espagnol, français-allemand), peut être
réalisée par une série de transformations de la construction
syntaxique des unités en langue source. Parmi les buts du travail
proposé nous pouvons mentionner :

1) d'étendre, d'améliorer et de réajuster les premières
transformations proposées dans les travaux cités , éventuellement en
"apprenant" ces transformations à partir de données alignées. En
particulier, ces transformations peuvent se traduire comme des
composées d’opérations sur des arbres syntaxiques, l’idée étant de
découvrir les composées les plus fréquentes, et de proposer des
modèles innovants.

2) A partir du prototype existant SYGFtoE de l’équipe TAL du LIRMM, de
traduction du français vers l'anglais, construire une grammaire de
transformations. Cette grammaire doit être le résultat d'un travail
théorique et algorithmique relativement important à partir des
structures apprises en 1.

3) Evaluer ce travail sur un ou plusieurs corpus.

Ce sujet suppose des connaissances importantes en informatique
fondamentale (algorithmique des arbres, langages formels, systèmes de
réécriture, algorithmes de Markov) en statistiques (méthodes
d’apprentissage à étudier et définir), et en linguistique (syntaxe,
divergence syntaxique, linguistique de corpus) et dans les langues
source (français) et cible (anglais).

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------