Sujet de these: Traitement Automatique des Langues et Multilinguisme

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Mar 28 09:14:28 UTC 2012


Date: Tue, 27 Mar 2012 23:45:36 +0200 (CEST)
From: "Nicolas HERNANDEZ" <Nicolas.Hernandez at univ-nantes.fr>
X-url: http://e.nicolas.hernandez.free.fr/pub/rec/12


Sujet de thèse en Traitement Automatique des Langues et Multilinguisme

L'équipe du Traitement Automatique du Langage Naturel (TALN) du
Laboratoire Informatique de Nantes Atlantique (LINA UMR CNRS 6241) à
l'Université de Nantes propose un sujet de thèse en Informatique dans
les domaines du Traitement Automatique des Langues et du Multilinguisme.

*Titre:*
Analyse des structures discursives des textes et alignement de
terminologies multilingues en corpus comparables ; pour une modélisation
discursive de la notion de contexte.

*Résumé : *
La traduction automatique est l'une des activités de recherche les plus
ambitieuses de notre temps. Ce travail de thèse propose de s'attaquer à
l'un de ses enjeux, à savoir l'"alignement de terminologies
multilingues" en corpus comparables, et ce en explorant de nouvelles
méthodes de mise en correspondance des termes, à savoir à l'aide
d'"analyses des structures discursives des textes". L'approche état de
l'art consiste à établir une mise en correspondance des termes en
mesurant la similarité de leurs contextes d'apparition à l'aide de
dictionnaires bilingues préexistants. Les problèmes fondamentaux de
cette approche sont qu'elle repose sur une modélisation très pauvre du
contexte d'apparition d'un terme (un sac de mots apparaissant autour des
termes analysés) et qu'elle présuppose l'existence de ressources
lexicales bilingues pour être réalisée.  Ce travail a pour objectif
d'expérimenter des contextes de termes définis sur la base de résultats
d'analyses du discours ainsi que réfléchir à la définition d'une notion
de contexte discursif plus en adéquation avec la tâche.  Ce sujet émerge
dans la continuité du projet européen TTC et du projet ANR MeTRICC dont
l'équipe TALN assure les coordinations.

*Mots clefs :*
Traduction, Alignement de terminologies multilingues, Analyse et
modélisation des structures du discours, Corpus comparables

*Profil et compétences recherchés: *
M2 Recherche informatique ou école d'ingénieurs
Bon niveau en anglais
Bonnes notions en apprentissage automatique
Bonnes connaissances en programmation Java/Python
Affinités avec le logiciel libre et le développement collaboratif

*Procédure de candidature* :
La date butoir de réception des candidatures est le 20 Avril 2012 mais
la position restera ouverte jusqu'à ce qu'elle soit attribuée.
La thèse démarrera en Octobre 2012 et sera financée par une allocation
ministérielle.
Les candidats intéressés sont invités à prendre contact le plus tôt
possible et à envoyer les informations suivantes : une lettre de
motivation incluant votre positionnement par rapport aux compétences
attendues, un CV, un relevé de notes avec classement au Master (au moins
pour la période écoulée), un lien vers un site web présentant le
programme de votre master et des lettres de recommandations de vos
encadrants scientifiques.
Cette thèse pourra être précédée d'un stage de master recherche financé
sur le même thème. Prendre contact.

*Contact : *
Nicolas Hernandez et Emmanuel Morin (prenom.nom à univ-nantes.fr)

*Plus d'information sur le sujet de thèse :*
Suivre le lien http://e.nicolas.hernandez.free.fr/pub/rec/12

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list