Sujet de th=?iso-8859-1?Q?=E8se_?=en Traitement Automatique des Langues et Multiling uisme

Nicolas HERNANDEZ nicolas.hernandez at UNIV-NANTES.FR
Thu Mar 21 12:04:11 UTC 2013


Sujet de thèse en Traitement Automatique des Langues et Multilinguisme

L'équipe du Traitement Automatique du Langage Naturel (TALN) du Laboratoire
Informatique de Nantes Atlantique (LINA UMR CNRS 6241) à l'Université de
Nantes
propose un sujet de thèse en Informatique dans les domaines du Traitement
Automatique des Langues et du Multilinguisme.

*Titre* : "Analyse des structures discursives des textes et alignement de
terminologies
multilingues en corpus comparables ; pour une modélisation discursive de la
notion de contexte."

La date butoir de réception des candidatures est  le 19 Avril 2013 mais
la position restera ouverte jusqu'à ce qu'elle soit attribuée.
La thèse démarrera en Octobre 2013 et sera financée par une allocation
de recherche ministérielle (entre 1684,93 euros bruts mensuel pour une
activité
de recherche seule et 2024,70 euros bruts en cas d’activités complémentaires
d’enseignement).

*Résumé*
La traduction automatique est l'une des activités de recherche les plus
ambitieuses de notre temps. Ce travail de thèse propose de s'attaquer à
l'un de
ses enjeux, à savoir l'"alignement de terminologies multilingues" en corpus
comparables, et ce en explorant de nouvelles méthodes de mise en
correspondance
des termes, à savoir à l'aide d'"analyses des structures discursives des
textes". L'approche état de l'art consiste à établir une mise en
correspondance
des termes en mesurant la similarité de leurs contextes d'apparition à l'aide
de dictionnaires bilingues préexistants. Les problèmes fondamentaux de cette
approche sont qu'elle repose sur une modélisation très pauvre du contexte
d'apparition d'un terme (un sac de mots apparaissant autour des termes
analysés) et qu'elle présuppose l'existence de ressources lexicales bilingues
pour être réalisée.
Ce travail a pour objectif d'expérimenter des contextes de termes définis sur
la base de résultats d'analyses du discours ainsi que réfléchir à la
définition
d'une notion de contexte discursif plus en adéquation avec la tâche.
Ce sujet émerge dans la continuité du projet européen TTC et du projet ANR
MeTRICC dont l'équipe TALN assure les coordinations.

*Profil recherché*
- M2 Recherche informatique ou école d'ingénieurs
- Excellent niveau en anglais (écrit et oral)
- Des bases solides en apprentissage automatique et traitement automatique
des langues
- Bon niveau en programmation (e.g. Java/Python)
- Affinités avec le logiciel libre et le développement collaboratif

*Procédure de candidature*
Ne seront retenues que les candidatures justifiant un classement dans le
premier tiers de promotion en Master.
Envoyer les informations suivantes à Nicolas Hernandez et Emmanuel Morin
(prenom.nom à univ-nantes.fr)
- une lettre de motivation incluant votre positionnement par rapport aux
compétences attendues,
- un CV,
- un relevé de notes avec classement au Master (au moins pour la période
écoulée),
- un lien vers un site web présentant le programme de votre master
- et des lettres de recommandations de vos encadrants scientifiques.
Cette thèse pourra être précédée d'un stage de master recherche financé
sur le même thème. Prendre contact.

*Plus d'information sur le sujet de thèse*
http://e.nicolas.hernandez.free.fr/pub/rec/13
http://www.edstim.fr/these/sujets-de-these/informatique


-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listserv.linguistlist.org/pipermail/parislinguists/attachments/20130321/f53bde1c/attachment.htm>


More information about the Parislinguists mailing list