Job: Post doc / ingenieur linguistique informatique - Universite Stendhal Grenoble 3

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Jan 29 17:51:31 UTC 2010


Date: Wed, 27 Jan 2010 11:52:23 +0100
From: Olivier Kraif <olivier.kraif at sfr.fr>
Message-ID: <4B601AE7.7030602 at sfr.fr>


*Titre du poste* : /Post-doc ou ingénieur en linguistique
informatique: constitution d'un corpus multilingue avec alignement et
annotations syntaxiques/

 

*Lieu* : Laboratoire LIDILEM - Université Stendhal, Grenoble 3
*Durée* : 10 mois de mars 2010 à décembre 2010 (temps partiel ou
 complet)

*Description du poste et responsabilités *

-------------------------------------
Le candidat recruté participera au Projet EMOLEX, financé par l'ANR
(cf.  résumé ci-dessous) et sera en charge de la constitution et de
l'annotation d'un corpus multilingue (allemand, français, anglais,
russe et espagnol)

 

*Principales missions* (liste non limitative) :

----------------------------------------
- Collecte de corpus monolingues et multilingues sur le Web

- Reformatage et balisage structurel

- Annotation syntaxique :

* mise en oeuvre de parseurs à base de règles et à base de méthodes
  stochastique

* post- traitements en sortie des analyseurs syntaxiques : évaluation,
  correction et extraction de dépendances correspondant à des
  relations syntaxiques profondes

* mise au point d'une annotation pivot permettant d'harmoniser des
  annotations syntaxiques issues de différents parseurs appliqués à
  différentes langues (en vue de l'étude contrastive).

 
- Alignement d'une fraction du corpus (textes parallèles)

- Gestion du corpus via une base de données, adaptation et mise en
  ligne des outils d'interrogation existant.

*Compétences requises*

---------------------
- Connaissances approfondies en informatique ET en linguistique
  (lexicologie et syntaxe).

- Connaissance des technologies du TAL. Pratique de la méthodologie de
  traitement de corpus et des outils XML.

- Très bonne pratique de C, Perl ou Python, PHP/MySql.

- Méthodes statistiques pour le TAL.

- Bonne connaissance de l'environnement Linux.

- Bonne maîtrise du français et de l'anglais ; la maîtrise d'une autre
  langue du corpus (russe, allemand ou espagnol) serait fortement
  appréciée.

- Excellente capacité d'organisation, de communication et aptitude au
  travail d'équipe.

 

*Diplômes et expérience*

----------------------
Doctorat ou Master en sciences du langage ou en informatique, avec une
forte composante TAL.

Contact :

Olivier.Kraif at u-grenoble3.fr <mailto:Olivier.Kraif at u-grenoble3.fr>

Tél.* 04 76 82 43 97 / 06 71 20 95 38*

*Résumé du Projet EMOLEX*

* *

Fondé sur une approche multilingue et multidisciplinaire (typologie
intra et interlangue, sémantique lexicale, syntaxe, lexicographie,
didactique des langues étrangères, TAL) et basé sur une étude de
corpus, le projet a plusieurs objectifs. A partir d'un cadre théorique
articulant les approches « représentationnistes » et «
instrumentalistes » du sens (c'est-à-dire « sens»concept » vs
sens»usage »), le projet vise à analyser les valeurs sémantiques, le
comportement combinatoire (lexématique et syntaxique) et les rôles
discursifs des lexies des émotions dans cinq langues européennes
(allemand, français, anglais, russe et espagnol), ce qui permettrait
de mieux structurer le champ lexical des émotions par rapport à ce que
proposent les études existantes en lexicologie et lexicographie. Cette
« cartographie » aboutira au développement d'applications nouvelles en
didactiques des langues étrangères, en lexicographie et en TAL. Il
proposera de nouveaux matériaux didactiques pour l'enseignement /
apprentissage des associations lexicales privilégiées dans telle ou
telle langue (par ex. /rouge de colère/, /red with rage, rot vor Wut/)
dans le but d'une meilleure acquisition des collocations, d'un
réemploi systématique dans une activité de production de texte ou de
communication orale. Grâce à une modélisation des phénomènes
combinatoires du lexique des émotions, il contribuera à améliorer les
microstructures du dictionnaire où il est difficile d'intégrer des
contextes larges. Il permettra enfin d'améliorer les applications
logicielles existantes pour la recherche d'occurrences et de
structures syntaxiques dans de grands corpus multilingues et de créer
de nouveaux outils encore plus performants. Emolex réunit les
compétences de linguistes, didacticiens et spécialistes en TAL. Il se
situe au carrefour de la recherche fondamentale et appliquée.

* *

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list