Job: Post-doc, Apprentissage pour entites nommees multilingues, LIMSI

Sat Aug 6 09:38:06 UTC 2011

Date: Thu, 4 Aug 2011 23:50:32 +0200
From: Pierre Zweigenbaum <pz at limsi.fr>
Message-Id: <201108042350.32508.pz at limsi.fr>
X-url: http://sites.google.com/site/projetedylex/
X-url: http://www.limsi.fr/

[version française : voir plus bas]

================================================================
POSTDOCTORAL POSITION AT LIMSI-CNRS

    Topic: New methods for learning Named Entity Recognition systems
    in a multilingual context.

The development of Natural Language Processing systems is impeded by
the absence of annotated data in some languages.  A possible solution
consists in transferring analyses available in one language to
comparable texts in another language.  This makes it possible to train
new systems based on these new annotations.

The proposed project will tackle more specifically the case of Named
Entity Recognition in a context where a "synchronous comparable
corpus" (or "noisy parallel corpus") is available: AFP news in French,
English, Spanish (German, Portuguese and Arabic are also available).

The goal is to take advantage of the parallelism of news written in
multiple languages to help recognize named entities:

 - in a language for which a Named Entity Recognition system is
   already available, strengthen recognition through entities found in
   parallel articles in other languages;

 - in a (target) language for which no NER system is available,
   transfer into that language the analyses obtained in a (source)
   language for which a NER system is available, and use them to train
   a system in that (target) language.

LIMSI has:

 - NER systems for French, English and Spanish (with varying levels of
   performance);

 - methods for detecting translation relations among news articles.

This work takes place in the context of the EDyLex project, funded by
the French National Research Agency, whose goal is to process unknown
words in texts (http://sites.google.com/site/projetedylex/).  The work
of the successful candidate will be focused on the detection and
categorization of named entities in a multilingual context.

The work will be performed at LIMSI-CNRS in Orsay
(http://www.limsi.fr/) on the campus of University Paris-South.  Two
teams at LIMSI are involved in the project: ILES (written and signed
language processing) and TLP (spoken language processing).

QUALIFICATIONS AND POSITION

The successful candidate will have a track record of Machine Learning
for Natural Language Processing research.  A strong preference will be
given to those candidates with experience in Named Entity Recognition
or Speech Language Understanding.  Fluency in one or more languages of
the project beyond English is mandatory.  Applicants should have
received (by the starting date) a PhD in Machine Learning,
Computational Linguistics or related areas.

This position is for 12 months and may begin as early as Oct 1st,
2011, or soon thereafter.  Salary follows CNRS scales and depends on
the candidate's experience (the minimum monthly net salary is about
2,000 €).

To apply, please send a cover letter, describing how the applicant's
knowledge and research background will contribute to the project, a
CV, and the names and contact information of two referees to:

  Pierre Zweigenbaum (pz at limsi.fr) and Sophie Rosset (rosset at limsi.fr)

================================================================
POST-DOCTORAT AU LIMSI-CNRS

Nouvelles méthodes pour l'apprentissage de systèmes de reconnaissances
d'entités nommées dans un contexte multilingue.

Le développement de systèmes de traitement automatique des langues est
gêné par l'absence de données annotées dans certaines langues. Une
solution possible consiste à transposer les analyses disponibles dans
une langue à des textes comparables dans une autre langue. Cela permet
d'entraîner de nouveaux systèmes à l'aide de ces nouvelles annotations.

Le projet proposé s'intéressera en particulier au cas des entités
nommées dans un contexte où l'on dispose d'un corpus « comparable
synchrone » (ou « parallèle bruité ») : des dépêches de l'AFP en
français, anglais, espagnol (l'allemand, l'arabe et le portugais sont
aussi disponibles).

L'objectif est de profiter du parallélisme entre dépêches écrites dans
plusieurs langues pour aider à la reconnaissance d'entités nommées :

 - dans une langue pour laquelle on dispose déjà d'un système de
   reconnaissance d'entités, renforcer la reconnaissance en s'appuyant
   sur les entités reconnues dans des articles parallèles d'autres
   langues ;

 - dans une langue (cible) pour laquelle on ne dispose pas d'un
   système de reconnaissance d'entités, transposer dans cette langue
   les analyses faites sur une langue (source) pour laquelle on
   dispose d'un système, et s'en servir pour entraîner un système dans
   cette langue (cible).

On dispose en outre :

 - de systèmes de reconnaissance d'entités nommées pour le français,
   l'anglais et l'espagnol (avec différents niveaux de performance);

 - de méthodes pour la détection des dépêches en relation de
   traduction.

Ce travail prend place dans le contexte du projet ANR EDyLex, dont
l'objectif principal est de traiter les mots inconnus dans des textes
(http://sites.google.com/site/projetedylex/). Le travail du candidat
porte plus précisément sur les entités nommées, leur détection et leur
typage, dans un contexte multilingue.

Le travail s'effectuera au LIMSI-CNRS à Orsay (http://www.limsi.fr/)
dans le département communication homme-machine. Deux équipes sont
concernées par les thématiques du projet : ILES (traitement de la
langue écrite et signée) et TLP (traitement de la langue parlée).

PROFIL ET POSTE

Le candidat devra maîtriser l'apprentissage automatique pour le
traitement automatique des langues. Une expérience en reconnaissance
d'entités nommées ou en compréhension de l'oral sera appréciée.
Une connaissance approfondie d'une ou plusieurs langues du projet
au-delà de l'anglais est nécessaire. Le candidat doit avoir soutenu
une thèse (à la date de début du contrat) en apprentissage
automatique, en traitement automatique des langues ou dans un domaine
proche.

Le poste est à pourvoir à partir du 1er octobre pour une durée de 12
mois. Le salaire correspond aux grilles CNRS et dépend de l'expérience
du candidat (le minimum est de l'ordre de 2000 € net par mois).

Envoyer un CV et une lettre de motivation à :
  Pierre Zweigenbaum <pz at limsi.fr> et Sophie Rosset <rosset at limsi.fr>
en indiquant une liste d'au moins deux référents pouvant recommander
le candidat.

Pierre Zweigenbaum
----
LIMSI - CNRS
Groupe ILES / Dépt. Communication Homme-Machine
Tél : (+33) (0)1 69 85 80 04 ; Fax : (+33) (0)1 69 85 80 88
Mél : pz at limsi.fr ; Toile : http://www.limsi.fr/~pz/
Lieu : Bâtiment 508, Université Paris-Sud 11
Courrier : LIMSI, BP 133, 91403 ORSAY Cedex, France
----

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------