Job: Post-doc, Suivi de theme et resume automatique multi-documents au LIPN (U. Paris 13)

Tue Oct 16 16:00:16 UTC 2007

Date: Tue, 16 Oct 2007 13:54:53 +0200
From: Thierry Poibeau <Thierry.Poibeau at lipn.univ-paris13.fr>
Message-Id: <34a708ae7dc1da7d0df922bdff7b4ec9 at lipn.univ-paris13.fr>
X-url: http://nlp.uned.es/weps/summary.html,
X-url: http://www-nlpir.nist.gov/projects/duc/intro.html

Proposition de POST-DOC

SUIVI DE THEME ET RESUME AUTOMATIQUE MULTI-DOCUMENTS EN ENVIRONNEMENT
WEB

CONTEXTE

L'équipe Représentation des Connaissances et Langue Naturelle (RCLN)
du Laboratoire d'Informatique de Paris-Nord (LIPN) développe depuis
plusieurs années des techniques de repérage automatique des entités
nommées. L'analyse repose essentiellement sur des dictionnaires et des
grammaires. L'équipe RCLN souhaite renforcer ses recherches dans ce
domaine en ayant davantage recours aux techniques d'apprentissage.

On envisage deux types de développements complémentaires aux travaux
actuels dans l'équipe :

1) améliorer la reconnaissance des entités en abordant le problème de
la désambiguïsation et de la normalisation des entités (regrouper
ensemble les formes linguistiques référant à la même personne ;
séparer les homonymes)

2) utiliser ces fonctionnalités dans le cadre du résumé automatique
(suivi d'événements sur la base d'entités partagées entre plusieurs
textes ; détection de nouveauté ; résumé multi-documents) L'objectif
pour la validation de ces recherches est la participation à des
compétitions nationales ou internationales. La campagne d'évaluation
"Web People Search" (http://nlp.uned.es/weps/summary.html, lors de
Semeval 2007) a permis de montrer la faisabilité et l'intérêt de ce
type de recherche. La tâche vise à désambiguïser dynamiquement des
noms personnes dans le cadre d'une recherche sur internet. Comme les
noms de personnes sont largement ambigus, une recherche sur un simple
nom propre retourne généralement un ensemble de pages concernant des
personnes différentes. La tâche vise à regrouper dynamiquement les
pages web se rapportant à une même personne.

La campagne DUC (Document Understanding Conferences,
http://www-nlpir.nist.gov/projects/duc/intro.html) vise l'évaluation
des systèmes de résumé multi-documents et la détection de nouveauté
(update task, DUC 2007). Elle est donc très pertinente pour le sujet.
Les données des campagnes passées permettront de mettre au point le
système visé mais l'objectif est de participer directement à une
campagne d'évaluation. En conséquence, le travail portera
essentiellement sur l'anglais.

PROFIL RECHERCHE

Le (ou la) candidat(e) devra être titulaire d'un doctorat en
informatique ou d'un domaine proche, ayant de préférence de bonnes
connaissances en apprentissage artificiel et/ou en traitement
automatique des langues. Des compétences en développement
d'applications sont souhaitables. Une bonne maîtrise de l'anglais est
indispensable.

LIEU, DUREE DU CONTRAT ET REMUNERATION

Contrat de 12 mois pouvant commencer à compter du 1er novembre 
(possibilités d'extension au-delà d'un an)
Rémunération suivant qualification

Le poste est à pourvoir au LIPN (adresse ci-dessous)

COMMENT POSTULER ?

Envoyer un CV et une lettre de motivation par mail à l'adresse
ci-dessous (rubrique contact) avant la fin octobre 2007.

CONTACT

Thierry Poibeau
Laboratoire d'Informatique de Paris-Nord (LIPN)
CNRS UMR 7030 et Université Paris 13
99, avenue Jean-Baptiste Clément
93430 Villetaneuse

mail : prenom.nom at lipn.univ-paris13.fr

----------------------------------

TOPIC TRACKING AND AUTOMATIC MULTI-DOCUMENT SUMMARIZATION ON THE WEB

CONTEXT

The NLP team at Laboratoire d'Informatique de Paris-Nord (LIPN) in the 
North of Paris has developped a tool for the automatic recognition of 
named entities in texts. The analysis is mainly based on dictionaries 
and automata but can easily be extended with the integration of machine 
learning techniques.

The team is willing to increase its research potential in the domain 
towards two complementary directions:

1) develop new techniques for named entity disambiguaton and 
normalization (group together names referring to the same entity, 
distinguish over homonyms)
2) use the named entity module for multi-document summarization 
(grouping together documents on the same topic, update detection).

The evaluation of the approach will be done through the participation 
to national and international challenges.  Web People Search 
(http://nlp.uned.es/weps/summary.html, during Semeval 2007) was 
concerned with the first topic. Document Understanding Conferences 
(http://www-nlpir.nist.gov/projects/duc/intro.html) is concerned with 
the latter. Training as well as test sets from past conferences will be 
used as training data but our aim is to actively participate to a 
forthcoming evaluation. The work will be mainly done on English texts.

PROFILE

Candidates must have a PhD in Computer Science, preferably with 
knowledge in Machine Learning (ML) and/or Natural language Processing 
(NLP). Software engineerring experience is a plus. Fluent English is 
mandatory (and French is a plus).

SALARY AND DURATION

The contract is 12 months long (with a beginning as soon as possible) 
and can be further extended
Salary depends on experience
The position requires working at LIPN (see address below)

HOW TO APPLY

Send a CV and a cover letter to the following email (see contact) 
before the end of October 2007

CONTACT

Thierry Poibeau
Laboratoire d'Informatique de Paris-Nord (LIPN)
CNRS UMR 7030 et Université Paris 13
99, avenue Jean-Baptiste Clément
93430 Villetaneuse

mail : prenom.nom at lipn.univ-paris13.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------