[Corpora-List] Post-doc offer: Topic Tracking and Automatic Multi-document Summarization (Villetaneuse, France)

Thierry Poibeau tpoibeau at yahoo.fr
Fri Oct 12 15:11:13 UTC 2007


Post-doc offer, French version below.

(please, reply to the contact address mentionned at the end of the offer, not directly to this email. Thanks)


----------------------------------

TOPIC TRACKING AND AUTOMATIC MULTI-DOCUMENT SUMMARIZATION ON THE WEB

CONTEXT

The NLP team at Laboratoire d'Informatique de Paris-Nord (LIPN) in the North of Paris has developped a tool for the automatic recognition of named entities in texts. The analysis is mainly based on dictionaries and automata but can easily be extended with the integration of machine learning techniques.

The team is willing to increase its research potential in the domain towards two complementary directions:

1) develop new techniques for named entity disambiguaton and normalization (group together names referring to the same entity, distinguish over homonyms)
2) use the named entity module for multi-document summarization (grouping together documents on the same topic, update detection).

The evaluation of the approach will be done through the participation to national and international challenges.  Web People Search (http://nlp.uned.es/weps/summary.html, during Semeval 2007) was concerned with the first topic. Document Understanding Conferences (http://www-nlpir.nist.gov/projects/duc/intro.html) is concerned with the latter. Training as well as test sets from past conferences will be used as training data but our aim is to actively participate to a forthcoming evaluation. The work will be mainly done on English texts.

PROFILE

Candidates must have a PhD in Computer Science, preferably with knowledge in Machine Learning (ML) and/or Natural language Processing (NLP). Software engineerring experience is a plus. Fluent English is mandatory (and French is a plus).

SALARY AND DURATION

The contract is 12 months long (with a beginning as soon as possible) and can be further extended
Salary depends on experience
The position requires working at LIPN (see address below)

HOW TO APPLY

Send a CV and a cover letter to the following email (see contact) before the end of October 2007

CONTACT

Thierry Poibeau
Laboratoire d'Informatique de Paris-Nord (LIPN)
CNRS UMR 7030 et Université Paris 13
99, avenue Jean-Baptiste Clément
93430 Villetaneuse

mail : thierry.poibeau _at_ lipn.univ-paris13.fr

--------------------

Proposition de POST-DOC



SUIVI DE THEME ET RESUME AUTOMATIQUE MULTI-DOCUMENTS EN ENVIRONNEMENT WEB





CONTEXTE



L'équipe Représentation des Connaissances et Langue Naturelle (RCLN) du
Laboratoire d'Informatique de Paris-Nord (LIPN) développe depuis
plusieurs années des techniques de repérage automatique des entités
nommées. L'analyse repose essentiellement sur des dictionnaires et des
grammaires. L'équipe RCLN souhaite renforcer ses recherches dans ce
domaine en ayant davantage recours aux techniques d'apprentissage.



On envisage deux types de développements complémentaires aux travaux actuels dans l'équipe :

1) améliorer la reconnaissance des entités en abordant le problème de
la désambiguïsation et de la normalisation des entités (regrouper
ensemble les formes linguistiques référant à la même personne ; séparer
les homonymes)

2) utiliser ces fonctionnalités dans le cadre du résumé automatique
(suivi d'événements sur la base d'entités partagées entre plusieurs
textes ; détection de nouveauté ; résumé multi-documents)

L'objectif pour la validation de ces recherches est la participation à
des compétitions nationales ou internationales. La campagne
d'évaluation "Web People Search" (http://nlp.uned.es/weps/summary.html,
lors de Semeval 2007) a permis de montrer la faisabilité et l'intérêt
de ce type de recherche. La tâche vise à désambiguïser dynamiquement
des noms personnes dans le cadre d'une recherche sur internet. Comme
les noms de personnes sont largement ambigus, une recherche sur un
simple nom propre retourne généralement un ensemble de pages concernant
des personnes différentes. La tâche vise à regrouper dynamiquement les
pages web se rapportant à une même personne.



La campagne DUC (Document Understanding Conferences,
http://www-nlpir.nist.gov/projects/duc/intro.html) vise l'évaluation
des systèmes de résumé multi-documents et la détection de nouveauté
(update task, DUC 2007). Elle est donc très pertinente pour le sujet.
Les données des campagnes passées permettront de mettre au point le
système visé mais l'objectif est de participer directement à une
campagne d'évaluation. En conséquence, le travail portera
essentiellement sur l'anglais.



PROFIL RECHERCHE



Le (ou la) candidat(e) devra être titulaire d'un doctorat en
informatique ou d'un domaine proche, ayant de préférence de bonnes
connaissances en apprentissage artificiel et/ou en traitement
automatique des langues. Des compétences en développement
d'applications sont souhaitables. Une bonne maîtrise de l'anglais est
indispensable.



LIEU, DUREE DU CONTRAT ET REMUNERATION



Contrat de 12 mois pouvant commencer à compter du 1er novembre (possibilités d'extension au-delà d'un an)

Rémunération suivant qualification



Le poste est à pourvoir au LIPN (adresse ci-dessous)



COMMENT POSTULER ?



Envoyer un CV et une lettre de motivation par mail à l'adresse ci-dessous (rubrique contact) avant la fin octobre 2007.



CONTACT



Thierry Poibeau

Laboratoire d'Informatique de Paris-Nord (LIPN)

CNRS UMR 7030 et Université Paris 13

99, avenue Jean-Baptiste Clément

93430 Villetaneuse



mail : thierry.poibeau _at_ lipn.univ-paris13.fr








      _____________________________________________________________________________ 
Ne gardez plus qu'une seule adresse mail ! Copiez vos mails vers Yahoo! Mail 

_______________________________________________
Corpora mailing list
Corpora at uib.no
http://mailman.uib.no/listinfo/corpora



More information about the Corpora mailing list