Job: Stages Bac+5, Syllabs, Paris

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Tue Apr 7 16:40:40 UTC 2009


Date: Tue, 07 Apr 2009 10:08:54 +0200
From: Christelle Ayache <ayache at syllabs.com>
Message-ID: <49DB0A16.4070801 at syllabs.com>
X-url: http://labs.sinequa.com/rpm2/
X-url: http://www.syllabs.com/fr/contact.html

_______________________________________________________________


PROPOSITION DE 2 STAGES AU SEIN DE LA SOCIÉTÉ SYLLABS 
------------------------------------------------------

* La société : Syllabs (www.syllabs.com) est un jeune laboratoire de
  recherche privé spécialisé dans les domaines de la Gestion de
  l'Information et du Traitement Automatique des Langues. Syllabs est
  au cœur de trois activités complémentaires : La Recherche, les
  Développements Innovants et le Conseil.


Nous recherchons deux stagiaires BAC+5 en Informatique :

- Développement d'un outil de compression de phrases pour le résumé
  automatique de textes

- Développement d'un outil de catégorisation des opinions pour des
  domaines spécifiques


********************************
Outil de compression de phrases
********************************

* CONTEXTE : Projet ANR RPM2 (Résumé Plurimédia, Multi-documents et
  Multi-opinion). Pour plus d'infos : http://labs.sinequa.com/rpm2/

* SUJET DU STAGE : Développement d’un outil de compression de phrases
  pour le résumé automatique de textes

* OBJECTIFS DU STAGE : 

Le stage a pour objectif le développement d’un outil de compression de
phrases pour le résumé automatique de textes. Ce travail s’inscrit
dans le cadre d’un projet de recherche ANR relatif au développement
d’un système de résumé multimédia et multi-opinion. Dans ce contexte
particulier, nous nous intéressons au cas du résumé par extraction :
il s’agit de constituer un résumé par sélection et concaténation des
phrases les plus pertinentes du document source. Le résumé ainsi
produit peut alors présenter des éléments superflus et/ou redondants
que l’on souhaiterait éliminer. L’outil de compression de phrases
intervient à ce niveau. Il n’est cependant pas exclu que la
compression puisse intervenir en amont du système de résumé i.e. avant
la phase d’extraction des phrases pertinentes.

Il existe deux grandes approches pour la compression de phrases :
l’approche linguistique qui consiste à définir des règles et
l’approche statistique qui utilise un corpus d’apprentissage pour
détecter des régularités statistiques exploitables. Certaines méthodes
dites « hybrides » s’attachent à combiner ces deux approches afin de
tirer parti des avantages de chacune. A partir d’un état de l’art, la
personne recrutée sera amenée à réaliser une évaluation des méthodes
existantes afin de déterminer l’approche finale. Aucune approche n’est
privilégiée a priori. Une attention particulière devra être portée à
deux éléments caractéristiques d’une bonne compression : la
grammaticalité et la concision. La grammaticalité consiste à s’assurer
que la phrase est grammaticalement correcte. La concision correspond
au fait qu’une phrase compressée doit rendre compte de l’information
essentielle de la phrase originale.

Une évaluation des performances de l’outil sera réalisée en fin de
stage sur la base d’un corpus annoté manuellement. Des mesures
classiques d’évaluation seront utilisées avec prise en compte de la
grammaticalité et de la concision.

La personne sera intégrée à l’équipe en charge des projets de
recherche.


* CONNAISSANCES ET NIVEAU SOUHAITÉS :

- Linguistique Informatique, Bac+5 - Master 2
- Apprentissage supervisé (SVM, perceptron, modèles de Markov)
- Modèles de langages
- Bonne maîtrise du langage Java et d’un langage de script (Perl,
  Python)

* Eléments facultatifs mais considérés comme un plus :

- Maîtrise d'une ou plusieurs langues étrangères
- Connaissance des techniques de résumé automatique

* LIEU DU STAGE : Syllabs - http://www.syllabs.com/fr/contact.html

* RESPONSABLE : Aude Giraudel

* DURÉE DU STAGE : 6 mois

* DOSSIER DE CANDIDATURE : Merci de nous faire parvenir votre lettre
  de motivation ainsi que votre CV complet à l'adresse suivante :
  jobs at syllabs.com 


*************************************
Outil de catégorisation des opinions
*************************************

* CONTEXTE : Projet ANR RPM2 (Résumé Plurimédia, Multi-documents et
  Multi-opinion). Pour plus d'infos : http://labs.sinequa.com/rpm2/


* SUJET DU STAGE : Développement d’un outil de catégorisation des
  opinions pour des domaines spécifiques


* OBJECTIFS DU STAGE : 

L’objectif du stage est la mise en place d’un outil de catégorisation
des opinions dans un ensemble de classes de type positif, négatif,
neutre. Ce travail s’inscrit dans le cadre d’un projet de recherche
ANR relatif au développement d’un système de résumé multimédia et
multi-opinion. Dans ce contexte particulier, il s’agit de produire des
résumés textuels prenant en compte les opinions afin de donner la
parole à des courants distincts, des sources d’informations avec des
points de vue différents. En cela, l’étiquetage de l’opinion, ce
qu’elle exprime, nous intéresse particulièrement et il s’agit ici de
faire de la catégorisation selon des types d’opinions préétablis afin
de pouvoir rendre dans le résumé final les différents points de vue
exprimés.

Dans une première phase, il s’agira de mettre en place un outil
d’extraction d’opinions et de catégorisation de ces opinions. Le
formalisme utilisé reste à définir. Des lexiques d’opinions
thématiques devront cependant probablement être spécifiés et
développés. Ce travail sera mené en étroite collaboration avec le pôle
linguistique de la société. Cette première phase constitue la brique
de base du système.

Dans une seconde phase, on s’attachera à mettre en place un système de
rattachement des objets cibles aux opinions exprimées. On se
focalisera alors sur les objets du domaine, leurs instances, leurs
attributs ainsi que leurs propriétés pour construire un système
complet d’analyse d’opinion. L’étude passera par une étape de
modélisation du domaine ainsi que par la mise en place d’un processus
qui fera le lien entre le modèle du domaine et les lexiques d’opinions
déjà développés.

La personne sera intégrée à l’équipe en charge des projets de
recherche.


* CONNAISSANCES ET NIVEAU SOUHAITÉS :

- Linguistique Informatique, Bac+5 - Master 2
- Modélisation des connaissances
- Algorithmes de catégorisation
- Bonne maîtrise du langage Java et d’un langage de script (Perl,
  Python)
- Bonnes connaissances dans les domaines du Traitement Automatique des
  Langues


* Eléments facultatifs mais considérés comme un plus :

- Maîtrise d'une ou plusieurs langues étrangères
- Analyse et classification d’opinions

* LIEU DU STAGE : Syllabs - http://www.syllabs.com/fr/contact.html

* RESPONSABLE : Aude Giraudel

* DURÉE DU STAGE : 6 mois

* DOSSIER DE CANDIDATURE : Merci de nous faire parvenir votre lettre
  de motivation ainsi que votre CV complet à l'adresse suivante :
  jobs at syllabs.com

 
-------------------------------------------------------------
Christelle Ayache - Chef de projet / Linguiste
Syllabs (entreprise agréée CIR)
15 rue Jean-Baptiste Berlier 75013 Paris
Tel : 01.55.43.76.36 / Fax : 01.55.43.76.35 (New!)
Courriel : ayache at syllabs.com
Site Web : www.syllabs.com
-------------------------------------------------------------

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list