Job: Stage fin d'etudes chez France Telecom R&D, Titrage a partir des abreges automatiques

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Fri Feb 27 20:31:08 UTC 2009


Date: Wed, 25 Feb 2009 11:15:05 +0100
From: <olivier.collin at orange-ftgroup.com>
Message-ID: <D2AA6DF1AEE4404F8D983B68BAC97CD205660514 at ftrdmel3>

 

Stage fin d'études chez France Télécom : "Titrage à partir des abrégés
automatiques"

Mission : 
L'équipe Langues Naturelles de France Télécom R&D dispose d'un outil
afin d'abréger automatiquement des textes. Dans le cadre d'un projet
du traitement des contenus multimédia nous envisageons d'utiliser des
abrégés très courts des textes courts et mono-thématiques (souvent
issus de la transcription automatique, donc contenant des erreurs)
afin de générer un titre car souvent les abrégés sont trop longs et
trop tirés du contexte pour être utilisés directement comme titre. Il
faut donc en extraire des syntagmes (par ex. groupes nominaux, entités
nommées) qui pourraient servir comme titre. La mission consistera à
travailler sur l'analyse des textes et leurs abrégés afin de voir
quels syntagmes pourraient pris comme titre :

* Faire les abrégés sur un corpus moyen des textes (configuration
  adaptée des outils)

* Analyse syntaxique des abrégés (et les mots-clés) pour pourvoir
  généraliser une règle qui permet d'en extraire un titre : groupes
  nominaux, entités nommées, ...

* Investiguer d'autres approches afin d'extraire des groupes nominaux
  des textes afin de générer un titre (par ex. en utilisant les
  mots-clés identifiés par l'abrégeur ou par le découpeur thématique

* Évaluation avec des titres créés manuellement sur un (autre) corpus

Profil : 
Bac +5 (master pro ou recherche)
Spécialisation du traitement automatique des langues

Compétences :
Bonnes connaissances en linguistique, plus particulièrement en syntaxe
(connaissances en sémantiques seront en plus) Connaissance de langages
de scripts (shell, python,...) Bonnes capacités d'analyse

Modalités (durée, période, localisation) :
Site de France Telecom Recherche et Développement de Lannion (22)
5 mois à partir de avril 2009

Contacts :
Johannes HEINECKE - 02 96 05 21 77 -
johannes(point)heinecke(arobase)orange-ftgroup(point)com

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list