Job: Stage, developper un outil de conversion "html to text" pour l'extraction d'evenements a partir d'articles journalistiques

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Wed Dec 9 14:10:47 UTC 2009


Date: Wed, 09 Dec 2009 13:38:50 +0100
From: Guillaume Jacquet <guillaume.jacquet at xrce.xerox.com>
Message-ID: <4B1F9A5A.5040506 at xrce.xerox.com>


Proposition de stage
Date : à partir de janvier 2010
Durée : entre 4 et 6 mois

Sujet : Développer un outil de conversion "html to text" pour
l'extraction d'évènements à partir d'articles journalistiques

L'équipe Parsing&Semantics du centre de recherche XRCE Meylan
recherche un stagiaire pour travailler sur un projet européen, SynC3,
dont l’objectif est de développer un outil capable de représenter les
sentiments provenant de blogs qui parlent d’évènements mentionnés dans
des articles de presse.

Il s'agit plus précisément de participer au développement d'un outil
capable de convertir un article journalistique qui se présente sous la
forme d'un fichier html en un fichier texte ne contenant que le texte
pertinent du fichier html.

Les différentes tâches sont les suivantes:

- développer et améliorer un module existant de conversion de fichier
  html en fichier texte (développé en Java)

- travailler sur la segmentation d'articles. Identifier les
  différentes parties de l'article (titre, paragraphes, auteurs,
  etc.).


Profil demandé :

Le candidat doit maîtriser la manipulation de fichiers html et doit
posséder une très bonne connaissance de Java. Un bon niveau en anglais
est requis.
Des connaissances concernant la plateforme UIMA seraient un plus.

Les candidatures sont à envoyer à l'adresse suivante:
guillaume.jacquet at xrce.xerox.com

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list