Job: Stage Master 2, Resume par extraction, coreferences et generation de liaisons entre phrases extraites

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Fri Jan 13 21:27:06 UTC 2012


Date: Wed, 11 Jan 2012 15:57:18 +0100
From: Gaël de Chalendar <Gael.de-Chalendar at cea.fr>
Message-ID: <60287629.zCFZgxJY5d at localhost.localdomain>


Choral est un système de résumé automatique mono-document par extraction
développé au LVIC, industrialisé et mis à la disposition des 3000
utilisateurs de l'IRSN [1]. Choral repose largement sur l'analyseur
linguistique multilingue du laboratoire, LIMA [2]. Actuellement, Choral
se contente d'extraire verbatim les phrases du document source qu'il
juge les plus pertinentes selon plusieurs critères (sens des mots les
plus représentés dans le document, expressions exprimant le point de vue
de l'auteur, présence de syntagmes nominaux complexes, ...).

Le but du stage sera d'améliorer la lisibilité des textes produits de
deux manières:

- en exploitant la résolution de coréférences dont LIMA est
  capable. LIMA sait détecter les référents des pronoms: dans les
  phrases "Nathan va à la bibliothèque. Il va rendre ses livres.", LIMA
  sera capable de détecter que "Il" réfère à "Nathan". Or, actuellement,
  Choral n'exploite pas cette information, pouvant éventuellement
  n'extraire que la deuxième phrase, ce qui ne permet pas de savoir au
  lecteur qui est le "Il" en question. Le stagiaire modifiera Choral
  pour prendre en compte cette information déjà présente dans les
  résultats de l'analyse linguistique ;

- en générant du texte permettant de synthétiser les idées principales
  situées entre les phrases retenues pour l'extraction. Cette partie
  part de la constatation qu'une phrase extraite peut perdre son intérêt
  hors de son contexte, et ce même si les idées qu'elle porte sont très
  importantes pour le texte. Il s'agira donc de réfléchir à des moyens
  de regénérer ce qu'il faudra pour rendre ce contexte intelligible. Ce
  pourra être la génération de mots-clés, le repérage et l'extraction
  des définitions de ce dont il est question dans l'extrait, etc.

Le stage se déroulera de la manière suivante:

- prise en main des outils et du code ;
- implémentation de l'exploitation des coréférences et évaluation ;
- en parallèle, bibliographie orientée sur la deuxième partie
  (génération...)  ;
- proposition de solutions pour la deuxième partie ;
- implémentation des propositions effectuées.

Le stage se déroulera dans les nouveau locaux du LVIC situés à NanoInnov
à Palaiseau (près de Polytechnique, Sup'Optique, Thales et Danone).

Durée du stage : 6 mois
Formation souhaitée : Ingénieur/Master 2

Gael de Chalendar
CEA LIST
Laboratoire Vision et Ingénierie des Contenus
(Vision and Content Engineering Laboratory)

CEA SACLAY - NANO INNOV
BAT. 861
Point courier 173
91191 GIF SUR YVETTE

Tél.:+33.1.69.08.01.50Fax:+33.1.69.08.01.15 
Email : Gael.D.O.T.de-Chalendar.A at T.cea.D.O.T.fr

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list