Job: Stage ou CDD, LIMSI, Citations dans des brevets

Thierry Hamon thierry.hamon at LIPN.UNIV-PARIS13.FR
Tue Apr 14 14:48:15 UTC 2009


Date: Fri, 10 Apr 2009 21:02:20 +0200
From: Pierre Zweigenbaum <pz at limsi.fr>
Message-Id: <200904102102.20357.pz at limsi.fr>
X-url: http://www.limsi.fr/~pz/

PROPOSITION DE STAGE OU CDD, printemps-été 2009

Discipline : informatique, traitement informatique des langues
Niveau : Master
Durée : 2 à 6 mois
Démarrage : dès que possible
Lieu : LIMSI-CNRS, Orsay
Rémunération : selon niveau
Contacts : envoyer un CV et une lettre de motivation à :
  Sophie Rosset <sophie.rosset at limsi.fr>
  Xavier Tannier <xavier.tannier at limsi.fr>
  Pierre Zweigenbaum <pz at limsi.fr>


Sujet : Repérage de citations dans des brevets internationaux

Le texte d'un brevet, tout comme un article scientifique, cite des
documents externes de différentes natures : autres brevets,
publications scientifiques, bases de données, etc. Ces documents sont
habituellement listés en fin de brevet, comme la liste de références
bibliographiques d'un ouvrage. Dans le corps du brevet, le mode de
citation de ces documents est variable, et utilise tout ou partie de
la désignation du document présente en fin de brevet.

Il s'agit de repérer automatiquement ces citations dans le corps du
brevet, de déterminer leur type, de repérer également la liste des
documents présente en fin de brevet, et de lier chaque citation au
document approprié. Chacun de ces éléments sera alors marqué par des
balises XML prises dans un répertoire fourni.

Le travail sera réalisé sur des brevets en trois langues : anglais,
français, allemand. Une collection importante d'exemples de brevets
déjà annotés est disponible et pourra servir pour la mise au point,
l'entraînement et l'évaluation des programmes.


Méthodes
--------

Plusieurs méthodes sont envisageables : le repérage de patrons de
citations à l'aide d'expressions régulières est la plus directe. Pour
mettre au point ces patrons, l'étude du corpus existant pourra être en
tout ou partie automatisée. Des approches utilisant des méthodes et
outils d'apprentissage automatique, comme par exemple les CRF,
pourront compléter ou se substituer à la mise au point de patrons.

Ce travail se fera dans le cadre du projet Quaero.


Compétences
-----------

Requises : écriture de scripts.

Appréciées : manipulation d'expressions régulières ; expérience du
travail sur corpus de textes ; expérience de l'usage de logiciels
d'apprentissage automatique ; connaissance de l'allemand.



Pierre Zweigenbaum
----
LIMSI - CNRS
Groupe LIR / Dépt. Communication Homme-Machine
Tél : (+33) (0)1 69 85 80 04 ; Fax : (+33) (0)1 69 85 80 88
Mél : pz at limsi.fr ; Toile : http://www.limsi.fr/~pz/
Lieu : Bâtiment 508, Université Paris XI, 
Courrier : LIMSI, BP 133, 91403 ORSAY Cedex, France
----

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list