Job: informaticien en TAL, Cepidc, Inserm

Thierry Hamon hamon at LIMSI.FR
Sat Oct 11 20:04:24 UTC 2014


Date: Fri, 10 Oct 2014 10:23:31 +0200
From: Grégoire Rey <gregoire.rey at inserm.fr>
Message-ID: <54379783.7030108 at inserm.fr>
X-url: http://www.cepidc.inserm.fr/

Le Centre d'épidémiologie sur les causes médicales de décès (CépiDc) de
l’Inserm recrute :

Un informaticien en traitement automatique du langage (TAL)

Description du poste

Contexte :
La production de la statistique des causes médicales de décès se fonde
sur la réception de près de 550 000 certificats de décès par an, dont
environ 6% sont transmis par voie électronique (via
www.certdc.inserm.fr). Cette proportion devrait augmenter sensiblement
dans un futur proche.

Les certificats papiers et électroniques ont le même format structuré,
conforme au modèle préconisé par l'OMS. Bien que la structure du
certificat incite les médecins à séparer des entités nosologiques (des
maladies, états morbides ou traumatismes), le texte rédigé est
relativement libre et nécessite dans la majorité des cas un traitement
automatique de standardisation. Celui-ci vise à bien séparer les entités
nosologiques, à reconstituer leur ordre de causalité et à corriger les
fautes d'orthographe. Après standardisation, un code de la
classification internationale des maladies (CIM) est attribué à chaque
entité nosologique à l'aide d'un index (comptant environ 160 000 entrées
aujourd'hui).

Alors que le texte des certificats papiers est manuellement saisi et
standardisé par une entreprise externe au service, le texte des
certificats électroniques fait uniquement l'objet d'application de
règles syntaxiques simples, qui rendent nécessaire et conséquent un
traitement manuel du texte avant l’exploitation par Iris.

Missions

Dans le cadre de la production de la base des causes médicales de décès,
l'agent aura pour missions principales :

- le suivi de la qualité de la saisie des certificats de décès,
- l'automatisation du traitement du texte médical pour l’accélérer et
  améliorer sa qualité,
- la participation à l’alerte sanitaire.

Activités

- Assurer le suivi du marché externalisé de saisie des certificats de
  décès,
- Développer les règles de traitement automatique du texte médical avec
  les outils existant dans le service,
- Lister les modifications nécessaires non prises en charge par les
  règles de traitement automatique du langage proposées par les outils
  existants,
- Participer à une revue des méthodes existantes de traitement
  automatique du langage à mobiliser pour prendre en charge ces
  modifications,
- Mettre en oeuvre et tester différentes méthodes de traitement
  automatique du langage, maximisant la proportion de texte standardisé
  et minimisant la proportion d’erreurs provoquée par le traitement
- Mettre à jour la liste des expressions présentes dans l’index afin de
  minimiser sa taille, de faciliter sa maintenance et de pouvoir ainsi
  le transmettre à d’autres pays francophones.

Spécificité du poste

- Les données traitées par le CépiDc sont de nature médicale et
  strictement confidentielle.

Le CépiDc est situé à l’hôpital du Kremlin-Bicêtre (Val de Marne). Il a
pour missions principales de produire les données nationales de
mortalité par cause, de diffuser, d'assister les utilisateurs et de
mener des recherches sur ces données.
Le CépiDc est centre collaborateur OMS pour la Famille des
Classifications Internationales (FCI) en langue française.

Profil recherché

Connaissances :

- Des méthodes de traitement automatique du langage (TAL) : grammaires
  formelles, syntaxe formelle, analyse syntaxique automatique,
- Des langages de programmation (C, Perl, Python...) et de gestion de
  bases de données (SQL),
- Lecture de l'anglais scientifique.

Savoir-faire :

- Développement et adaptation de méthodes TAL à une nouvelle
  problématique,
- Evaluation des performances obtenues par les méthodes,
- Rédaction de documentation méthodologique (rapport, article),
- Gestion des relations avec un prestataire extérieur.

Aptitudes :

- Capacité de formalisation de problématique de traitement du texte,
- Capacité à travailler en équipe avec des acteurs variés (médecins,
  nosologistes, statisticiens, épidémiologistes),
- Rigueur,
- Esprit d'initiative.

Contrat proposé

Contrat à durée déterminée : temps plein de 12 mois renouvelable
Rémunération : entre 2 031 et 2 465 € bruts selon l’expérience et le
  niveau de formation par référence aux grilles de l’Inserm
Date de prise de fonction : 01/12/2014

Formation

BAC +3/5 en linguistique informatique, spécialité traitement automatique
du langage (Licence, Master, école d’ingénieur...).

Expérience professionnelle souhaitée :
Débutant accepté

Pour postuler, merci d’envoyer CV et lettre de motivation à :
Grégoire Rey
Directeur du CépiDc de l'Inserm
gregoire.rey at inserm.fr
Tel : 01 49 59 18 63

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/

ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------



More information about the Ln mailing list