Job: informaticien en TAL, Cepidc, Inserm
Thierry Hamon
hamon at LIMSI.FR
Sat Oct 11 20:04:24 UTC 2014
Date: Fri, 10 Oct 2014 10:23:31 +0200
From: Grégoire Rey <gregoire.rey at inserm.fr>
Message-ID: <54379783.7030108 at inserm.fr>
X-url: http://www.cepidc.inserm.fr/
Le Centre d'épidémiologie sur les causes médicales de décès (CépiDc) de
l’Inserm recrute :
Un informaticien en traitement automatique du langage (TAL)
Description du poste
Contexte :
La production de la statistique des causes médicales de décès se fonde
sur la réception de près de 550 000 certificats de décès par an, dont
environ 6% sont transmis par voie électronique (via
www.certdc.inserm.fr). Cette proportion devrait augmenter sensiblement
dans un futur proche.
Les certificats papiers et électroniques ont le même format structuré,
conforme au modèle préconisé par l'OMS. Bien que la structure du
certificat incite les médecins à séparer des entités nosologiques (des
maladies, états morbides ou traumatismes), le texte rédigé est
relativement libre et nécessite dans la majorité des cas un traitement
automatique de standardisation. Celui-ci vise à bien séparer les entités
nosologiques, à reconstituer leur ordre de causalité et à corriger les
fautes d'orthographe. Après standardisation, un code de la
classification internationale des maladies (CIM) est attribué à chaque
entité nosologique à l'aide d'un index (comptant environ 160 000 entrées
aujourd'hui).
Alors que le texte des certificats papiers est manuellement saisi et
standardisé par une entreprise externe au service, le texte des
certificats électroniques fait uniquement l'objet d'application de
règles syntaxiques simples, qui rendent nécessaire et conséquent un
traitement manuel du texte avant l’exploitation par Iris.
Missions
Dans le cadre de la production de la base des causes médicales de décès,
l'agent aura pour missions principales :
- le suivi de la qualité de la saisie des certificats de décès,
- l'automatisation du traitement du texte médical pour l’accélérer et
améliorer sa qualité,
- la participation à l’alerte sanitaire.
Activités
- Assurer le suivi du marché externalisé de saisie des certificats de
décès,
- Développer les règles de traitement automatique du texte médical avec
les outils existant dans le service,
- Lister les modifications nécessaires non prises en charge par les
règles de traitement automatique du langage proposées par les outils
existants,
- Participer à une revue des méthodes existantes de traitement
automatique du langage à mobiliser pour prendre en charge ces
modifications,
- Mettre en oeuvre et tester différentes méthodes de traitement
automatique du langage, maximisant la proportion de texte standardisé
et minimisant la proportion d’erreurs provoquée par le traitement
- Mettre à jour la liste des expressions présentes dans l’index afin de
minimiser sa taille, de faciliter sa maintenance et de pouvoir ainsi
le transmettre à d’autres pays francophones.
Spécificité du poste
- Les données traitées par le CépiDc sont de nature médicale et
strictement confidentielle.
Le CépiDc est situé à l’hôpital du Kremlin-Bicêtre (Val de Marne). Il a
pour missions principales de produire les données nationales de
mortalité par cause, de diffuser, d'assister les utilisateurs et de
mener des recherches sur ces données.
Le CépiDc est centre collaborateur OMS pour la Famille des
Classifications Internationales (FCI) en langue française.
Profil recherché
Connaissances :
- Des méthodes de traitement automatique du langage (TAL) : grammaires
formelles, syntaxe formelle, analyse syntaxique automatique,
- Des langages de programmation (C, Perl, Python...) et de gestion de
bases de données (SQL),
- Lecture de l'anglais scientifique.
Savoir-faire :
- Développement et adaptation de méthodes TAL à une nouvelle
problématique,
- Evaluation des performances obtenues par les méthodes,
- Rédaction de documentation méthodologique (rapport, article),
- Gestion des relations avec un prestataire extérieur.
Aptitudes :
- Capacité de formalisation de problématique de traitement du texte,
- Capacité à travailler en équipe avec des acteurs variés (médecins,
nosologistes, statisticiens, épidémiologistes),
- Rigueur,
- Esprit d'initiative.
Contrat proposé
Contrat à durée déterminée : temps plein de 12 mois renouvelable
Rémunération : entre 2 031 et 2 465 € bruts selon l’expérience et le
niveau de formation par référence aux grilles de l’Inserm
Date de prise de fonction : 01/12/2014
Formation
BAC +3/5 en linguistique informatique, spécialité traitement automatique
du langage (Licence, Master, école d’ingénieur...).
Expérience professionnelle souhaitée :
Débutant accepté
Pour postuler, merci d’envoyer CV et lettre de motivation à :
Grégoire Rey
Directeur du CépiDc de l'Inserm
gregoire.rey at inserm.fr
Tel : 01 49 59 18 63
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
ATALA décline toute responsabilité concernant le contenu des
messages diffusés sur la liste LN
-------------------------------------------------------------------------
More information about the Ln
mailing list