Job: Post-doc, Extraction d'information a partir de textes medicaux, LIMSI, Paris
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Fri Jun 15 20:56:39 UTC 2012
Date: Fri, 15 Jun 2012 00:56:23 +0200
From: Pierre Zweigenbaum <pz at limsi.fr>
Message-Id: <201206150056.23773.pz at limsi.fr>
Profil de poste : Post-doctorant en traitement automatique des langues
Durée : 12 à 16 mois
Date de démarrage : septembre ou octobre 2012.
THÈME
Dans le cadre du projet ANR Accordys, le groupe ILES du LIMSI est à la
recherche d'un post-doctorant pour travailler sur l'analyse de textes
médicaux. Les documents proviennent de deux sources : des dossiers
médicaux (en français) et des résumés d'articles scientifiques indexés
dans Medline (en anglais). Le domaine concerné est la foetopathologie.
Un dossier médical se compose de plusieurs types de documents dont le
document central est le compte rendu d'examen foeto-placentaire qui peut
pointer sur d'autres documents (comptes rendus d'examens, avis de
médecins, résultats d'analyses, etc.). Il s'agit donc d'analyser des
textes relevant de genres différents en en extrayant les informations
nécessaires pour instancier un modèle de cas qui sera défini par un
autre partenaire du projet. On étudiera en particulier l'apport de
méthodes à base linguistique (mise en place et contribution d'une
analyse syntaxique robuste) et de méthodes par apprentissage supervisé
ou semi-supervisé.
La tâche inclut plusieurs dimensions de l'extraction d'informations à
partir de textes :
* Analyse de la structure des textes.
* Détection des entités médicales pertinentes (signes, organes, etc.)
et de leurs relations (localisation d'un signe, etc.), avec ancrage
référentiel à des ressources terminologiques et ontologiques. Cette
détection sera également utilisée pour anonymiser les informations
identifiantes (noms, lieux géographiques, etc.).
* Détection du cadre temporel et fonctionnel des informations extraites
(chronologie, types d'examens rapportant les informations, etc.).
Le post-doctorant mettra également en place, en collaboration avec des
spécialistes du domaine, un jeu de données de développement et
d'évaluation.
Missions résumées :
- extraction robuste d'informations à partir de textes par méthodes
d'apprentissage
- application à l'analyse et à l'anonymisation de textes
- intégration du module
- expérimentation et évaluation
Formation attendue :
- Doctorat en traitement automatique des langues
- Expérience d'analyse de corpus
- Connaissances en apprentissage automatique
Le poste est à pourvoir à partir du 1er septembre pour une durée de 12
mois extensible à 16 mois. Le salaire correspond aux grilles CNRS et
dépend de l'expérience du candidat (de l'ordre de 2000 € net par mois).
CONTACTS
Envoyer un CV et une lettre de motivation à :
Pierre Zweigenbaum (pz at limsi.fr) et Brigitte Grau (bg at limsi.fr)
en indiquant une liste d'au moins deux référents pouvant recommander le
candidat.
L'ÉQUIPE
Le groupe ILES du LIMSI-CNRS possède une expérience reconnue dans la
recherche d'informations précises (recherche de réponses à des
questions), l'extraction d'informations et le traitement de la langue
médicale. Ses projets en cours ou récents les plus pertinents pour
Accordys sont ceux qui portent sur ces trois thèmes : le projet
franco-allemand Quæro (recherche de réponses précises à des questions et
reconnaissance d'entités nommées, tâche qu'il coordonne) et les projets
ANR Akenaton (extraction d'informations à partir de comptes rendus en
cardiologie (Burgun et al., 2011) ; anonymisation de comptes rendus
(Grouin & Zweigenbaum, 2011)) et InterSTIS (développement de lexique
médical et mise en correspondance de terminologies (Cartoni &
Zweigenbaum, 2010)). Le groupe ILES développe également depuis plusieurs
années des méthodes d'extraction de relations (Minard et al., 2011 ; Ben
Abacha & Zweigenbaum, 2011) et de recherche de réponses précises à des
questions médicales sur une base conceptuelle (Ben Abacha & Zweigenbaum,
2012). Il s'intéresse encore aux aspects multilingues, plus
particulièrement en français et en anglais, avec transfert entre les
deux (Deléger et al., 2009 ; Ben Abacha et al., 2012). Le LIMSI
organise l'évaluation annuelle DEFT en fouille de textes depuis 2007, et
se positionne chaque année depuis 2009 dans les dix meilleurs systèmes
d'extraction d'informations médicales dans les évaluations
internationales i2b2 (Deléger et al., 2009 ; Minard et al., 2011). Il a
recruté en 2012 deux nouveaux membres permanents sur ce thème.
Références
Ben Abacha A, Zweigenbaum P. Automatic extraction of semantic
relations between medical entities: a rule based approach. Journal
of Biomedical Semantics, 2(Suppl 5):S4, 2011.
Ben Abacha A, Zweigenbaum P. Medical Question Answering:
Translating Medical Questions into SPARQL queries. In ACM SIGHIT
International Health Informatics Symposium (IHI 2012), IHI '12,
pages 41-50, New York, NY, USA, 2012. ACM.
Ben Abacha A, Zweigenbaum P, Max A. Extraction d'information
automatique en domaine médical par projection inter-langue : vers un
passage à l'échelle. In: TALN 2012 (Traitement automatique des
langues naturelles), Grenoble, 2012. ATALA.
Burgun A, Rosier A, Temal L, Jacques J, Messai R, Duchemin L,
Deléger L, Grouin C, Van Hille P, Zweigenbaum P, Beuscart R, Delerue
D, Dameron O, Mabo P, Henry C. Aide à la décision en
télécardiologie par une approche basée ontologie et centrée
patient. IRBM, 32(2), 2011. Numéro spécial ANR TECSAN, Technologies
pour la santé et l'autonomie.
B Cartoni, P Zweigenbaum. Semi-automated extension of a specialized
medical lexicon for French. In: LREC 2010, Sixth International
Conference on Language Resources and Evaluation, pages 1050-1054,
2010.
Grouin C, Zweigenbaum P. Une approche à plusieurs étapes pour
anonymiser des documents médicaux. RSTI-RIA, 25(4):525-549,
2011. Numéro spécial Intelligence Artificielle et
santé. Hermès-Lavoisier.
L Deléger, C Grouin, P Zweigenbaum. Extracting medical information
from narrative patient records: the case of medication-related
information. Journal of the American Medical Informatics
Association, 17:555-558, 2010.
L Deléger, M Merkel, P Zweigenbaum. Translating medical
terminologies through word alignment in parallel text
corpora. Journal of Biomedical Informatics, 42(4):692- 701,
2009. Epub 2009 Mar 9.
Minard AL, Ligozat AL, Ben Abacha A, Bernhard D, Cartoni B, Deléger
L, Grau B, Rosset S, Zweigenbaum P, Grouin C. Hybrid methods for
improving information access in clinical documents: Concept,
assertion, and relation identification. Journal of the American
Medical Informatics Association, 18(5):588-593, 2011.
Zweigenbaum P, Demner-Fushman D, Yu H, Cohen KB. Frontiers of
biomedical text mining: current progress. Briefings in
Bioinformatics. 8(5):358-375, 2007.
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list