Job: Post-doc, Extraction d'information a partir de textes medicaux, LIMSI, Paris

Fri Jun 15 20:56:39 UTC 2012

Date: Fri, 15 Jun 2012 00:56:23 +0200
From: Pierre Zweigenbaum <pz at limsi.fr>
Message-Id: <201206150056.23773.pz at limsi.fr>

Profil de poste : Post-doctorant en traitement automatique des langues

Durée : 12 à 16 mois

Date de démarrage : septembre ou octobre 2012.

THÈME

Dans le cadre du projet ANR Accordys, le groupe ILES du LIMSI est à la
recherche d'un post-doctorant pour travailler sur l'analyse de textes
médicaux. Les documents proviennent de deux sources : des dossiers
médicaux (en français) et des résumés d'articles scientifiques indexés
dans Medline (en anglais). Le domaine concerné est la foetopathologie.
Un dossier médical se compose de plusieurs types de documents dont le
document central est le compte rendu d'examen foeto-placentaire qui peut
pointer sur d'autres documents (comptes rendus d'examens, avis de
médecins, résultats d'analyses, etc.). Il s'agit donc d'analyser des
textes relevant de genres différents en en extrayant les informations
nécessaires pour instancier un modèle de cas qui sera défini par un
autre partenaire du projet. On étudiera en particulier l'apport de
méthodes à base linguistique (mise en place et contribution d'une
analyse syntaxique robuste) et de méthodes par apprentissage supervisé
ou semi-supervisé.

La tâche inclut plusieurs dimensions de l'extraction d'informations à
partir de textes :

* Analyse de la structure des textes.

* Détection des entités médicales pertinentes (signes, organes, etc.)
  et de leurs relations (localisation d'un signe, etc.), avec ancrage
  référentiel à des ressources terminologiques et ontologiques.  Cette
  détection sera également utilisée pour anonymiser les informations
  identifiantes (noms, lieux géographiques, etc.).

* Détection du cadre temporel et fonctionnel des informations extraites
  (chronologie, types d'examens rapportant les informations, etc.).

Le post-doctorant mettra également en place, en collaboration avec des
spécialistes du domaine, un jeu de données de développement et
d'évaluation.

Missions résumées :
- extraction robuste d'informations à partir de textes par méthodes
  d'apprentissage
- application à l'analyse et à l'anonymisation de textes
- intégration du module
- expérimentation et évaluation

Formation attendue :
- Doctorat en traitement automatique des langues
- Expérience d'analyse de corpus
- Connaissances en apprentissage automatique

Le poste est à pourvoir à partir du 1er septembre pour une durée de 12
mois extensible à 16 mois. Le salaire correspond aux grilles CNRS et
dépend de l'expérience du candidat (de l'ordre de 2000 € net par mois).

CONTACTS

Envoyer un CV et une lettre de motivation à :
  Pierre Zweigenbaum (pz at limsi.fr) et Brigitte Grau (bg at limsi.fr)
en indiquant une liste d'au moins deux référents pouvant recommander le
candidat.

L'ÉQUIPE

Le groupe ILES du LIMSI-CNRS possède une expérience reconnue dans la
recherche d'informations précises (recherche de réponses à des
questions), l'extraction d'informations et le traitement de la langue
médicale. Ses projets en cours ou récents les plus pertinents pour
Accordys sont ceux qui portent sur ces trois thèmes : le projet
franco-allemand Quæro (recherche de réponses précises à des questions et
reconnaissance d'entités nommées, tâche qu'il coordonne) et les projets
ANR Akenaton (extraction d'informations à partir de comptes rendus en
cardiologie (Burgun et al., 2011) ; anonymisation de comptes rendus
(Grouin & Zweigenbaum, 2011)) et InterSTIS (développement de lexique
médical et mise en correspondance de terminologies (Cartoni &
Zweigenbaum, 2010)). Le groupe ILES développe également depuis plusieurs
années des méthodes d'extraction de relations (Minard et al., 2011 ; Ben
Abacha & Zweigenbaum, 2011) et de recherche de réponses précises à des
questions médicales sur une base conceptuelle (Ben Abacha & Zweigenbaum,
2012). Il s'intéresse encore aux aspects multilingues, plus
particulièrement en français et en anglais, avec transfert entre les
deux (Deléger et al., 2009 ; Ben Abacha et al., 2012).  Le LIMSI
organise l'évaluation annuelle DEFT en fouille de textes depuis 2007, et
se positionne chaque année depuis 2009 dans les dix meilleurs systèmes
d'extraction d'informations médicales dans les évaluations
internationales i2b2 (Deléger et al., 2009 ; Minard et al., 2011). Il a
recruté en 2012 deux nouveaux membres permanents sur ce thème.

Références

    Ben Abacha A, Zweigenbaum P. Automatic extraction of semantic
    relations between medical entities: a rule based approach. Journal
    of Biomedical Semantics, 2(Suppl 5):S4, 2011.

    Ben Abacha A, Zweigenbaum P.  Medical Question Answering:
    Translating Medical Questions into SPARQL queries. In ACM SIGHIT
    International Health Informatics Symposium (IHI 2012), IHI '12,
    pages 41-50, New York, NY, USA, 2012. ACM.

    Ben Abacha A, Zweigenbaum P, Max A.  Extraction d'information
    automatique en domaine médical par projection inter-langue : vers un
    passage à l'échelle. In: TALN 2012 (Traitement automatique des
    langues naturelles), Grenoble, 2012. ATALA.

    Burgun A, Rosier A, Temal L, Jacques J, Messai R, Duchemin L,
    Deléger L, Grouin C, Van Hille P, Zweigenbaum P, Beuscart R, Delerue
    D, Dameron O, Mabo P, Henry C.  Aide à la décision en
    télécardiologie par une approche basée ontologie et centrée
    patient. IRBM, 32(2), 2011. Numéro spécial ANR TECSAN, Technologies
    pour la santé et l'autonomie.

    B Cartoni, P Zweigenbaum. Semi-automated extension of a specialized
    medical lexicon for French. In: LREC 2010, Sixth International
    Conference on Language Resources and Evaluation, pages 1050-1054,
    2010.

    Grouin C, Zweigenbaum P. Une approche à plusieurs étapes pour
    anonymiser des documents médicaux. RSTI-RIA, 25(4):525-549,
    2011. Numéro spécial Intelligence Artificielle et
    santé. Hermès-Lavoisier.

    L Deléger, C Grouin, P Zweigenbaum. Extracting medical information
    from narrative patient records: the case of medication-related
    information. Journal of the American Medical Informatics
    Association, 17:555-558, 2010.

    L Deléger, M Merkel, P Zweigenbaum. Translating medical
    terminologies through word alignment in parallel text
    corpora. Journal of Biomedical Informatics, 42(4):692- 701,
    2009. Epub 2009 Mar 9.

    Minard AL, Ligozat AL, Ben Abacha A, Bernhard D, Cartoni B, Deléger
    L, Grau B, Rosset S, Zweigenbaum P, Grouin C. Hybrid methods for
    improving information access in clinical documents: Concept,
    assertion, and relation identification. Journal of the American
    Medical Informatics Association, 18(5):588-593, 2011.

    Zweigenbaum P, Demner-Fushman D, Yu H, Cohen KB. Frontiers of
    biomedical text mining: current progress. Briefings in
    Bioinformatics. 8(5):358-375, 2007.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------