These: Cyril Grouin, Anonymisation de documents cliniques

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Jun 18 20:09:26 UTC 2013


Date: Sat, 15 Jun 2013 07:33:06 +0200
From: Cyril Grouin <cyril.grouin at limsi.fr>
Message-Id: <5B0D218A-2F1E-45F0-9092-E66DDC3CCD8A at limsi.fr>


Bonjour,

J'ai le plaisir de vous convier à la soutenance de mon travail de thèse
de doctorat, réalisé conjointement au LIMSI (groupes ILES) et au Centre
de Recherche des Cordeliers (INSERM U872 Eq20 & UPMC), intitulée :

"Anonymisation de documents cliniques : performances et limites des
méthodes symboliques et par apprentissage statistique"

Cette soutenance aura lieu le mercredi 26 juin 2013 à 14h00 dans la
salle de conférences du LIMSI (bât. 508), campus d'Orsay (91). Vous êtes
également invités au pot de thèse qui suivra.

Bien cordialement,
Cyril Grouin

-----
Composition du jury :

- Pr Stefan J. DARMONI, PU-PH, CHU de Rouen (rapporteur)
- Pr Pascal STACCINI, PU-PH, CHU de Nice (rapporteur)
- M. Thierry ARTIÈRES, Professeur, LIP6/UPMC (examinateur)
- Pr Anita BURGUN, PU-PH, HEGP/INSERM U872 Eq22 (examinatrice)
- Mme Marie-Christine JAULENT, DR, INSERM U872 Eq20 (directrice)
- M. Pierre ZWEIGENBAUM, DR, LIMSI-CNRS (directeur)

-----
Résumé :

Ce travail porte sur l'anonymisation automatique de comptes rendus
cliniques. L'anonymisation consiste à masquer les informations
personnelles présentes dans les documents tout en préservant les
informations cliniques. Cette étape est obligatoire pour utiliser des
documents cliniques en dehors du parcours de soins, qu'il s'agisse de
publication de cas d'étude ou en recherche scientifique (mise au point
d'outils informatiques de traitement du contenu des dossiers, recherche
de cas similaire, etc.). Nous avons défini douze catégories
d'informations à traiter : nominatives (noms, prénoms, etc.) et
numériques (âges, dates, codes postaux, etc.). Deux approches ont été
utilisées pour anonymiser les documents, l'une dite « symbolique », à
base de connaissances d'expert formalisées par des expressions
régulières et la projection de lexiques, l'autre par apprentissage
statistique au moyen de CRF de chaîne linéaire. Plusieurs expériences
ont été menées parmi lesquelles l'utilisation simple ou enchaînée de
chacune des deux approches. Nous obtenons nos meilleurs résultats
(F-mesure globale=0,922) en enchaînant les deux méthodes avec
rassemblement des noms et prénoms en une seule catégorie (pour cette
catégorie : rappel=0,953 et F-mesure=0,931). Ce travail de thèse
s'accompagne de la production de plusieurs ressources : un guide
d'annotation, un corpus de référence de 562 documents dont 100 annotés
en double avec adjudication et calculs de taux d'accord
inter-annotateurs (K=0,807 avant fusion) et un corpus anonymisé de
17.000 comptes rendus cliniques.

-----
Abstract:

This work focuses on the automatic de-identification of clinical
records. The de-identification consists in concealing personal
information within documents while preserving clinical data. This task
is mandatory so as to use clinical records outside of the patient care
process, for case study publications or in scientific research
(producing automatic system to process the documents, similar cases
search, etc.). We defined 12 categories of information to de-identify:
nominative data (last names, first names, etc.) and numerical data
(ages, dates, zip codes, etc.). Two approaches have been used to
de-identify the documents, an expert knowledge based method using
regular expressions and lexical mapping, and a machine-learning process
based upon CRF. Several experiments have been performed including the
use of each approach separately or in combination. We achieved our best
results (overall F-measure=0.922) while combining both approaches and
merging last names and first names categories into a single one
(recall=0.953 and F-measure=0.931 on this category). This work is
combined with the production of several resources: a guidelines, a gold
standard corpus composed of 562 documents among them 100 double
annotated with adjudication and inter-annotator agreement computation
(K=0.807 before merging) and a de-identified corpus of 17,000 clinical
records.

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list