Sujet de these: 2 sujets - Extraction d'informations - Semantic indexing of French biomedical data resources

Thierry Hamon thierry.hamon at UNIV-PARIS13.FR
Tue Jul 10 19:35:37 UTC 2012


Date: Sun, 08 Jul 2012 13:02:14 +0200
From: Mathieu Roche <Mathieu.Roche at lirmm.fr>
Message-ID: <6b0289192ccb7047a46ff835c2cbef10 at lirmm.fr>
X-url: http://umr-iate-travail.cirad.fr/axes-de-recherche/ingenierie-des-connaissances/presentation
X-url: http://www.lirmm.fr/tal/)
X-url: http://www.paris.inra.fr/metarisk/research_unit/knowledge_engineering)
X-url: http://www.lirmm.fr/~jonquet/research/projects/SIFR/2012_SIFR_PhD_position.html

 2 sujets de thèse pour la rentrée 2012 - Montpellier (France) :

 =======================
 SUJET 1
 =======================

 Titre: Extraction d’informations pertinentes dans le texte et les
 tableaux d’un document scientifique guidée par une ressource
 termino-ontologique

 Co-financement: INRA-Labex NumEv

 Lieu de la thèse : Montpellier (LIRMM et UMR IATE)

 Co-encadrants:

 Patrice Buche (INRA IATE/GraphIK LIRMM),
 Contact : Patrice.Buche at supagro.inra.fr
 (http://umr-iate-travail.cirad.fr/axes-de-recherche/ingenierie-des-connaissances/presentation)

 Mathieu Roche (TEXTE LIRMM),
 Contact : Mathieu.Roche at lirmm.fr
 (http://www.lirmm.fr/tal/)

 Juliette Dibie-Barthélemy (AgroParisTech/INRA Mét at risk),
 Contact : dibie at agroparistech.fr
 (http://www.paris.inra.fr/metarisk/research_unit/knowledge_engineering)

 Présentation du sujet:

 L’objectif de cette thèse est de concevoir une méthode originale
 d’extraction d’information pertinente provenant de textes et de
 tableaux extraits de sources de données hétérogènes (articles
 scientifiques, rapports de projets, ...). Une information pertinente
 est définie dans par une relation n-aire associant un objet d’étude à
 ses caractéristiques (par exemple : un emballage à son épaisseur, sa
 perméabilité à l’O2, ...).  Les informations sont extraites afin d’être
 utilisées dans des outils d’aide à la décision (par exemple : aide à la
 conception d’emballages, simulation d’une bio-raffinerie virtuelle).

 Le sujet de cette thèse s’inscrit dans le domaine de l’ingénierie des
 connaissances. La méthode proposée s’appuiera sur une Ressource
 Termino-Ontologique (RTO) qui permet de modéliser, dans un format
 structuré, la connaissance du domaine d’application considéré.
 L’extraction et la représentation de l’information pertinente reposera
 sur : (1) des méthodes de traitement automatique de la langue afin de
 définir des patrons morphosyntaxiques et sémantiques pour identifier
 les informations pertinentes dans le texte ; (2) , des méthodes
 d’annotation sémantique de tableaux de données pour identifier les
 informations pertinentes dans les tableaux ; (3) la théorie des
 ensembles flous et des possibilités pour représenter et interroger de
 manière flexible des données imprécises (intervalles de valeurs,
 moyenne et écart-type,…) préalablement extraites des sources de
 données.

 Afin de tester la généricité de l’approche proposée, deux domaines
 d’application seront étudiés : 1) la conception d’emballages
 biodégradables issus de ressources renouvelables ; 2) dans le cadre du
 projet européen EcoBioCap et du projet ANR Map'Opt ; 2) la
 bio-raffinerie dans le cadre du programme prioritaire du département
 INRA CEPIA (Caractérisation et élaboration de produits issus de
 l'agriculture) « Biomasse ligno-cellulosique ».
 
 
 =======================
 SUJET 2
 =======================
 
 Title: Using biomedical ontologies for semantic indexing of French
 biomedical data resources
 
 Institution: University of Montpellier, I2S doctoral school
 
 Where: Laboratory of Informatics, Robotics, and Microelectronics of 
 Montpellier (LIRMM)
 
 Key-words: semantic web, annotation, (biomedical) ontologies, semantic 
 indexing, text/data mining, linked data, biomedical data
 
 Context: The volume of data in biomedicine is constantly increasing.
 Despite a large adoption of English in science, a significant quantity
 of these data uses the French language. Usually, the content of the
 resources is indexed to enable querying with keywords. However, there
 are obvious limits to keyword-based indexing: use of synonyms,
 polysemy, lack of domain knowledge. The community has turned toward
 ontologies to design semantic indexes of data that leverage the medical
 knowledge for better information mining and retrieval. However, besides
 the existence of various English tools, there are considerably less
 ontologies available in French and there is a strong lack of related
 tools and services to exploit them. This lack does not match the huge
 amount of biomedical data produced in French, especially in the
 clinical world (e.g., electronic health records).

 We will investigate the scientific and technical challenges in building
 ontology-based services to leverage biomedical ontologies and
 terminologies in indexing, mining and retrieval of French biomedical
 data. We will build an ontology-based indexing workflow similar to what
 exists for English resources (e.g., NCBO Annotator) but dedicated and
 specialized for French and make it available as a service for the
 community. We will investigate issues related to multilingual knowledge
 representation (complex alignments between multilingual ontologies) and
 maintenance/evolution of created annotations and mappings over time.
 Especially, the use of the French-English mappings will enable us to
 index French resources using English ontologies and to search English
 resources, already indexed with English ontologies. We will also
 investigate the use of the indexing workflow in the process of lifting
 data in the web of linked data. The project will partially reuse the
 work done by the NCBO project, led by Stanford BMIR. We will also
 capitalize upon existing tools developed by CISMeF. Methods will be
 generalizable to other languages and domain of application.
 
 Subject: The ontology-based workflow will use the semantics that the
 ontologies encode (properties, hierarchies, mappings, semantic
 distance, multilingualism and disambiguation) in order to improve the
 annotation process. The PhD project will consist in participating to
 that workflow working on French concept recognition (using NLP
 approaches), disambiguation, multilingual alignments and ontology
 enrichment.  Validation will be achieved by processing use case derived
 biomedical data such as electronic medical records, patient data
 publicly available on the Web, or other.
 
 Description: 
 http://www.lirmm.fr/~jonquet/research/projects/SIFR/2012_SIFR_PhD_position.html
 
 Supervisors: Dr. Clement Jonquet et Dr. Mathieu Roche
 
 Collaborations: Catalogue et Index des Sites Médicaux de langue
 Française (CISMeF), CHU de Rouen (Pr. Stefan Darmoni), Stanford Center
 for Biomedical Informatics Research (BMIR), Stanford University (Pr.
 Mark Musen). Several visits are planned with those groups.
 
 When: Fall 2012 for 3 years
 
 Application: For more information about this position, please contact
 Dr. Clement Jonquet (jonquet at lirmm.fr) and Dr. Mathieu Roche
 (mroche at lirmm.fr). To apply, please e-mail them the following:
 - an explanation of your interest in the proposed research field;
 - a curriculum vitae;
 - copies of diplomas and other relevant certificates (list of obtained 
   marks according different teaching);
 - a complete list of courses attended and corresponding grades;
 - names and contact details of referees.

 =======================

-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version       : 
Archives                 : http://listserv.linguistlist.org/archives/ln.html
                                http://liste.cines.fr/info/ln

La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion  : http://www.atala.org/
-------------------------------------------------------------------------



More information about the Ln mailing list