Sujet de these: 2 sujets - Extraction d'informations - Semantic indexing of French biomedical data resources
Thierry Hamon
thierry.hamon at UNIV-PARIS13.FR
Tue Jul 10 19:35:37 UTC 2012
Date: Sun, 08 Jul 2012 13:02:14 +0200
From: Mathieu Roche <Mathieu.Roche at lirmm.fr>
Message-ID: <6b0289192ccb7047a46ff835c2cbef10 at lirmm.fr>
X-url: http://umr-iate-travail.cirad.fr/axes-de-recherche/ingenierie-des-connaissances/presentation
X-url: http://www.lirmm.fr/tal/)
X-url: http://www.paris.inra.fr/metarisk/research_unit/knowledge_engineering)
X-url: http://www.lirmm.fr/~jonquet/research/projects/SIFR/2012_SIFR_PhD_position.html
2 sujets de thèse pour la rentrée 2012 - Montpellier (France) :
=======================
SUJET 1
=======================
Titre: Extraction d’informations pertinentes dans le texte et les
tableaux d’un document scientifique guidée par une ressource
termino-ontologique
Co-financement: INRA-Labex NumEv
Lieu de la thèse : Montpellier (LIRMM et UMR IATE)
Co-encadrants:
Patrice Buche (INRA IATE/GraphIK LIRMM),
Contact : Patrice.Buche at supagro.inra.fr
(http://umr-iate-travail.cirad.fr/axes-de-recherche/ingenierie-des-connaissances/presentation)
Mathieu Roche (TEXTE LIRMM),
Contact : Mathieu.Roche at lirmm.fr
(http://www.lirmm.fr/tal/)
Juliette Dibie-Barthélemy (AgroParisTech/INRA Mét at risk),
Contact : dibie at agroparistech.fr
(http://www.paris.inra.fr/metarisk/research_unit/knowledge_engineering)
Présentation du sujet:
L’objectif de cette thèse est de concevoir une méthode originale
d’extraction d’information pertinente provenant de textes et de
tableaux extraits de sources de données hétérogènes (articles
scientifiques, rapports de projets, ...). Une information pertinente
est définie dans par une relation n-aire associant un objet d’étude à
ses caractéristiques (par exemple : un emballage à son épaisseur, sa
perméabilité à l’O2, ...). Les informations sont extraites afin d’être
utilisées dans des outils d’aide à la décision (par exemple : aide à la
conception d’emballages, simulation d’une bio-raffinerie virtuelle).
Le sujet de cette thèse s’inscrit dans le domaine de l’ingénierie des
connaissances. La méthode proposée s’appuiera sur une Ressource
Termino-Ontologique (RTO) qui permet de modéliser, dans un format
structuré, la connaissance du domaine d’application considéré.
L’extraction et la représentation de l’information pertinente reposera
sur : (1) des méthodes de traitement automatique de la langue afin de
définir des patrons morphosyntaxiques et sémantiques pour identifier
les informations pertinentes dans le texte ; (2) , des méthodes
d’annotation sémantique de tableaux de données pour identifier les
informations pertinentes dans les tableaux ; (3) la théorie des
ensembles flous et des possibilités pour représenter et interroger de
manière flexible des données imprécises (intervalles de valeurs,
moyenne et écart-type,…) préalablement extraites des sources de
données.
Afin de tester la généricité de l’approche proposée, deux domaines
d’application seront étudiés : 1) la conception d’emballages
biodégradables issus de ressources renouvelables ; 2) dans le cadre du
projet européen EcoBioCap et du projet ANR Map'Opt ; 2) la
bio-raffinerie dans le cadre du programme prioritaire du département
INRA CEPIA (Caractérisation et élaboration de produits issus de
l'agriculture) « Biomasse ligno-cellulosique ».
=======================
SUJET 2
=======================
Title: Using biomedical ontologies for semantic indexing of French
biomedical data resources
Institution: University of Montpellier, I2S doctoral school
Where: Laboratory of Informatics, Robotics, and Microelectronics of
Montpellier (LIRMM)
Key-words: semantic web, annotation, (biomedical) ontologies, semantic
indexing, text/data mining, linked data, biomedical data
Context: The volume of data in biomedicine is constantly increasing.
Despite a large adoption of English in science, a significant quantity
of these data uses the French language. Usually, the content of the
resources is indexed to enable querying with keywords. However, there
are obvious limits to keyword-based indexing: use of synonyms,
polysemy, lack of domain knowledge. The community has turned toward
ontologies to design semantic indexes of data that leverage the medical
knowledge for better information mining and retrieval. However, besides
the existence of various English tools, there are considerably less
ontologies available in French and there is a strong lack of related
tools and services to exploit them. This lack does not match the huge
amount of biomedical data produced in French, especially in the
clinical world (e.g., electronic health records).
We will investigate the scientific and technical challenges in building
ontology-based services to leverage biomedical ontologies and
terminologies in indexing, mining and retrieval of French biomedical
data. We will build an ontology-based indexing workflow similar to what
exists for English resources (e.g., NCBO Annotator) but dedicated and
specialized for French and make it available as a service for the
community. We will investigate issues related to multilingual knowledge
representation (complex alignments between multilingual ontologies) and
maintenance/evolution of created annotations and mappings over time.
Especially, the use of the French-English mappings will enable us to
index French resources using English ontologies and to search English
resources, already indexed with English ontologies. We will also
investigate the use of the indexing workflow in the process of lifting
data in the web of linked data. The project will partially reuse the
work done by the NCBO project, led by Stanford BMIR. We will also
capitalize upon existing tools developed by CISMeF. Methods will be
generalizable to other languages and domain of application.
Subject: The ontology-based workflow will use the semantics that the
ontologies encode (properties, hierarchies, mappings, semantic
distance, multilingualism and disambiguation) in order to improve the
annotation process. The PhD project will consist in participating to
that workflow working on French concept recognition (using NLP
approaches), disambiguation, multilingual alignments and ontology
enrichment. Validation will be achieved by processing use case derived
biomedical data such as electronic medical records, patient data
publicly available on the Web, or other.
Description:
http://www.lirmm.fr/~jonquet/research/projects/SIFR/2012_SIFR_PhD_position.html
Supervisors: Dr. Clement Jonquet et Dr. Mathieu Roche
Collaborations: Catalogue et Index des Sites Médicaux de langue
Française (CISMeF), CHU de Rouen (Pr. Stefan Darmoni), Stanford Center
for Biomedical Informatics Research (BMIR), Stanford University (Pr.
Mark Musen). Several visits are planned with those groups.
When: Fall 2012 for 3 years
Application: For more information about this position, please contact
Dr. Clement Jonquet (jonquet at lirmm.fr) and Dr. Mathieu Roche
(mroche at lirmm.fr). To apply, please e-mail them the following:
- an explanation of your interest in the proposed research field;
- a curriculum vitae;
- copies of diplomas and other relevant certificates (list of obtained
marks according different teaching);
- a complete list of courses attended and corresponding grades;
- names and contact details of referees.
=======================
-------------------------------------------------------------------------
Message diffuse par la liste Langage Naturel <LN at cines.fr>
Informations, abonnement : http://www.atala.org/article.php3?id_article=48
English version :
Archives : http://listserv.linguistlist.org/archives/ln.html
http://liste.cines.fr/info/ln
La liste LN est parrainee par l'ATALA (Association pour le Traitement
Automatique des Langues)
Information et adhesion : http://www.atala.org/
-------------------------------------------------------------------------
More information about the Ln
mailing list