méthodedeconstructiond’entrepôtsde...

1
Méthode de construction d’entrepôts de données temporalisées guidée par les ontologies C. K HNAISSER 1,2 , L. L AVOIE 1 , H. D IAB 1 , A. B URGUN 2 , J. F. E THIER 1,2 1 GRIIS, Université de Sherbrooke, Sherbrooke, Canada; 2 INSERM, UMRS 1138, CRC, Équipe 22, Université Paris Descartes, Sorbonne Paris Cité, Paris, France; M ISE EN CONTEXTE Les systèmes informationnels sont désormais au centre des décisions en santé. Ainsi, les dispositifs médicaux, les dossiers cliniques et sociaux, la recherche, etc. génèrent un très grand volume de données chaque jour associé à des évènements interreliés temporellement. Les étab- lissements de santé désirent réutiliser ces données pour différents types d’analyse et les partager d’une façon exploitable. L’efficacité des études cliniques dépend de la quantité et de la qualité des données recueillies. D’une part, l’extraction des informations d’intérêt à des fins d’études de- meure un grand défi au vu du grand nombre de sources hétérogènes, du grand volume de données, des besoins et des connaissances diver- sifiées, etc. D’autre part, la temporalisation est devenue un enjeu crucial afin de garder les traces de l’évolution des données et d’améliorer la prise de décision clinique. P ROBLÉMATIQUE L’approche préconisée consiste à construire un entrepôt de données (ED) en se basant sur un modèle de connaissance (ontologie) pour faciliter l’intégration des sources, l’extraction des informations et l’expression des requêtes en faisant abstraction de la complexité de l’hétérogénéité. Les méthodes de construction d’un ED temporalisées existantes possèdent des limites nuisant à l’interopérabilité temporelle [1] et donc à l’exploitation de données (Figure 1). Sn S1 Hétérogénéité ? Transformation des connaissances ? IS CED IE MEC IMD IMC AED Assertions temporelles ? Modèles de connaissances Modèles temporels ? Automatisation ? Évolution ? Figure 1: Problématique de construction d’EDT. B UT Le but est d’élaborer une méthode semi-automatisée de construction d’ED temporalisées sur la base des modèles approuvés par les analystes (ontologie de référence) et en recourant le moins souvent possible à des décisions ad hoc. M ÉTHODE La méthode est opérationnalisée par un atelier composé de plusieurs modules coordonnés par différents correspondeurs spécialisés pour as- surer une construction et une exploitation traçable (Figure 2). Construction et évolution Exploitation Consultation PM Source 1 Source n GD MC 1 MC k SE CID IMC IMD MEC AI CED ED SI SD CIE CDE GE ED Source 1 Source n PM GD MC 1 MC k SE SI SD CIE CDE AED ISI IED CAD GE AI ED Source 1 Source n PM GD MC 1 MC k SE CID IMC IMD MEC CED SI SD CIE CDE AED ISI IED CAD GE Processus AED : alimentation de l’entrepôt de données CAD : contrôle d’accès aux données CED : construction de l’entrepôt de données IMC : importation du modèle de connaissances IMD : importation du modèle de données MED : mise en correspondance IS(I) : interaction système informationnel IE(D) : interaction entrepôt de données Personnel médical Gestinnaire de l’entrepôt Gestinnaire de données Analyste informatique Dépôts CED : correspondeur entrepôt-données CIE : correspondeur information-entrepôt CDE : correspondeur données-entrepôt SI : schéma d’information SD : schéma de données Figure 2: Atelier de construction, d’exploitation et de consultation d’un ED temporalisées. C ONCLUSION Le système permet d’automatiser certaines décisions fondées sur des critères fondamentaux (théorie relationnelle), des critères de conception (normalisation, bitemporalité, etc.), de critères technologiques (choix du SGBDR d’hébergement, des primitives de temporalisation, du dialecte SQL, etc.). Le système assure également la mise en correspondance traçable entre le modèle relationnel et le modèle ontologique. L’approche semi-automatisée rendue possible par les ateliers est innovante dans le sens où, jusqu’à présent, les ED du domaine de la santé ont été dévelop- pés manuellement selon des règles ad hoc. Elle l’est également par la prise en compte d’un modèle temporel unifié et par l’intégration des con- traintes du domaine provenant du modèle de connaissances. R ÉFÉRENCES [1] Khnaisser, C., Lavoie, L., Diab, H., and Ethier, J.-F. 2015. Data Warehouse Design Methods Re- view: Trends, Challenges and Future Directions for the Healthcare Domain. In: T. Morzy, P. Valduriez and L. Bellatreche, eds., New Trends in Databases and Information Systems. Springer International Publishing, 76–87. Courriel : [email protected]

Upload: trinhdien

Post on 30-Apr-2018

214 views

Category:

Documents


1 download

TRANSCRIPT

Méthodedeconstructiond’entrepôtsdedonnéestemporaliséesguidéepar les

ontologiesC. KHNAISSER1,2, L. LAVOIE1, H. DIAB1, A. BURGUN2, J. F. ETHIER1,2

1GRIIS, Université de Sherbrooke, Sherbrooke, Canada;

2INSERM, UMRS 1138, CRC, Équipe 22, Université Paris Descartes, Sorbonne Paris Cité, Paris, France;

MISE EN CONTEXTE

Les systèmes informationnels sont désormais au centre des décisions ensanté. Ainsi, les dispositifs médicaux, les dossiers cliniques et sociaux,la recherche, etc. génèrent un très grand volume de données chaquejour associé à des évènements interreliés temporellement. Les étab-lissements de santé désirent réutiliser ces données pour différents typesd’analyse et les partager d’une façon exploitable. L’efficacité des étudescliniques dépend de la quantité et de la qualité des données recueillies.

D’une part, l’extraction des informations d’intérêt à des fins d’études de-meure un grand défi au vu du grand nombre de sources hétérogènes,du grand volume de données, des besoins et des connaissances diver-sifiées, etc. D’autre part, la temporalisation est devenue un enjeu crucialafin de garder les traces de l’évolution des données et d’améliorer la prisede décision clinique.

PROBLÉMATIQUE

L’approche préconisée consiste à construire un entrepôt de données (ED)en se basant sur un modèle de connaissance (ontologie) pour faciliterl’intégration des sources, l’extraction des informations et l’expression desrequêtes en faisant abstraction de la complexité de l’hétérogénéité. Lesméthodes de construction d’un ED temporalisées existantes possèdentdes limites nuisant à l’interopérabilité temporelle [1] et donc à l’exploitationde données (Figure 1).

Sn

S1

Hétérogénéité?

Transformation des connaissances

?

IS

CED

IE

MEC IMDIMC

AED

Assertions temporelles

?

Modèles de connaissances

Modèles temporels?

Automatisation?

Évolution?

Figure 1: Problématique de construction d’EDT.

BUT

Le but est d’élaborer une méthode semi-automatisée de constructiond’ED temporalisées sur la base des modèles approuvés par les analystes(ontologie de référence) et en recourant le moins souvent possible à desdécisions ad hoc.

MÉTHODE

La méthode est opérationnalisée par un atelier composé de plusieursmodules coordonnés par différents correspondeurs spécialisés pour as-surer une construction et une exploitation traçable (Figure 2).

Construction et évolution

Exploitation

Consultation

PM

Source1

Sourcen

GD

MC1

MCk

SE

CID

IMC IMDMEC

AI

CED

ED

SI SD

CIE CDE

GE

ED

Source1

Sourcen

PM GD

MC1

MCk

SE

SI SD

CIE CDE AED

ISI IED

CADGE

AI

ED

Source1

Sourcen

PM GD

MC1

MCk

SE

CID

IMC IMDMEC

CED

SI SD

CIE CDE AED

ISI IED

CADGE

ProcessusAED : alimentation de l’entrepôt de donnéesCAD : contrôle d’accès aux donnéesCED : construction de l’entrepôt de donnéesIMC : importation du modèle de connaissancesIMD : importation du modèle de donnéesMED : mise en correspondanceIS(I) : interaction système informationnelIE(D) : interaction entrepôt de données

Personnel médical

Gestinnaire de l’entrepôt

Gestinnaire de données

Analyste informatique

DépôtsCED : correspondeur entrepôt-donnéesCIE : correspondeur information-entrepôtCDE : correspondeur données-entrepôtSI : schéma d’informationSD : schéma de données

Figure 2: Atelier de construction, d’exploitation et de consultation d’un ED temporalisées.

CONCLUSION

Le système permet d’automatiser certaines décisions fondées sur descritères fondamentaux (théorie relationnelle), des critères de conception(normalisation, bitemporalité, etc.), de critères technologiques (choix duSGBDR d’hébergement, des primitives de temporalisation, du dialecteSQL, etc.). Le système assure également la mise en correspondancetraçable entre le modèle relationnel et le modèle ontologique. L’approchesemi-automatisée rendue possible par les ateliers est innovante dans lesens où, jusqu’à présent, les ED du domaine de la santé ont été dévelop-pés manuellement selon des règles ad hoc. Elle l’est également par laprise en compte d’un modèle temporel unifié et par l’intégration des con-traintes du domaine provenant du modèle de connaissances.

RÉFÉRENCES[1] Khnaisser, C., Lavoie, L., Diab, H., and Ethier, J.-F. 2015. Data Warehouse Design Methods Re-

view: Trends, Challenges and Future Directions for the Healthcare Domain. In: T. Morzy, P. Valduriezand L. Bellatreche, eds., New Trends in Databases and Information Systems. Springer InternationalPublishing, 76–87.

Courriel : [email protected]