02. konsep dasar dw

41
Konsep Dasar Data Warehouse Tuesday, 2 October 12

Upload: nia-avianty-kurnia-nia

Post on 25-Oct-2015

93 views

Category:

Documents


12 download

DESCRIPTION

konsep dasar Data Warehouse

TRANSCRIPT

Konsep DasarData Warehouse

Tuesday, 2 October 12

References

• [Imhoff, 2003] - Mastering Data Warehouse Design : Relational and Dimensional Techniques, Willey

• [Kimball, 2002] - The Data Warehouse Toolkit : The Complete Guide to Dimensional Modeling (2nd Edition), Willey

Tuesday, 2 October 12

Objectives

• Corporate Information Factory

• Penjelasan singkat mengenai konsep OLAP cube

• Dasar Model Multidimensi

Tuesday, 2 October 12

Corporate Information Factory

Tuesday, 2 October 12

BI Environment

• BI (Business Intelligent)

Tuesday, 2 October 12

Corporate Information Factory (CIF) Architechture

Tuesday, 2 October 12

CIF: Data Acquisition - (ETL)

Data acquisition adalah serangkaian proses dan program yang berfungsi untuk mengambil data dari sistem transaksional untuk disimpan di data warehouse dan operasi penyimpanan data. Program data acquisition menjalankan proses cleansing dan integrasi data serta transformasi ke format enterprise.

Format enterprise merefleksikan aturan bisnis enterprise yang terintegrasi, sehingga menyebabkan data acquisition layer menjadi komponen paling kompleks di CIF. Selain cleansing dan transformasi, pada layer ini juga terdapat proses audit dan proses kontrol untuk memastikan validitas data yang dimasukkan ke data warehouse dan operasi penyimpanan data.

Tuesday, 2 October 12

CIF: Data Delivery - (ETL)

Data delivery adalah proses pemindahan data dari data warehouse ke data mart dan oper mart. Seperti halnya di data acquisition layer, disini juga terjadi proses manipulasi data. Namun karena data berasal dari data warehouse, maka data tersebut sudah merupakan data yang berkualitas dan terintegrasi, sehingga sesuai untuk proses bisnis enterprise.

Tuesday, 2 October 12

CIF: Data Warehouse

“koleksi data yang bersifat subject oriented, terintegrasi, berbasis waktu dan non volatile yang digunakan untuk pengambilan keputusan strategis”

Tuesday, 2 October 12

CIF: Operational Data Store

- bersifat subject oriented seperti halnya data warehouse

- data terintegrasi seperti data warehouse

- data merupakan data saat ini

- data historis ODS lebih terbatas dan menunjukkan kondisi entitas yang mendekati waktu sebenarnya

- data bersifat volatile atau updatable

- secara keselurahan, mayoritas data adalah detail dengan jumlah dynamic aggregation minimal

Tuesday, 2 October 12

CIF: Data Mart

Data di dalam data mart biasanya dirancang untuk keperluan tertentu atau fungsi tertentu. Misalkan untuk analisa keuntungan suatu produk, analisa KPI, analisa pelanggan berdasarkan tempat tinggalnya, dll

Tuesday, 2 October 12

CIF: Metadata Management

Administratif metadata menjelaskan operasi CIF, termasuk audit trails, performance metrics, data quality metrics, dan meta data statistik lainnya

Technical meta data menjelaskan struktur fisik di CIF detail proses-proses yang memindahkan dan mengubah data dalam lingkungan CIF.

Business meta data menjelaskan struktur data, elemen-elemen data, business rule, dan penggunaan data di CIF untuk business

Tuesday, 2 October 12

CIF: Information Feedback

Information feedback adalah mekanisme sharing yang memungkinkan pengetahuan dan informasi yang diperoleh dari CIF untuk dibagi dengan data stores lainnya.

Tuesday, 2 October 12

CIF: Information WorkShop

Workbench, metadata, data dan analysis tools diorganisasi dalam fungsi bisnis untuk mendukung pengguna dalam menjalankan tugasnya

Library component menyediakan directory tentang resources dan data di CIF, yang disusun sedemikian rupa agar bermanfaat bagi keperluan bisnis. Directory ini mirip dengan library, dimana ada standard taxonomy untuk pengelompokan dan pengurutan komponen informasi

Toolbox adalah koleksi komponen yang bisa digunakan ulang (misal, analytical reports) dan dapat diakses oleh pengguna, sehingga analisa bisa dilakukan oleh banyak pihak

Tuesday, 2 October 12

Peranan dan Kegunaan Data Warehouse

Tuesday, 2 October 12

Ciri Khas DW• Fokusnya enterprise

• Sebisa mungkin didisain agar fleksibel terhadap perubahan

• Didisain untuk menangani jumlah data yang sangat besar dalam waktu yang sangat singkat

• Didisain untuk memproses ekstrasi data secara optimal melalu program untuk data delivery

• Format data mampu mendukung semua jenis analisa BI dalam format apapun dan teknologi apapun

Tuesday, 2 October 12

Design Pattern untuk DW

• Stabil

• karena hampir tidak ada perubahan, kita harus dapat mengakomodasi entitas dan atribut baru jika data marts baru dan fungsi BI baru telah dibuat

• Konsisten

• Flexible

Tuesday, 2 October 12

Design Pattern untuk DW

Tuesday, 2 October 12

Pengenalan Konsep Cube pada OLAP

Tuesday, 2 October 12

Cube Multidimensi

Total PendapatanTotal Penjualan....

Berdasarkan angka penjualan produk (products) melalui toko-toko (stores). Performa perusahaan dapat dianalisa berdasarkan waktu (time)

Faktor yang diperhatikanproduk (a product)hari (a day)toko (a store)

Tuesday, 2 October 12

Cube Multidimensi

Faktor yang diperhatikanproduk (a product)hari (a day)toko (a store)

Tipe ProdukMerek Produk

Tuesday, 2 October 12

Operasi dasar: Slice

• Slice: adalah subset dari data multidimensi

• Slice: merupakan nilai spesifik dari atribut dimensi

Tuesday, 2 October 12

Operasi dasar: Aggregation

Time (days)

Stores

Time (days)Time (days)Time (days)Time (days)Time (days)Time (days)Time (days)

Products

Stores

StoresStoresStores

Tuesday, 2 October 12

Dasar Pemodelan Multidimensi

Tuesday, 2 October 12

Cube Multidimensi• Adalah pendekatan pemodelan data dengan tujuan:

• Data model harus mudah dimengerti user untuk melakukan analisa, sehingga:

• Sederhana

• Menggunakan istilah-istilah yang sesuai pokok bahasan dan memadai untuk analisa data

• Menyediakan framework untuk melakukan query secara efisien

• Menyediakan fasilitas software dimana users bisa memproses data dalam jumlah besar secara intuitif

Tuesday, 2 October 12

Star Schema• Fact Table

• Berukuran besar dan merupakan tabel “pusat”. Satu satunya tabel dengan banyak join ke tabel lain

• Dimension Table (jumlahnya banyak)

• Memiliki satu join sake fact table

Tuesday, 2 October 12

Fact Table• Pengukuran numeric suatu proses, dimana berjenis:

• Data bernilai continuous (atau disimpan dalam bentuk continu)

• Additive (data bisa ditambah berdasarkan semua dimensi)

• Semi-additive (data bisa ditambah berdasarkan dimensi tertentu tapi tidak semua deimensi)

• Non-additive (data tidak dapat ditambah, namun bisa dilakukan proses agregasi)

• Tujuannya adalah untuk merangkum informasi yang ada di fact table

• Tingkat granulary (kedetilan) fact table ditentukan oleh sub-set dari dimensi yang meng-indeks data

• misal: penjualan per hari, toko dan produk

• Fact table, bersifat sparse (tidak semua kombinasi disimpan)

• misal: jika produk tidak terjual di suatu toko pada suatu hari, maka tidak ada record yang berhubungan di fact table

Tuesday, 2 October 12

Dimension Table• Table dengan primary key yang terhubung ke fact table

• Atibut terpenting berupa deskripsi tekstual

• Atribut ini digunakan untuk mendefinisikan batasan data yang akan dianalisa

• Atribut ini digunakan untuk mengelompokkan agregasi berdasarkan fact table. Berupa header dari kolom

MerekM-1

M-2

M-3

M-4

Nilai Penjualan Jumlah Penjualan780 263

1020 509

213 300

80 40

Tuesday, 2 October 12

Contoh Hasil

MerekM-1

M-2

M-3

M-4

Nilai Penjualan Jumlah Penjualan780 263

1020 509

213 300

80 40

Metricsnilai dari atribut yang dipilih

atribut tekstual berdasarkan dimensi

• Data penjualan di pertengahan tahun di semua toko berdasarkan merek

Tuesday, 2 October 12

Query Pada Star Schema

Tuesday, 2 October 12

Contoh Query pada OLAP

Tuesday, 2 October 12

Pemrosesan Query Pada OLAP

• Pertama, batasan aplikasi diproses untuk setiap dimensi

• Misal: month = “April”; year = 2011; area = “Malang”

• Setiap dimensi menghasilkan serangkaian candidate key

• Misal: Time: semua time_key pada month=”April”; year = 2012

• Semua candidate key digabungkan (cartesian product) untuk mencari data di fact table

• Semua data yang didapatkan dari fact table dikelompokkan dan diagregasi

Tuesday, 2 October 12

Browsing (Eksplorasi) Dimension Table

• “Dimension Browsing” - adalah aktifitas user untuk mengeksplorasi data di tabel dimensi dengan tujuan untuk mendefinisikan batasan-batasan yang telah disediakan dan memilih level serta tipe summarization untuk keperluan OLAP

• Disediakan mekanisme yang mudah dan umum untuk menspesifikasikan query

• SIMPLICITY

• PERFORMANCE

Tuesday, 2 October 12

Browsing (Eksplorasi) Dimension Table

Dimensi: Product

Atribut: Merek Tipe Nama Produk

Batasan: Apple Handphone

Samsung

Nilai Pembeda: Apple .... iphone 5Black Berry Handphone ....

Samsung Televisi 3610

Nokia .... ....

Tuesday, 2 October 12

Drill Down dan Drill Up

Departemen

D-1

D-2

D-3

D-4

Nilai Penjualan Jumlah Penjualan

780 263

1020 509

213 300

80 40

Merek

D-1

D-1

D-2

...

Merek Nilai Penjualan Jumlah Penjualan

M-1 300 163

M-2 480 100

M-5 ... ...

... ... ...

Drill Down ke Departemen dan Merek

Tuesday, 2 October 12

• Drill Down adalah penambahan kolom baru pada hasil untuk analisa, disebut pula atribut dimensi

• Drill Up adalah operasi kebalikannya

Drill Down dan Drill Up

Tuesday, 2 October 12

Dari Rowset ke Analytical View

Tuesday, 2 October 12

OLAP View model Klasik

Tuesday, 2 October 12

Inefficient OLAP View

Tuesday, 2 October 12

Bagaimana Dengan Parsial Total

Tuesday, 2 October 12

Summary• Apa yang harus dikuasai:

• Memahami Corporate Information Model (CIF): Perbedaan antara Data Warehouse, ODS dan Data Marts (khususnya OLAP data marts). Aspek dasar feedback dari pengetahuan dan informasi yang dikumpulkan di sistem DSS ke sistem operasional dan data warehouse

• Memahami perbedaan mendasar antara OLTP dan aktivitas analisa yang dilakukan di data warehouse atau data marts: data, access, users

Tuesday, 2 October 12