02. konsep dasar dw
DESCRIPTION
konsep dasar Data WarehouseTRANSCRIPT
References
• [Imhoff, 2003] - Mastering Data Warehouse Design : Relational and Dimensional Techniques, Willey
• [Kimball, 2002] - The Data Warehouse Toolkit : The Complete Guide to Dimensional Modeling (2nd Edition), Willey
Tuesday, 2 October 12
Objectives
• Corporate Information Factory
• Penjelasan singkat mengenai konsep OLAP cube
• Dasar Model Multidimensi
Tuesday, 2 October 12
CIF: Data Acquisition - (ETL)
Data acquisition adalah serangkaian proses dan program yang berfungsi untuk mengambil data dari sistem transaksional untuk disimpan di data warehouse dan operasi penyimpanan data. Program data acquisition menjalankan proses cleansing dan integrasi data serta transformasi ke format enterprise.
Format enterprise merefleksikan aturan bisnis enterprise yang terintegrasi, sehingga menyebabkan data acquisition layer menjadi komponen paling kompleks di CIF. Selain cleansing dan transformasi, pada layer ini juga terdapat proses audit dan proses kontrol untuk memastikan validitas data yang dimasukkan ke data warehouse dan operasi penyimpanan data.
Tuesday, 2 October 12
CIF: Data Delivery - (ETL)
Data delivery adalah proses pemindahan data dari data warehouse ke data mart dan oper mart. Seperti halnya di data acquisition layer, disini juga terjadi proses manipulasi data. Namun karena data berasal dari data warehouse, maka data tersebut sudah merupakan data yang berkualitas dan terintegrasi, sehingga sesuai untuk proses bisnis enterprise.
Tuesday, 2 October 12
CIF: Data Warehouse
“koleksi data yang bersifat subject oriented, terintegrasi, berbasis waktu dan non volatile yang digunakan untuk pengambilan keputusan strategis”
Tuesday, 2 October 12
CIF: Operational Data Store
- bersifat subject oriented seperti halnya data warehouse
- data terintegrasi seperti data warehouse
- data merupakan data saat ini
- data historis ODS lebih terbatas dan menunjukkan kondisi entitas yang mendekati waktu sebenarnya
- data bersifat volatile atau updatable
- secara keselurahan, mayoritas data adalah detail dengan jumlah dynamic aggregation minimal
Tuesday, 2 October 12
CIF: Data Mart
Data di dalam data mart biasanya dirancang untuk keperluan tertentu atau fungsi tertentu. Misalkan untuk analisa keuntungan suatu produk, analisa KPI, analisa pelanggan berdasarkan tempat tinggalnya, dll
Tuesday, 2 October 12
CIF: Metadata Management
Administratif metadata menjelaskan operasi CIF, termasuk audit trails, performance metrics, data quality metrics, dan meta data statistik lainnya
Technical meta data menjelaskan struktur fisik di CIF detail proses-proses yang memindahkan dan mengubah data dalam lingkungan CIF.
Business meta data menjelaskan struktur data, elemen-elemen data, business rule, dan penggunaan data di CIF untuk business
Tuesday, 2 October 12
CIF: Information Feedback
Information feedback adalah mekanisme sharing yang memungkinkan pengetahuan dan informasi yang diperoleh dari CIF untuk dibagi dengan data stores lainnya.
Tuesday, 2 October 12
CIF: Information WorkShop
Workbench, metadata, data dan analysis tools diorganisasi dalam fungsi bisnis untuk mendukung pengguna dalam menjalankan tugasnya
Library component menyediakan directory tentang resources dan data di CIF, yang disusun sedemikian rupa agar bermanfaat bagi keperluan bisnis. Directory ini mirip dengan library, dimana ada standard taxonomy untuk pengelompokan dan pengurutan komponen informasi
Toolbox adalah koleksi komponen yang bisa digunakan ulang (misal, analytical reports) dan dapat diakses oleh pengguna, sehingga analisa bisa dilakukan oleh banyak pihak
Tuesday, 2 October 12
Ciri Khas DW• Fokusnya enterprise
• Sebisa mungkin didisain agar fleksibel terhadap perubahan
• Didisain untuk menangani jumlah data yang sangat besar dalam waktu yang sangat singkat
• Didisain untuk memproses ekstrasi data secara optimal melalu program untuk data delivery
• Format data mampu mendukung semua jenis analisa BI dalam format apapun dan teknologi apapun
Tuesday, 2 October 12
Design Pattern untuk DW
• Stabil
• karena hampir tidak ada perubahan, kita harus dapat mengakomodasi entitas dan atribut baru jika data marts baru dan fungsi BI baru telah dibuat
• Konsisten
• Flexible
Tuesday, 2 October 12
Cube Multidimensi
Total PendapatanTotal Penjualan....
Berdasarkan angka penjualan produk (products) melalui toko-toko (stores). Performa perusahaan dapat dianalisa berdasarkan waktu (time)
Faktor yang diperhatikanproduk (a product)hari (a day)toko (a store)
Tuesday, 2 October 12
Cube Multidimensi
Faktor yang diperhatikanproduk (a product)hari (a day)toko (a store)
Tipe ProdukMerek Produk
Tuesday, 2 October 12
Operasi dasar: Slice
• Slice: adalah subset dari data multidimensi
• Slice: merupakan nilai spesifik dari atribut dimensi
Tuesday, 2 October 12
Operasi dasar: Aggregation
Time (days)
Stores
Time (days)Time (days)Time (days)Time (days)Time (days)Time (days)Time (days)
Products
Stores
StoresStoresStores
Tuesday, 2 October 12
Cube Multidimensi• Adalah pendekatan pemodelan data dengan tujuan:
• Data model harus mudah dimengerti user untuk melakukan analisa, sehingga:
• Sederhana
• Menggunakan istilah-istilah yang sesuai pokok bahasan dan memadai untuk analisa data
• Menyediakan framework untuk melakukan query secara efisien
• Menyediakan fasilitas software dimana users bisa memproses data dalam jumlah besar secara intuitif
Tuesday, 2 October 12
Star Schema• Fact Table
• Berukuran besar dan merupakan tabel “pusat”. Satu satunya tabel dengan banyak join ke tabel lain
• Dimension Table (jumlahnya banyak)
• Memiliki satu join sake fact table
Tuesday, 2 October 12
Fact Table• Pengukuran numeric suatu proses, dimana berjenis:
• Data bernilai continuous (atau disimpan dalam bentuk continu)
• Additive (data bisa ditambah berdasarkan semua dimensi)
• Semi-additive (data bisa ditambah berdasarkan dimensi tertentu tapi tidak semua deimensi)
• Non-additive (data tidak dapat ditambah, namun bisa dilakukan proses agregasi)
• Tujuannya adalah untuk merangkum informasi yang ada di fact table
• Tingkat granulary (kedetilan) fact table ditentukan oleh sub-set dari dimensi yang meng-indeks data
• misal: penjualan per hari, toko dan produk
• Fact table, bersifat sparse (tidak semua kombinasi disimpan)
• misal: jika produk tidak terjual di suatu toko pada suatu hari, maka tidak ada record yang berhubungan di fact table
Tuesday, 2 October 12
Dimension Table• Table dengan primary key yang terhubung ke fact table
• Atibut terpenting berupa deskripsi tekstual
• Atribut ini digunakan untuk mendefinisikan batasan data yang akan dianalisa
• Atribut ini digunakan untuk mengelompokkan agregasi berdasarkan fact table. Berupa header dari kolom
MerekM-1
M-2
M-3
M-4
Nilai Penjualan Jumlah Penjualan780 263
1020 509
213 300
80 40
Tuesday, 2 October 12
Contoh Hasil
MerekM-1
M-2
M-3
M-4
Nilai Penjualan Jumlah Penjualan780 263
1020 509
213 300
80 40
Metricsnilai dari atribut yang dipilih
atribut tekstual berdasarkan dimensi
• Data penjualan di pertengahan tahun di semua toko berdasarkan merek
Tuesday, 2 October 12
Pemrosesan Query Pada OLAP
• Pertama, batasan aplikasi diproses untuk setiap dimensi
• Misal: month = “April”; year = 2011; area = “Malang”
• Setiap dimensi menghasilkan serangkaian candidate key
• Misal: Time: semua time_key pada month=”April”; year = 2012
• Semua candidate key digabungkan (cartesian product) untuk mencari data di fact table
• Semua data yang didapatkan dari fact table dikelompokkan dan diagregasi
Tuesday, 2 October 12
Browsing (Eksplorasi) Dimension Table
• “Dimension Browsing” - adalah aktifitas user untuk mengeksplorasi data di tabel dimensi dengan tujuan untuk mendefinisikan batasan-batasan yang telah disediakan dan memilih level serta tipe summarization untuk keperluan OLAP
• Disediakan mekanisme yang mudah dan umum untuk menspesifikasikan query
• SIMPLICITY
• PERFORMANCE
Tuesday, 2 October 12
Browsing (Eksplorasi) Dimension Table
Dimensi: Product
Atribut: Merek Tipe Nama Produk
Batasan: Apple Handphone
Samsung
Nilai Pembeda: Apple .... iphone 5Black Berry Handphone ....
Samsung Televisi 3610
Nokia .... ....
Tuesday, 2 October 12
Drill Down dan Drill Up
Departemen
D-1
D-2
D-3
D-4
Nilai Penjualan Jumlah Penjualan
780 263
1020 509
213 300
80 40
Merek
D-1
D-1
D-2
...
Merek Nilai Penjualan Jumlah Penjualan
M-1 300 163
M-2 480 100
M-5 ... ...
... ... ...
Drill Down ke Departemen dan Merek
Tuesday, 2 October 12
• Drill Down adalah penambahan kolom baru pada hasil untuk analisa, disebut pula atribut dimensi
• Drill Up adalah operasi kebalikannya
Drill Down dan Drill Up
Tuesday, 2 October 12
Summary• Apa yang harus dikuasai:
• Memahami Corporate Information Model (CIF): Perbedaan antara Data Warehouse, ODS dan Data Marts (khususnya OLAP data marts). Aspek dasar feedback dari pengetahuan dan informasi yang dikumpulkan di sistem DSS ke sistem operasional dan data warehouse
• Memahami perbedaan mendasar antara OLTP dan aktivitas analisa yang dilakukan di data warehouse atau data marts: data, access, users
Tuesday, 2 October 12