makalah fact constellation schema

Upload: al-hakim-taufiq

Post on 16-Oct-2015

130 views

Category:

Documents


6 download

DESCRIPTION

Menjelaskan tentang permodelan dalam data warehouse salah satunya adalah Fact Constallation Schema

TRANSCRIPT

DAFTAR ISI

DAFTAR ISI1DAFTAR GAMBAR2KATA PENGANTAR3BAB I PENDAHULUAN41.1Latar Belakang Masalah41.2Tujuan Penelitian41.3Rumusan masalah41.4Batasan masalah4BAB II LANDASAN TEORI52.1Database (Basis Data)52.2Data Mining52.2.1Clustering52.2.2Algoritma Expectation Maximazation (EM)62.2.3Nine-step Methodology62.3.4CRISP-DM (Cross Industry Standard Process for Data Mining)62.3OLAP Dan OLTP72.3.1Pengertian Online Transaction Processing (OLTP)72.3.2Pengertian Online Analytical Processing (OLAP)82.4Konsep Data Warehouse92.4.1Pengertian Data Warehouse92.4.2Karakteristik Data Warehouse10BAB III PEMBAHASAN133.1Dimensional Modelling133.2Model Konseptual Data Warehouse133.3Fact Constellation Schema143.4Contoh Perancangan Fact Constellation Schema14BAB IV PENUTUP16KESIMPULAN16SARAN16DAFTAR PUSTAKA16

DAFTAR GAMBAR

Gambar 1 OLTP dan OLAP7Gambar 2 Data Warehouse9Gambar 3 Subjek Oriented10Gambar 4 Integrated11Gambar 5 Non Volatile12Gambar 6 Time Variancy12Gambar 7 Fact Constellation Schema14

KATA PENGANTAR

Assalamualaikum warahmatullahi wabarakatuh. Alhamdulillahirabbilalamin, banyak nikmat yang Allah berikan, tetapi sedikit sekali yang kita ingat. Segala puji hanya layak untuk Allah Tuhan seru sekalian alam atas segala berkat, rahmat, taufik, serta hidayah-Nya yang tiada terkira besarnya, sehingga penulis dapat menyelesaikan makalah dengan judul fact constellation schema.. Dalam penyusunannya, penulis memperoleh banyak bantuan dari berbagai pihak, karena itu penulis mengucapkan terima kasih yang sebesar-besarnya kepada: Kedua orang tua penulis yang telah memberikan dukungan, kasih, dan kepercayaan yang begitu besar. Dan juga teman teman sekelas yang telah memberikan support dan dukungan nya. Serta dosen matakuliah Data mining yang terus membina hingga makalah ini dapat selesai tepat waktu.Penulis berharap isi dari makalah ini bebas dari kekurangan dan kesalahan, namun selalu ada yang kurang. Oleh karena itu, penulis mengharapkan kritik dan saran yang membangun agar makalah ini dapat lebih baik lagi. Akhir kata penulis berharap agar makalah ini bermanfaat bagi semua pembaca.

Bandung 25 Maret 2014

"Penulis"

BAB IPENDAHULUAN

1.1 Latar Belakang Masalah

Pembangunan data warehouse merupakan salah satu cara untuk mengekstrak informasi penting dari data yang tersebar di beberapa sistem informasi . Data yang sudah terintegrasi selanjutnya dapat dimanfaatkan untuk kegiatan penyampaian informasi yang dapat ditinjau dari berbagai dimensi dan dapat diatur tingkatan rinciannya (dashboard). Pemanfaatan lebih lanjut dari informasi yang ada dalam data warehouse adalah kegiatan analisa data menggunakan teknik dan metode tertentu. Data yang ada di dalam data warehouse dapat digunakan sebagai input bagi sistem aplikasi (dashboard) yang akan dibangun. 1.2 Tujuan PenelitianTujuan dari penyusunan makalah ini adalah untuk memberikan penjelasan fact constellation schema beserta perbedaan perbedaan terhadap schema yang ada pada pada warehouse. 1.3 Rumusan masalahBerdasarkan latar belakang yang telah dikemukakan, maka permasalahan yang dapat dirumuskan adalah bagaimana penjelasan mengenai fact constellation schema .1.4 Batasan masalahAgar pembahasan tidak meluas dan menyimpang dari permasalahan yang ada, maka dalam penyusunan makalah ini hanya dibatasi mengenai Fact Constellation Schema.

BAB IILANDASAN TEORI

2.1 Database (Basis Data) Basis data (database) adalah sekumpulan data organisasi untuk melayani banyak aplikasi secara efisien dengan memusatkan data dan mengendalikan redudansi data. Data yang disimpan dalam file terpisah untuk setiap aplikasi, data disimpan supaya pada pengguna data tersebut tampak seperti disimpan hanya dalam satu lokasi. Sebuah basis data melayani banyak aplikasi sekaligus. Contohnya, alih-alih menyimpan data karyawan di dalam sistem informasi yang terpisah dan memisahkan file untuk personalia, pengajian, dan keuntungan, perusahaan dapat membuat sebuah basis data sumber daya manusia dan dapat digunakan bersama (Laudon 2008, h.265).

2.2 Data Mining Menurut Kusrini (2009, h.7), Data Mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. Menurut Kusrini (2009, h.10)2.2.1 Clustering Clustering merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan suatu dengan yang lainnya dan memiliki ketidak miripan dengan record dalam kluster lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan dengan record dalam kelompok lain akan bernilai minimal.

2.2.2 Algoritma Expectation Maximazation (EM)

Menurut (Kusrini & Luthfi, 2009) Algoritma Expectation Maximization sering digunakan untuk menemukan nilai estimasi Maximum Likelihood (ML) dari parameter dalam sebuah model probabilistic, dimana model juga tergantung pada latent variabel yang belum diketahui. Dalam algoritma ini, ada dua hal yang digunakan secara bergantian yaitu E step yang menghitung nilai ekspektasi dari likelihood termasuk latent variabel seolah-olah seperti mereka ada, dan M step menghitung nilai estimasi ML dari parameter dengan memaksimalkan nilai ekspektasi dari likelihood yang ditemukan pada E step. 2.2.3 Nine-step Methodology

Nine-step Methodology (Connolly dan Begg, 2005, h.1187). Kesembilan tahap itu yaitu: 1. Pemilihan Proses 2. Pemilihan Grain 3. Identifikasi dan penyesuaian 4. Pemilihan Fakta 5. Penyimpanan pre-calculation di tabel 6. Memastikan tabel dimensi 7. Pemilihan durasi database 8. Melacak perubahan dari dimensi secara perlahan 9. Penentuan prioritas dan model query 2.3.4 CRISP-DM (Cross Industry Standard Process for Data Mining) Dalam penerapan Data Mining digunakan metodologi CRISP-DM (Cross Industry Standard Process for Data Mining) (Olson & Delen, 2008). 1. Business understanding 2. Data understanding 3. Data preparation 4. Modeling 5. Evaluation 6. Deployment 2.3 OLAP Dan OLTP

OLTP (Online Transaction Processing) OLAP (Online Analytical Processing)

Gambar 1 OLTP dan OLAP

2.3.1 Pengertian Online Transaction Processing (OLTP)

Menurut Hoffer et al (2009:431), OLTP atau Online Transaction Processing adalah sebuah sistem yang digunakan dalam aplikasi berorientasi transaksi yang melibatkan pemrosesan transaksi SQL secara real-time. Hal ini memiliki karakteristik berupa entri dan pemanggilan kembali data secara cepat dalam lingkungan multiuser.

Menurut Connolly dan Begg (2005:1149), sistem ini telah didesain untuk menangani aliran data transaksi yang tinggi, dimana transaksi biasanya membuat perubahan kecil pada data operasional organisasi, dimana data yang harus ditangani oleh perusahaan adalah data operasional sehari-hari. Sistem seperti ini disebut Online Transaction Processing (OLTP). Berdasarkan definisi-definisi yang dijabarkan oleh para ahli di atas, maka dapat disimpulkan Online Transaction Processing (OLTP) adalah sebuah sistem yang digunakan dalam aplikasi berorientasi transaksi dimana dapat menangani aliran data transaksi yang tinggi dimana data yang ditangani adalah data operasional sehari - hari.

2.3.2 Pengertian Online Analytical Processing (OLAP)

Menurut Hoffer et al (2009:431), Online Analytical Processing (OLAP) merupakan seperangkat alat grafis yang menyajikan pengguna dengan tampilan multidimensional dari data dan memungkinkan pengguna untuk menganalisis data menggunakan teknik windowing sederhana. Menurut Connolly dan Begg (2010:1250), Online Analytical Processing (OLAP) adalah perpaduan dinamis analisis dan gabungan dari data multidimensional dalam jumlah besar.Berdasarkan definisi-definisi yang dijabarkan oleh para ahli di atas, maka dapat disimpulkan Online Analytical Processing (OLAP) adalah perpaduan dinamis analisis dan gabungan dari data multidimensional dalam jumlah besar yang memungkinkan pengguna untuk menganalisis data menggunakan teknik windowing sederhana.

2.4 Konsep Data Warehouse

Gambar 2 Data Warehouse

2.4.1 Pengertian Data Warehouse

Menurut Connolly dan Begg (2010:1197), data warehouse adalah sebuah gambaran yang tergabung atau terintegrasi dari data perusahaan ditarik dari sumber dan rentang data operasional yang terpisah dalam tools akses pengguna akhir yang mampu mendukung query yang sederhana hingga kompleks dalam mendukung pengambilan keputusan.Menurut Darudiato dalam jurnalnya (2008:59), data warehouse merupakan kumpulan informasi yang diperoleh dari basis data operasional yang digunakan untuk membuat Business Intelligent yang mendukung aktivitas analisis bisnis dan pekerjaan pembuatan keputusan. Jadi data warehouse merupakan ringkasan dari data-data dari berbagai sumber data operasional dimana data ringkasan tersebut akan ditampilkan dalam Business Intelligent yang akan sangat berguna dalam melakukan analisis dan pengambilan keputusan.Menurut Reddy et al dalam jurnalnya (2010:2866), data warehousing adalah kumpulan teknologi pendukung keputusan yang bertujuan untuk memungkinkan pekerja pengetahuan (eksekutif, manajer, analis) untuk membuat keputusan yang lebih baik dan lebih cepat. Berdasarkan definisi-definisi yang dijabarkan oleh para ahli di atas, maka dapat disimpulkan data warehouse adalah sekumpulan teknologi yang berorientasi subjek, terintegrasi, tidak dapat diperbaharui, dan memiliki variasi waktu yang datanya ditarik dari sumber dan rentang data operasional yang terpisah yang memungkinkan pekerja pengetahuan (eksekutif, manajer, dan analyst) untuk membuat keputusan yang lebih baik dan cepat.2.4.2 Karakteristik Data WarehouseMenurut Inmon (2005:29), karakteristik data warehouse dibagi menjadi beberapa bagian, yaitu :

1. Subject OrientedData warehouse disusun berdasarkan subjek-subjek utama dalam perusahaan. Hal ini menunjukkan bahwa data warehouse digunakan untuk menganalisis dan mengambil keputusan terkait histori subjek-subjek utama tersebut, bukan digunakan untuk mendukung aplikasi operasional.

Gambar 3 Subjek Oriented

2. IntegratedData dalam data warehouse berasal dari berbagai sumber yang terpisah. Data yang dimasukkan ke dalam data warehouse akan diubah, disusun ulang, diurutkan, dan dirangkum. Hal ini dilakukan untuk menjaga konsistensi data dalam data warehouse sehingga tercipta suatu gambaran data yang terintegrasi dalam perusahaan.

Gambar 4 Integrated

3. Non VolatileData dalam data warehouse tidak di-update secara real time tetapi diperbaharui secara berkala dari data operasional dalam jumlah data yang besar. Karakteristik data warehouse berbeda dengan karakteristik operasional data yang dapat diubah. Data dalam data warehouse hanya dapat loading data (mengambil data) dan mengakses data.

Gambar 5 Non Volatile 4. Time VariantSetiap satuan data dalam data warehouse bersifat akurat dalam interval waktu tertentu. Pada tiap record terdapat bentuk penanda waktu untuk menunjukkan kapan waktu suatu record akurat. Misalnya, dilakukan time stamping atau pemberian tanggal transaksi untuk tiap record.

Gambar 6 Time Variancy

BAB IIIPEMBAHASAN

3.1 Dimensional Modelling

Dimensionality modeling adalah sebuah teknik desain logis yang bertujuan untuk menghadirkan data dalam sebuah bentuk yang standar dan intuitif yang memungkinkan pengaksesan basis data dengan performa yang tinggi (Connolly dan Begg 2011, h.1182). Ada beberapa konsep pemodelan Data Warehouse pada dimensionality modeling yang dikenal umum pada saat ini, konsep-konsep tersebut antara lain adalah star schema, snowflake dan fact constellation schema.3.2 Model Konseptual Data Warehouse

Model konseptual data warehouse atau dimensional model merupakan suatu desain logic yang merepresentasikan data dalam bentuk standar, dan mendukung dilakukannya akses terhadap data dengan cepat. Terdapat beberapa istilah yang berkaitan dengan model ini, yaitu fact table, dimension table, dan hirarki. Fact table merupakan tabel utama yang berisikan kumpulan dari primary key tabel lain. Setiap fact table dalam model konseptual data warehouse memiliki composite key, begitu juga sebaliknya, setiap tabel yang memilki composite key adalah fact table. Dengan kata lain, setiap tabel yang menunjukkan hubungan banyak ke banyak (many to may relationship) pastilah merupakan fact table. Dimension table adalah tabel yang lebih sederhana dimana didalamnya terdapat primary key yang berhubungan dengan salah satu composite key yang ada pada fact table. Hirarki mendefinisikan urutan pemetaan dari konsep level bawah ke level yang lebih tinggi, konsep yang lebih umum. Dimensional model yang paling populer adalah star schema, snowflakes schema, dan fact constellation schema.

3.3 Fact Constellation Schema

Fact constellation schema adalah dimensional model yang didalamnya terdapat lebih dari satu fact table yang membagi satu atau lebih dimension table. Skema ini lebih kompleks daripada star skema karena berisi berbagai fact table. Dalam fact constellation schema, satu dimensi table bisa digunakan di beberapa fact table sehingga desainnya lebih kompleks. Keuntungan dari fact constellation schema adalah kemampuan untuk memodelkan bisnis lebih akurat menggunakan beberapa fact table. Namun kerugiannya adalah sulit dalam pengelolaan dan desain yang rumit.Pada skema ini Beberapatabelfaktadihubungkanke table table tabel dimensi yang sama, dipandang sebagai kumpulan dari skema star, sehingga dinamakan skema galaksi atau fact constellation.3.4 Contoh Perancangan Fact Constellation Schema

Berikut ini merupakan gambar perancangan fact constellation schema untuk proses penjualan, pembelian, dan stock control pada minimarket yang telah dijabarkan sebelumnya. Fact table dari skema ini adalah tabel penjualan, tabel pembelian, dan tabel stock sedangkan dimension table-nya adalah tabel customer, tabel supplier, tabel barang, dan tabel tanggal.

Gambar 7 Fact Constellation SchemaSebagai fact table, tabel pembelian, tabel penjualan, dan tabel stock berisikan primary key dari masing-masing dimensional table. Sebaliknya primary key dari tabel customer, tabel supplier, tabel barang, dan tabel tanggal, yang berperan sebagai dimensional table, juga berhubungan dengan salah satu composite key yang ada pada fact table. Fact constellation schema diatas menunjukkan bahwa suatu dimension table dapat berhubungan dengan banyak fact table. Misalnya pada tabel barang dan tabel tanggal. Kedua tabel diatas berhubungan dengan tiga fact table sekaligus, yaitu tabel penjualan, tabel pembelian, dan tabel stock.

BAB IV PENUTUPKESIMPULAN

Setelah melakukan analisis terhadapat Fact Constellation Schema dan model konseptual data warehouse dapat disimpulkan bahwa : Fact constellation schema adalah skema yang paling kompleks dibandingkan dengan star dan snowflakes schema, dimana terdapat beberapa fact table dan dimension table-nya dapat berhubungan dengan lebih dari satu fact table.

SARAN

Saran yang dapat disampaikan untuk kemajuan di masa mendatang, antara lain : Untuk mengetahui secara lebih jelas model konseptual data Warehouse Fact constellation schema , disarankan untuk melakukan uji coba secara langsung pada database dari suatu aplikasi yang berjalan. Topik pembahasan sebelumnya dapat dikembangkan lagi dengan mengenakan operasi on-line analytical processing (OLAP), seperti roll-up, drill-down, slice, dice, pivoting, ranking, dalam menganalisis data warehouse.

DAFTAR PUSTAKA

1. ETL-Tools.Info (28 Maret 2014), Data warehouse fact constellation schema http://etltools.info/en/bi/datawarehouse_constellation-schema.htm 2. Doro Edi & Stevalin Betshani ( Analisis Data dengan Menggunakan ERD dan Model Konseptual Data Warehouse)5