materi praktikum -...
TRANSCRIPT
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
MODUL 5
KLASIFIKASI
1. Tujuan Praktikum
1) Mahasiswa mempunyai pengetahuan dan kemampuan dasar mengenai metode
pencarian pengetahuan / pola data dari sejumlah data dengan menggunakan teknik
klasifikasi.
2) Mahasiswa mampu menyelesaikan kasus klasifikasi data dengan menerapkan teknik
klasifikasi.
3) Mahasiswa mampu memahami konsep dan menerapkan salah satu algoritma klasifikasi
yaitu decision tree.
4) Mahasiswa mampu mengolah data dan menginterpretasikan hasil pengolahan data
menggunakan metode klasifikasi dengan bantuan aplikasi Rapid Miner.
2. Definisi Klasifikasi
Klasifikasi merupakan proses untuk menemukan sekumpulan model yang menjelaskan dan
membedakan kelas-kelas data, sehingga model tersebut dapat digunakan untuk memprediksi
nilai suatu kelas yang belum diketahui pada sebuah objek.
Gambar 1. Klasifikasi sebagai suatu tugas memetakan atribut x ke dalam label kelas y
Klasifikasi adalah proses untuk menempatkan objek tertentu (konsep) dalam satu set
kategori, berdasarkan sifat masing-masing objek (konsep) (Gorunescu, 2011). Klasifikasi
tergolong dalam supervised methods.
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Supervised methods adalah metode yang berusaha untuk menemukan hubungan antara
atribut input (variabel independen) dan atribut target / kelas (variabel dependen). Hubungan
yang ditemukan diwakili dalam struktur yang disebut sebagai model. Biasanya model
menggambarkan dan menjelaskan fenomena yang tersembunyi dalam dataset dan dapat
digunakan untuk memprediksi nilai atribut target mengetahui nilai-nilai atribut masukan
(Maimon, 2010).
Proses klasifikasi didasarkan pada empat komponen dasar (Gorunescu, 2011) :
1) Kelas (class) atau label kelas yaitu variabel dependen dari model yang merupakan variabel
kategori yang menjelaskan sebuah 'label' pada objek setelah proses klasifikasi. Contoh :
loyalitas pelanggan (label : loyal / tidak loyal), kelas bintang (galaksi), dll.
2) Prediktor (predictor) atau atribut (attribute) yaitu variabel independen dari model yang
diwakili oleh karakteristik (atribut) dari data yang akan diklasifikasikan dan berdasarkan
klasifikasi yang dibuat. Contoh prediktor tersebut adalah: merokok, konsumsi alkohol,
tekanan darah, frekuensi pembelian, status perkawinan, dan kecepatan angin, musim, dll.
3) Training set atau dataset latihan (training dataset) yaitu merupakan kumpulan data yang
berisi nilai-nilai atau record untuk dua komponen sebelumnya (kelas dan prediktor /
atribut) dapat berupa variabel kontinyu maupun kategoris, dan digunakan untuk 'pelatihan'
atau pembangunan model untuk menyesuaikan dengan kelasnya berdasarkan prediktor
yang tersedia. Contoh set tersebut adalah: kelompok pasien diidentifikasi pada kasus
serangan jantung berdasarkan faktor-faktor yang mempengaruhinya, kelompok pelanggan
dari supermarket, dll.
4) Dataset pengujian (testinging dataset) yaitu berisi data baru yang akan diklasifikasikan
oleh model klasifikasi (classifier) dan untuk mengukur tingkat akurasi klasifikasi (kinerja
model) sehingga performansi model klasifikasi dapat dievaluasi.
Model dalam klasifikasi antara lain yaitu (Bertalya, 2009) :
1) Pemodelan Deskriptif
Sebagai alat penggambaran yang bersifat menjelaskan untuk membedakan objek-objek
dari kelas yang berbeda.
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
2) Pemodelan Prediktif
Pemodelan prediktif digunakan untuk memprediksi label kelas untuk record yang belum
diketahui.
3. Penerapan Klasifikasi
Klasifikasi dapat diaplikasikan dalam beberapa bidang antara lain kesehatan, perbankan, ritel,
dll. Masing-masing memiliki atribut yang sesuai dengan kasus masing-masing. Misalnya
dalam ritel, kasus yang biasanya digunakan adalah pemberian diskon/bonus.
4. Tahapan Klasifikasi
Tahapan dalam klasifikasi antara lain adalah :
1) Preprocessing Data
Tahap awal yang dilakukan sebelum proses klasifikasi adalah melakukan preprocessing
data, terdapat beberapa langkah preprocessing data, yaitu :
a) Data Integrasi
Data Integrasi merupakan penggabungan data dari beberapa sumber. Dalam metode
klasifikasi data integrase dilakukan dengan mengumpulkan beberapa data yang berasal
dari beberapa departemen di sebuah perusahaan untuk mendapatkan satu database yang
akan digunakan untuk pengolahan pada metode klasifikasi.
b) Data Cleaning
Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan noise dan
penanganan terhadap missing value pada suatu record.
c) Data Diskretisasi
Data diskretisasi merupakan proses membuat kelas – kelas data (range) untuk parameter
dalam melakukan transformasi untuk tahapan berikutnya.
d) Transformasi Data
Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih tinggi.
Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai kontinyu.
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Pembelajaran terhadap data hasil generalisasi dapat mengurangi kompleksitas
pembelajaran yang harus dilakukan karena ukuran data yang harus diproses lebih kecil.
e) Data Reduksi
Data reduksi merupakan proses mengurangi data atau variable yang tidak memiliki
hubungan atau korelasi dengan tujuan penelitian. Dalam menggunakan metode
klasifikasi, data reduksi dilakukan dengan melakukan uji independensi chi square untuk
mengetahui ada tidaknya hubungan atribut dengan label kelas. Berikut merupakan
tahapan uji chi square independensi :
CONTOH KASUS :
Diketahui bahwa PT.ABC ingin mengetahui status kebijakan diberikannya diskon atau
tidak pada customer yang membeli di PT ABC, sehingga perlunya dibuat sebuah model
prediksi yang dapat memprediksi pemberian diskon yang diberikan berdasatkan beberapa
factor yang dipertimbangkan. Empat factor yang digunakan antara lain jumlah barang dan
keadaaan barang. Berikut data historis yang dapat digunakan dalam pembangunan
model :
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
1. Masukkan data dengan menginputkan variabel yang digunakan ke bagian variable
view, dengan menggunakan type data “string”
2. Untuk tahapan berikutnya, klik Analyze Descriptive Statistics Crosstabs,
Masukkan Atribut kedalam Row(s) dan label kelas ke dalam Column(s). Kemudian
klik bagian Statistics dan checklist pada Chi-Square seperti berikut ini :
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Lalu, klik continue dan langsung klik OK untuk mendapatkan hasil output dari uji chi-
square independensi.
3. Berikut merupakan output yang didapatkan dari pengujian chi-square independensi :
Berdasarkan hasil diatas, dapat dilihat dari nilai Sig.Pearson Chi-Square. Dapat
diketahui bahwa Sig ≤ 0.05 maka data atribut memiliki hubungan dengan label kelas,
sementara ketika Sig > 0.05 maka data atribut tidak memiliki hubungan dengan label
kelas.
2) Pembuatan Model Dalam Klasifikasi
Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu obyek
data. Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu :
a) Pembelajaran / Pembangunan Model
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Tiap – tiap record pada data latih (training set) dianalisis berdasarkan nilai – nilai
atributnya, dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model.
Gambar 2. Learning : Training data.
Sebagai contoh, pada gambar 2. menjelaskan tahap awal proses klasifikasi yaitu
mendapatkan model klasifikasi (classifier) dari data latihan (training data)
menggunakan algoritma klasifikasi. Atribut label kelas adalah ”Tenured“, dan “Learned
Model“ atau “classifier“ di gambarkan pada blok aturan klasifikasi.
b) Klasifikasi
Pada tahap ini, data uji (testing set) digunakan untuk mengetahui tingkat akurasi dari
model yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang
ditentukan, maka model tersebut dapat digunakan untuk mengklasifikasikan record
pada data yang baru.
Gambar 3. Classification: Testing data.
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Pada gambar 3., data uji (testing set) digunakan untuk mengetahui tingkat akurasi dari
model yang dihasilkan (classifier). Jika keakuratan tersebut dianggap dapat diterima,
maka aturan itu dapat diaplikasikan untuk mengklasifikasikan data records yang baru.
5. Asumsi Dalam Klasifikasi
Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai:
1. Setiap record diasumsikan sudah mempunyai kelas yang dikenal seperti ditentukan oleh
label kelas atribut,
2. Kumpulan record yang digunakan untuk membuat model disebut kumpulan pelatihan
(training set),
3. Model direpresentasikan sebagai classification rules, decision tree atau formula
matematis.
Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau obyek yang
belum diketahui, yaitu taksiran keakuratan dari model yang terdiri dari:
1. Label yang telah diketahui dari contoh tes dibandingkan dengan hasil klasifikasi dari
model,
2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang diklasifikasikan secara
tepat oleh model,
3. Kumpulan tes tidak terikat pada kumpulan pelatihan,
4. Jika akurasi diterima, model dapat digunakan untuk mengklasifikasikan data record yang
label kelasnya belum diketahui.
Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma klasifikasi,
dapat dilakukan dengan menghitung jumlah dari testing record yang diprediksi secara benar
(akurasi) dan salah (error rate) oleh model tersebut. Akurasi dan error rate didefinisikan
sebagai berikut.
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Model di klasifikasi dapat dikatakan baik untuk digunakan apabila mempunyai akurasi yang
tinggi atau error rate yang rendah ketika model diterapkan pada testing set.
6. Algoritma Klasifikasi
Pada teknik klasifikasi terdapat beberapa algoritma klasifikasi yang dapat digunakan, antara
lain: pohon keputusan (decision tree), rule based, neural network, support vector machine,
naive bayes, rough set, dan nearest neighbour.
7. Algoritma Decision Tree
Salah satu metode teknik klasifikasi data mining yang umum digunakan adalah decision tree.
Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana setiap simpul
internal menandakan suatu tes pada atribut, setiap cabang merepresentasikan hasil tes, dan
simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri
dari simpul akar ke simpul daun yang memegang prediksi kelas untuk contoh tersebut.
Decision tree mudah untuk dikonversi ke aturan klasifikasi. Teknik pohon keputusan lebih
mudah digunakan, karena beberapa alasan:
a) Dibandingkan dengan classifier JST atau bayesian, sebuah pohon keputusan mudah
diinterpretasi/ ditangani oleh manusia.
b) Sementara training JST dapat menghabiskan banyak waktu dan ribuan iterasi, pohon
keputusan efisien dan sesuai untuk himpunan data besar.
c) Algoritma dengan pohon keputusan tidak memerlukan informasi tambahan selain yang
terkandung dalam training data (yaitu, pengetahuan domain dari distribusi-distribusi pada
data atau kelas-kelas).
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
d) Pohon keputusan menunjukkan akurasi klasifikasi yang baik dibandingkan dengan teknik-
teknik yang lainnya.
1) Konsep Decision Tree
Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan
(rule).
Gambar 4. Konsep Decision Tree
2) Tipe Simpul Pada Tree
Tree mempunyai 3 tipe simpul, yaitu:
1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih keluaran edge (tepi),
2. Simpul internal, masing-masing 1 masukan edge dan 2 atau lebih edge keluaran,
3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge dan tidak ada edge
keluaran.
Pada decision tree setiap simpul daun menandai label kelas. Simpul yang bukan
simpul akhir terdiri dari akar dan simpul internal yang terdiri dari kondisi tes atribut pada
sebagian record yang mempunyai karakteristik yang berbeda. Simpul akar dan simpul
internal ditandai dengan bentuk oval dan simpul daun ditandai dengan bentuk segi empat.
Gambar 5. Decision tree untuk masalah klasifikasi
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
3) Konsep Data Dalam Decision Tree
a) Data dinyatakan dalam bentuk tabel dengan atribut dan record.
b) Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan
tree. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca,
angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi
per-item data yang disebut dengan target atribut.
c) Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca
mempunyai instance berupa cerah, berawan dan hujan.
Customer Jumlah Beli Keadaan
Barang Diskon?
Cinta Banyak Tidak Cacat Tidak Diskon
Jojo Sedikit Cacat Diskon
Shinta Sedang Tidak Cacat Tidak Diskon
Lala Sedikit Cacat Diskon
Maya Banyak Cacat Diskon
Gambar 6. Contoh data untuk Decision Tree
4) Proses Dalam Decision Tree
a) Proses Mengubah Data Menjadi Tree
Gambar 7. Mengubah Data Menjadi Tree
b) Ukuran untuk Memilih Split Terbaik
Instance Label Kelas
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Dalam membangun sebuah decision tree secara top-down (dari atas ke bawah), tahap
awal yang dilakukan adalah mengevaluasi semua atribut yang ada menggunakan suatu
ukuran statistik (yang banyak digunakan adalah information gain) untuk mengukur
efektifitas suatu atribut dalam mengklasifikasikan suatu kumpulan sampel data. Atribut
yang diletakkan pada root node adalah atribut yang memiliki information gain terbesar.
Semua atribut adalah bersifat kategori yang bernilai diskrit. Atribut dengan nilai
continuous harus didiskritkan (Zalilia, 2007). Terlebih dahulu kita harus mencari nilai
informasi dari data yang merupakan nilai yang diperlukan untuk mengklasifikasikan
keputusan akhir. Secara matematis dapat dirumuskan dengan:
c) Entropy
Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak
suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S.
Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin
kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu
kelas.
Entropi adalah suatu parameter untuk mengukur heterogenitas dari suatu data. Panjang
kode untuk menyatakan informasi secara optimal adalah p2log− bits untuk messages
yang mempunyai probabilitas p.
Untuk menghitung information gain, terlebih dahulu kita harus memahami suatu
ukuran lain yang disebut Entropy. Entropy biasa digunakan sebagai sautu parameter
untuk mengukur heterogenitas (keberagaman) dari suatu kumpulan sampel data. Jika
kumpulan sampel data semakin heterogen, maka semakin besar nilai entropy. Secara
matematis, nilai entropy masing-masing instance dirumuskan sebagai berikut:
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Keterangan :
S = ruang (data) sample yang digunakan untuk training.
P(+) = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria
tertentu.
P(-) = jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk
kriteria tertentu.
Sedangkan untuk nilai entropy masing-masing atribut dirumuskan dengan:
d) Information Gain
Setelah mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka dapat
diukuer efektifitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini
disebut Information Gain. Secara matematis, information gain dari suatu atribut,
dituliskan sebagai berikut:
Dengan kata lain, Gain (A) adalah reduksi yang diharapkan dalam entropy yang
disebabkan oleh pengetahuan nilai pada atribut A. Algoritma menghitung information
gain pada setiap atribut. Atribut dengan nilai gain terbesar dipilih sebagai tes atribut
(simpul akar). Simpul A dibuat dan dilabelkan dengan atribut, cabang dibuat untuk
setiap nilai atribut.
Klasifikasi pada umumnya digunakan untuk kasus-kasus pada kelas-kelas
keputusan yang bernilai diskrit dengan keputusan seperti diterima = “ya” atau “tidak”.
Namun jika kita menemukan kasus yang mempunyai nilai keputusan kontinyu cara
untuk menyelesaikannya adalah dengan mengubah nilai-nilai kontinyu menjadi nilai-
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
nilai diskrit dengan cara mempartisi nilai kontinyu ke dalam interval-interval bernilai
diskrit.
Tabel 1. Contoh Data penerimaan karyawan dengan atribut IPK bernilai kontinyu
Untuk menyelesaikannya kita misal atribut IPK kita ubah menjadi 3 nilai diskrit
dengan membentuk interval “bagus“=[3,00-4,00], “cukup“=[2,75-3,00] lalu kembali
dengan melanjutkan langkah-langkah selanjutnya.
e) Mengubah Tree Menjadi Rules
Tahap terakhir dalam algoritma decision tree adalah mengubah tree menjadi rules
seperti pada gambar di bawah ini.
Gambar 8. Mengubah Tree Menjadi Rules
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Sebagai contoh, terdapat sebuah kasus seseorang menentukan akan main tenis di
lapangan atau tidak berdasarkan faktor cuaca dan angin, maka berdasarkan tree yang
terbentuk dapat diubah menjadi beberapa rule seperti gambar di bawah ini.
Gambar 9. Mengubah Tree Menjadi Rules
5) Contoh Kasus Decision Tree
a) Menentukan Node Terpilih
Dari data sampel ditentukan node terpilih, yaitu dengan menghitung nilai entropy
masing-masing atribut. (jumlah beli, harga, dan keadaan barang).
Catatan Node terpilih adalah kriteria dengan Information Gain yang paling besar.
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Entropy untuk harga:
Nilai Informasi untuk data tersebut adalah:
Information Gain (I) =0.9183-0.36 =0.558296
Dengan menggunakan cara yang sama nilai entropy atribut yang lain adalah sebagai
berikut:
Tabel 2. Nilai Entropy untuk Jumlah Beli dan keadaan Barang
Terpilih atribut HARGA sebagai node awal karena memiliki information gain
terbesar.
b) Menyusun Tree Awal
Gambar 10. Tree Awal yang Terbentuk
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Node berikutnya dapat dipilih pada bagian yang mempunyai nilai + dan -, pada contoh
di atas hanya harga = sedang yang mempunyai nilai + dan –, maka semuanya pasti
mempunyai internal node. Untuk menyusun internal node lakukan satu-persatu.
c) Internal Node untuk harga = sedang
Tabel 3. Internal Node Harga Sedang
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
d) Menyusun Tree Lanjutan
Gambar 11. Tree Lanjutan 1
Gambar 12. Tree Lanjutan 2
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
e) Hasil Tree Akhir
Gambar 13. Tree Akhir
f) Mengubah Tree Menjadi Rule
Rule yang terbentuk dari hasil tree akhir adalah sebagai berikut:
R1: IF Harga = mahal THEN diskon = ya
R2: IF Harga = murah THEN diskon = tidak
R3: IF Harga = sedang dan Jumlah Beli = sedikit THEN diskon = tidak
R4: IF Harga = sedang dan Jumlah Beli = banyak dan Keadaan Barang = cacat
THEN diskon = ya
R5: IF Harga = sedang dan Jumlah Beli = banyak dan Keadaan Barang=baik
THEN diskon = tidak
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
g) Menghitung Akurasi dan Error
Hasil Prediksi pada training set adalah sebagai berikut:
Tabel 4. Hasil Model Klasifikasi dan Prediksi
Keterangan:
Warna kuning menunjukkan ketidaksesuaian atau tingkat error
Tingkat error = 3/18 *100% = 16.67 %.
Sedangkan untuk akurasi adalah sebesar = 15/18*100% = 83.33 %.
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Contoh Kasus :
Seorang peneliti ingin mengetahui apakah perusahaan pengolahan baja yang ada di Indonesia
sudah memiliki lingkungan kerja yang baik atau tidak. Untuk itu, peneliti tersebut melakukan
pengambilan data terhadap 100 perusahaan yang didasarkan pada 5 kategori yaitu kebisingan,
suhu, getaran, pencahayaan, dan perbandingan luas dengan jumlah pekerja. Berikut adalah
data historis dari perusahaan tersebut :
Perusahaan Kebisingan
(dB)
Suhu (C0) Getaran
(Hz)
Pencahayaan
(Lux)
Perbandingan
Luas dengan
Jumlah Pekerja
Status
LKF
1 97 31 76 102 15 Buruk
2 85 24 145 149 8 Baik
3 101 25 56 118 20 Buruk
4 101 25 146 155 19 Buruk
5 94 36 129 131 4 Buruk
6 94 31 9 91 14 Buruk
7 98 32 70 101 18 Buruk
8 98 27 105 99 14 Baik
9 86 29 3 98 9 Baik
10 94 32 124 150 16 Buruk
11 92 30 107 150 19 Buruk
12 88 29 105 178 11 Baik
13 82 34 150 163 7 Baik
14 82 29 112 186 20 Baik
15 99 34 9 185 9 Baik
16 103 40 77 101 20 Buruk
17 81 37 4 145 19 Baik
18 87 38 105 129 14 Buruk
19 98 38 84 99 14 Buruk
20 105 28 114 181 5 Buruk
21 85 27 48 193 18 Baik
22 85 35 35 127 19 Buruk
23 103 33 145 99 6 Buruk
24 103 36 147 102 11 Buruk
25 103 36 102 136 8 Buruk
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Perusahaan Kebisingan
(dB)
Suhu (C0) Getaran
(Hz)
Pencahayaan
(Lux)
Perbandingan
Luas dengan
Jumlah Pekerja
Status
LKF
26 93 38 62 183 6 Buruk
27 105 38 105 146 15 Buruk
28 95 27 25 145 9 Baik
29 85 35 22 188 8 Baik
30 80 31 113 112 10 Buruk
31 94 25 8 151 17 Baik
32 103 33 74 193 9 Buruk
33 103 29 83 104 14 Buruk
34 93 37 15 185 17 Buruk
35 81 34 62 177 8 Buruk
36 103 35 131 91 10 Buruk
37 82 35 102 143 12 Buruk
38 92 38 14 141 13 Baik
39 97 29 14 133 10 Baik
40 103 36 55 126 12 Buruk
41 83 39 104 181 19 Buruk
42 83 32 87 189 20 Baik
43 103 38 102 193 4 Buruk
44 103 31 122 140 7 Buruk
45 100 35 105 146 10 Buruk
46 93 30 81 184 13 Buruk
47 89 37 6 190 17 Buruk
48 104 35 30 114 8 Buruk
49 102 38 68 149 5 Buruk
50 80 33 87 174 13 Baik
51 91 33 28 172 15 Buruk
52 83 30 31 127 11 Buruk
53 100 28 20 141 6 Buruk
54 98 38 30 183 14 Buruk
55 103 29 125 154 14 Buruk
56 96 35 54 149 15 Buruk
57 98 35 42 170 4 Buruk
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Perusahaan Kebisingan
(dB)
Suhu (C0) Getaran
(Hz)
Pencahayaan
(Lux)
Perbandingan
Luas dengan
Jumlah Pekerja
Status
LKF
58 95 24 15 159 17 Baik
59 85 35 142 178 18 Buruk
60 93 29 70 189 15 Buruk
61 91 25 110 90 20 Buruk
62 86 33 134 110 11 Buruk
63 88 38 125 91 6 Buruk
64 104 31 118 133 11 Buruk
65 103 40 62 110 12 Buruk
66 94 28 128 126 9 Baik
67 96 40 117 199 11 Buruk
68 86 37 9 148 8 Buruk
69 95 28 21 95 17 Buruk
70 84 30 10 129 19 Buruk
71 87 28 52 163 12 Buruk
72 101 33 106 147 16 Buruk
73 105 28 72 176 8 Buruk
74 97 39 104 157 4 Baik
75 94 24 26 189 19 Buruk
76 91 36 132 168 6 Buruk
77 91 27 148 146 14 Buruk
78 95 30 147 163 9 Buruk
79 98 36 82 112 17 Buruk
80 85 39 107 134 8 Buruk
81 89 27 58 170 16 Buruk
82 89 26 12 130 17 Baik
83 90 32 92 107 10 Buruk
84 97 39 56 123 5 Buruk
85 91 39 18 151 18 Buruk
86 98 24 53 156 10 Buruk
87 105 25 126 91 17 Buruk
88 85 34 25 98 10 Buruk
89 100 39 75 98 8 Buruk
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Perusahaan Kebisingan
(dB)
Suhu (C0) Getaran
(Hz)
Pencahayaan
(Lux)
Perbandingan
Luas dengan
Jumlah Pekerja
Status
LKF
90 85 25 120 151 10 Baik
91 89 30 79 129 15 Buruk
92 100 31 107 110 9 Buruk
93 94 28 91 93 10 Buruk
94 86 35 90 111 7 Buruk
95 89 26 121 147 9 Buruk
96 86 24 73 148 17 Buruk
97 83 39 117 179 20 Buruk
98 91 35 35 119 11 Baik
99 83 31 82 134 15 Buruk
100 89 27 8 160 4 Buruk
Aturan Transformasi
Kebisingan
Tinggi >100
Sedang 91-100
Rendah 80-90
Suhu
Sangat Buruk ≥35
Buruk 30-34
Baik 24-29
Getaran
Sangat Berbahaya bagi Kepala >100
Berbahaya bagi Kepala 51-100
Aman untuk bagian kepala 1-50
Pencahayaan
Baik >150
Sedang 126-150
Redup 90-125
Perbandingan dengan Luas
Besar 16
Sedang 10-15
Kurang 4-9
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
Langkah - langkah Decision Tree dengan Rapid Miner :
1. Buka software rapid miner, klik New Process
2. Pilih File-Import Data-Import Excel Sheet
Gambar 14. Membuka Data
3. Pilih file yang akan diproses, kemudian klik Next
Gambar 15. Data Import Step 1
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
4. Pilih Sheet (halaman) yang akan diproses, kemudian klik Next
Gambar 16. Data Import Step 2
5. Klik Next
Gambar 17. Data Import Step 3
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
6. Pilihlah atribut dan tipe data yang sesuai, kemudian klik Next.
Gambar 18. Data Import Step 4
7. Simpan data di folder yang Anda inginkan kemudian ketik nama file sesuai keinginan
Anda pada kolom Name, kemudian klik Finish
Gambar 19. Data Import Step 5
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
8. Akan muncul tampilan seperti di bawah ini
Gambar 20. Output Import Data
Menggunakan Algoritma Decission Tree
1. Drag file trainingset klasif ke dalam kotak Main Process
Gambar 21. Proses Drag Data TrainingSet
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
2. Cari Select Attributes pada kotak search, drag kedalam kotak Main Process, lalu
hubungkan (out) dari file ke (exa) Select Attributes.
Gambar 22. Proses Drag Select Attribut
3. Kemudian pilih atribut yang akan digunakan dengan klik kotak Select Attributes, ganti
attributes filter type dengan pilihan “subset”, lalu klik pilihan Select Attributes.
Gambar 23. Pemilihan Attribut
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
4. Pilih atribut yang akan digunakan dengan memindah atribut dari kolom Attributes
kekolom Selected Attributes. Lalu klik Apply.
Gambar 24. Proses Pemilihan Attribut
5. Cari algoritma yang akan digunakan, (Decison Tree) pada kotak search
Gambar 25. Pencarian Algoritma Decision Tree
6. Kemudian drag algoritma yang akan digunakan (Decision Tree) ke dalam kotak Main
Process.
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
7. Cari Apply Model pada kotak search
Gambar 26. Pencarian Apply Model
8. Drag Apply Model pada kotak Main Process.
9. Cari Performance pada kotak search
Gambar 27. Pencarian Performance
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
10. Drag Performance pada kotak Main Process.
Maka akan terbentuk seperti gambar di bawah ini.
Gambar 28. Main Process
11. Setelah itu, buat hubungan antar kotak :
(exa) Select Attributeske (tra) Decision Tree
(mod) Decision tree ke (mod)Apply Model
(exa) Decision tree ke (unl)Apply Model
(lab) Apply Modelke (lab) Performance
(mod) Apply Modelke (res) (Output)
(per)Performance ke (res) Output
(exa) Performance ke (res) Output
12. Maka akan terbentuk kotak Main Process seperti di bawah ini.
Gambar 29. Proses Penghubungan
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
13. Untuk algoritma Decision Tree. Klik kotak Decision Tree maka akan muncul tampilan
di bawah ini, kemudian klik criterion dan pilih information_gain (karena menggunakan
algoritma Decision Tree (C4.5) maka dipilih information gain sebagai penentu kriteria
(atribut).
Gambar 30. Output Import Data
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
14. Kemudian klik icon , maka akan muncul output (decision tree) seperti di bawah ini :
Gambar 31. Output Decision Tree Rapid Miner
Berdasarkan decision tree diatas, berikut adalah rule-rule yang terbentuk :
R1 : Jika Kebisingan = Tinggi, maka Status LKF = Buruk
R2 : Jika Kebisingan = Sedang, Suhu = Sangat Buruk, Getaran = Sangat Berbahaya,
maka Status LKF = Buruk
R3 : Jika Kebisingan = Sedang, Suhu = Sangat Buruk, Getaran = Berbahaya, maka Status
LKF = Buruk
R4 : Jika Kebisingan = Sedang, Suhu = Sangat Buruk, Getaran = Aman, maka Status
LKF = Buruk
R5 : Jika Kebisingan = Sedang, Suhu = Buruk, Getaran = Sangat Berbahaya, maka Status
LKF = Buruk
R6 : Jika Kebisingan = Sedang, Suhu = Buruk, Getaran = Berbahaya, maka Status LKF =
Buruk
R7 : Jika Kebisingan = Sedang, Suhu = Buruk, Getaran = Aman, maka Status LKF =
Buruk
R8 : Jika Kebisingan = Sedang, Suhu = Baik, maka Status LKF = Baik
R9 : Jika Kebisingan = Rendah, Suhu = Sangat Buruk, Getaran = Sangat Berbahaya,
maka Status LKF = Buruk
R10 : Jika Kebisingan = Rendah, Suhu = Sangat Buruk, Getaran = Berbahaya, maka Status
LKF = Buruk
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
R11 : Jika Kebisingan = Rendah, Suhu = Sangat Buruk, Getaran = Aman, maka Status
LKF = Buruk
R12 : Jika Kebisingan = Rendah, Suhu = Buruk, Getaran = Sangat Berbahaya, maka Status
LKF = Buruk
R13 : Jika Kebisingan = Rendah, Suhu = Buruk, Getaran = Berbahaya, maka Status LKF =
Baik
R14 : Jika Kebisingan = Rendah, Suhu = Baik, maka Status LKF = Baik
15. Untuk melihat tingkat akurasi maka klik Performance Vector, maka akan muncul
output sebagai berikut :
Gambar 32. Output Performance
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52213604 Jumlah Halaman : 29 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2017
DAFTAR PUSTAKA
Bertalya. 2009. Konsep Data Mining. Jakarta: Universitas Gunadarma.
Florin Gorunescu. 2011. Data Mining : Concept, Model and Techniques. Berlin : Springer.
Oded Maimon dan Lior Rokach. 2010. Data Mining and Knowledge Discovery Handbook.
London : Springer.