diajukan untuk memenuhi salah satu syarat memperoleh gelar ... · nilai daya serap ujian nasional...
TRANSCRIPT
i
IMPLEMENTASI ALGORITMA DIVISIVE HIERARCHICAL
CLUSTERING UNTUK PENGELOMPOKAN SEKOLAH MENENGAH
ATAS DI DAERAH ISTIMEWA YOGYAKARTA BERDASARKAN
NILAI DAYA SERAP UJIAN NASIONAL MATA PELAJARAN
MATEMATIKA
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Oleh :
Blasius Richo Prasojo
115314015
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2018
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
IMPLEMENTATION OF DIVISIVE HIERARCHICAL CLUSTERING
ALGORITHM FOR CLUSTERING OF SENIOR HIGH SCHOOL IN
YOGYAKARTA BASED ON VALUE ABSORPTION DATA OF MATH
NATIONAL EXAM SCORE
FINAL PROJECT
Presented as Partial Fulfillment of the Requirements
to Obtain the Sarjana Komputer Degree
in Informatics Engineering Study Program
By :
Blasius Richo Prasojo
115314015
INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENT OF INFORMATIC ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2018
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
HALAMAN PERSEMBAHAN
“Keep it simple”
(Tove Lo)
“Hardwork doesn’t guarantee succes, but improves its chances”
(B.J Gupta)
“Mengucap syukur dalam segala hal”
(1 Tesalonika 5:18)
Karya ini kupersembahkan kepada :
Tuhan Yesus
Bunda Maria
Santo Blasius
Keluarga
Sahabat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vii
ABSTRAK
Penambangan data adalah proses menemukan pola yang menarik, dan pengetahuan
dari data yang berjumlah besar . Ada banyak metode dalam penambangan data dan salah
satunya adalah clustering,. Metode ini digunakan untuk mengidentifikasi kelompok alami
dari sebuah kasus dan mengelompokkan data yang memiliki kemiripan atribut. Nilai daya
serap ujian nasional merupakan salah satu data berjumlah besar yang dapat diproses untuk
menemukan informasi mengenai kelompok-kelompok Sekolah Menengah Atas di provinsi
Daerah Istimewa Yogyakarta (DIY) berdasarkan nilai daya serap ujian nasional .
Dalam tugas akhir ini algoritma divisive hierarchical clustering akan
diimplementasikan untuk mengelompokan Sekolah Menengah Atas di provinsi Daerah
Istimewa Yogyakarta (DIY) berdasarkan nilai daya serap ujian nasional . Teknik ini
merupakan proses pengklasteran yang didasarkan pada persamaan nilai rata-rata antar objek.
Proses penambangan dilakukan dengan mengikuti tahapan dalam proses KDD(Knowledge
Discovery in Database) yaitu pembersihan data integrasi data, pemilihan data, transformasi
data, penambangan data, evaluasi pola, dan presentasi pengetahuan .
Berdasarkan evaluasi menggunakan nilai daya serap dari 29 kompetensi dapat
disimpulkan bahwa algoritma ini tidak tepat digunakan untuk menganalisis nilai daya serap
ujian nasional karena menghasilkan pohon cluster yang timpang, namun algoritma ini dapat
mengelompokkan nilai rata – rata nilai daya serap meskipun setiap cluster hanya berisi 1
atau 2 anggota saja .
Kata Kunci : Penambangan Data, Clustering, Divisive Hierarchical Clustering, nilai daya
serap.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
ABSTRACT
Data mining is the process of finding interesting patterns, and knowledge of large
amounts of data. There are many methods in data mining and one of them is clustering. This
method is used to identify the natural group of a case and classify data that has similarity
attributes. The absorption level of the national examination is one of the large amount of data
that can be processed to find information on high school groups in the province of
Yogyakarta based on the value of national exam absorption.
In this final project divisive hierarchical clustering algorithm will be implemented to
classify High School in Yogyakarta Special Province based on absorption level of national
examination. This technique is a clustering process based on the average value equation
between objects. The mining process is done by following the steps in the process of KDD
(Knowledge Discovery in Database) which is data cleaning data integration, data selection,
data transformation, data mining, pattern evaluation, and knowledge presentation.
Based on the evaluation using the absorption level of 29 competencies it can be
concluded that this algorithm is not appropriately used to analyze the absorptive value of the
national exam because it produces a lame cluster tree, but this algorithm can classify the
average value of absorptive power even if each cluster contains 1 or 2 members only.
Keywords: Data Mining, Clustering, Divisive Hierarchical Clustering, absorption level.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
x
KATA PENGANTAR
Puji dan syukur kepada Tuhan Yesus atas rahmat dan karunianya, sehingga penulis
dapat menyelesaikan penelitian Tugas Akhir yang berjudul
“IMPLEMENTASI ALGORITMA DIVISIVE HIERARCHICAL CLUSTERING UNTUK
PENGELOMPOKAN SEKOLAH MENENGAH ATAS DI DAERAH ISTIMEWA
YOGYAKARTA BERDASARKAN NILAI DAYA SERAP UJIAN NASIONAL MATA
PELAJARAN MATEMATIKA”
Dalam menyelesaikan seluruh penyusunan Tugas Akhir ini ,penulis tak lepas dari doa dan
dukungan dari banyak pihak ,untuk itu penulis mengucapkan terimakasih kepada :
1. Tuhan Yesus dan Bunda Maria yang selalu memberikan kekuatan dan anugerahnya
yang sangat melimpah sehingga penulis dapat menyelesaikan tugas akhir ini.
2. Kedua orang tua penulis ,FX. Topo dan M.M Tri Suyanti atas doa, dukungan moral
dan finansial ,serta kepercayaan yang selalu diberikan kepada penulis.
3. Adik penulis Patrisius Anggri Prassetyo yang selalu memberi semangat dan dukungan
4. Bapak Drs. Johanes Eka Priyatma, M.Sc., Ph.D. selaku rektor Universitas Sanata
Dharma Yogyakarta berserta Dosen Pembimbing Akademik.
5. Ibu Dr. Anastasia Rita Widiarti selaku ketua Program Studi Teknik Informatika
Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.
6. Ibu Paulina Heruningsih Prima Rosa, S.Si., M.Sc. selaku Dosen pembimbing skripsi
yang selalu sabar membimbing dan mengarahkan selama penyusunan Tugas Akhir.
7. Rafael Aweng yang turut membimbing dan membantu penyelesaian Tugas Akhir ini.
8. Untuk sahabat-sahabat penulis Agatya Kurniawan, Paulus Dian, Dwi Prabowo, Danik
terimakasih atas doa dan dukungannya.
9. Seluruh dosen,sekretariat,laboran,staff,dan perpustakaan yang telah membantu selama
proses perkuliahan di Universitas Sanata Dharma.
10. Serta semua pihak yang telah membantu penyusunan Tugas Akhir ini yang tidak
dapat disebutkan satu persatu.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
Penulis berharap ini dapat menjadi pengetahuan baru yang berguna dan bermanfaat
bagi para pembaca .Penulis menyadari bahwa penulisan laporan tugas akhir ini masih
memiliki banyak kekurangan . Untuk itu penulis sangat membutuhkan saran dan kritik
untuk perbaikan dimasa yang akan datang.
Yogyakarta,......................
Penulis,
Blasius Richo Prasojo
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
DAFTAR ISI
HALAMAN JUDUL.…………………………………………….............…………………... i
TITLE PAGE..............................................................................................................................ii
HALAMAN PERSETUJUAN ................................................................................................. iii
HALAMAN PENGESAHAN...................................................................................................iv
HALAMAN PERSEMBAHAN................................................................................................v
PERNYATAAN KEASLIAN KARYA...................................................................................vi
ABSTRAK...............................................................................................................................vii
ABSTRACT.............................................................................................................................viii
PERSETUJUAN PUBLIKASI KARYA ILMIAH..................................................................ix
KATA PENGANTAR...............................................................................................................x
DAFTAR ISI........................................................................................................................... xiii
DAFTAR GAMBAR .............................................................................................................. xv
DAFTAR TABEL.................................................................................................................. xvii
BAB I PENDAHULUAN .......................................................................................................... 1
1.1 Latar Belakang ............................................................................................................ 1
1.2 Rumusan Masalah ....................................................................................................... 3
1.3 Batasan Masalah.......................................................................................................... 3
1.4 Tujuan dan Manfaat .................................................................................................... 3
1.5 Metodologi penelitian ................................................................................................. 4
1.6 Sistematika Penulisan ................................................................................................. 5
BAB II LANDASAN TEORI .................................................................................................... 7
2.1 Knowledge Discovery in Database (KDD) ................................................................. 7
2.1.1 Tahapan Knowledge Discovery in Database (KDD)..............................................7
2.1.2 Definisi Knowledge Discovery in Database (KDD)...............................................7
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
2.2 Penambangan Data (Data mining) ............................................................................... 9
2.2.1 Definisi Penambangan Data.....................................................................................9
2.2.2 Teknik Penambangan Data......................................................................................9
2.3 Algoritma Divisive Hierarchical Clustering................................................................15
BAB III METODOLOGI PENELITIAN…...........................................................................20
3.1 Data...........................................................................................................................19
3.2 Tahapan KDD..........................................................................................................24
3.2.1 Pembersihan data (data cleaning)......................................................................24
3.2.2 Integrasi data (data integration)........................................................................24
3.2.3 Seleksi data (data selection)..............................................................................25
3.2.4 Transformasi data (data transformation)..........................................................29
3.3 Spesifikasi alat............................................................................................................29
BAB IV PEMPROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK
PENAMBANGAN DATA…..................................................................................................30
4.1 Pemrosesan Awal .......................................................................................................30
4.1.1 Pembersihan data.................................................................................................30
4.1.2 Integrasi data......................................................................................................30
4.1.3 Seleksi Data ........................................................................................................30
4.1.4 Transformasi Data...............................................................................................31
4.2 Perancangan Perangkat Lunak Penambangan Data...................................................31
4.2.1 Perancangan Umum................................................................................................31
4.2.2 Diagram Usecase....................................................................................................33
4.2.3 Diagram Aktivitas...................................................................................................33
4.3 Perancangan Antarmuka.............................................................................................35
4.3.1 Implementasi Halaman Awal.................................................................................35
4.3.2 Implementasi Halaman Praprocessing Data..........................................................36
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
BAB V IMPLEMENTASI DAN EVALUASI HASIL ........................................................... 38
5.1 Implementasi Perencanaan Perangkat Lunak Penambangan Data............................38
5.1.1 Implementasi Tampilan Antarmuka.......................................................................38
5.1.1.1 Halaman Utama..............................................................................................38
5.1.1.2 Halaman Praprocessing algoritma Divisive Hierarchical Clustering............39
5.2 Evaluasi Hasil.............................................................................................................46
5.2.1 Uji Coba Perangkat Lunak (Black Box)..................................................................46
5.2.1.1 Rencana Pengujian Black Box.........................................................................46
5.2.1.2 Prosedur Pengujian Black Box dan Kasus Uji.................................................46
5.2.1.3 Evaluasi Pengujian Black Box.........................................................................46
5.2.2 Pengujian Perbandingan Hasil Perangkat Lunak dengan Microsoft excel.............47
5.2.2.1 Pengelompokan dengan menggunakan perangkat lunak.................................47
5.2.2.1 Pengelompokan dengan menggunakan Microsoft
Excel.................................52
5.2.2.3 Evaluasi Pengujian Perbandingan Perangkat Lunak dengan Hasil Microsoft
Excel................................................................................................................57
5.2.3 Pengujian Perangkat Lunak dengan Menggunakan Seluruh Data........................57
BAB VI PENUTUP.................................................................................................................64
6.1 Simpulan................................................................................................................64
6.2 Saran......................................................................................................................64
Daftar Pustaka.........................................................................................................................65
Lampiran.................................................................................................................................66
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
DAFTAR GAMBAR
Gambar 2.1 Proses Knowledge Discovery in Database ................................... 7
Gambar 2.2 Contoh Kasus College Plan .......................................................... 9
Gambar 2.3 Contoh Association ..................................................................... 11
Gambar 2.4 Contoh Forecasting .................................................................... 12
Gambar 2.5 Contoh Sequence Analysis .......................................................... 13
Gambar 2.6 Contoh Clustering ....................................................................... 14
Gambar 2.7 Hasil clustering...........................................................................19
Gambar 3.1 Data nilai daya serap...................................................................24
Gambar 3.2 Hasil transformasi data................................................................29
Gambar 4.1 Diagram konteks...............................................................................31
Gambar 4.2 Diagram flowchart............................................................................32
Gambar 4.3 Output sistem....................................................................................32
Gambar 4.4 Diagram usecase...............................................................................33
Gambar 4.5 Diagram aktivitas input file..........................................................33
Gambar 4.6 Diagram aktivitas ubah data metrik.............................................34
Gambar 4.7 Diagram aktivitas proses clustering.............................................35
Gambar 4.8 Rancangan Halaman awal............................................................36
Gambar 4.9 Rancangan Halaman praprosessing.............................................37
Gambar 4.10 Hasil proses Clustering..............................................................37
Gambar 5.1 Halaman Awal.............................................................................39
Gambar 5.2 Hasil Running Perangkat Lunak Menghitung 5 data........................47
Gambar 5.2 Hasil Running Perangkat Lunak Menghitung 5 data........................48
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvi
Gambar 5.5 Hasil Perhitungan Menggunakan Microsoft Excel
Menghitung 5 data................................................................................................52
Gambar 5.6 Hasil Perhitungan Menggunakan Microsoft Excel
Menghitung 20 Data..............................................................................................53
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvii
DAFTAR TABEL
Tabel 2.1 Matriks Jarak Euclid........................................................................16
Tabel 2.2 Proses Pencarian Splinter Group.....................................................17
Tabel 2.2 Proses pembagian cluster b ............................................................. 17
Tabel 2.4 Data c,d,e.........................................................................................18
Tabel 2.5 Proses Pembagian Cluster c,d,e.......................................................18
Tabel 2.6 Proses Penggabungan Cluster d dan e.............................................18
Tabel 3.1 Atribut nilai daya serap ujian nasional pelajaran matematika. ....... 20
Tabel 3.2 Atribut yang digunakan dalam penelitian. ...................................... 25
Tabel 5.1 Nama kelas yang diimplementasikan..............................................38
Tabel 5.2 Spesifikasi detail halaman awal......................................................40
Tabel 5.3 Spesifikasi detail halaman preprocessing........................................40
Tabel 5.4 Rencana Pengujian Black Box.........................................................46
Tabel 5.5 Hasil Running Perangkat Lunak Menghitung 5 data.............................47
Tabel 5.6 Hasil Running Perangkat Lunak Menghitung 20 data...........................48
Tabel 5.7 Hasil Perhitungan Menggunakan Microsoft Excel
Menghitung 5 Data................................................................................................52
Tabel 5.7 Hasil Perhitungan Menggunakan Microsoft Excel
Menghitung 20 Data..............................................................................................53
Tabel 5.9 Hasil Uji Perangkat Lunak dengan Menggunakan Seluruh Data.....57
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Menurut (Han, Jiawei 2011, p36), penambangan data adalah proses
menemukan pola yang menarik, dan pengetahuan dari data yang berjumlah besar.
Sedangkan menurut (Dunston dan Yager 2008, p188), penambangan data adalah
proses pencarian melalui data dengan jumlah yang besar, dalam sebuah usaha untuk
menemukan pola, tren, dan hubungan.Menurut (Liu, Sandra S. dan Chen, Jie 2009),
penambangan data adalah proses pencarian pola tersembunyi dari berbagai database.
Clustering juga dikenal sebagai unsupervised learning yang membagi data
menjadi kelompok-kelompok atau clusters berdasarkan suatu kemiripan atribut-
atribut diantara data tersebut. Karakteristik tiap cluster tidak ditentukan sebelumnya,
melainkan tercermin dari kemiripan data yang terkelompok di dalamnya. Salah satu
algoritma dalam clustering adalah Divisive Hierarchical Clustering.
Divisive Hierarchical Clustering termasuk dalam analisis klaster hierarchical.
Pada setiap langkahnya, metode divisive terjadi penambahan kelompok ke dalam dua
nilai terkecil, sampai akhirnya semua elemen terkelompokkan. Ini berarti bahwa
klaster hierarchical dibangun dalam n-1 langkah ketika data mengandung n
objek.Teknik divisive merupakan proses pengklasteran yang didasarkan pada
persamaan nilai rata-rata antar objek. Jika sebuah objek memiliki persamaan nilai
rata-rata terbesar maka objek tersebut akan terpisah dan berubah menjadi splinter
group. Pada teknik divisive ini perhitungan juga dilihat dari perbedaan atau selisih
antara persamaan nilai rata-rata dengan nilai elemen matrik yang telah menjadi
splinter group. Jika selisih nilai antara persamaan nilai rata-rata dengan nilai elemen
matrik splinter group bernilai negatif, maka perhitungan terhenti sehingga harus
dibuat matrik baru untuk mendapatkan klaster yang lain.Perhitungan ini terus
dilakukan sedemikian sehingga semua objek terpisah.
Ujian Nasional biasa disingkat UN / UNAS adalah sistem evaluasi standar
pendidikan dasar dan menengah secara nasional dan persamaan mutu tingkat
pendidikan antar daerah yang dilakukan oleh Pusat Penilaian Pendidikan Depdiknas
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
di Indonesia. Dalam Undang-Undang Republik Indonesia nomor 20 tahun
2003 dinyatakan bahwa dalam rangka pengendalian mutu pendidikan secara nasional
dilakukan evaluasi sebagai bentuk akuntabilitas penyelenggara pendidikan kepada
pihak-pihak yang berkepentingan.
Lebih lanjut dinyatakan bahwa evaluasi dilakukan oleh lembaga yang mandiri
secara berkala, menyeluruh, transparan, dan sistematik untuk menilai pencapaian
standar nasional pendidikan dan proses pemantauan evaluasi tersebut harus dilakukan
secara berkesinambungan.Proses pemantauan evaluasi yang dilakukan secara terus
menerus dan berkesinambungan pada akhirnya akan dapat membenahi mutu
pendidikan. Pembenahan mutu pendidikan dimulai dengan penentuan standar.
Penentuan standar yang terus meningkat diharapkan akan mendorong peningkatan
mutu pendidikan, yang dimaksud dengan penentuan standar pendidikan adalah
penentuan nilai batas (cut off score). Seseorang dikatakan sudah lulus/kompeten bila
telah melewati nilai batas tersebut berupa nilai batas antara peserta didik yang sudah
menguasai kompetensi tertentu dengan peserta didik yang belum menguasai
kompetensi tertentu. Bila itu terjadi pada ujian nasional atau sekolah maka nilai batas
berfungsi untuk memisahkan antara peserta didik yang lulus dan tidak lulus disebut
batas kelulusan dan kegiatan penentuan batas kelulusan disebut standard setting.
Manfaat pengaturan standar ujian akhir:
Adanya batas kelulusan setiap mata pelajaran sesuai dengan tuntutan
kompetensi minimum.
Adanya standar yang sama untuk setiap mata pelajaran sebagai standar
minimum pencapaian kompetensi.
Dengan banyaknya data nilai UN yang yang di sediakan oleh Litbang, dan
pengetahuan dari data yang berjumlah besar,penulis tertarik untuk melakukan
pengelompokan tiap Sekolah Menengah Atas di DIY berdasarkan nilai daya serap
Ujian Nasional ,daya serap adalah kemampuan atau kekuatan untuk melakukan
sesuatu, untuk bertindak dalam menyerap materi suatu pelajaran oleh siswa
.Penelitian ini akan menggunakan algoritma Divisive Hierarchical Clustering
berdasarkan salah satu mata pelajaran yang diujikan dalam Ujian Nasional(UN) yaitu
Matematika,dengan tujuan mengelompokan SMA di Yogyakarta berdasarkan nilai
daya serap siswa. Penelitian serupa pernah dilakukan oleh Laurentius Haris
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
Chrisandra mengelompokkan SMA di Yogyakarta berdasarkan nilai daya serap
namun menggunakan algoritma yang berbeda yaitu Apriori.
1.2 Rumusan Masalah
Berdasarkan permasalahan yang telah dikemukakan di atas, maka rumusan
masalah yang akan penulis bahas adalah :
1. Apakah algoritma Divisive Hierarchical Clustering dapat digunakan untuk
mengelompokkan sekolah menengah atas di Provinsi DIY berdasarkan nilai
daya serap ujian nasional?
2. Bagaimana hasil pengelompokan menggunakan algoritma Divisive
Hierarchical Clustering?
1.3 Batasan Masalah
Adapun batasan masalah dalam tugas akhir ini adalah :
1. Algoritma yang digunakan adalah menggunakan algoritma Divisive
Hierarchical Clustering.
2. Atribut yang digunakan adalah data nilai daya serap ujian nasional yang
diujikan di jurusan IPA di Provinsi DIY, mata pelajaran matematika .
3. Data yang digunakan adalah data nilai daya serap ujian nasional siswa SMA
jurusan IPA di Provinsi DIY tahun ajaran 2014/2015.
1.4 Tujuan dan Manfaat
Tujuan dari penulisan tugas akhir ini adalah :
1. Mempermudah mengelompokkan Sekolah Menengah Atas berdasarkan data
nilai daya serap ujian nasional siswa.
2. Untuk mengetahui hasil pengelompokan Sekolah Menengah Atas berdasarkan
mata pelajaran matematika dengan menggunakan algoritma Divisive
Hierarchical Clustering.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
-Manfaat dari penulisan tugas akhir ini adalah :
1. Dengan mengetahui pengelompokan nilai daya serap ini, diharapkan dapat
menjadi evaluasi bagi SMA di Yogyakarta supaya dapat meningkatkan
keberhasilan siswa dalam mengerjakan ujian nasional.
1.5 Metodologi penelitian
Metode penelitian yang digunakan penulis dalam menyelesaikan tugas akhir
adalah sebagai berikut :
1. Studi Pustaka
Pada tahapan ini merupakan proses pengumpulan data dan pengumpulan
informasi algoritma yang akan digunakan dengan cara mempelajari berbagai
referensi (buku, laporan, hasil penelitian, jurnal, ataupun artikel) yang
berhubungan dengan masalah yang diteliti.
2. Pembersihan data (data cleaning)
Pada tahapan ini merupakan proses pembuangan data yang tidak relevan atau
tidak konsisten terhadap data lainnya.
3. Integrasi data (data integration)
Pada tahapan integrase data ini akan dilakukan penggabungan data dari
berbagai sumber/database yang ada.
4. Seleksi data (data selection)
Pada tahapan seleksi data ini merupakan tahapan menyeleksi data yang akan
digunakan dalam penelitian.
5. Transformasi data (data transformation)
Pada tahapan ini akan dilakukan pengubahan data asli ke dalam format data
yang sesuai dengan penelitian.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
6. Penambangan data
Pada tahapan ini akan dilakukan proses penambangan data menggunakan
algoritma Divisive Hierarchical Clustering dengan membangun perangkat
lunak penambangan data melalui tahap-tahap sebagai berikut:
a. Analisa
Pada tahapan ini merupakan tahapan menganalisis hal-hal yang
diperlukan dalam pelaksanaan proses pembuatan perangkat lunak
penambangan data.
b. Desain
Tahapan desain ini merupakan tahapan penerjemahan dari data yang
dianalisis kedalam bentuk yang mudah dimengerti oleh user.
c. Coding
Tahapan coding merupakan tahapan pemecahan masalah yang telah
dirancang ke dalam bahasa pemrograman tertentu.
d. Testing atau pengujian
Pada tahapan ini merupakan tahap pengujian terhadap perangkat
lunak penambangan data yang telah dibangun.
7. Evaluasi pola (pattern evaluation)
Pada tahapan ini akan dilakukan proses evaluasi terhadap hasil data mining
yang telah dilakukan pada proses sebelumnya dengan cara menguji
akurasinya menggunakan teknik Sum of Square Error (SSE).
8. Presentasi pengetahuan (knowledge presentation)
Pada tahapan ini akan dilakukan presentasi hasil data mining yang telah
dikerjakan sebelumnya.
1.6 Sistematika Penulisan
Sistematika penulisan dibagi menjadi beberapa bab, sebagai berikut :
BAB I : Pendahuluan
Bab ini berisi tentang latar belakang, rumusan masalah, tujuan, batasan masalah,
manfaat, metode penelitian, dan sistematika penulisan tugas akhir.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
BAB II : Landasan Teori
Bab ini membahas tentang teori-teori yang digunakan guna menunjang penelitian dan
menjadi dasar atau sumber tertulis dari apa yang akan dilakukan yaitu, Knowledge
Discovery in Database (KDD), Penambangan Data (data mining), dan Classification.
BAB III : Metodologi Penelitian
Bab ini akan menjelaskan tentang gambaran umum penelitian, data, tahap-tahap
penelitian dan contoh penerapan algoritma yang berhubungan dengan tugas akhir.
BAB IV : Pemprosesan Awal dan Perancangan Perangkat Lunak Penambangan
Data
Bab ini memuat tentang perancangan awal penambangan data dan perancangan
perangkat lunak yang akan dibuat.
BAB V : Implementasi dan Evaluasi Hasil
Bab ini berisi tentang implementasi penambangan data dan hasil implementasi dari
algoritma Divisive hierarchical Clustering yang digunakan dan evaluasi dari hasil
output yang diperoleh.
BAB VI : Penutup
Bab ini berisi kesimpulan dan saran untuk pengembangan dan penyempurnaan Tugas
Akhir ini.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
BAB II
LANDASAN TEORI
2.1 Knowledge Discovery in Database (KDD)
2.1.1 Definisi Knowledge Discovery in Database (KDD)
Knowledge Discovery in Database adalah kegiatan yang meliputi pengumpulan,
pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set
data berukuran besar. (Santoso, 2007)
2.1.2 Tahapan Knowledge Discovery in Database (KDD)
Gambar 2.1 Proses Knowledge Discovery in Database (Han,2006)
Tahap-tahap Knowledge Discovery in Database (KDD) ada 6 yaitu :
1. Pembersihan data (data cleaning)
Pembersihan data merupakan proses menghilangkan noise dan data yang tidak
konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari
database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak
sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar
salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa
data mining yang dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang.
Pattern
Cleaning n
integration
Knowledge
Data mining Selection and
transformation
Data
warehouse
database
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
Pembersihan data juga akan mempengaruhi performasi dari teknik data mining karena
data yang ditangani akan berkurang jumlah dan kompleksitasnya. (Santoso, 2007)
2. Integrasi data (data integration)
Integrasi data merupakan penggabungan data dari berbagai database ke dalam
satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya
berasal dari satu database tetapi juga berasal dari beberapa database atau file teks.
Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas
yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi
data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa
menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi
nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata
menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi
antar produk yang sebenarnya tidak ada. (Santoso, 2007)
3. Seleksi Data (Data Selection)
Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena
itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. (Santoso,
2007). Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang
membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan,
cukup dengan id pelanggan saja.
4. Transformasi data (Data Transformation)
Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam
data mining. Beberapa metode data mining membutuhkan format data yang khusus
sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis
asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data
berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval.
Proses ini sering disebut transformasi data. (Santoso, 2007)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
2.2 Penambangan Data (Data mining)
2.2.1 Definisi Penambangan Data
Data mining adalah suatu proses analisis untuk menggali informasi yang
tersembunyi dengan menggunakan statistik dan artificial intelligence di dalam suatu
database dengan ukuran sangat besar, sehingga ditemukan suatu pola dari data yang
sebelumnya tidak diketahui, dan pola tersebut direpresentasikan dengan grafik
komputer agar mudah dimengerti. (Santoso, 2007)
2.2.2 Teknik Penambangan Data
1. Classification
Classification adalah tindakan untuk memberikan kelompok pada setiap
keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute.
Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class
attribute itu sebagai fungsi dari input attribute.
Contohnya kita lihat pada contoh kasus College Plan
Gambar 2.2 Contoh kasus College Plan
Sumber:www.wisdomjobs.com
Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No,
perhatikan ini.
College Plans :Table
Gender Parentincom IQ ParentEncouragement CollegePlans
Male 466580 100 Not Encouraged No
Male 39687 121 Not Encouraged No
Male 63482 102 Encouraged Yes
Female 40454 129 Not Encouraged No
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
Sebuah Classification Model akan menggunakan atribut lain dari kasus
tersebut (input attribut; yaitu kolom IQ, Gender, ParentIncome, dan
ParentEncouragement) untuk dapat menentukan pola (pattern) class (Output
Attribute; yaitu Kolom CollegePlans yang berisi Yes atau No).
Algoritma Data mining yang membutuhkan variabel target untuk belajar
(sampai mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan
dengan sebutan dengan Supervised Algorithm. Yang termasuk kepada Classification
Algorithm adalah Decision Trees, Neural Network dan Naives Bayes.
2. Association
Gambar 2.3 Contoh Association
Sumber:www.wisdomjobs.com
Association juga disebut sebagai Market Basket Analysis. Sebuah masalah
bisnis yang khas adalah menganalisa tabel transaksi penjualan dengan
mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer,
misalnya apabila orang membeli sambal, biasanya juga dia membeli kecap. Kesamaan
yang ada dari data pembelian digunakan untuk mengidentifikasi kelompok kesamaan
dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling seperti
gambar dibawah ini.
Beberapa hal dapat kita baca, misalnya :
Ketika orang membeli susu, dia biasanya membeli keju
Ketika orang membeli pepsi atau coke, biasanya dia membeli juice
Milk
Cheese
Coke
Juice
Pepsi
Wine
Cake
Beef
Donut
Beer
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
Didalam istilah association, setiap item dipertimbangkan sebagai informasi.
Metode association memiliki dua tujuan:
Untuk mencari produk apa yang biasanya terjual bersamaan
Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut.
3. Regression
Metode Regression mirip dengan metode Classification, yang
membedakannya adalah metode regression tidak bisa mencari pola yang dijabarkan
sebagai class (kelas). Metoda regression bertujuan untuk mecari pola dan menentukan
sebuah nilai numerik.
Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari Regression,
dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai
dari input. Bentuk yang lebih canggih dari regression sudah mendukung input berupa
kategori, jadi tidak hanya input berupa numerik. Teknik paling popular yang
digunakan untuk regression adalah linear regression dan logistic regression. Teknik
lain yang didukung oleh SQL Server Data mining adalah Regression Trees (bagian
dari dari algoritma Microsoft Decission Trees) dan Neural Network.
Regression digunakan untuk memecahkan banyak problem bisnis, contohnya untuk
memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk
memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan
kelembaban.
4. Forecasting
Forecasting adalah metode data mining yang sangat penting. Contohnya
digunakan untuk menjawab pertanyaan seperti berikut:
· - Seperti apa jadinya nilai saham dari Microsoft Corporation (pada NASDAQ,
disimbolkan sebagai MSFT) pada keesokan hari?
· - Sebanyak apa penjualan produk tertentu pada bulan depan?
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
MSFT 3-year price history
38
36
34
32
30
28
26
24
22
20
Gambar 2.4 Contoh Forecasting
Sumber:www.wisdomjobs.com
Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas.
Sebagai inputnya teknik Forecasting akan mengambil sederetan angka yang
menunjukkan nilai yang berjalan seiring waktu dan kemudian Teknik Forecasting ini
akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam
teknik machine-learning dan teknik statistik yang berhubungan dengan musim, trend,
dan noise pada data.
Gambar diatas menunjukkan dua kurva, garis yang tegas adalah time-series
data sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series
model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu.
5. Sequence Analysis
Sequence Analysis digunakan untuk mencari pola pada serangkaian kejadian yang
disebut dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian bagian:
A, G, C, dan T. dan rangkaian klik pada sebuah website berisi rentetan URL. Pada
kejadian nyata anda mungkin memodelkan pembelian oleh pelanggan sebagai sebuah
sequence (rangkaian) data, rangkaian tersebut adalah:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
Pertama-tama Seorang pelanggan membeli komputer
kemudian membeli speaker
dan akhirnya membeli sebuah webcam.
Gambar 2.5 Contoh Sequence Analysis
Sumber:www.wisdomjobs.com
Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama
sama berisi tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah
time-series berisi data bertipe numerik, dan sebuah sequence series berisi bagian yang
khas.Gambar ini menunjukan rangkaian klik pada sebuah website berita. Setiap node
adalah sebuah kategori URL. Dan garis melambangkan transisi antar kategori URL
tersebut. Setiap transisi di kelompokan dengan sebuah bobot yang menggambarkan
kemungkinan transisi antara satu URL dan URL yang lain
Home
Page
News
Bussines Science
Weather
Sport
0.2
0.2 0.2
0.2 0.3
0.3
0.1
0.1
0.4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
6. Clustering
Income
Age
Gambar 2.6 Contoh Clustering
Sumber:www.wisdomjobs.com
Clustering juga disebut sebagai segmentation. Metode ini digunakan untuk
mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah
kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut. Gambar
ini menunjukkan kelompok data pelanggan sederhana yang berisi dua atribut, yaitu
Age (Umur) dan Income (Pendapatan). Algoritma Clustering mengelompokkan
kelompok data kedalam tiga segment berdasarkan kedua atribut ini.
Cluster 1 berisi populasi berusia muda dengan pendapatan rendah
Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi
Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.
Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu
atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut
input diperlakukan sama. Kebanyakan Algoritma Clustering membangun sebuah
model melalui serangkaian pengulangan dan berhenti ketika model tersebut telah
memusat atau berkumpul (batasan dari segmentasi ini telah stabil).
Cluster 1
Cluster 2
Cluster 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
Algoritma Divisive Hierarchical Clustering
Teknik divisive klastering termasuk dalam analisis klaster hierarchical. Pada
setiap langkahnya, metode divisive terjadi penambahan kelompok kedalam dua nilai
terkecil, sampai akhirnya semua elemen terkelompokan. Ini berarti bahwa klaster
hierarchical dibangun dalam n-1 langkah ketika data mengandung n objek. Teknik
divisive merupakan proses pengklasteran yang didasarkan pada persamaan nilai rata-
rata antar objek. Jika sebuah objek memiliki persamaan nilai rata-rata terbesar maka
objek tersebut akan terpisah dan berubah menjadi splinter group.
Pada teknik divisive ini perhitungan juga dilihat dari perbedaan atau selisih
anatara persamaan nilai rata-rata dengan nilai elemen matrik yang telah menjadi
splinter group. Jika selisih nilai antara persamaan nilai rata-rata dengan nilai elemen
matrik splinter group bernilai negatif, maka perhitungan terhenti sehingga harus
dibuat matrik baru untuk mendapatkan klaster yang lain. Perhitungan ini terus
dilakukan sedemikian sehingga semua objek terpisah.
Tahap metode Divisive
1. Mengubah data ke dalam bentuk matrik jarak
Misalkan diberikan data X matriks berukuran n x p (n = jumlah sampel data,
p = variabel setiap data). ___= data sampel ke-j (j = 1, 2, …, n) dan variabel
ke-i (i= 1, 2, …, p).
2. Bentuk suatu matriks jarak dengan menggunakan jarak Euclid.
Rumusnya adalah:
d(A,B) = √∑ⁿᵢ (Bᵢ-Aᵢ)² ...........................(2.1)
Keterangan:
n :jumlah atribut atau dimensi
Ai dan Bi adalah data
3. Hitung nilai rata-rata setiap objek dengan objek lainnya.
4. Dari tabel temukan objek yang memiliki nilai rata-rata yang terbesar, objek
yang memiliki nilai rata-rata yang terbesar akan terpisah dan berubah
menjadi splintergroup.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
5. Hitung selisih nilai antara elemen matrik splinter group dengan nilai
Ratarata setiap objek yang tersisa.
6. Temukan objek yang memiliki nilai selisih terbesar antara elemen matrik
splinter group dengan nilai rata-rata. Jika nilai selisih tersebut bernilai
positif, maka objek yang memiliki nilai selisih terbesar bergabung dengan
splinter group.
7. Ulangi langkah satu sampai enam sedemikian sehingga semua nilai selisih
antara elemen matrik splinter group dengan nilai rata-rata bernilai negatif
, perhitungan ini terus dilakukan sedemikian sehingga semua objek terpisah.
contoh :
Untuk mengilustrasikan algoritma analisis divisive clustering, akan diberikan contoh
sebagai berikut dimana data tersebut telah di konversi menjadi sebuah matriks jarak
Euclid
Tabel 2.1 Matriks Jarak Euclid
a b c d e
a 0.0 2.0 6.0 10.0 9.0
b 2.0 0.0 5.0 9.0 8.0
c 6.0 5.0 0.0 4.0 5.0
d 10.0 9.0 4.0 0.0 3.0
e 9.0 8.0 5.0 3.0 0.0
Terdapat sebuah matrik jarak yang berjumlah 5 sampel dengan masing masing berisi
4 data yaitu sampel a, b, c, d, e.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
Tabel 2.2 Proses Pencarian Splinter Group
Object Average dissimilarity to other object
A (2+6+10+9)/4=6.75
B (2+5+9+8)/4=6
C (6+5+4+5)/4=5
D (10+9+4+3)/4=6.50
E (9+8+5+3)/4=6.25
Langkah pertama ,cari rata rata terbesar antar objek dan didapat objek a dengan rata
rata antar objek bernilai 6.75 maka objek a disebut splinter group. Pada langkah ini
telah mempunyai dua grup yaitu grup {a} dan grup {b,c,d,e}, selanjutnya setiap objek
dari grup yang besar harus dihitung average dissimilarity dengan objek yang tersisa,
dan membandingkan itu dengan average dissimilarity dengan objek dari splinter
group :
Tabel 2.3 Proses pembagian cluster b
Object Average dissimilarity to remain
object
Average dissimilarity
to object of splinter
group
Difference
B (5+9+8)/3=7.33 2 5.33
C (5+4+5)/3=4.67 6 -1.33
D (9+4+3)/3=5.33 10 -4.67
E (8+5+3)/3=5.33 9 -3.67
Pada tahap ini data {b} bernilai positif sehinga bergabung dengan splinter dan proses
dihentikan dan langkah clustering pertama selesai dan terdapat dua kluster sementara,
yaitu {a,b}, dan {c,d,e}.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
Langkah berikutnya akan dilakukan pembagian kluster. Pembagian kluster dilakukan
pada kluster yang memiliki Rata-rata terbesar. Rata-rata dari {a,b} adalah 2, dan
untuk {c,d,e} adalah 5. Oleh sebab itu, akan terjadi pembagian kluster {c,d,e},
dengan matrik :
Tabel 2.4 Data c,d,e
C d e
C 0 4 5
D 4 0 3
E 5 3 0
Untuk menentukan splinter group, maka dihitung :
Tabel 2.5 Proses Pembagian Cluster c,d,e
object Average dissimilarity to the other object
C (4+5)/2=4.5
D (4+3)/2=3.5
E (5+3)/2=4
Diketahui objek c yang memiliki nilai positif terbesar, maka objek c masukdalam
splinter group. dan terdapat dua grup yaitu {c} dan {d,e}, selanjutnya akan ditentukan
:
Tabel 2.6 Proses Penggabungan Cluster d dan e
Object Average dissimilarity to remain
object
Average dissimilarity
to objects of splinter
group
Difference
D 3 4 -1
E 3 5 -2
Proses ini dihentikan karena semua difference bernilai negatif. Karena itu, pembagian
pada langkah dua {c,d,e} adalah {c} dan {d,e}. jadi, kluster yang didapat {a,b}, {c},
dan {d,e}. kluster {c} disebut singleton karena hanya mengandung satu objek.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
Hasil dari hierarchi digambarkan sebagai berikut :
Gambar 2.7 Hasil clustering
a,b,c,d,e
a,b
c,d,e
c
d,e
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
BAB III
METODOLOGI PENELITIAN
3.1 Data
Data yang digunakan diperoleh dari situs http://118.98.234.50/lhun/daya_serap.aspx
.Data yang digunakan pada penelitian ini adalah data nilai daya serap ujian nasional
siswa SMA jurusan IPA tahun ajaran 2014/2015. Data nilai daya serap yang digunakan
adalah mata pelajaran matematika. Pada setiap mata pelajaran terdapat beberapa nilai
kompetensi daya serap Ujian Nasional. Berikut ini adalah nilai kompetensi nilai daya
serap Ujian Nasional pada mata pelajaran matematika.
Tabel 3.1 Atribut Nilai Daya Serap Ujian Nasional Pelajaran Matematika.
No Nama Atribut Keterangan
1 KODE SEKOLAH Kode Sekolah
2 NAMA SEKOLAH Nama Sekolah
3 JNS SEKOLAH Jenis Sekolah (SMA)
4 STS SE Status Sekolah (Negri/Swasta)
5 MAT1 Kompetensi 1 daya serap
matematika: Menentukan bayangan
titik atau kurva karena dua
transformasi atau lebih.
6 MAT2 Kompetensi 2 daya serap
matematika:
Menentukan ingkaran atau
kesetaraan dari pernyataan
majemiuk atau pernyataan
berkuator.
7 MAT3 Kompetensi 3 daya serap
matematika:
Menentukan integral tak tentu dan
integral tentu fungsi aljabar dan
fungsi trigonometri.
8 MAT4 Kompetensi 4 daya serap
matematika:
Menentukan penarikan kesimpulan
dari beberapa premis.
9 MAT5 Kompetensi 5 daya serap
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
matematika:
Menentukan penyelesaian
pertidaksamaan eksponen atau
logaritma.
10 MAT6 Kompetensi 6 daya serap
matematika:
Menentukan persamaan lingkaran
atau garis singgung lingkaran.
11 MAT7 Kompetensi 7 daya serap
matematika:
Menggunakan aturan pangkar, akar,
dan logaritma.
12 MAT8 Kompetensi 8 daya serap
matematika:
Menggunakan rumus jumlah da
hasil kali akar-akar persamaan
kuadrat.
13 MAT9 Kompetensi 9 daya serap
matematika:
Menghitung jarak dan sudut antara
dua objek (titik, garis, dan bidang)
di ruang dimensi tiga.
14 MAT10 Kompetensi 10 daya serap
matematika:
Menghitung luas daerah dan volume
benda putar dengan menggunakan
integral.
15 MAT11 Kompetensi 11 daya serap
matematika:
Menghitung nilai limit fungsi
aljabar dan fungsi trigonometri.
16 MAT12 Kompetensi 12 daya serap
matematika:
Menghitung ukuran pemusatan atau
ukuran letak dari data dalam bentuk
tabel, diagram, atau grafik.
17 MAT13 Kompetensi 13 daya serap
matematika:
Menyelesaikan masaah deret
aritmetika.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
18 MAT14 Kompetensi 14 daya serap
matematika:
Menyelesaikan masalah deret
geometri.
19 MAT15 Kompetensi 15 daya serap
matematika:
Menyelesaikan masalah geometri
dengan menggunakan aturan sinus
atau kosinus.
20 MAT16 Kompetensi 16 daya serap
matematika:
Menyelesaikan masalah persamaan
atau fungsi kuadrat dengan
menggunakan diskriminan.
21 MAT17 Kompetensi 17 daya serap
matematika:
Menyelesaikan masalah program
linier.
22 MAT18 Kompetensi 18 daya serap
matematika:
Menyelesaikan masalah sehari-hari
dengan menggunakan kaidah
pencacahan, permutasi atau
kombinasi.
23 MAT19 Kompetensi 19 daya serap
matematika:
Menyelesaikan masalah sehari-hari
yang berkaitan dengan sistem
persamaan linier.
24 MAT20 Kompetensi 20 daya serap
matematika:
Menyelesaikan masalah yang
berkaitan dengan besar sudut atau
nilai perbandingan trigonometri
sudut antara dua vector.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
25 MAT21 Kompetensi 21 daya serap
matematika:
Menyelesaikan masalah yang
berkaitan dengan nilai perbandingan
trigonometri yang menggunakan
rumus jumlah dan selisih sinus,
kosinus, dan tangen serta jumlah
dan selisih dua sudut.
26 MAT22 Kompetensi 22 daya serap
matematika:
Menyelesaikan masalah yang
berkaitan dengan fungsi eksponen
atau fungsi logaritma.
27 MAT23 Kompetensi 23 daya serap
matematika:
Menyelesaikan masalah yang
berkaitan dengan komposisi dua
fungsi atau fungsi invers.
28 MAT24 Kompetensi 24 daya serap
matematika:
Menyelesaikan masalah yang
berkaitan dengan panjang proyeksi
atau vektor proyeksi.
29 MAT25 Kompetensi 25 daya serap
matematika:
Menyelesaikan masalah yang
berkaitan dengan peluang suatu
kejadian
30 MAT26 Kompetensi 26 daya serap
matematika:
Menyelesaikan masalah yang
berkaitan dengan teorema sisa atau
teorema faktor.
31 MAT27 Kompetensi 27 daya serap
matematika:
Menyelesaikan operasi aljabar
beberapa vektor dengan syarat
tertentu.
32 MAT28 Kompetensi 28 daya serap
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
matematika:
Menyelesaikan operasi matriks.
33 MAT29 Kompetensi 29 daya serap
matematika:
Menyelesaikan persamaan
trigonometri.
3.2 Tahapan KDD
Berikut ini adalah tahapan dalam KDD yang diimplementasikan dalam tugas akhir ini:
3.2.1 Pembersihan data (data cleaning)
Pada tahap ini, dilakukan proses pembuangan data yang mengandung data
yang tidak konsisten atau data tidak relevan. Pada penelitian ini terdapat 2 data
yang tidak relevan, yaitu data SMA Piri 2 Yogyakarta dan SMA Proklamasi ’45.
Kedua data ini akan dihapus karena data kedua sekolah ini tidak relevan
dikarenakan tidak adanya nilai pada tiap atribut..
3.2.2 Integrasi data (data integration)
Pada tahap integrasi ini dilakukan penggabungan data dari berbagai
database/sumber. Dalam penelitian ini, penulis hanya menggunakan satu
sumber yang berasal dari www.litbang.kemdikbud.go.id. Dengan data nilai daya
serap ujian nasional mata pelajaran matematika di Provinsi DIY pada tahun
ajaran 2014/2015.
Gambar 3.1 Data Nilai Daya Serap
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
3.2.3 Seleksi data (data selection)
Pada tahap seleksi data ini merupakan tahap menyeleksi data yang
digunakan dalam penelitian ini. Contohnya, dalam data nilai daya serap ujian
nasional pelajaran matematika terdapat 34 atribut yaitu kode sekolah, nama
sekolah, jns sek, sts sek, mat1, mat2, mat3, mat4, mat5, mat6, mat7, mat8, mat9,
mat10, mat11, mat12, mat13, mat14, mat15, mat16, mat17, mat18, mat19,
mat20, mat21, mat22, mat23, mat24, mat25, mat26, mat27, mat28, mat29
Pada atribut jns sek, dan sts sek tidak digunakan, jadi kedua atribut
tersebut dihilangkan/diseleksi. Sehingga atribut yang digunakan menjadi 31
atribut yaitu :
Tabel 3.2 Atribut Yang Digunakan Dalam Penelitian. No Nama Atribut Keterangan
1 KODE SEKOLAH Kode Sekolah
2 NAMA SEKOLAH Nama Sekolah
3 MAT1 Kompetensi 1 daya serap
matematika: Menentukan bayangan
titik atau kurva karena dua
transformasi atau lebih.
4 MAT2 Kompetensi 2 daya serap
matematika:
Menentukan ingkaran atau
kesetaraan dari pernyataan
majemiuk atau pernyataan
berkuator.
5 MAT3 Kompetensi 3 daya serap
matematika:
Menentukan integral tak tentu dan
integral tentu fungsi aljabar dan
fungsi trigonometri.
6 MAT4 Kompetensi 4 daya serap
matematika:
Menentukan penarikan kesimpulan
dari beberapa premis.
7 MAT5 Kompetensi 5 daya serap
matematika:
Menentukan penyelesaian
pertidaksamaan eksponen atau
logaritma.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
8 MAT6 Kompetensi 6 daya serap
matematika:
Menentukan persamaan lingkaran
atau garis singgung lingkaran.
9 MAT7 Kompetensi 7 daya serap
matematika:
Menggunakan aturan pangkar, akar,
dan logaritma.
10 MAT8 Kompetensi 8 daya serap
matematika:
Menggunakan rumus jumlah da
hasil kali akar-akar persamaan
kuadrat.
11 MAT9 Kompetensi 9 daya serap
matematika:
Menghitung jarak dan sudut antara
dua objek (titik, garis, dan bidang)
di ruang dimensi tiga.
12 MAT10 Kompetensi 10 daya serap
matematika:
Menghitung luas daerah dan volume
benda putar dengan menggunakan
integral.
13 MAT11 Kompetensi 11 daya serap
matematika:
Menghitung nilai limit fungsi
aljabar dan fungsi trigonometri.
14 MAT12 Kompetensi 12 daya serap
matematika:
Menghitung ukuran pemusatan atau
ukuran letak dari data dalam bentuk
tabel, diagram, atau grafik.
15 MAT13 Kompetensi 13 daya serap
matematika:
Menyelesaikan masaah deret
aritmetika.
16 MAT14 Kompetensi 14 daya serap
matematika:
Menyelesaikan masalah deret
geometri.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
17 MAT15 Kompetensi 15 daya serap
matematika:
Menyelesaikan masalah geometri
dengan menggunakan aturan sinus
atau kosinus.
18 MAT16 Kompetensi 16 daya serap
matematika:
Menyelesaikan masalah persamaan
atau fungsi kuadrat dengan
menggunakan diskriminan.
19 MAT17 Kompetensi 17 daya serap
matematika:
Menyelesaikan masalah program
linier.
20 MAT18 Kompetensi 18 daya serap
matematika:
Menyelesaikan masalah sehari-hari
dengan menggunakan kaidah
pencacahan, permutasi atau
kombinasi.
21 MAT19 Kompetensi 19 daya serap
matematika:
Menyelesaikan masalah sehari-hari
yang berkaitan dengan sistem
persamaan linier.
22 MAT20 Kompetensi 20 daya serap
matematika:
Menyelesaikan masalah yang
berkaitan dengan besar sudut atau
nilai perbandingan trigonometri
sudut antara dua vector.
23 MAT21 Kompetensi 21 daya serap
matematika:
Menyelesaikan masalah yang
berkaitan dengan nilai perbandingan
trigonometri yang menggunakan
rumus jumlah dan selisih sinus,
kosinus, dan tangen serta jumlah
dan selisih dua sudut.
24 MAT22 Kompetensi 22 daya serap
matematika:
Menyelesaikan masalah yang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
berkaitan dengan fungsi eksponen
atau fungsi logaritma.
25 MAT23 Kompetensi 23 daya serap
matematika:
Menyelesaikan masalah yang
berkaitan dengan komposisi dua
fungsi atau fungsi invers.
26 MAT24 Kompetensi 24 daya serap
matematika:
Menyelesaikan masalah yang
berkaitan dengan panjang proyeksi
atau vektor proyeksi.
27 MAT25 Kompetensi 25 daya serap
matematika:
Menyelesaikan masalah yang
berkaitan dengan peluang suatu
kejadian
28 MAT26 Kompetensi 26 daya serap
matematika:
Menyelesaikan masalah yang
berkaitan dengan teorema sisa atau
teorema faktor.
29 MAT27 Kompetensi 27 daya serap
matematika:
Menyelesaikan operasi aljabar
beberapa vektor dengan syarat
tertentu.
30 MAT28 Kompetensi 28 daya serap
matematika:
Menyelesaikan operasi matriks.
31 MAT29 Kompetensi 29 daya serap
matematika:
Menyelesaikan persamaan
trigonometri.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
3.2.4 Transformasi data (data transformation)
Pada tahap transformasi data ini, dilakukan format dari data asli ke dalam
format data yang sesuai dengan penelitian yaitu mengubah data kedalam bentuk
matrik untuk mempermudah proses penambangan data. Dalam tahap
Transformasi Data, dilakukan pengubahan format data asli ke dalam format data
yang sesuai untuk penelitian ini yaitu baris pertama dalam excel haruslah nama
kolom dari data tersebut, baris setelahnya adalah data tersebut, dan keterangan
indikator dihilangkan seperti pada gambar dibawah ini :
Gambar 3.2 Hasil transformasi data
3.3 Spesifikasi Alat
3.2.1 Hardware
Perangkat keras yang digunakan untuk membuat aplikasi ini adalah komputer dengan
spesifikasi processor Intel core i3, dengan kapasitas RAM 4GB, dan HDD 500GB
3.2.2 Software
Perangkat lunak yang digunakan untuk pembuatan aplikasi ini adalah Sistem Operasi
Windows 8.0 64-bit ,dan Netbeans IDE 8.1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
BAB IV
PEMPROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK
PENAMBANGAN DATA
4.1 Pemrosesan Awal
4.1.1 Pembersihan data (data cleaning)
Pada tahap ini, akan dilakukan proses pembuangan data yang mengandung data yang tidak
konsisten atau data tidak relevan. Pada penelitian ini terdapat 2 data yang tidak relevan, yaitu
data SMA Piri 2 Yogyakarta dan SMA Proklamasi ’45. Kedua data ini akan dihapus karena
data kedua sekolah ini tidak relevan dikarenakan tidak adanya nilai pada tiap atribut
4.1.2 Integrasi data (data integration)
Pada tahap integrasi ini dilakukan penggabungan data dari berbagai database/sumber. Dalam
penelitian ini, penulis hanya menggunakan satu sumber yang berasal dari
www.litbang.kemdikbud.go.id. Dengan data nilai daya serap ujian nasional mata pelajaran
matematika di Provinsi DIY pada tahun ajaran 2014/2015
4.1.3 Seleksi data (data selection)
Pada tahap seleksi data ini merupakan tahap menyeleksi data yang akan digunakan dalam
penelitian ini. Contohnya, dalam data nilai daya serap ujian nasional pelajaran matematika
terdapat 34 atribut yaitu kode sekolah, nama sekolah, jns sek, sts sek, mat1, mat2, mat3,
mat4, mat5, mat6, mat7, mat8, mat9, mat10, mat11, mat12, mat13, mat14, mat15, mat16,
mat17, mat18, mat19, mat20, mat21, mat22, mat23, mat24, mat25, mat26, mat27, mat28,
mat29
Pada atribut jns sek, dan sts sek tidak digunakan, jadi kedua atribut tersebut
dihilangkan/diseleksi. Sehingga atribut yang digunakan menjadi 31 atribut .
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
4.1.4 Transformasi data (data transformation)
Pada tahap transformasi data ini, akan dilakukan format dari data asli ke dalam format data
yang sesuai dengan penelitian yaitu mengubah data kedalam bentuk matrik untuk
mempermudah proses penambangan data. Dalam tahap Transformasi Data, akan dilakukan
pengubahan format data asli ke dalam format data yang sesuai untuk penelitian ini yaitu baris
pertama dalam excel haruslah nama kolom dari data tersebut, baris setelahnya adalah data
tersebut, dan keterangan indikator dihilangkan.
4.2 PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA
4.2.1Perancangan Umum
4.2.1.1 Input Sistem
Sistem ini memiliki masukkan yaitu masukkan data/file yang bertipe .xls yang nantinya akan
diproses oleh sistem seperti gambar dibawah ini.
Gambar 4.1 Diagram Konteks
4.2.1.2 Proses Sistem
Proses dari sistem yang dibangun ini memiliki beberapa tahapan yang digunakan untuk dapat
mengelompokkan sekolah – sekolah menengah atas berdasarkan nilai daya serap dari tiap –
tiap sekolah. Adapun tahapan tergambar dalam gambar 4.9 berikut ini
USER
Memasukkan file bertipe .xls
Hasil Klustering
Clustering
dengan algoritma
Divisive
Hierarchial
clustering
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
Gambar 4.2 Diagram Flowchart
4.2.1.3 Output Sistem
Output dari sistem yang dibuat berupa pohon yang menampilkan cluster yang telah dibentuk.
Gambar 4.3 Output Sistem
File data
bertipe
.xls
Mengubah data
kedalam bentuk
matrik jarak
Proses
pengelompokkan
menggunakan
algoritma Divisive
Menampilkan
hasil
Mulai
Selesai
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
4.2.2 Diagram Usecase
4.2.2.1 Gambaran Umum
Diagram Usecase untuk sistem ini adalah :
Gambar 4.4 Diagram Usecase
Narasi usecase pada lampiran 3
4.2.3 Diagram Aktivitas (Activity Diagram)
1. Input File
Memasukkan
data
Mengubah data
kedalam bentuk
matrik jarak
Proses
pengelompokkan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
Gambar 4.5 Diagram Aktifitas Input file
2. Mengubah data ke dalam bentuk matrik euclid
Gambar 4.6 Diagram Aktifitas Ubah Data Metrik
3. Proses Clustering
Gambar 4.7 Diagram Aktifitas Proses Clustering
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
4.3. Perancangan Antarmuka
4.3.1 Implementasi Halaman Awal
Pada saat aplikasi pertama kali dijalankan akan ditampilkan form awal seperti ditunjukkan
pada Gambar 4.8 berikut.
Gambar 4.15 antar muka halaman awal
Gambar 4.8 Rancangan Halaman Awal
Pada halaman awal tersebut terdapat tombol masuk yang akan mengarah ke halaman
praproses data.
4.3.2 Implementasi Halaman Praprocessing Data
Halaman ini merupakan halaman yang digunakan untuk mempersiapkan data yang akan
diolah yang berasal dari berkas .xls. Pengolahan awal (praproses) data dimaksudkan agar
format data sesuai dengan proses pengelompokan (clustering) yang akan dilakukan.
PENGELOMPOKAN SEKOLAH MENENGAH ATAS DI DIY
BERDASARKAN NILAI DAYA SERAP UJIAN NASIONAL
MENGGUNAKAN ALGORITMA DIVISIVE HIERARCHIAL CLUSTERING
PROSES
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
Gambar 4.16 Antarmuka Halaman Praproses Data
Gambar 4.9 Rancangan Halaman Praproscessing
Pengguna kemudian dapat memilih tombol “Pilih Berkas” yang digunakan untuk
memasukkan berkas berekstensi .xls . Setelah pengguna memasukkan data kedalam tabel
,user dapat memproses data dalam format xls tersebut kedalam bentuk matrik jarak(euclidean
matriks) dengan mengklik tombol ubah ke matriks euclid. Setelah data selesai di proses ke
Praprocessing data
Operasi Bantuan
Pilih Berkas
Jumlah data
Ubah ke bentuk matrik euclid
Proses divisive
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
dalam bentuk matrik selanjutnya data dapat diproses ke tahapan clustering menggunakan
algoritma devisi dengan cara mengklik tombol proses divisive. Hasil clustering selanjutnya
akan ditampilkan pada halaman baru
Gambar 4.10 Rancangan Halaman Hasil Proses Clustering
Hasil Algoritma Divisive
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
BAB V
IMPLEMENTASI DAN EVALUASI HASIL
5.1 Implementasi Perancangan Perangkat Lunak Penambangan Data
Implementasi perancangan perangkat lunak merupakan prosedur yang harus
dilakukan untuk menyelesaikan pemrograman sistem berdasarkan pada analisis dan
perancangan sistem pada bab sebelumnya. Implementasi rancangan perangkat lunak pada
sistem ini dilakukan dengan menggunakan tools Netbeans Integrated Development
Environment (IDE) 8.1 pada komputer dengan spesifikasi prosessor Intel Core i3, RAM 4.00
GB, HDD 500 GB. Implementasi rancangan perangkat lunak pada bab ini terdiri dari
implementasi antarmuka. Sedangkan pada evaluasi hasil terdiri dari pengujuan penggunaa
sistem dengan data yang sudah siap untuk di proses clustering dan hasil pengujian. Daftar
nama kelas yang diimplementasikan dalam sistem ini dapat dilihat pada tabel 5.1 berikut.
Tabel 5.1 Nama Kelas Yang Diimpelentasikan
NO Nama Kelas Nama Berkas
1 Menu Awal MenuAwal.java
2 Proses Algoritma Divisive ProsesAlgoDivisive.java
3. Auto Resize Tabel Auto ReziseTale.java
5.1.1 Implementasi Tampilan Antarmuka
5.1.1.1 Halaman Utama
Pada saat sistem pertama kali dijalankan akan ditampilkan form awal seperti pada gambar 5.1
dan spesifikasi detail pada tabel 5.2 berikut :
Tabel 5.2 Spesifikasi Detail Halaman Awal
Id_objek Jenis Teks Keterangan
jLabel2 Label PENGELOMPOKAN SEKOLAH
MENEGAH ATAS DI DIY
Judul dari sistem
yang dibuat
jLabel3 Label BERDASARKAN NILAI DAYA SERAP
UJIAN NASIONAL
Judul dari sistem
yang dibuat
jLabel4 Label MENGGUNAKAN ALGORITMA
DIVISIVE HIERARCHICAL
CLUSTERING
Judul dari sistem
yang dibuat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
jButton_masuk button Tombol untuk
masuk ke sistem dan
memulai proses
pengelompokkan
Gambar 5.1 Halaman Awal
Pada halaman awal tersebut terdapat judul dari tugas akhir dan juga tombol proses
yang yang selanjutnya akan membawa user ke halaman proses algoritma Divisive.
5.1.1.2 Halaman Praprocessing algoritma Divisive
Pada halaman ini user akan diminta untuk memasukkan data/file .xls yang telah
disesuaikan dengan kriteria yang butuhkan oleh aplikasi untuk diproses, selanjutnya user
mengubah data tersebut kedalam bentuk data matriks jarak agar dapat diolah . Setelah data
telah berubah kedalam bentuk matriks jarak, selanjutnya user dapat mengklusterkan data
tersebut dengan algortima Divisive yang hasilnya nanti akan ditampilkan dalam bentuk tabel
pohon pada gambar 5.2 dan spesifikasi detail pada tabel 5.3 berikut :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
Tabel 5.3 Spesifikasi Detail Halaman Praprocessing
Id_objek Jenis Teks Keterangan
jMenu1 Menu bar Operasi Berisi menu pilih
berkas dan keluar
dari sistem
jMenu2 Menu bar Bantuan Berisi bantan
/panduan bagi user
jButtonPilih Button Pilih berkas Tombol untuk
memilih dan
memasukkan berkas
yang akan diproses
jTextPilih Text field Text field untuk
menampilkan nama
file dan direktori file
yang dipilih
jTextJumlah Text field Jumlah data Text field untuk
menampilkan
jumlah data pada
file yang dipilih
jTabelPraproses Tabel Tabel yang
digunakan untuk
menampilkan data
yang telah dipilih
jButtonTmatrik Button Ubah ke matrik euclid Tombol untuk
mengubah data
kedalam bentuk
matriks jarak
jTabelMatrik_euclid Tabel Tabel untuk
menampilkan
matriks jarak
jButtonTdevisive Button Proses Divisive Tombol untuk
memproses
pengelompokkan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
menggunakan
algoritma divisive
hierarchical
clustering
Implementasi perangkat lunak setiap method
Berikut ini adalah rincian implementasi perangkat lunak dari setiap method :
1. Kelas ProsesAlgoDivisive.java
a. Nama method : public void JarakEuclid
Fungsi method : Untuk memasukkan berkas kedalam sistem
Fungsi : mengubah data kedalam bentuk matrik jarak
public void JarakEuclid() {
for (int i = 0; i < Sampel.size(); i++) {
for (int j = 0; j < Sampel.size(); j++) {
if (Sampel.get(i).equals(Sampel.get(j))) {
DataMatrik.add(Sampel.get(i) + "=" + Sampel.get(j) + "=" + 0);
} else {
double total = 0;
for (int k = 0; k < Variabel.size(); k++) {
double pangkat = 0;
double bantu1 = CariData(Sampel.get(i) + "=" + Variabel.get(k));
double bantu2 = CariData(Sampel.get(j) + "=" + Variabel.get(k));
System.out.println(bantu2 + "Vs" + bantu1);
pangkat = Math.pow((bantu2 - bantu1), 2);
total = total + pangkat;
}
double Euclid = Math.sqrt(total);
DataMatrik.add(Sampel.get(i) + "=" + Sampel.get(j) + "=" + Euclid);
DataMatrik.add(Sampel.get(j) + "=" + Sampel.get(i) + "=" + Euclid);
}
}
}
}
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
a. Nama method : public String NilaiAverageDissTerbesar
Fungsi : mencari nilai rata rata terbesar dalam matrik jarak
public String NilaiAverageDissTerbesar(List<Object> dataAv) {
double bantu = 0;
String sampel = "";
for (int j = 0; j < dataAv.size(); j++) {
String[] data = dataAv.get(j).toString().split("=");
if (new Double(data[1]) > bantu) {
sampel = data[0];
bantu = new Double(data[1]);
}
}
if (dataAv.size() == 2) {
String[] data1 = dataAv.get(0).toString().split("=");
String[] data2 = dataAv.get(1).toString().split("=");
if (data1[1].equals(data2[1])) {
sampel = "kosong";
bantu = 0;
}
}
return sampel + "=" + bantu;
}
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
a. Nama method : public void AverageDissimilarity
public void AverageDissimilarity() {
List<Object> AverageDissmi = new ArrayList<>();
List<Object> C1 = new ArrayList<>();
List<Object> C2 = new ArrayList<>();
// boolean henti = false;
// kluster = Integer.parseInt(jTextFieldKluster.getText());
//hitung average
for (int i = 0; i < Sampel.size(); i++) {
double bantu1 = 0;
for (int j = 0; j < Sampel.size(); j++) {
if (!Sampel.get(i).equals(Sampel.get(j))) {
bantu1 = bantu1 + cekDataMatrik(Sampel.get(i) + "=" + Sampel.get(j));
}
}
AverageDissmi.add(Sampel.get(i) + "=" + (bantu1 / (Sampel.size() - 1)));
}
//buat tampilkan data
System.out.println();
System.out.println("average dissimiliraity ");
for (int i = 0; i < AverageDissmi.size(); i++) {
System.out.println(AverageDissmi.get(i) + " ");
}
//caru nilai averagediss terbesar
//Splinter Group
String[] mak = NilaiAverageDissTerbesar(AverageDissmi).split("=");
// kluster = Integer.parseInt(jTextFieldKluster.getText());
if (!mak[0].equals("kosong")) {
C1.add(mak[0]);
Cluster1.add(mak[0]);
System.out.println("AveTerbesar " + mak[0] + "=" + mak[1]);
AverageDissmi.remove(mak[0] + "=" + mak[1]);
} else {
AverageDissmi.removeAll(AverageDissmi);
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
System.out.println("AveTerbesar " + mak[0] + "=" + mak[1]);
AverageDissmi.remove(mak[0] + "=" + mak[1]);
} else {
AverageDissmi.removeAll(AverageDissmi);
henti = true;
}
if (henti == false) {
// for(i=0;i<=kluster;i++){
//AveDiss sisa
for (int j = 0; j < AverageDissmi.size(); j++) {
String[] data = AverageDissmi.get(j).toString().split("=");
C2.add(data[0]);
}
//Hitung Selisih Sisa
boolean negatif = false;
while (negatif == false) {
List<Object> different = new ArrayList<>();
for (int i = 0; i < C2.size(); i++) {
double tot = 0;
double avedissOfSP = cekDataMatrik(C2.get(i) + "=" + Sampel.get(0));
for (int j = 0; j < C2.size(); j++) {
if (!C2.get(i).equals(C2.get(j))) {
tot = tot + cekDataMatrik(C2.get(i) + "=" + C2.get(j));
}
}
different.add(C2.get(i) + "=" + ((tot / (C2.size() - 1)) - avedissOfSP));
}
//different
System.out.println("Different :");
for (int i = 0; i < different.size(); i++) {
System.out.println(different.get(i));
}
//cari rata-rata terbesar dari Different tersisa
double totBantu = 0;
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
Fungsi : menghitung nilai rata rata antar object
//cari rata-rata terbesar dari Different tersisa
double totBantu = 0;
String Sam = "";
String[] sat = different.get(0).toString().split("=");
totBantu = new Double(sat[1]);
Sam = sat[0];
for (int j = 1; j < different.size(); j++) {
String[] data = different.get(j).toString().split("=");
if (new Double(data[1]) > totBantu) {
Sam = data[0];
totBantu = new Double(data[1]);
}
}
if (totBantu > 0) {
System.out.println("Different Terbesar : " + Sam + "=" + totBantu);
//Gabung dengan splinter group menjadi cluster 1
C1.add(Sam);
Cluster1.add(Sam);
C2.remove(Sam);
} else {
Cluster1.add("-");
for (int i = 0; i < C2.size(); i++) {
Cluster2.add(C2.get(i));
}
Cluster2.add("-");
negatif = true;
}
}
}
//buat tampilkan saja
System.out.println("Cluster1");
String tek = "(";
for (int i = 0; i < C1.size(); i++) {
tek = tek + C1.get(i) + "), ";
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
5.2 Evaluasi Hasil
Pada bagian ini akan dilakukan beberapa pengujian , yaitu
- Pengujian terhadap perangkat lunak, apakah semua fungsi perangkat lunak sudah
berjalan dengan baik dan sesuai dengan yang diharapkan ,pada bagian 5.2.1 Uji
Coba Perangkat Lunak (Black box).
- Pengujian validasi hasil, dimana pada bagian ini akan membandingkan hasil
keluaran dari perangkat lunak dan microsoft excel dengan menggunakan 5 data dan
20 data yang sama, pada bagian 5.2.2 Pengujian Perbandingan Hasil Perangkat
Lunak dengan Microsoft excel.
- Pengujian perangkat lunak untuk melakukan proses clustering dengan menggunakan
seluruh data ,pada bagian 5.2.3 Pengujian Perangkat Lunak dengan Menggunakan
seluruh data.
5.2.1 Uji Coba Perangkat Lunak (Black box)
5.2.1.1 Rencana Pengujian Black box
Pada tabel 5.2 akan dijelaskan rencana pengujian dengan menggunakan metode black box.
Tabel 5.4 Rencana Pengujian Black box
No Usecase Butir Uji Kasus Uji
1 Input Berkas Pengujian memasukkan file berekstensi .xls UC-01
Pengujian memasukkan file dengan ekstensi
bukan .xls
UC-02
2 Proses clustering dengan
Algoritma Divisive
Pengujian melakukan proses clustering UC-03
3 Proses clustering pada
modul halaman 32-34
Pengujian kesesuaian hasil keluaran
perangkat lunak dengan modul
UC-04
5.2.1.2 Prosedur Pengujian Black box dan Kasus Uji
Setelah menyusun rencana pengujian pada tabel 5.2 maka dilakukan prosedur pengujian serta
kasus uji yang terlampir pada lampiran 5.
5.2.1.3 Evaluasi Pengujian Black box
Seluruh hasil pengujian black box pada lampiran 5 menunjukkan bahwa perangkat lunak
sudah dapat berjalan dengan baik dan sesuai dengan perancangan yang sudah dibuat. Hal ini
dapat dilihat dari semua fungsi yang sudah berjalan sesuai dengan yang diharapkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
5.2.2 Pengujian Perbandingan Hasil Perangkat Lunak dengan Microsoft excel
5.2.2.1 Pengelompokan dengan menggunakan perangkat lunak.
Pengujian ini dilakukan dengan menggunakan 5 dan 20 data nilai daya serap Ujian
Nasional SMA Jurusan IPA tahun ajaran 2014/2015. Pengujian ini menggunakan 29 atribut
yaitu, mat1, mat2, mat3, mat4, mat5, mat6, mat7, mat8, mat9, mat10, mat11, mat12, mat13,
mat14, mat15, mat16, mat17, mat18, mat19, mat20, mat21, mat22, mat23, mat24, mat25,
mat26, mat27, mat28, mat29, gambar 5.2 ,gambar 5.6 ,tabel 5.3 dan tabel 5.6 dibawah ini
merupakan hasil dari pengelompokan dengan menggunakan perangkat lunak.
Gambar 5.2 Hasil Running Perangkat Lunak Menghitung 5 data
Tabel 5.5 Hasil Running Perangkat Lunak Menghitung 5 data
Kedalaman Jumlah cluster Anggota cluster
1 2 1 : 01-001
2 : 01-002,01-003,01-004,01-005
2 3 1 : 01-001
2 : 01-002
3 : 01-003,01-004,01-005
3 4 1 : 01-001
2 : 01-002
3 : 01-005
4: 01-003.01-004
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
Gambar 5.3 Hasil Running Perangkat Lunak Menghitung 20 Data
Tabel 5.6 Hasil Running Perangkat Lunak Menghitung 20 Data
Kedalaman Jumlah cluster Anggota cluster
1 2 1: 01-001,01-003 ,01-004, 01-006, 01-010, 01-015, 01-017,
01-018
2: 01-002, 01-005, 01-007, 01-008, 01-009, 01-011, 01-012,
01-019, 01-022, 01-025, 01-026
2 4 1: 01-001, 01-010, 01-015, 01-017
2: 3-003, 04-004, 05-006, 01-018, 01-21
3: 01-005
4: 01-002, 01-007, 01-008, 01-009, 01-011, 01-012, 01-019,
01-022, 01-025, 01-026
3
7
1: 01-005
2: 01-001, 01-010, 01-015
3: 01-017
4: 01-018
5: 01-003, 01-004, 01-006, 01-021
6: 01-011
7: 01-002, 01-007, 01-008, 01-009, 01-012, 01-019, 01-022,
01-025, 01-026
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
4 10 1: 01-005
2: 01-011
3: 01-017
4: 01-018
5: 01-001, 01-010
6: 01-015
7: 01-021
8: 01-003, 01-004, 01-006
9: 01-002
10: 01-007, 01-008, 01-009, 01-012, 01-019, 01-022,
01-025, 01-026
5 12 1: 01-005
2: 01-011
3: 01-017
4: 01-018
5: 01-001, 01-010
6: 01-015
7: 01-021
8: 01-002
9: 01-006
10: 01-003,01-004
11: 01-012
12: 01-007, 01-008, 01-009, 01-019, 01-022, 01-025, 01-026
6 13 1: 01-005
2: 01-011
3: 01-017
4: 01-018
5: 01-001, 01-010
6: 01-015
7: 01-021
8: 01-002
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
9: 01-006
10: 01-003,01-004
11: 01-012
12: 01-007
13: 01-008, 01-009, 01-019, 01-022, 01-025, 01-026
7 14 1: 01-005
2: 01-011
3: 01-017
4: 01-018
5: 01-001, 01-010
6: 01-015
7: 01-021
8: 01-002
9: 01-006
10: 01-003,01-004
11: 01-012
12: 01-007
13: 01-019
14: 01-008, 01-009, 01-022, 01-025, 01-026
8 15 1: 01-005
2: 01-011
3: 01-017
4: 01-018
5: 01-001, 01-010
6: 01-015
7: 01-021
8: 01-002
9: 01-006
10: 01-003,01-004
11: 01-012
12: 01-007
13: 01-019
14: 01-009
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
15: 01-008, 01-022, 01-025, 01-026
9 16 1: 01-005
2: 01-011
3: 01-017
4: 01-018
5: 01-001, 01-010
6: 01-015
7: 01-021
8: 01-002
9: 01-006
10: 01-003,01-004
11: 01-012
12: 01-007
13: 01-019
14: 01-009
15: 01-008
16: 01-022, 01-025,01-026
10 17 1: 01-005
2: 01-011
3: 01-017
4: 01-018
5: 01-001, 01-010
6: 01-015
7: 01-021
8: 01-002
9: 01-006
10: 01-003,01-004
11: 01-012, 12: 01-007
13: 01-019
14: 01-009
15: 01-008
16: 01-026 ,17: 01-022,01-025
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
5.2.2.2 Pengelompokan dengan menggunakan microsoft excel.
Pengujian ini dilakukan dengan menggunakan 5 dan 20 data nilai daya serap Ujian
Nasional SMA Jurusan IPA tahun ajaran 2014/2015. Pengujian ini menggunakan 29 atribut
yaitu, mat1, mat2, mat3, mat4, mat5, mat6, mat7, mat8, mat9, mat10, mat11, mat12, mat13,
mat14, mat15, mat16, mat17, mat18, mat19, mat20, mat21, mat22, mat23, mat24, mat25,
mat26, mat27, mat28, mat29, gambar 5.7 ,gambar 5.8 ,tabel 5.7 dan tabel 5.8 dibawah ini
merupakan hasil dari pengelompokan dengan menggunakan microsoft excel, proses
perhitungan manual menggunakan microsoft excel dapat dilihat pada lampiran 2 dan
lampiran 6.
-
Kedalaman
pertama
Kedalaman
kedua
Kedalaman
ketiga
Gambar 5.5 Hasil Perhitungan Menggunakan Microsoft Excel Menghitung 5 Data
Tabel 5.7 Hasil Perhitungan Menggunakan Microsoft Excel Menghitung 5 Data
Kedalaman Jumlah cluster Anggota cluster
1 2 1 : 01-001
2 : 01-002,01-003,01-004,01-005
2 3 1 : 01-001
2 : 01-002
3 : 01-003,01-004,01-005
3 4 1 : 01-001
2 : 01-002
3 : 01-005
4: 01-003.01-004
01-001, 01-002, 01-003,01-004,01-005
01-001
01-002,01-003,01-004,01-005
01-002
01-003,01-004, 01-005
01-005
01-003, 01-004
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
Gambar 5.6 Hasil Perhitungan Menggunakan Microsoft Excel Menghitung 20 Data
Tabel 5.8 Tabel Perhitungan Menggunakan Microsoft Excel Menghitung 20 Data
Kedalaman Jumlah cluster Anggota cluster
1 2 1: 01-001,01-003 ,01-004, 01-006, 01-010, 01-015, 01-017,
01-018
2: 01-002, 01-005, 01-007, 01-008, 01-009, 01-011, 01-012,
01-019, 01-022, 01-025, 01-026
2 4 1: 01-001, 01-010, 01-015, 01-017
2: 3-003, 04-004, 05-006, 01-018, 01-21
3: 01-005
4: 01-002, 01-007, 01-008, 01-009, 01-011, 01-012, 01-019,
01-022, 01-025, 01-026
3
7
1: 01-005
2: 01-001, 01-010, 01-015
3: 01-017
4: 01-018
5: 01-003, 01-004, 01-006, 01-021
6: 01-011
7: 01-002, 01-007, 01-008, 01-009, 01-012, 01-019, 01-022,
01-025, 01-026
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
4 10 1: 01-005
2: 01-011
3: 01-017
4: 01-018
5: 01-001, 01-010
6: 01-015
7: 01-021
8: 01-003, 01-004, 01-006
9: 01-002
10: 01-007, 01-008, 01-009, 01-012, 01-019, 01-022,
01-025, 01-026
5 12 1: 01-005
2: 01-011
3: 01-017
4: 01-018
5: 01-001, 01-010
6: 01-015
7: 01-021
8: 01-002
9: 01-006
10: 01-003,01-004
11: 01-012
12: 01-007, 01-008, 01-009, 01-019, 01-022, 01-025, 01-026
6 13 1: 01-005, 2: 01-011 ,3: 01-017 ,4: 01-018
5: 01-001, 01-010
6: 01-015, 7: 01-021, 8: 01-002 , 9: 01-006
10: 01-003,01-004
11: 01-012
12: 01-007
13: 01-008, 01-009, 01-019, 01-022, 01-025, 01-026
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
7 14 1: 01-005
2: 01-011
3: 01-017
4: 01-018
5: 01-001, 01-010
6: 01-015
7: 01-021
8: 01-002
9: 01-006
10: 01-003,01-004
11: 01-012
12: 01-007
13: 01-019
14: 01-008, 01-009, 01-022, 01-025, 01-026
8 15 1: 01-005
2: 01-011
3: 01-017
4: 01-018
5: 01-001, 01-010
6: 01-015
7: 01-021
8: 01-002
9: 01-006
10: 01-003,01-004
11: 01-012
12: 01-007
13: 01-019
14: 01-009
15: 01-008, 01-022, 01-025, 01-026
9 16 1: 01-005
2: 01-011
3: 01-017
4: 01-018
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
5: 01-001, 01-010
6: 01-015
7: 01-021
8: 01-002
9: 01-006
10: 01-003,01-004
11: 01-012
12: 01-007
13: 01-019
14: 01-009
15: 01-008
16: 01-022, 01-025,01-026
10 17 1: 01-005
2: 01-011
3: 01-017
4: 01-018
5: 01-001, 01-010
6: 01-015
7: 01-021
8: 01-002
9: 01-006
10: 01-003,01-004
11: 01-012, 12: 01-007
13: 01-019
14: 01-009
15: 01-008
16: 01-026 , 17: 01-022,01-025
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
57
5.2..2.3 Evaluasi Pengujian Perbandingan Perangkat Lunak dengan Hasil Microsoft Excel.
Dari hasil perhitungan perangkat lunak yang dibangun dengan menggunakan 5 dan
20 data, dengan perhitungan manual microsoft excel menggunakan 5 dan 20 data
menunjukkan hasil yang sama. Oleh karena itu dapat dikatakan bahwa perangkat lunak yang
dibuat sudah dapat berjalan dengan baik dan sesuai dengan yang diharapkan.
5.2.3 Pengujian Perangkat Lunak dengan Menggunakan Seluruh Data.
Pengujian ini dilakukan dengan menggunakan dataset nilai daya serap Ujian Nasional
SMA Jurusan IPA tahun ajaran 2014/2015. Pengujian ini menggunakan 29 atribut yaitu,
mat1, mat2, mat3, mat4, mat5, mat6, mat7, mat8, mat9, mat10, mat11, mat12, mat13, mat14,
mat15, mat16, mat17, mat18, mat19, mat20, mat21, mat22, mat23, mat24, mat25, mat26,
mat27, mat28, mat29, gambar 5.5 , tabel 5.9 dibawah ini merupakan hasil dari
pengelompokan dengan menggunakan perangkat lunak.
Tabel 5.9 Hasil Uji Perangkat Lunak dengan Menggunakan Seluruh Data
Kedalaman Jumlah
cluster
Keterangan tentang anggota cluster
1 2 - Jumlah anggota pada cluster 1 =34
- Jumlah anggota pada cluster 2 =103
2 4 - Jumlah anggota pada cluster 1 =12
- Jumlah anggota pada cluster 2 =22
- Jumlah anggota pada cluster 3 =1
- Jumlah anggota pada cluster 4 =102
3 7 - Jumlah anggota pada cluster 1 =1
- Jumlah anggota pada cluster 2 =9
- Jumlah anggota pada cluster 3 =3
- Jumlah anggota pada cluster 4 =1
- Jumlah anggota pada cluster 5 =21
- Jumlah anggota pada cluster 6 =1
- Jumlah anggota pada cluster 7 =101
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
4 11 - Jumlah anggota pada cluster 1-3=1
- Jumlah anggota pada cluster 4 =4
- Jumlah anggota pada cluster 5 =5
- Jumlah anggota pada cluster 6 =1
- Jumlah anggota pada cluster 7 =2
- Jumlah anggota pada cluster 8 =1
- Jumlah anggota pada cluster 9 =20
- Jumlah anggota pada cluster 10 =1
- Jumlah anggota pada cluster 11 =100
5 15 - Jumlah anggota pada cluster 1-6 =1
- Jumlah anggota pada cluster 7 =2
- Jumlah anggota pada cluster 8 =3
- Jumlah anggota pada cluster 9 =1
- Jumlah anggota pada cluster 10 =2
- Jumlah anggota pada cluster 11 =3
- Jumlah anggota pada cluster 12 =1
- Jumlah anggota pada cluster 13 =19
- Jumlah anggota pada cluster 14 =1
- Jumlah anggota pada cluster 15 =99
6 19 - Jumlah anggota pada cluster 1-9 =1
- Jumlah anggota pada cluster 10-11=2
- Jumlah anggota pada cluster 12=2
- Jumlah anggota pada cluster 13 =1
- Jumlah anggota pada cluster 14 =2
- Jumlah anggota pada cluster 15 =1
- Jumlah anggota pada cluster 16 =1
- Jumlah anggota pada cluster 17 =18
- Jumlah anggota pada cluster 18 =1
- Jumlah anggota pada cluster 19 =98
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
7 22 - Jumlah anggota pada cluster 1-13 =1
- Jumlah anggota pada cluster 14-16 =2
- Jumlah anggota pada cluster 19 = 1
- Jumlah anggota pada cluster 20 = 17
- Jumlah anggota pada cluster 21 =1
- Jumlah anggota pada cluster 22 =97
8 24 - Jumlah anggota pada cluster 1-15 =1
- Jumlah anggota pada cluster 16-20 =2
- Jumlah anggota pada cluster 21 =1
- Jumlah anggota pada cluster 22 =16
- Jumlah anggota pada cluster 23 =1
- Jumlah anggota pada cluster 24 =96
9 26 - Jumlah anggota pada cluster 1-17 =1
- Jumlah anggota pada cluster 18-22 =2
- Jumlah anggota pada cluster 23 =1
- Jumlah anggota pada cluster 24 =15
- Jumlah anggota pada cluster 25 = 1
- Jumlah anggota pada cluster 26 = 95
10 28 - Jumlah anggota pada cluster 1-19 =1
- Jumlah anggota pada cluster 20-24 =2
- Jumlah anggota pada cluster 25 = 1
- Jumlah anggota pada cluster 26 =14
- Jumlah anggota pada cluster 27 =1
- Jumlah anggota pada cluster 28 =94
11 30 - Jumlah anggota pada cluster 1-21 =1
- Jumlah anggota pada cluster 22-26 =2
- Jumlah anggota pada cluster 27 =1
- Jumlah anggota pada cluster 28 = 13
- Jumlah anggota pada cluster 29 =1
- Jumlah anggota pada cluster 30 =93
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
12 32 - Jumlah anggota pada cluster 1-23 =1
- Jumlah anggota pada cluster 34-28=2
- Jumlah anggota pada cluster 29 =1
- Jumlah anggota pada cluster 30 =12
- Jumlah anggota pada cluster 31 =1
- Jumlah anggota pada cluster 32 = 92
13 34 Jumlah anggota pada cluster 1-25 =1
- Jumlah anggota pada cluster 26-30=2
- Jumlah anggota pada cluster 31 =1
- Jumlah anggota pada cluster 32 =11
- Jumlah anggota pada cluster 33 =1
- Jumlah anggota pada cluster 34 = 91
14 36 Jumlah anggota pada cluster 1-27 =1
- Jumlah anggota pada cluster 28-32=2
- Jumlah anggota pada cluster 33 =1
- Jumlah anggota pada cluster 34=10
- Jumlah anggota pada cluster 35=1
- Jumlah anggota pada cluster 36 = 90
15 38 Jumlah anggota pada cluster 1-29 =1
- Jumlah anggota pada cluster 30-34=2
- Jumlah anggota pada cluster 35 =1
- Jumlah anggota pada cluster 36 =9
- Jumlah anggota pada cluster 37 =1
- Jumlah anggota pada cluster 38 = 89
16 40 Jumlah anggota pada cluster 1-31 =1
- Jumlah anggota pada cluster 32-36=2
- Jumlah anggota pada cluster 37 =1
- Jumlah anggota pada cluster 38 =8
- Jumlah anggota pada cluster 39 =1
- Jumlah anggota pada cluster 40 = 88
17 42 Jumlah anggota pada cluster 1-33 =1
- Jumlah anggota pada cluster 34-38=2
- Jumlah anggota pada cluster 39 =1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
- Jumlah anggota pada cluster 40 =7
- Jumlah anggota pada cluster 41 =1
- Jumlah anggota pada cluster 42 = 88
18 44 Jumlah anggota pada cluster 1-35 =1
- Jumlah anggota pada cluster 36-40=2
- Jumlah anggota pada cluster 241 =1
- Jumlah anggota pada cluster 42 =6
- Jumlah anggota pada cluster 43 =1
- Jumlah anggota pada cluster 44 = 87
19 46 Jumlah anggota pada cluster 1-37 =1
- Jumlah anggota pada cluster 38-42=2
- Jumlah anggota pada cluster 43 =1
- Jumlah anggota pada cluster 44 =5
- Jumlah anggota pada cluster 45 =1
- Jumlah anggota pada cluster 46 = 86
20 48 Jumlah anggota pada cluster 1-39 =1
- Jumlah anggota pada cluster 40-44=2
- Jumlah anggota pada cluster 45 =1
- Jumlah anggota pada cluster 46 =4
- Jumlah anggota pada cluster 47 =1
- Jumlah anggota pada cluster 48 = 85
21 50 Jumlah anggota pada cluster 1-41 =1
- Jumlah anggota pada cluster 42-46=2
- Jumlah anggota pada cluster 47 =1
- Jumlah anggota pada cluster 48 =3
- Jumlah anggota pada cluster 49 =1
- Jumlah anggota pada cluster 50 = 84
22 51 Jumlah anggota pada cluster 1-43 =1
- Jumlah anggota pada cluster 44-48=2
- Jumlah anggota pada cluster 49 =1
- Jumlah anggota pada cluster 50 =2
- Jumlah anggota pada cluster 51 =1
- Jumlah anggota pada cluster 52 = 83
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
62
23 52 Jumlah anggota pada cluster 1-45 =1
- Jumlah anggota pada cluster 46-49=2
- Jumlah anggota pada cluster 50 =1
- Jumlah anggota pada cluster 51 = 82
24 53 -Jumlah anggota pada cluster 1-47=1
- Jumlah anggota pada cluster 48-51=2
- Jumlah anggota pada cluster 52 =1
- Jumlah anggota pada cluster 53 = 83
25 54 Jumlah anggota pada cluster 1-48 =1
- Jumlah anggota pada cluster 49-52=2
- Jumlah anggota pada cluster 53 =1
- Jumlah anggota pada cluster 54 = 82
26-85 55-126 Jumlah anggota pada cluster 1-116 =1
- Jumlah anggota pada cluster 117-122=2
- Jumlah anggota pada cluster 123 =1
- Jumlah anggota pada cluster 124 = 10
86 125 Jumlah anggota pada cluster 1-117 =1
- Jumlah anggota pada cluster 118-123=2
- Jumlah anggota pada cluster 124 =1
- Jumlah anggota pada cluster 135 = 9
87 126 Jumlah anggota pada cluster 1-118 =1
- Jumlah anggota pada cluster 119-124=2
- Jumlah anggota pada cluster 125 =1
- Jumlah anggota pada cluster 126 = 8
88 127 Jumlah anggota pada cluster 1-119 =1
- Jumlah anggota pada cluster 120-125=2
- Jumlah anggota pada cluster 126 =1
- Jumlah anggota pada cluster 127 = 7
89 128 Jumlah anggota pada cluster 1-120 =1
- Jumlah anggota pada cluster 121-126=2
- Jumlah anggota pada cluster 127 =1
- Jumlah anggota pada cluster 128 = 6
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
63
90 129 Jumlah anggota pada cluster 1-121 =1
- Jumlah anggota pada cluster 122-127=2
- Jumlah anggota pada cluster 128 =1
- Jumlah anggota pada cluster 129 = 5
100 130 Jumlah anggota pada cluster 1-122 =1
- Jumlah anggota pada cluster 123-128=2
- Jumlah anggota pada cluster 129 =1
- Jumlah anggota pada cluster 130 = 4
101 131 Jumlah anggota pada cluster 1-123 =1
- Jumlah anggota pada cluster 124-129=2
- Jumlah anggota pada cluster 130 =1
- Jumlah anggota pada cluster 131 = 3
102 132 Jumlah anggota pada cluster 1-124 =1
- Jumlah anggota pada cluster 125-130=2
- Jumlah anggota pada cluster 131 =1
- Jumlah anggota pada cluster 132 = 2
Dari hasil running perangkat lunak didapatkan 102 kedalaman data dengan total 132 cluster
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
64
BAB VI
PENUTUP
5.1 Kesimpulan
Kesimpulan yang diperoleh sebagai hasil penyelesaian tugas akhir ini adalah:
1. Implementasi algoritma Divisive hierarchical Clustering untuk mengelompokan Sekolah
Menengah Atas di DIY berdasarkan nilai daya serap Ujian Nasional mata pelajaran
matematika telah berhasil dibangun
2. Algoritma Divisive hierarchical Clustering tidak dapat digunakan untuk analisis nilai daya
serap semua butir kompetensi ujian nasional mata pelajaran Matematika SMA jurusan IPA
di DIY tahun ajaran 2014/2015 karena pohon yang terbentuk tidak seimbang.
3. Berdasarkan hasil uji menggunakan 20 data dan 137 dataset nilai daya serap dengan 29
butir kompetensi ditemukan karakteristik sebagai berikut :
a. setiap cluster berisi minimum satu anggota, dan maksimum 2 anggota
b. pohon yang terbentuk tidak seimbang/timpang.
5.2 Saran
Berdasarkan hasil analisis pada tugas akhir ini, penulis memberikan saran untuk perbaikan dan
pengembangan perangkat lunak lebih lanjut antara lain:
1.Perangkat lunak perlu dikembangkan agar dapat menerima masukan file selain tipe .xls
2. Hasil clustering dapat divisualkan lebih baik agar lebih menarik dan mudah dipahami (misal
menampilkan struktur pohon yang lebih baik) .
3. Pemprosesan clustering dalam jumlah data yang banyak masih memakan waktu yang lama,
kedepannya pengembangan algoritma divisive perlu disederhanakan agar lebih cepat.
4. Uji hasil cluster dengan menggunakan Silhouette coeficient.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
65
DAFTAR PUSTAKA
Anonim.2016. BAB III Devisive Analysis .
http://a-research.upi.edu/operator/upload/s_mat_0607092_chapter3.pdf
Diakses pada 15 Februari 2016 .
Desmaweni, Monica Rintan .2017.” Pengelompokan Sekolah Menengah Atas di DIY
Berdasarkan Nilai Daya Serap Ujian Nasional Bahasa Indonesia Menggunakan
Metode Agglomerative Hierarchical Clustering”, Universitas Sanata Dharma ,
Yogyakarta.
Han, Jiawei and Kamber, Micheline.(2011)..Data Mining: Concepts and Techniques Third
Edition, Morgan Kaufmann, USA.
Liu, Sandra S. and Chen, Jie. (2009). Using Data Mining to Segment Healthcare Markets
from Patients Preference Perspectives. International Journal of Health Care Quality
Assurance
Prasetyo, Eko.2014.Data Mining : Mengolah Data Menjadi Informasi Menggunakan
Matlab, Andi, Yogyakarta.
Santosa,Budi.2007 Data Mining :Teknik Pemanfaatan Data untuk Keperluan Bisnis.
Yogyakarta: Graha Ilmu
WisdomJobs “What Is Data Mining in Data Mining “ https://www.wisdomjobs.com/e-
university/data-mining-tutorial-199/what-is-data-mining-1864.html.
Diakses pada 20 April 2016.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
66
LAMPIRAN 1
HASIL UJICOBA DENGAN 137 DATA
Hasil Uji coba nilai daya serap UN 2014-15 dengan jumlah 137 sekolah, dengan waktu kurang
lebih 104 menit
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
67
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
68
LAMPIRAN 2
1.Hasil uji coba menggunakan 5 data sample
*hasi perangkat lunak
a. Input Data
b.Hasil Matrik
c.Hasil Divisive
*hasil hitung manual excel
a.Data Dengan Atribut Mat1-Mat 29
KODE MAT1 MAT2 MAT3 MAT4 MAT5 MAT6 MAT7 MAT8 MAT9 MAT10 MAT11 MAT12 MAT13 MAT14 MAT15 MAT16 MAT17 MAT18 MAT19 MAT20 MAT21 MAT22 MAT23 MAT24 MAT25 MAT26 MAT27 MAT28 MAT29
01-001 66.51 91.39 82.42 89.00 64.11 71.29 90.43 84.21 47.37 63.16 90.44 89.95 93.78 75.60 89.47 48.80 83.73 89.00 78.95 94.26 90.36 7.18 82.66 77.51 76.08 97.01 98.56 79.43 39.71
01-002 32.86 56.43 49.47 72.14 40.00 43.57 68.10 54.29 27.86 32.50 54.29 67.86 72.14 55.71 56.43 45.00 57.86 62.86 60.71 80.00 63.39 12.14 62.32 37.14 42.86 75.89 94.29 57.14 29.29
01-003 46.11 85.56 60.00 78.89 44.44 50.56 78.52 67.22 34.72 34.72 65.84 83.33 82.22 68.89 68.33 42.22 67.22 68.89 67.22 84.44 79.72 7.22 68.20 41.67 48.89 83.45 92.22 61.67 25.56
01-004 51.02 76.87 63.10 74.83 59.18 39.46 81.18 61.90 28.23 45.92 75.51 86.39 87.76 65.31 68.03 44.22 71.43 70.75 72.11 87.07 82.20 14.29 72.11 41.50 50.34 89.74 98.64 61.22 26.53
01-005 47.59 72.19 56.69 70.59 45.99 48.66 74.33 41.71 26.74 32.62 64.71 86.63 83.42 49.73 66.31 44.92 60.96 68.45 65.78 75.40 75.33 10.70 61.36 32.09 47.59 79.05 95.19 59.89 37.43
b.Hasil Matrik
1 2 3 4 5
1 0 135.6863 92.65901 86.58061 117.2618 2 135.6863 0 55.1229 64.73132 43.21217 3 92.65901 55.1229 0 32.04833 43.15498 4 86.58061 64.73132 32.04833 0 46.65212 5 117.2618 43.21217 43.15498 46.65212 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
69
c.Hasil Divisive
c.1 Hasil Clustering
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
70
LAMPIRAN 3
Narasi umum usecase
1. Narasi memasukkan data
Nama usecase Memasukkan data
Kode usecase 01
Aktor User
Deskripsi Proses memasukkan data ke dalam
perangkat lunak
Kondisi awal User telah masukkan ke beranda sistem
Kondisi Akhir Data yang telah dimasukkan akan
ditampilkan dalam bentuk tabel,beserta
jumlah data
Aksi Aktor Reaksi Sistem
1.User mengklik tombol proses
2. Sistem menampilkan halam praprosessing
data
3.User memilih berkas .xls yang ingin
diproses dengan mengklik tombol pilih
berkas
4.User mengklik open pada file yg
hendak diproses
5.Sistem akan mengkoreksi file yang telah
dipilih, jika bukan file dengan format .xls
akan muncul pesan “file yang dipilih harus
berformat .xls”.
6.Jika data berformat .xls sistem akan
langsung menampilkan data beserta jumlah
data yang telah dipilih.
2.Narasi proses mengubah data ke dalam bentuk matrik
Nama Usecase Proses mengubah data ke bentuk matriks
jarak
Kode Usecase 02
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
71
Aktor User
Deskripsi Usecase ini adalah kegiatan mengubah data
mentah ke dalam bentuk data matrik
Kondisi awal User telah memilih data yang akan diolah
dan mengubah data ke dalam bentuk matrik
Kondisi akhir Sistem mengubah data ke dalam bentuk
matrik dan menampilkannya dalam bentuk
tabel matriks jarak
Aksi Aktor Reaksi Sistem
1.User mengklik tombol ubah ke dalam
bentuk matrik
2. Sistem akan mengolah data yang telah
dipilih dan mengubahnya kedalam bentuk
matrik
3.Sistem menampilkan data yang telah
diubah kedalam bentuk matrik dalam bentuk
tabel data
3.Narasi proses mengelompokkan data menggunakan algoritma Divisive menggunakan data
matrik
Nama Usecase Proses mengelompokkan data menggunakan
algoritma Divisive menggunakan data matrik
Kode Usecase 03
Aktor User
Deskripsi Usecase ini adalah kegiatan
mengelompokkan data menggunakan
algoritma Divisive dari data matrik
Kondisi awal Data yang telah diolah dalam bentuk matrik
dikelompokkan menggunakan algoritma
Divisive
Kondisi akhir Sistem mengelompokkan data matrik
menggunakan algoritma Divisive dan
menampilkan hasil clustering dalam tabel
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
72
Aksi Aktor Reaksi Sistem
1.User mengklik tombol proses
Divisive
2. Sistem akan mengolah data yang telah
dipilih dan mengelompokkannya
menggunakan algoritma Divisive
3.Sistem menampilkan data yang telah
dikelompokkan dalam bentuk tabel data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
73
LAMPIRAN 4
Diagram Aktivitas
1. Diagram aktivitas user memasukkan data
Memasukkan data
User Sistem
tidak
ya
Menekan tombol “pilih berkas” Menampikan kotak dialog file
chooser
Memilih file yang akan digunakan
Apakah file
bertipe .xls?
Menampilkan pesan “File yang
dipih harus berformat .xls
Menampilkan data dalam bentuk
tabel
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
74
2. Diagram aktivitas usecase mengubah data ke dalam bentuk matrik
Mengubah data ke dalam bentuk matrik
User Sistem
3. Diagram aktivitas use case pengelompokkan
Pemgelompokkan data
User Sistem
Menekan tombol “ubah ke matrik
euclid” Mengubah data kedalam bentuk
matrik
Menampilkan data matrik ke dalam
bentuk tabel
Menekan tombol “proses Divisive” Mengolah data matrik dengan
menggunakan algoritma Divisive
Menampilkan hasil
pengelompokkan menggunakan
algoritma devisi dalam bentuk
tabel
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
75
LAMPIRAN 5 Prosedur Pengujian dan Kasus Uji
Identifik
asi
Usecase
Deskripsi Prosedur
pengujian
Masukka
n
Keluaran
yang
diharapkan
Hasil yang
didapat
Catatan
proses
pengemban
gan
UC-01 Pengujian
memasuk
kan file
berektensi
.xls
1.Jalankan
sistem
2.Pada
halaman
awal kli
proses
3.pada
halaman
proses
algoritma
Divisive
tekan
tombol
“pilih
berkas”
Fix.xls Data pada
file fix.xls
akan
ditampilkan
pada tabel
Data pada
file fix.xls
akan
ditampilkan
pada tabel
Tidak
diperbaiki
UC-02 Revisi4.d
oc
Muncul
pemberitah
uan bahwa
file yang
dipilih
bukan
berektensi
.xls
Muncul
pemberitah
uan bahwa
file yang
dipilih
bukan
berektensi
.xls
Tidak
diperbaiki
UC-03 Pengujian
melakuka
n proses
clustering
1.Berkas
yang akan
dioleh telah
dimasukkan
2.ubah data
kedalam
bentuk
matrik
dengan
menekan
tombol
“ubah ke
matriks
euclid”
3.setelah
terbentuk
matriks
jarak tekan
tombol
“proses
Divisive”
- Muncuk
tabel yang
menampilk
an pohon
kluster
Muncuk
tabel yang
menampilk
an pohon
kluster
Tidak
diperbaiki
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
76
UC-04 Pengujian
melakuka
n proses
clustering
pada
modul
1.memasuk
kan data
yang telah
terbentuk
dalam
bentuk
matrik jarak
3.selanjutny
a tekan
tombol
“proses
Divisive”
Data
berbentu
k matrik
jarak
Menampilk
an hasil
cluster
dengan
anggota
kluster
yang
didapat
{a,b}, {c},
dan {d,e}. didapat {a,b}, {c}, dan {d,e}. kluster {c}
Menampilk
an hasil
cluster
dengan
anggota
kluster
yang
didapat
{a,b}, {c},
dan {d,e}. didapat {a,b}, {c}, dan {d,e}. kluster {c}
Tidak
diperbaiki
Screenshot hasil running perangkat lunak pada ujicoba black box UC-04
Gmbar 5.2 Halaman proses algoritma Divisive (sesuai teori di hal 23-25 )
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
76
Gambar 5.3 hasil clustering
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
77
LAMPIRAN 6
PERHITUNGAN MANUAL
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
80
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
81
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
80
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
81
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
82
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
85
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
84
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
85
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
86
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
87
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI