diajukan untuk memenuhi salah satu syarat memperoleh gelar ... · nilai daya serap ujian nasional...

i

IMPLEMENTASI ALGORITMA DIVISIVE HIERARCHICAL

CLUSTERING UNTUK PENGELOMPOKAN SEKOLAH MENENGAH

ATAS DI DAERAH ISTIMEWA YOGYAKARTA BERDASARKAN

NILAI DAYA SERAP UJIAN NASIONAL MATA PELAJARAN

MATEMATIKA

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Oleh :

Blasius Richo Prasojo

115314015

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2018

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

IMPLEMENTATION OF DIVISIVE HIERARCHICAL CLUSTERING

ALGORITHM FOR CLUSTERING OF SENIOR HIGH SCHOOL IN

YOGYAKARTA BASED ON VALUE ABSORPTION DATA OF MATH

NATIONAL EXAM SCORE

FINAL PROJECT

Presented as Partial Fulfillment of the Requirements

to Obtain the Sarjana Komputer Degree

in Informatics Engineering Study Program

By :


115314015

INFORMATICS ENGINEERING STUDY PROGRAM

DEPARTMENT OF INFORMATIC ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2018


iii


iv


v

HALAMAN PERSEMBAHAN

“Keep it simple”

(Tove Lo)

“Hardwork doesn’t guarantee succes, but improves its chances”

(B.J Gupta)

“Mengucap syukur dalam segala hal”

(1 Tesalonika 5:18)

Karya ini kupersembahkan kepada :

Tuhan Yesus

Bunda Maria

Santo Blasius

Keluarga

Sahabat


vi


vii

ABSTRAK

Penambangan data adalah proses menemukan pola yang menarik, dan pengetahuan

dari data yang berjumlah besar . Ada banyak metode dalam penambangan data dan salah

satunya adalah clustering,. Metode ini digunakan untuk mengidentifikasi kelompok alami

dari sebuah kasus dan mengelompokkan data yang memiliki kemiripan atribut. Nilai daya

serap ujian nasional merupakan salah satu data berjumlah besar yang dapat diproses untuk

menemukan informasi mengenai kelompok-kelompok Sekolah Menengah Atas di provinsi

Daerah Istimewa Yogyakarta (DIY) berdasarkan nilai daya serap ujian nasional .

Dalam tugas akhir ini algoritma divisive hierarchical clustering akan

diimplementasikan untuk mengelompokan Sekolah Menengah Atas di provinsi Daerah

Istimewa Yogyakarta (DIY) berdasarkan nilai daya serap ujian nasional . Teknik ini

merupakan proses pengklasteran yang didasarkan pada persamaan nilai rata-rata antar objek.

Proses penambangan dilakukan dengan mengikuti tahapan dalam proses KDD(Knowledge

Discovery in Database) yaitu pembersihan data integrasi data, pemilihan data, transformasi

data, penambangan data, evaluasi pola, dan presentasi pengetahuan .

Berdasarkan evaluasi menggunakan nilai daya serap dari 29 kompetensi dapat

disimpulkan bahwa algoritma ini tidak tepat digunakan untuk menganalisis nilai daya serap

ujian nasional karena menghasilkan pohon cluster yang timpang, namun algoritma ini dapat

mengelompokkan nilai rata – rata nilai daya serap meskipun setiap cluster hanya berisi 1

atau 2 anggota saja .

Kata Kunci : Penambangan Data, Clustering, Divisive Hierarchical Clustering, nilai daya

serap.


viii

ABSTRACT

Data mining is the process of finding interesting patterns, and knowledge of large

amounts of data. There are many methods in data mining and one of them is clustering. This

method is used to identify the natural group of a case and classify data that has similarity

attributes. The absorption level of the national examination is one of the large amount of data

that can be processed to find information on high school groups in the province of

Yogyakarta based on the value of national exam absorption.

In this final project divisive hierarchical clustering algorithm will be implemented to

classify High School in Yogyakarta Special Province based on absorption level of national

examination. This technique is a clustering process based on the average value equation

between objects. The mining process is done by following the steps in the process of KDD

(Knowledge Discovery in Database) which is data cleaning data integration, data selection,

data transformation, data mining, pattern evaluation, and knowledge presentation.

Based on the evaluation using the absorption level of 29 competencies it can be

concluded that this algorithm is not appropriately used to analyze the absorptive value of the

national exam because it produces a lame cluster tree, but this algorithm can classify the

average value of absorptive power even if each cluster contains 1 or 2 members only.

Keywords: Data Mining, Clustering, Divisive Hierarchical Clustering, absorption level.


ix


x

KATA PENGANTAR

Puji dan syukur kepada Tuhan Yesus atas rahmat dan karunianya, sehingga penulis

dapat menyelesaikan penelitian Tugas Akhir yang berjudul

“IMPLEMENTASI ALGORITMA DIVISIVE HIERARCHICAL CLUSTERING UNTUK

PENGELOMPOKAN SEKOLAH MENENGAH ATAS DI DAERAH ISTIMEWA

YOGYAKARTA BERDASARKAN NILAI DAYA SERAP UJIAN NASIONAL MATA

PELAJARAN MATEMATIKA”

Dalam menyelesaikan seluruh penyusunan Tugas Akhir ini ,penulis tak lepas dari doa dan

dukungan dari banyak pihak ,untuk itu penulis mengucapkan terimakasih kepada :

1. Tuhan Yesus dan Bunda Maria yang selalu memberikan kekuatan dan anugerahnya

yang sangat melimpah sehingga penulis dapat menyelesaikan tugas akhir ini.

2. Kedua orang tua penulis ,FX. Topo dan M.M Tri Suyanti atas doa, dukungan moral

dan finansial ,serta kepercayaan yang selalu diberikan kepada penulis.

3. Adik penulis Patrisius Anggri Prassetyo yang selalu memberi semangat dan dukungan

4. Bapak Drs. Johanes Eka Priyatma, M.Sc., Ph.D. selaku rektor Universitas Sanata

Dharma Yogyakarta berserta Dosen Pembimbing Akademik.

5. Ibu Dr. Anastasia Rita Widiarti selaku ketua Program Studi Teknik Informatika

Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.

6. Ibu Paulina Heruningsih Prima Rosa, S.Si., M.Sc. selaku Dosen pembimbing skripsi

yang selalu sabar membimbing dan mengarahkan selama penyusunan Tugas Akhir.

7. Rafael Aweng yang turut membimbing dan membantu penyelesaian Tugas Akhir ini.

8. Untuk sahabat-sahabat penulis Agatya Kurniawan, Paulus Dian, Dwi Prabowo, Danik

terimakasih atas doa dan dukungannya.

9. Seluruh dosen,sekretariat,laboran,staff,dan perpustakaan yang telah membantu selama

proses perkuliahan di Universitas Sanata Dharma.

10. Serta semua pihak yang telah membantu penyusunan Tugas Akhir ini yang tidak

dapat disebutkan satu persatu.


xi

Penulis berharap ini dapat menjadi pengetahuan baru yang berguna dan bermanfaat

bagi para pembaca .Penulis menyadari bahwa penulisan laporan tugas akhir ini masih

memiliki banyak kekurangan . Untuk itu penulis sangat membutuhkan saran dan kritik

untuk perbaikan dimasa yang akan datang.

Yogyakarta,......................

Penulis,



xii

DAFTAR ISI

HALAMAN JUDUL.…………………………………………….............…………………... i

TITLE PAGE..............................................................................................................................ii

HALAMAN PERSETUJUAN ................................................................................................. iii

HALAMAN PENGESAHAN...................................................................................................iv

HALAMAN PERSEMBAHAN................................................................................................v

PERNYATAAN KEASLIAN KARYA...................................................................................vi

ABSTRAK...............................................................................................................................vii

ABSTRACT.............................................................................................................................viii

PERSETUJUAN PUBLIKASI KARYA ILMIAH..................................................................ix

KATA PENGANTAR...............................................................................................................x

DAFTAR ISI........................................................................................................................... xiii

DAFTAR GAMBAR .............................................................................................................. xv

DAFTAR TABEL.................................................................................................................. xvii

BAB I PENDAHULUAN .......................................................................................................... 1

1.1 Latar Belakang ............................................................................................................ 1

1.2 Rumusan Masalah ....................................................................................................... 3

1.3 Batasan Masalah.......................................................................................................... 3

1.4 Tujuan dan Manfaat .................................................................................................... 3

1.5 Metodologi penelitian ................................................................................................. 4

1.6 Sistematika Penulisan ................................................................................................. 5

BAB II LANDASAN TEORI .................................................................................................... 7

2.1 Knowledge Discovery in Database (KDD) ................................................................. 7

2.1.1 Tahapan Knowledge Discovery in Database (KDD)..............................................7

2.1.2 Definisi Knowledge Discovery in Database (KDD)...............................................7


xiii

2.2 Penambangan Data (Data mining) ............................................................................... 9

2.2.1 Definisi Penambangan Data.....................................................................................9

2.2.2 Teknik Penambangan Data......................................................................................9

2.3 Algoritma Divisive Hierarchical Clustering................................................................15

BAB III METODOLOGI PENELITIAN…...........................................................................20

3.1 Data...........................................................................................................................19

3.2 Tahapan KDD..........................................................................................................24

3.2.1 Pembersihan data (data cleaning)......................................................................24

3.2.2 Integrasi data (data integration)........................................................................24

3.2.3 Seleksi data (data selection)..............................................................................25

3.2.4 Transformasi data (data transformation)..........................................................29

3.3 Spesifikasi alat............................................................................................................29

BAB IV PEMPROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK

PENAMBANGAN DATA…..................................................................................................30

4.1 Pemrosesan Awal .......................................................................................................30

4.1.1 Pembersihan data.................................................................................................30

4.1.2 Integrasi data......................................................................................................30

4.1.3 Seleksi Data ........................................................................................................30

4.1.4 Transformasi Data...............................................................................................31

4.2 Perancangan Perangkat Lunak Penambangan Data...................................................31

4.2.1 Perancangan Umum................................................................................................31

4.2.2 Diagram Usecase....................................................................................................33

4.2.3 Diagram Aktivitas...................................................................................................33

4.3 Perancangan Antarmuka.............................................................................................35

4.3.1 Implementasi Halaman Awal.................................................................................35

4.3.2 Implementasi Halaman Praprocessing Data..........................................................36


xiv

BAB V IMPLEMENTASI DAN EVALUASI HASIL ........................................................... 38

5.1 Implementasi Perencanaan Perangkat Lunak Penambangan Data............................38

5.1.1 Implementasi Tampilan Antarmuka.......................................................................38

5.1.1.1 Halaman Utama..............................................................................................38

5.1.1.2 Halaman Praprocessing algoritma Divisive Hierarchical Clustering............39

5.2 Evaluasi Hasil.............................................................................................................46

5.2.1 Uji Coba Perangkat Lunak (Black Box)..................................................................46

5.2.1.1 Rencana Pengujian Black Box.........................................................................46

5.2.1.2 Prosedur Pengujian Black Box dan Kasus Uji.................................................46

5.2.1.3 Evaluasi Pengujian Black Box.........................................................................46

5.2.2 Pengujian Perbandingan Hasil Perangkat Lunak dengan Microsoft excel.............47

5.2.2.1 Pengelompokan dengan menggunakan perangkat lunak.................................47

5.2.2.1 Pengelompokan dengan menggunakan Microsoft

Excel.................................52

5.2.2.3 Evaluasi Pengujian Perbandingan Perangkat Lunak dengan Hasil Microsoft

Excel................................................................................................................57

5.2.3 Pengujian Perangkat Lunak dengan Menggunakan Seluruh Data........................57

BAB VI PENUTUP.................................................................................................................64

6.1 Simpulan................................................................................................................64

6.2 Saran......................................................................................................................64

Daftar Pustaka.........................................................................................................................65

Lampiran.................................................................................................................................66


xv

DAFTAR GAMBAR

Gambar 2.1 Proses Knowledge Discovery in Database ................................... 7

Gambar 2.2 Contoh Kasus College Plan .......................................................... 9

Gambar 2.3 Contoh Association ..................................................................... 11

Gambar 2.4 Contoh Forecasting .................................................................... 12

Gambar 2.5 Contoh Sequence Analysis .......................................................... 13

Gambar 2.6 Contoh Clustering ....................................................................... 14

Gambar 2.7 Hasil clustering...........................................................................19

Gambar 3.1 Data nilai daya serap...................................................................24

Gambar 3.2 Hasil transformasi data................................................................29

Gambar 4.1 Diagram konteks...............................................................................31

Gambar 4.2 Diagram flowchart............................................................................32

Gambar 4.3 Output sistem....................................................................................32

Gambar 4.4 Diagram usecase...............................................................................33

Gambar 4.5 Diagram aktivitas input file..........................................................33

Gambar 4.6 Diagram aktivitas ubah data metrik.............................................34

Gambar 4.7 Diagram aktivitas proses clustering.............................................35

Gambar 4.8 Rancangan Halaman awal............................................................36

Gambar 4.9 Rancangan Halaman praprosessing.............................................37

Gambar 4.10 Hasil proses Clustering..............................................................37

Gambar 5.1 Halaman Awal.............................................................................39

Gambar 5.2 Hasil Running Perangkat Lunak Menghitung 5 data........................47

Gambar 5.2 Hasil Running Perangkat Lunak Menghitung 5 data........................48


../PROPOSAL_SKRIPSI_Rev.4.docx#_Toc452659445






xvi

Gambar 5.5 Hasil Perhitungan Menggunakan Microsoft Excel

Menghitung 5 data................................................................................................52

Gambar 5.6 Hasil Perhitungan Menggunakan Microsoft Excel

Menghitung 20 Data..............................................................................................53


xvii

DAFTAR TABEL

Tabel 2.1 Matriks Jarak Euclid........................................................................16

Tabel 2.2 Proses Pencarian Splinter Group.....................................................17

Tabel 2.2 Proses pembagian cluster b ............................................................. 17

Tabel 2.4 Data c,d,e.........................................................................................18

Tabel 2.5 Proses Pembagian Cluster c,d,e.......................................................18

Tabel 2.6 Proses Penggabungan Cluster d dan e.............................................18

Tabel 3.1 Atribut nilai daya serap ujian nasional pelajaran matematika. ....... 20

Tabel 3.2 Atribut yang digunakan dalam penelitian. ...................................... 25

Tabel 5.1 Nama kelas yang diimplementasikan..............................................38

Tabel 5.2 Spesifikasi detail halaman awal......................................................40

Tabel 5.3 Spesifikasi detail halaman preprocessing........................................40

Tabel 5.4 Rencana Pengujian Black Box.........................................................46

Tabel 5.5 Hasil Running Perangkat Lunak Menghitung 5 data.............................47

Tabel 5.6 Hasil Running Perangkat Lunak Menghitung 20 data...........................48

Tabel 5.7 Hasil Perhitungan Menggunakan Microsoft Excel

Menghitung 5 Data................................................................................................52

Tabel 5.7 Hasil Perhitungan Menggunakan Microsoft Excel

Menghitung 20 Data..............................................................................................53

Tabel 5.9 Hasil Uji Perangkat Lunak dengan Menggunakan Seluruh Data.....57





1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Menurut (Han, Jiawei 2011, p36), penambangan data adalah proses

menemukan pola yang menarik, dan pengetahuan dari data yang berjumlah besar.

Sedangkan menurut (Dunston dan Yager 2008, p188), penambangan data adalah

proses pencarian melalui data dengan jumlah yang besar, dalam sebuah usaha untuk

menemukan pola, tren, dan hubungan.Menurut (Liu, Sandra S. dan Chen, Jie 2009),

penambangan data adalah proses pencarian pola tersembunyi dari berbagai database.

Clustering juga dikenal sebagai unsupervised learning yang membagi data

menjadi kelompok-kelompok atau clusters berdasarkan suatu kemiripan atribut-

atribut diantara data tersebut. Karakteristik tiap cluster tidak ditentukan sebelumnya,

melainkan tercermin dari kemiripan data yang terkelompok di dalamnya. Salah satu

algoritma dalam clustering adalah Divisive Hierarchical Clustering.

Divisive Hierarchical Clustering termasuk dalam analisis klaster hierarchical.

Pada setiap langkahnya, metode divisive terjadi penambahan kelompok ke dalam dua

nilai terkecil, sampai akhirnya semua elemen terkelompokkan. Ini berarti bahwa

klaster hierarchical dibangun dalam n-1 langkah ketika data mengandung n

objek.Teknik divisive merupakan proses pengklasteran yang didasarkan pada

persamaan nilai rata-rata antar objek. Jika sebuah objek memiliki persamaan nilai

rata-rata terbesar maka objek tersebut akan terpisah dan berubah menjadi splinter

group. Pada teknik divisive ini perhitungan juga dilihat dari perbedaan atau selisih

antara persamaan nilai rata-rata dengan nilai elemen matrik yang telah menjadi

splinter group. Jika selisih nilai antara persamaan nilai rata-rata dengan nilai elemen

matrik splinter group bernilai negatif, maka perhitungan terhenti sehingga harus

dibuat matrik baru untuk mendapatkan klaster yang lain.Perhitungan ini terus

dilakukan sedemikian sehingga semua objek terpisah.

Ujian Nasional biasa disingkat UN / UNAS adalah sistem evaluasi standar

pendidikan dasar dan menengah secara nasional dan persamaan mutu tingkat

pendidikan antar daerah yang dilakukan oleh Pusat Penilaian Pendidikan Depdiknas


https://id.wikipedia.org/wiki/Evaluasi

https://id.wikipedia.org/wiki/Pendidikan

https://id.wikipedia.org/wiki/Nasional

https://id.wikipedia.org/w/index.php?title=Pusat_Penilaian_Pendidikan&action=edit&redlink=1

2

di Indonesia. Dalam Undang-Undang Republik Indonesia nomor 20 tahun

2003 dinyatakan bahwa dalam rangka pengendalian mutu pendidikan secara nasional

dilakukan evaluasi sebagai bentuk akuntabilitas penyelenggara pendidikan kepada

pihak-pihak yang berkepentingan.

Lebih lanjut dinyatakan bahwa evaluasi dilakukan oleh lembaga yang mandiri

secara berkala, menyeluruh, transparan, dan sistematik untuk menilai pencapaian

standar nasional pendidikan dan proses pemantauan evaluasi tersebut harus dilakukan

secara berkesinambungan.Proses pemantauan evaluasi yang dilakukan secara terus

menerus dan berkesinambungan pada akhirnya akan dapat membenahi mutu

pendidikan. Pembenahan mutu pendidikan dimulai dengan penentuan standar.

Penentuan standar yang terus meningkat diharapkan akan mendorong peningkatan

mutu pendidikan, yang dimaksud dengan penentuan standar pendidikan adalah

penentuan nilai batas (cut off score). Seseorang dikatakan sudah lulus/kompeten bila

telah melewati nilai batas tersebut berupa nilai batas antara peserta didik yang sudah

menguasai kompetensi tertentu dengan peserta didik yang belum menguasai

kompetensi tertentu. Bila itu terjadi pada ujian nasional atau sekolah maka nilai batas

berfungsi untuk memisahkan antara peserta didik yang lulus dan tidak lulus disebut

batas kelulusan dan kegiatan penentuan batas kelulusan disebut standard setting.

Manfaat pengaturan standar ujian akhir:

Adanya batas kelulusan setiap mata pelajaran sesuai dengan tuntutan

kompetensi minimum.

Adanya standar yang sama untuk setiap mata pelajaran sebagai standar

minimum pencapaian kompetensi.

Dengan banyaknya data nilai UN yang yang di sediakan oleh Litbang, dan

pengetahuan dari data yang berjumlah besar,penulis tertarik untuk melakukan

pengelompokan tiap Sekolah Menengah Atas di DIY berdasarkan nilai daya serap

Ujian Nasional ,daya serap adalah kemampuan atau kekuatan untuk melakukan

sesuatu, untuk bertindak dalam menyerap materi suatu pelajaran oleh siswa

.Penelitian ini akan menggunakan algoritma Divisive Hierarchical Clustering

berdasarkan salah satu mata pelajaran yang diujikan dalam Ujian Nasional(UN) yaitu

Matematika,dengan tujuan mengelompokan SMA di Yogyakarta berdasarkan nilai

daya serap siswa. Penelitian serupa pernah dilakukan oleh Laurentius Haris


https://id.wikipedia.org/wiki/Indonesia

https://id.wikipedia.org/wiki/Undang-Undang_%28Indonesia%29

https://id.wikipedia.org/wiki/20_%28angka%29

https://id.wikipedia.org/wiki/Tahun

https://id.wikipedia.org/wiki/2003

https://id.wikipedia.org/wiki/Akuntabilitas

https://id.wikipedia.org/wiki/Mandiri

https://id.wikipedia.org/w/index.php?title=Berkala&action=edit&redlink=1

https://id.wikipedia.org/w/index.php?title=Transparan&action=edit&redlink=1

https://id.wikipedia.org/w/index.php?title=Sistematik&action=edit&redlink=1

https://id.wikipedia.org/wiki/Sekolah

https://id.wikipedia.org/w/index.php?title=Mata_pelajaran&action=edit&redlink=1

https://id.wikipedia.org/w/index.php?title=Kompetensi&action=edit&redlink=1

https://id.wikipedia.org/w/index.php?title=Minimum&action=edit&redlink=1

3

Chrisandra mengelompokkan SMA di Yogyakarta berdasarkan nilai daya serap

namun menggunakan algoritma yang berbeda yaitu Apriori.

1.2 Rumusan Masalah

Berdasarkan permasalahan yang telah dikemukakan di atas, maka rumusan

masalah yang akan penulis bahas adalah :

1. Apakah algoritma Divisive Hierarchical Clustering dapat digunakan untuk

mengelompokkan sekolah menengah atas di Provinsi DIY berdasarkan nilai

daya serap ujian nasional?

2. Bagaimana hasil pengelompokan menggunakan algoritma Divisive

Hierarchical Clustering?

1.3 Batasan Masalah

Adapun batasan masalah dalam tugas akhir ini adalah :

1. Algoritma yang digunakan adalah menggunakan algoritma Divisive

Hierarchical Clustering.

2. Atribut yang digunakan adalah data nilai daya serap ujian nasional yang

diujikan di jurusan IPA di Provinsi DIY, mata pelajaran matematika .

3. Data yang digunakan adalah data nilai daya serap ujian nasional siswa SMA

jurusan IPA di Provinsi DIY tahun ajaran 2014/2015.

1.4 Tujuan dan Manfaat

Tujuan dari penulisan tugas akhir ini adalah :

1. Mempermudah mengelompokkan Sekolah Menengah Atas berdasarkan data

nilai daya serap ujian nasional siswa.

2. Untuk mengetahui hasil pengelompokan Sekolah Menengah Atas berdasarkan

mata pelajaran matematika dengan menggunakan algoritma Divisive

Hierarchical Clustering.


4

-Manfaat dari penulisan tugas akhir ini adalah :

1. Dengan mengetahui pengelompokan nilai daya serap ini, diharapkan dapat

menjadi evaluasi bagi SMA di Yogyakarta supaya dapat meningkatkan

keberhasilan siswa dalam mengerjakan ujian nasional.

1.5 Metodologi penelitian

Metode penelitian yang digunakan penulis dalam menyelesaikan tugas akhir

adalah sebagai berikut :

1. Studi Pustaka

Pada tahapan ini merupakan proses pengumpulan data dan pengumpulan

informasi algoritma yang akan digunakan dengan cara mempelajari berbagai

referensi (buku, laporan, hasil penelitian, jurnal, ataupun artikel) yang

berhubungan dengan masalah yang diteliti.

2. Pembersihan data (data cleaning)

Pada tahapan ini merupakan proses pembuangan data yang tidak relevan atau

tidak konsisten terhadap data lainnya.

3. Integrasi data (data integration)

Pada tahapan integrase data ini akan dilakukan penggabungan data dari

berbagai sumber/database yang ada.

4. Seleksi data (data selection)

Pada tahapan seleksi data ini merupakan tahapan menyeleksi data yang akan

digunakan dalam penelitian.

5. Transformasi data (data transformation)

Pada tahapan ini akan dilakukan pengubahan data asli ke dalam format data

yang sesuai dengan penelitian.


5

6. Penambangan data

Pada tahapan ini akan dilakukan proses penambangan data menggunakan

algoritma Divisive Hierarchical Clustering dengan membangun perangkat

lunak penambangan data melalui tahap-tahap sebagai berikut:

a. Analisa

Pada tahapan ini merupakan tahapan menganalisis hal-hal yang

diperlukan dalam pelaksanaan proses pembuatan perangkat lunak

penambangan data.

b. Desain

Tahapan desain ini merupakan tahapan penerjemahan dari data yang

dianalisis kedalam bentuk yang mudah dimengerti oleh user.

c. Coding

Tahapan coding merupakan tahapan pemecahan masalah yang telah

dirancang ke dalam bahasa pemrograman tertentu.

d. Testing atau pengujian

Pada tahapan ini merupakan tahap pengujian terhadap perangkat

lunak penambangan data yang telah dibangun.

7. Evaluasi pola (pattern evaluation)

Pada tahapan ini akan dilakukan proses evaluasi terhadap hasil data mining

yang telah dilakukan pada proses sebelumnya dengan cara menguji

akurasinya menggunakan teknik Sum of Square Error (SSE).

8. Presentasi pengetahuan (knowledge presentation)

Pada tahapan ini akan dilakukan presentasi hasil data mining yang telah

dikerjakan sebelumnya.

1.6 Sistematika Penulisan

Sistematika penulisan dibagi menjadi beberapa bab, sebagai berikut :

BAB I : Pendahuluan

Bab ini berisi tentang latar belakang, rumusan masalah, tujuan, batasan masalah,

manfaat, metode penelitian, dan sistematika penulisan tugas akhir.


6

BAB II : Landasan Teori

Bab ini membahas tentang teori-teori yang digunakan guna menunjang penelitian dan

menjadi dasar atau sumber tertulis dari apa yang akan dilakukan yaitu, Knowledge

Discovery in Database (KDD), Penambangan Data (data mining), dan Classification.

BAB III : Metodologi Penelitian

Bab ini akan menjelaskan tentang gambaran umum penelitian, data, tahap-tahap

penelitian dan contoh penerapan algoritma yang berhubungan dengan tugas akhir.

BAB IV : Pemprosesan Awal dan Perancangan Perangkat Lunak Penambangan

Data

Bab ini memuat tentang perancangan awal penambangan data dan perancangan

perangkat lunak yang akan dibuat.

BAB V : Implementasi dan Evaluasi Hasil

Bab ini berisi tentang implementasi penambangan data dan hasil implementasi dari

algoritma Divisive hierarchical Clustering yang digunakan dan evaluasi dari hasil

output yang diperoleh.

BAB VI : Penutup

Bab ini berisi kesimpulan dan saran untuk pengembangan dan penyempurnaan Tugas

Akhir ini.


7

BAB II

LANDASAN TEORI

2.1 Knowledge Discovery in Database (KDD)

2.1.1 Definisi Knowledge Discovery in Database (KDD)

Knowledge Discovery in Database adalah kegiatan yang meliputi pengumpulan,

pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set

data berukuran besar. (Santoso, 2007)

2.1.2 Tahapan Knowledge Discovery in Database (KDD)

Gambar 2.1 Proses Knowledge Discovery in Database (Han,2006)

Tahap-tahap Knowledge Discovery in Database (KDD) ada 6 yaitu :

1. Pembersihan data (data cleaning)

Pembersihan data merupakan proses menghilangkan noise dan data yang tidak

konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari

database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak

sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar

salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa

data mining yang dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang.

Pattern

Cleaning n

integration

Knowledge

Data mining Selection and

transformation

Data

warehouse

database


8

Pembersihan data juga akan mempengaruhi performasi dari teknik data mining karena

data yang ditangani akan berkurang jumlah dan kompleksitasnya. (Santoso, 2007)

2. Integrasi data (data integration)

Integrasi data merupakan penggabungan data dari berbagai database ke dalam

satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya

berasal dari satu database tetapi juga berasal dari beberapa database atau file teks.

Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas

yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi

data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa

menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi

nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata

menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi

antar produk yang sebenarnya tidak ada. (Santoso, 2007)

3. Seleksi Data (Data Selection)

Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena

itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. (Santoso,

2007). Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang

membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan,

cukup dengan id pelanggan saja.

4. Transformasi data (Data Transformation)

Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam

data mining. Beberapa metode data mining membutuhkan format data yang khusus

sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis

asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data

berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval.

Proses ini sering disebut transformasi data. (Santoso, 2007)


9

2.2 Penambangan Data (Data mining)

2.2.1 Definisi Penambangan Data

Data mining adalah suatu proses analisis untuk menggali informasi yang

tersembunyi dengan menggunakan statistik dan artificial intelligence di dalam suatu

database dengan ukuran sangat besar, sehingga ditemukan suatu pola dari data yang

sebelumnya tidak diketahui, dan pola tersebut direpresentasikan dengan grafik

komputer agar mudah dimengerti. (Santoso, 2007)

2.2.2 Teknik Penambangan Data

1. Classification

Classification adalah tindakan untuk memberikan kelompok pada setiap

keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute.

Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class

attribute itu sebagai fungsi dari input attribute.

Contohnya kita lihat pada contoh kasus College Plan

Gambar 2.2 Contoh kasus College Plan

Sumber:www.wisdomjobs.com

Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No,

perhatikan ini.

College Plans :Table

Gender Parentincom IQ ParentEncouragement CollegePlans

Male 466580 100 Not Encouraged No

Male 39687 121 Not Encouraged No

Male 63482 102 Encouraged Yes

Female 40454 129 Not Encouraged No


10

Sebuah Classification Model akan menggunakan atribut lain dari kasus

tersebut (input attribut; yaitu kolom IQ, Gender, ParentIncome, dan

ParentEncouragement) untuk dapat menentukan pola (pattern) class (Output

Attribute; yaitu Kolom CollegePlans yang berisi Yes atau No).

Algoritma Data mining yang membutuhkan variabel target untuk belajar

(sampai mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan

dengan sebutan dengan Supervised Algorithm. Yang termasuk kepada Classification

Algorithm adalah Decision Trees, Neural Network dan Naives Bayes.

2. Association

Gambar 2.3 Contoh Association


Association juga disebut sebagai Market Basket Analysis. Sebuah masalah

bisnis yang khas adalah menganalisa tabel transaksi penjualan dengan

mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer,

misalnya apabila orang membeli sambal, biasanya juga dia membeli kecap. Kesamaan

yang ada dari data pembelian digunakan untuk mengidentifikasi kelompok kesamaan

dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling seperti

gambar dibawah ini.

Beberapa hal dapat kita baca, misalnya :

Ketika orang membeli susu, dia biasanya membeli keju

Ketika orang membeli pepsi atau coke, biasanya dia membeli juice

Milk

Cheese

Coke

Juice

Pepsi

Wine

Cake

Beef

Donut

Beer


11

Didalam istilah association, setiap item dipertimbangkan sebagai informasi.

Metode association memiliki dua tujuan:

Untuk mencari produk apa yang biasanya terjual bersamaan

Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut.

3. Regression

Metode Regression mirip dengan metode Classification, yang

membedakannya adalah metode regression tidak bisa mencari pola yang dijabarkan

sebagai class (kelas). Metoda regression bertujuan untuk mecari pola dan menentukan

sebuah nilai numerik.

Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari Regression,

dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai

dari input. Bentuk yang lebih canggih dari regression sudah mendukung input berupa

kategori, jadi tidak hanya input berupa numerik. Teknik paling popular yang

digunakan untuk regression adalah linear regression dan logistic regression. Teknik

lain yang didukung oleh SQL Server Data mining adalah Regression Trees (bagian

dari dari algoritma Microsoft Decission Trees) dan Neural Network.

Regression digunakan untuk memecahkan banyak problem bisnis, contohnya untuk

memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk

memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan

kelembaban.

4. Forecasting

Forecasting adalah metode data mining yang sangat penting. Contohnya

digunakan untuk menjawab pertanyaan seperti berikut:

· - Seperti apa jadinya nilai saham dari Microsoft Corporation (pada NASDAQ,

disimbolkan sebagai MSFT) pada keesokan hari?

· - Sebanyak apa penjualan produk tertentu pada bulan depan?


12

MSFT 3-year price history

38

36

34

32

30

28

26

24

22

20

Gambar 2.4 Contoh Forecasting


Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas.

Sebagai inputnya teknik Forecasting akan mengambil sederetan angka yang

menunjukkan nilai yang berjalan seiring waktu dan kemudian Teknik Forecasting ini

akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam

teknik machine-learning dan teknik statistik yang berhubungan dengan musim, trend,

dan noise pada data.

Gambar diatas menunjukkan dua kurva, garis yang tegas adalah time-series

data sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series

model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu.

5. Sequence Analysis

Sequence Analysis digunakan untuk mencari pola pada serangkaian kejadian yang

disebut dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian bagian:

A, G, C, dan T. dan rangkaian klik pada sebuah website berisi rentetan URL. Pada

kejadian nyata anda mungkin memodelkan pembelian oleh pelanggan sebagai sebuah

sequence (rangkaian) data, rangkaian tersebut adalah:


13

Pertama-tama Seorang pelanggan membeli komputer

kemudian membeli speaker

dan akhirnya membeli sebuah webcam.

Gambar 2.5 Contoh Sequence Analysis


Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama

sama berisi tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah

time-series berisi data bertipe numerik, dan sebuah sequence series berisi bagian yang

khas.Gambar ini menunjukan rangkaian klik pada sebuah website berita. Setiap node

adalah sebuah kategori URL. Dan garis melambangkan transisi antar kategori URL

tersebut. Setiap transisi di kelompokan dengan sebuah bobot yang menggambarkan

kemungkinan transisi antara satu URL dan URL yang lain

Home

Page

News

Bussines Science

Weather

Sport

0.2

0.2 0.2

0.2 0.3

0.3

0.1

0.1

0.4


14

6. Clustering

Income

Age

Gambar 2.6 Contoh Clustering


Clustering juga disebut sebagai segmentation. Metode ini digunakan untuk

mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah

kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut. Gambar

ini menunjukkan kelompok data pelanggan sederhana yang berisi dua atribut, yaitu

Age (Umur) dan Income (Pendapatan). Algoritma Clustering mengelompokkan

kelompok data kedalam tiga segment berdasarkan kedua atribut ini.

Cluster 1 berisi populasi berusia muda dengan pendapatan rendah

Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi

Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.

Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu

atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut

input diperlakukan sama. Kebanyakan Algoritma Clustering membangun sebuah

model melalui serangkaian pengulangan dan berhenti ketika model tersebut telah

memusat atau berkumpul (batasan dari segmentasi ini telah stabil).

Cluster 1

Cluster 2

Cluster 3


15

Algoritma Divisive Hierarchical Clustering

Teknik divisive klastering termasuk dalam analisis klaster hierarchical. Pada

setiap langkahnya, metode divisive terjadi penambahan kelompok kedalam dua nilai

terkecil, sampai akhirnya semua elemen terkelompokan. Ini berarti bahwa klaster

hierarchical dibangun dalam n-1 langkah ketika data mengandung n objek. Teknik

divisive merupakan proses pengklasteran yang didasarkan pada persamaan nilai rata-

rata antar objek. Jika sebuah objek memiliki persamaan nilai rata-rata terbesar maka

objek tersebut akan terpisah dan berubah menjadi splinter group.

Pada teknik divisive ini perhitungan juga dilihat dari perbedaan atau selisih

anatara persamaan nilai rata-rata dengan nilai elemen matrik yang telah menjadi

splinter group. Jika selisih nilai antara persamaan nilai rata-rata dengan nilai elemen

matrik splinter group bernilai negatif, maka perhitungan terhenti sehingga harus

dibuat matrik baru untuk mendapatkan klaster yang lain. Perhitungan ini terus

dilakukan sedemikian sehingga semua objek terpisah.

Tahap metode Divisive

1. Mengubah data ke dalam bentuk matrik jarak

Misalkan diberikan data X matriks berukuran n x p (n = jumlah sampel data,

p = variabel setiap data). ___= data sampel ke-j (j = 1, 2, …, n) dan variabel

ke-i (i= 1, 2, …, p).

2. Bentuk suatu matriks jarak dengan menggunakan jarak Euclid.

Rumusnya adalah:

d(A,B) = √∑ⁿᵢ (Bᵢ-Aᵢ)² ...........................(2.1)

Keterangan:

n :jumlah atribut atau dimensi

Ai dan Bi adalah data

3. Hitung nilai rata-rata setiap objek dengan objek lainnya.

4. Dari tabel temukan objek yang memiliki nilai rata-rata yang terbesar, objek

yang memiliki nilai rata-rata yang terbesar akan terpisah dan berubah

menjadi splintergroup.


16

5. Hitung selisih nilai antara elemen matrik splinter group dengan nilai

Ratarata setiap objek yang tersisa.

6. Temukan objek yang memiliki nilai selisih terbesar antara elemen matrik

splinter group dengan nilai rata-rata. Jika nilai selisih tersebut bernilai

positif, maka objek yang memiliki nilai selisih terbesar bergabung dengan

splinter group.

7. Ulangi langkah satu sampai enam sedemikian sehingga semua nilai selisih

antara elemen matrik splinter group dengan nilai rata-rata bernilai negatif

, perhitungan ini terus dilakukan sedemikian sehingga semua objek terpisah.

contoh :

Untuk mengilustrasikan algoritma analisis divisive clustering, akan diberikan contoh

sebagai berikut dimana data tersebut telah di konversi menjadi sebuah matriks jarak

Euclid

Tabel 2.1 Matriks Jarak Euclid

a b c d e

a 0.0 2.0 6.0 10.0 9.0

b 2.0 0.0 5.0 9.0 8.0

c 6.0 5.0 0.0 4.0 5.0

d 10.0 9.0 4.0 0.0 3.0

e 9.0 8.0 5.0 3.0 0.0

Terdapat sebuah matrik jarak yang berjumlah 5 sampel dengan masing masing berisi

4 data yaitu sampel a, b, c, d, e.


17

Tabel 2.2 Proses Pencarian Splinter Group

Object Average dissimilarity to other object

A (2+6+10+9)/4=6.75

B (2+5+9+8)/4=6

C (6+5+4+5)/4=5

D (10+9+4+3)/4=6.50

E (9+8+5+3)/4=6.25

Langkah pertama ,cari rata rata terbesar antar objek dan didapat objek a dengan rata

rata antar objek bernilai 6.75 maka objek a disebut splinter group. Pada langkah ini

telah mempunyai dua grup yaitu grup {a} dan grup {b,c,d,e}, selanjutnya setiap objek

dari grup yang besar harus dihitung average dissimilarity dengan objek yang tersisa,

dan membandingkan itu dengan average dissimilarity dengan objek dari splinter

group :

Tabel 2.3 Proses pembagian cluster b

Object Average dissimilarity to remain

object

Average dissimilarity

to object of splinter

group

Difference

B (5+9+8)/3=7.33 2 5.33

C (5+4+5)/3=4.67 6 -1.33

D (9+4+3)/3=5.33 10 -4.67

E (8+5+3)/3=5.33 9 -3.67

Pada tahap ini data {b} bernilai positif sehinga bergabung dengan splinter dan proses

dihentikan dan langkah clustering pertama selesai dan terdapat dua kluster sementara,

yaitu {a,b}, dan {c,d,e}.


18

Langkah berikutnya akan dilakukan pembagian kluster. Pembagian kluster dilakukan

pada kluster yang memiliki Rata-rata terbesar. Rata-rata dari {a,b} adalah 2, dan

untuk {c,d,e} adalah 5. Oleh sebab itu, akan terjadi pembagian kluster {c,d,e},

dengan matrik :

Tabel 2.4 Data c,d,e

C d e

C 0 4 5

D 4 0 3

E 5 3 0

Untuk menentukan splinter group, maka dihitung :

Tabel 2.5 Proses Pembagian Cluster c,d,e

object Average dissimilarity to the other object

C (4+5)/2=4.5

D (4+3)/2=3.5

E (5+3)/2=4

Diketahui objek c yang memiliki nilai positif terbesar, maka objek c masukdalam

splinter group. dan terdapat dua grup yaitu {c} dan {d,e}, selanjutnya akan ditentukan

:

Tabel 2.6 Proses Penggabungan Cluster d dan e

Object Average dissimilarity to remain

object

Average dissimilarity

to objects of splinter

group

Difference

D 3 4 -1

E 3 5 -2

Proses ini dihentikan karena semua difference bernilai negatif. Karena itu, pembagian

pada langkah dua {c,d,e} adalah {c} dan {d,e}. jadi, kluster yang didapat {a,b}, {c},

dan {d,e}. kluster {c} disebut singleton karena hanya mengandung satu objek.


19

Hasil dari hierarchi digambarkan sebagai berikut :

Gambar 2.7 Hasil clustering

a,b,c,d,e

a,b

c,d,e

c

d,e


20

BAB III

METODOLOGI PENELITIAN

3.1 Data

Data yang digunakan diperoleh dari situs http://118.98.234.50/lhun/daya_serap.aspx

.Data yang digunakan pada penelitian ini adalah data nilai daya serap ujian nasional

siswa SMA jurusan IPA tahun ajaran 2014/2015. Data nilai daya serap yang digunakan

adalah mata pelajaran matematika. Pada setiap mata pelajaran terdapat beberapa nilai

kompetensi daya serap Ujian Nasional. Berikut ini adalah nilai kompetensi nilai daya

serap Ujian Nasional pada mata pelajaran matematika.

Tabel 3.1 Atribut Nilai Daya Serap Ujian Nasional Pelajaran Matematika.

No Nama Atribut Keterangan

1 KODE SEKOLAH Kode Sekolah

2 NAMA SEKOLAH Nama Sekolah

3 JNS SEKOLAH Jenis Sekolah (SMA)

4 STS SE Status Sekolah (Negri/Swasta)

5 MAT1 Kompetensi 1 daya serap

matematika: Menentukan bayangan

titik atau kurva karena dua

transformasi atau lebih.


matematika:

Menentukan ingkaran atau

kesetaraan dari pernyataan

majemiuk atau pernyataan

berkuator.


matematika:

Menentukan integral tak tentu dan

integral tentu fungsi aljabar dan

fungsi trigonometri.


matematika:

Menentukan penarikan kesimpulan

dari beberapa premis.



http://118.98.234.50/lhun/daya_serap.aspx

21

matematika:

Menentukan penyelesaian

pertidaksamaan eksponen atau

logaritma.


matematika:

Menentukan persamaan lingkaran

atau garis singgung lingkaran.


matematika:

Menggunakan aturan pangkar, akar,

dan logaritma.


matematika:

Menggunakan rumus jumlah da

hasil kali akar-akar persamaan

kuadrat.


matematika:

Menghitung jarak dan sudut antara

dua objek (titik, garis, dan bidang)

di ruang dimensi tiga.


matematika:

Menghitung luas daerah dan volume

benda putar dengan menggunakan

integral.


matematika:

Menghitung nilai limit fungsi

aljabar dan fungsi trigonometri.


matematika:

Menghitung ukuran pemusatan atau

ukuran letak dari data dalam bentuk

tabel, diagram, atau grafik.


matematika:

Menyelesaikan masaah deret

aritmetika.


25


matematika:

Menyelesaikan masalah deret

geometri.


matematika:

Menyelesaikan masalah geometri

dengan menggunakan aturan sinus

atau kosinus.


matematika:

Menyelesaikan masalah persamaan

atau fungsi kuadrat dengan

menggunakan diskriminan.


matematika:

Menyelesaikan masalah program

linier.


matematika:

Menyelesaikan masalah sehari-hari

dengan menggunakan kaidah

pencacahan, permutasi atau

kombinasi.


matematika:


yang berkaitan dengan sistem

persamaan linier.


matematika:

Menyelesaikan masalah yang

berkaitan dengan besar sudut atau

nilai perbandingan trigonometri

sudut antara dua vector.


28


matematika:


berkaitan dengan nilai perbandingan

trigonometri yang menggunakan

rumus jumlah dan selisih sinus,

kosinus, dan tangen serta jumlah

dan selisih dua sudut.


matematika:


berkaitan dengan fungsi eksponen

atau fungsi logaritma.


matematika:


berkaitan dengan komposisi dua

fungsi atau fungsi invers.


matematika:


berkaitan dengan panjang proyeksi

atau vektor proyeksi.


matematika:


berkaitan dengan peluang suatu

kejadian


matematika:


berkaitan dengan teorema sisa atau

teorema faktor.


matematika:

Menyelesaikan operasi aljabar

beberapa vektor dengan syarat

tertentu.



24

matematika:

Menyelesaikan operasi matriks.


matematika:

Menyelesaikan persamaan

trigonometri.

3.2 Tahapan KDD

Berikut ini adalah tahapan dalam KDD yang diimplementasikan dalam tugas akhir ini:

3.2.1 Pembersihan data (data cleaning)

Pada tahap ini, dilakukan proses pembuangan data yang mengandung data

yang tidak konsisten atau data tidak relevan. Pada penelitian ini terdapat 2 data

yang tidak relevan, yaitu data SMA Piri 2 Yogyakarta dan SMA Proklamasi ’45.

Kedua data ini akan dihapus karena data kedua sekolah ini tidak relevan

dikarenakan tidak adanya nilai pada tiap atribut..

3.2.2 Integrasi data (data integration)

Pada tahap integrasi ini dilakukan penggabungan data dari berbagai

database/sumber. Dalam penelitian ini, penulis hanya menggunakan satu

sumber yang berasal dari www.litbang.kemdikbud.go.id. Dengan data nilai daya

serap ujian nasional mata pelajaran matematika di Provinsi DIY pada tahun

ajaran 2014/2015.

Gambar 3.1 Data Nilai Daya Serap


http://www.litbang.kemdikbud.go.id/

25

3.2.3 Seleksi data (data selection)

Pada tahap seleksi data ini merupakan tahap menyeleksi data yang

digunakan dalam penelitian ini. Contohnya, dalam data nilai daya serap ujian

nasional pelajaran matematika terdapat 34 atribut yaitu kode sekolah, nama

sekolah, jns sek, sts sek, mat1, mat2, mat3, mat4, mat5, mat6, mat7, mat8, mat9,

mat10, mat11, mat12, mat13, mat14, mat15, mat16, mat17, mat18, mat19,

mat20, mat21, mat22, mat23, mat24, mat25, mat26, mat27, mat28, mat29

Pada atribut jns sek, dan sts sek tidak digunakan, jadi kedua atribut

tersebut dihilangkan/diseleksi. Sehingga atribut yang digunakan menjadi 31

atribut yaitu :

Tabel 3.2 Atribut Yang Digunakan Dalam Penelitian. No Nama Atribut Keterangan

1 KODE SEKOLAH Kode Sekolah

2 NAMA SEKOLAH Nama Sekolah


matematika: Menentukan bayangan

titik atau kurva karena dua

transformasi atau lebih.


matematika:

Menentukan ingkaran atau

kesetaraan dari pernyataan

majemiuk atau pernyataan

berkuator.


matematika:

Menentukan integral tak tentu dan

integral tentu fungsi aljabar dan

fungsi trigonometri.


matematika:

Menentukan penarikan kesimpulan

dari beberapa premis.


matematika:

Menentukan penyelesaian

pertidaksamaan eksponen atau

logaritma.


26


matematika:

Menentukan persamaan lingkaran

atau garis singgung lingkaran.


matematika:

Menggunakan aturan pangkar, akar,

dan logaritma.


matematika:

Menggunakan rumus jumlah da

hasil kali akar-akar persamaan

kuadrat.


matematika:

Menghitung jarak dan sudut antara

dua objek (titik, garis, dan bidang)

di ruang dimensi tiga.


matematika:

Menghitung luas daerah dan volume

benda putar dengan menggunakan

integral.


matematika:

Menghitung nilai limit fungsi

aljabar dan fungsi trigonometri.


matematika:

Menghitung ukuran pemusatan atau

ukuran letak dari data dalam bentuk

tabel, diagram, atau grafik.


matematika:

Menyelesaikan masaah deret

aritmetika.


matematika:

Menyelesaikan masalah deret

geometri.


27


matematika:

Menyelesaikan masalah geometri

dengan menggunakan aturan sinus

atau kosinus.


matematika:

Menyelesaikan masalah persamaan

atau fungsi kuadrat dengan

menggunakan diskriminan.


matematika:

Menyelesaikan masalah program

linier.


matematika:


dengan menggunakan kaidah

pencacahan, permutasi atau

kombinasi.


matematika:


yang berkaitan dengan sistem

persamaan linier.


matematika:


berkaitan dengan besar sudut atau

nilai perbandingan trigonometri

sudut antara dua vector.


matematika:


berkaitan dengan nilai perbandingan

trigonometri yang menggunakan

rumus jumlah dan selisih sinus,

kosinus, dan tangen serta jumlah

dan selisih dua sudut.


matematika:



26

berkaitan dengan fungsi eksponen

atau fungsi logaritma.


matematika:


berkaitan dengan komposisi dua

fungsi atau fungsi invers.


matematika:


berkaitan dengan panjang proyeksi

atau vektor proyeksi.


matematika:


berkaitan dengan peluang suatu

kejadian


matematika:


berkaitan dengan teorema sisa atau

teorema faktor.


matematika:

Menyelesaikan operasi aljabar

beberapa vektor dengan syarat

tertentu.


matematika:

Menyelesaikan operasi matriks.


matematika:

Menyelesaikan persamaan

trigonometri.


29

3.2.4 Transformasi data (data transformation)

Pada tahap transformasi data ini, dilakukan format dari data asli ke dalam

format data yang sesuai dengan penelitian yaitu mengubah data kedalam bentuk

matrik untuk mempermudah proses penambangan data. Dalam tahap

Transformasi Data, dilakukan pengubahan format data asli ke dalam format data

yang sesuai untuk penelitian ini yaitu baris pertama dalam excel haruslah nama

kolom dari data tersebut, baris setelahnya adalah data tersebut, dan keterangan

indikator dihilangkan seperti pada gambar dibawah ini :

Gambar 3.2 Hasil transformasi data

3.3 Spesifikasi Alat

3.2.1 Hardware

Perangkat keras yang digunakan untuk membuat aplikasi ini adalah komputer dengan

spesifikasi processor Intel core i3, dengan kapasitas RAM 4GB, dan HDD 500GB

3.2.2 Software

Perangkat lunak yang digunakan untuk pembuatan aplikasi ini adalah Sistem Operasi

Windows 8.0 64-bit ,dan Netbeans IDE 8.1


30

BAB IV

PEMPROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK

PENAMBANGAN DATA

4.1 Pemrosesan Awal

4.1.1 Pembersihan data (data cleaning)

Pada tahap ini, akan dilakukan proses pembuangan data yang mengandung data yang tidak

konsisten atau data tidak relevan. Pada penelitian ini terdapat 2 data yang tidak relevan, yaitu

data SMA Piri 2 Yogyakarta dan SMA Proklamasi ’45. Kedua data ini akan dihapus karena

data kedua sekolah ini tidak relevan dikarenakan tidak adanya nilai pada tiap atribut

4.1.2 Integrasi data (data integration)

Pada tahap integrasi ini dilakukan penggabungan data dari berbagai database/sumber. Dalam

penelitian ini, penulis hanya menggunakan satu sumber yang berasal dari

www.litbang.kemdikbud.go.id. Dengan data nilai daya serap ujian nasional mata pelajaran

matematika di Provinsi DIY pada tahun ajaran 2014/2015

4.1.3 Seleksi data (data selection)

Pada tahap seleksi data ini merupakan tahap menyeleksi data yang akan digunakan dalam

penelitian ini. Contohnya, dalam data nilai daya serap ujian nasional pelajaran matematika

terdapat 34 atribut yaitu kode sekolah, nama sekolah, jns sek, sts sek, mat1, mat2, mat3,

mat4, mat5, mat6, mat7, mat8, mat9, mat10, mat11, mat12, mat13, mat14, mat15, mat16,

mat17, mat18, mat19, mat20, mat21, mat22, mat23, mat24, mat25, mat26, mat27, mat28,

mat29

Pada atribut jns sek, dan sts sek tidak digunakan, jadi kedua atribut tersebut

dihilangkan/diseleksi. Sehingga atribut yang digunakan menjadi 31 atribut .


http://www.litbang.kemdikbud.go.id/

31

4.1.4 Transformasi data (data transformation)

Pada tahap transformasi data ini, akan dilakukan format dari data asli ke dalam format data

yang sesuai dengan penelitian yaitu mengubah data kedalam bentuk matrik untuk

mempermudah proses penambangan data. Dalam tahap Transformasi Data, akan dilakukan

pengubahan format data asli ke dalam format data yang sesuai untuk penelitian ini yaitu baris

pertama dalam excel haruslah nama kolom dari data tersebut, baris setelahnya adalah data

tersebut, dan keterangan indikator dihilangkan.

4.2 PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA

4.2.1Perancangan Umum

4.2.1.1 Input Sistem

Sistem ini memiliki masukkan yaitu masukkan data/file yang bertipe .xls yang nantinya akan

diproses oleh sistem seperti gambar dibawah ini.

Gambar 4.1 Diagram Konteks

4.2.1.2 Proses Sistem

Proses dari sistem yang dibangun ini memiliki beberapa tahapan yang digunakan untuk dapat

mengelompokkan sekolah – sekolah menengah atas berdasarkan nilai daya serap dari tiap –

tiap sekolah. Adapun tahapan tergambar dalam gambar 4.9 berikut ini

USER

Memasukkan file bertipe .xls

Hasil Klustering

Clustering

dengan algoritma

Divisive

Hierarchial

clustering


32

Gambar 4.2 Diagram Flowchart

4.2.1.3 Output Sistem

Output dari sistem yang dibuat berupa pohon yang menampilkan cluster yang telah dibentuk.

Gambar 4.3 Output Sistem

File data

bertipe

.xls

Mengubah data

kedalam bentuk

matrik jarak

Proses

pengelompokkan

menggunakan

algoritma Divisive

Menampilkan

hasil

Mulai

Selesai


33

4.2.2 Diagram Usecase

4.2.2.1 Gambaran Umum

Diagram Usecase untuk sistem ini adalah :

Gambar 4.4 Diagram Usecase

Narasi usecase pada lampiran 3

4.2.3 Diagram Aktivitas (Activity Diagram)

1. Input File

Memasukkan

data

Mengubah data

kedalam bentuk

matrik jarak

Proses

pengelompokkan


34

Gambar 4.5 Diagram Aktifitas Input file

2. Mengubah data ke dalam bentuk matrik euclid

Gambar 4.6 Diagram Aktifitas Ubah Data Metrik

3. Proses Clustering

Gambar 4.7 Diagram Aktifitas Proses Clustering


35

4.3. Perancangan Antarmuka

4.3.1 Implementasi Halaman Awal

Pada saat aplikasi pertama kali dijalankan akan ditampilkan form awal seperti ditunjukkan

pada Gambar 4.8 berikut.

Gambar 4.15 antar muka halaman awal

Gambar 4.8 Rancangan Halaman Awal

Pada halaman awal tersebut terdapat tombol masuk yang akan mengarah ke halaman

praproses data.

4.3.2 Implementasi Halaman Praprocessing Data

Halaman ini merupakan halaman yang digunakan untuk mempersiapkan data yang akan

diolah yang berasal dari berkas .xls. Pengolahan awal (praproses) data dimaksudkan agar

format data sesuai dengan proses pengelompokan (clustering) yang akan dilakukan.

PENGELOMPOKAN SEKOLAH MENENGAH ATAS DI DIY

BERDASARKAN NILAI DAYA SERAP UJIAN NASIONAL

MENGGUNAKAN ALGORITMA DIVISIVE HIERARCHIAL CLUSTERING

PROSES


36

Gambar 4.16 Antarmuka Halaman Praproses Data

Gambar 4.9 Rancangan Halaman Praproscessing

Pengguna kemudian dapat memilih tombol “Pilih Berkas” yang digunakan untuk

memasukkan berkas berekstensi .xls . Setelah pengguna memasukkan data kedalam tabel

,user dapat memproses data dalam format xls tersebut kedalam bentuk matrik jarak(euclidean

matriks) dengan mengklik tombol ubah ke matriks euclid. Setelah data selesai di proses ke

Praprocessing data

Operasi Bantuan

Pilih Berkas

Jumlah data

Ubah ke bentuk matrik euclid

Proses divisive


37

dalam bentuk matrik selanjutnya data dapat diproses ke tahapan clustering menggunakan

algoritma devisi dengan cara mengklik tombol proses divisive. Hasil clustering selanjutnya

akan ditampilkan pada halaman baru

Gambar 4.10 Rancangan Halaman Hasil Proses Clustering

Hasil Algoritma Divisive


38

BAB V

IMPLEMENTASI DAN EVALUASI HASIL

5.1 Implementasi Perancangan Perangkat Lunak Penambangan Data

Implementasi perancangan perangkat lunak merupakan prosedur yang harus

dilakukan untuk menyelesaikan pemrograman sistem berdasarkan pada analisis dan

perancangan sistem pada bab sebelumnya. Implementasi rancangan perangkat lunak pada

sistem ini dilakukan dengan menggunakan tools Netbeans Integrated Development

Environment (IDE) 8.1 pada komputer dengan spesifikasi prosessor Intel Core i3, RAM 4.00

GB, HDD 500 GB. Implementasi rancangan perangkat lunak pada bab ini terdiri dari

implementasi antarmuka. Sedangkan pada evaluasi hasil terdiri dari pengujuan penggunaa

sistem dengan data yang sudah siap untuk di proses clustering dan hasil pengujian. Daftar

nama kelas yang diimplementasikan dalam sistem ini dapat dilihat pada tabel 5.1 berikut.

Tabel 5.1 Nama Kelas Yang Diimpelentasikan

NO Nama Kelas Nama Berkas

1 Menu Awal MenuAwal.java

2 Proses Algoritma Divisive ProsesAlgoDivisive.java

3. Auto Resize Tabel Auto ReziseTale.java

5.1.1 Implementasi Tampilan Antarmuka

5.1.1.1 Halaman Utama

Pada saat sistem pertama kali dijalankan akan ditampilkan form awal seperti pada gambar 5.1

dan spesifikasi detail pada tabel 5.2 berikut :

Tabel 5.2 Spesifikasi Detail Halaman Awal

Id_objek Jenis Teks Keterangan

jLabel2 Label PENGELOMPOKAN SEKOLAH

MENEGAH ATAS DI DIY

Judul dari sistem

yang dibuat

jLabel3 Label BERDASARKAN NILAI DAYA SERAP

UJIAN NASIONAL

Judul dari sistem

yang dibuat

jLabel4 Label MENGGUNAKAN ALGORITMA

DIVISIVE HIERARCHICAL

CLUSTERING

Judul dari sistem

yang dibuat


39

jButton_masuk button Tombol untuk

masuk ke sistem dan

memulai proses

pengelompokkan

Gambar 5.1 Halaman Awal

Pada halaman awal tersebut terdapat judul dari tugas akhir dan juga tombol proses

yang yang selanjutnya akan membawa user ke halaman proses algoritma Divisive.

5.1.1.2 Halaman Praprocessing algoritma Divisive

Pada halaman ini user akan diminta untuk memasukkan data/file .xls yang telah

disesuaikan dengan kriteria yang butuhkan oleh aplikasi untuk diproses, selanjutnya user

mengubah data tersebut kedalam bentuk data matriks jarak agar dapat diolah . Setelah data

telah berubah kedalam bentuk matriks jarak, selanjutnya user dapat mengklusterkan data

tersebut dengan algortima Divisive yang hasilnya nanti akan ditampilkan dalam bentuk tabel

pohon pada gambar 5.2 dan spesifikasi detail pada tabel 5.3 berikut :


40

Tabel 5.3 Spesifikasi Detail Halaman Praprocessing

Id_objek Jenis Teks Keterangan

jMenu1 Menu bar Operasi Berisi menu pilih

berkas dan keluar

dari sistem

jMenu2 Menu bar Bantuan Berisi bantan

/panduan bagi user

jButtonPilih Button Pilih berkas Tombol untuk

memilih dan

memasukkan berkas

yang akan diproses

jTextPilih Text field Text field untuk

menampilkan nama

file dan direktori file

yang dipilih

jTextJumlah Text field Jumlah data Text field untuk

menampilkan

jumlah data pada

file yang dipilih

jTabelPraproses Tabel Tabel yang

digunakan untuk

menampilkan data

yang telah dipilih

jButtonTmatrik Button Ubah ke matrik euclid Tombol untuk

mengubah data

kedalam bentuk

matriks jarak

jTabelMatrik_euclid Tabel Tabel untuk

menampilkan

matriks jarak

jButtonTdevisive Button Proses Divisive Tombol untuk

memproses

pengelompokkan


41

menggunakan

algoritma divisive

hierarchical

clustering

Implementasi perangkat lunak setiap method

Berikut ini adalah rincian implementasi perangkat lunak dari setiap method :

1. Kelas ProsesAlgoDivisive.java

a. Nama method : public void JarakEuclid

Fungsi method : Untuk memasukkan berkas kedalam sistem

Fungsi : mengubah data kedalam bentuk matrik jarak

public void JarakEuclid() {

for (int i = 0; i < Sampel.size(); i++) {

for (int j = 0; j < Sampel.size(); j++) {

if (Sampel.get(i).equals(Sampel.get(j))) {

DataMatrik.add(Sampel.get(i) + "=" + Sampel.get(j) + "=" + 0);

} else {

double total = 0;

for (int k = 0; k < Variabel.size(); k++) {

double pangkat = 0;

double bantu1 = CariData(Sampel.get(i) + "=" + Variabel.get(k));

double bantu2 = CariData(Sampel.get(j) + "=" + Variabel.get(k));

System.out.println(bantu2 + "Vs" + bantu1);

pangkat = Math.pow((bantu2 - bantu1), 2);

total = total + pangkat;

}

double Euclid = Math.sqrt(total);

DataMatrik.add(Sampel.get(i) + "=" + Sampel.get(j) + "=" + Euclid);

DataMatrik.add(Sampel.get(j) + "=" + Sampel.get(i) + "=" + Euclid);

}

}

}

}


42

a. Nama method : public String NilaiAverageDissTerbesar

Fungsi : mencari nilai rata rata terbesar dalam matrik jarak

public String NilaiAverageDissTerbesar(List<Object> dataAv) {

double bantu = 0;

String sampel = "";

for (int j = 0; j < dataAv.size(); j++) {

String[] data = dataAv.get(j).toString().split("=");

if (new Double(data[1]) > bantu) {

sampel = data[0];

bantu = new Double(data[1]);

}

}

if (dataAv.size() == 2) {

String[] data1 = dataAv.get(0).toString().split("=");

String[] data2 = dataAv.get(1).toString().split("=");

if (data1[1].equals(data2[1])) {

sampel = "kosong";

bantu = 0;

}

}

return sampel + "=" + bantu;

}


43

a. Nama method : public void AverageDissimilarity

public void AverageDissimilarity() {

List<Object> AverageDissmi = new ArrayList<>();

List<Object> C1 = new ArrayList<>();

List<Object> C2 = new ArrayList<>();

// boolean henti = false;

// kluster = Integer.parseInt(jTextFieldKluster.getText());

//hitung average

for (int i = 0; i < Sampel.size(); i++) {

double bantu1 = 0;

for (int j = 0; j < Sampel.size(); j++) {

if (!Sampel.get(i).equals(Sampel.get(j))) {

bantu1 = bantu1 + cekDataMatrik(Sampel.get(i) + "=" + Sampel.get(j));

}

}

AverageDissmi.add(Sampel.get(i) + "=" + (bantu1 / (Sampel.size() - 1)));

}

//buat tampilkan data

System.out.println();

System.out.println("average dissimiliraity ");

for (int i = 0; i < AverageDissmi.size(); i++) {

System.out.println(AverageDissmi.get(i) + " ");

}

//caru nilai averagediss terbesar

//Splinter Group

String[] mak = NilaiAverageDissTerbesar(AverageDissmi).split("=");

// kluster = Integer.parseInt(jTextFieldKluster.getText());

if (!mak[0].equals("kosong")) {

C1.add(mak[0]);

Cluster1.add(mak[0]);

System.out.println("AveTerbesar " + mak[0] + "=" + mak[1]);

AverageDissmi.remove(mak[0] + "=" + mak[1]);

} else {

AverageDissmi.removeAll(AverageDissmi);


44

System.out.println("AveTerbesar " + mak[0] + "=" + mak[1]);

AverageDissmi.remove(mak[0] + "=" + mak[1]);

} else {

AverageDissmi.removeAll(AverageDissmi);

henti = true;

}

if (henti == false) {

// for(i=0;i<=kluster;i++){

//AveDiss sisa

for (int j = 0; j < AverageDissmi.size(); j++) {

String[] data = AverageDissmi.get(j).toString().split("=");

C2.add(data[0]);

}

//Hitung Selisih Sisa

boolean negatif = false;

while (negatif == false) {

List<Object> different = new ArrayList<>();

for (int i = 0; i < C2.size(); i++) {

double tot = 0;

double avedissOfSP = cekDataMatrik(C2.get(i) + "=" + Sampel.get(0));

for (int j = 0; j < C2.size(); j++) {

if (!C2.get(i).equals(C2.get(j))) {

tot = tot + cekDataMatrik(C2.get(i) + "=" + C2.get(j));

}

}

different.add(C2.get(i) + "=" + ((tot / (C2.size() - 1)) - avedissOfSP));

}

//different

System.out.println("Different :");

for (int i = 0; i < different.size(); i++) {

System.out.println(different.get(i));

}

//cari rata-rata terbesar dari Different tersisa

double totBantu = 0;


45

Fungsi : menghitung nilai rata rata antar object

//cari rata-rata terbesar dari Different tersisa

double totBantu = 0;

String Sam = "";

String[] sat = different.get(0).toString().split("=");

totBantu = new Double(sat[1]);

Sam = sat[0];

for (int j = 1; j < different.size(); j++) {

String[] data = different.get(j).toString().split("=");

if (new Double(data[1]) > totBantu) {

Sam = data[0];

totBantu = new Double(data[1]);

}

}

if (totBantu > 0) {

System.out.println("Different Terbesar : " + Sam + "=" + totBantu);

//Gabung dengan splinter group menjadi cluster 1

C1.add(Sam);

Cluster1.add(Sam);

C2.remove(Sam);

} else {

Cluster1.add("-");

for (int i = 0; i < C2.size(); i++) {

Cluster2.add(C2.get(i));

}

Cluster2.add("-");

negatif = true;

}

}

}

//buat tampilkan saja

System.out.println("Cluster1");

String tek = "(";

for (int i = 0; i < C1.size(); i++) {

tek = tek + C1.get(i) + "), ";


46

5.2 Evaluasi Hasil

Pada bagian ini akan dilakukan beberapa pengujian , yaitu

- Pengujian terhadap perangkat lunak, apakah semua fungsi perangkat lunak sudah

berjalan dengan baik dan sesuai dengan yang diharapkan ,pada bagian 5.2.1 Uji

Coba Perangkat Lunak (Black box).

- Pengujian validasi hasil, dimana pada bagian ini akan membandingkan hasil

keluaran dari perangkat lunak dan microsoft excel dengan menggunakan 5 data dan

20 data yang sama, pada bagian 5.2.2 Pengujian Perbandingan Hasil Perangkat

Lunak dengan Microsoft excel.

- Pengujian perangkat lunak untuk melakukan proses clustering dengan menggunakan

seluruh data ,pada bagian 5.2.3 Pengujian Perangkat Lunak dengan Menggunakan

seluruh data.

5.2.1 Uji Coba Perangkat Lunak (Black box)

5.2.1.1 Rencana Pengujian Black box

Pada tabel 5.2 akan dijelaskan rencana pengujian dengan menggunakan metode black box.

Tabel 5.4 Rencana Pengujian Black box

No Usecase Butir Uji Kasus Uji

1 Input Berkas Pengujian memasukkan file berekstensi .xls UC-01

Pengujian memasukkan file dengan ekstensi

bukan .xls

UC-02

2 Proses clustering dengan

Algoritma Divisive

Pengujian melakukan proses clustering UC-03

3 Proses clustering pada

modul halaman 32-34

Pengujian kesesuaian hasil keluaran

perangkat lunak dengan modul

UC-04

5.2.1.2 Prosedur Pengujian Black box dan Kasus Uji

Setelah menyusun rencana pengujian pada tabel 5.2 maka dilakukan prosedur pengujian serta

kasus uji yang terlampir pada lampiran 5.

5.2.1.3 Evaluasi Pengujian Black box

Seluruh hasil pengujian black box pada lampiran 5 menunjukkan bahwa perangkat lunak

sudah dapat berjalan dengan baik dan sesuai dengan perancangan yang sudah dibuat. Hal ini

dapat dilihat dari semua fungsi yang sudah berjalan sesuai dengan yang diharapkan.


47

5.2.2 Pengujian Perbandingan Hasil Perangkat Lunak dengan Microsoft excel

5.2.2.1 Pengelompokan dengan menggunakan perangkat lunak.

Pengujian ini dilakukan dengan menggunakan 5 dan 20 data nilai daya serap Ujian

Nasional SMA Jurusan IPA tahun ajaran 2014/2015. Pengujian ini menggunakan 29 atribut

yaitu, mat1, mat2, mat3, mat4, mat5, mat6, mat7, mat8, mat9, mat10, mat11, mat12, mat13,


mat26, mat27, mat28, mat29, gambar 5.2 ,gambar 5.6 ,tabel 5.3 dan tabel 5.6 dibawah ini

merupakan hasil dari pengelompokan dengan menggunakan perangkat lunak.

Gambar 5.2 Hasil Running Perangkat Lunak Menghitung 5 data

Tabel 5.5 Hasil Running Perangkat Lunak Menghitung 5 data

Kedalaman Jumlah cluster Anggota cluster

1 2 1 : 01-001

2 : 01-002,01-003,01-004,01-005

2 3 1 : 01-001

2 : 01-002

3 : 01-003,01-004,01-005

3 4 1 : 01-001

2 : 01-002

3 : 01-005

4: 01-003.01-004


48

Gambar 5.3 Hasil Running Perangkat Lunak Menghitung 20 Data

Tabel 5.6 Hasil Running Perangkat Lunak Menghitung 20 Data


1 2 1: 01-001,01-003 ,01-004, 01-006, 01-010, 01-015, 01-017,

01-018

2: 01-002, 01-005, 01-007, 01-008, 01-009, 01-011, 01-012,

01-019, 01-022, 01-025, 01-026

2 4 1: 01-001, 01-010, 01-015, 01-017

2: 3-003, 04-004, 05-006, 01-018, 01-21

3: 01-005

4: 01-002, 01-007, 01-008, 01-009, 01-011, 01-012, 01-019,

01-022, 01-025, 01-026

3

7

1: 01-005

2: 01-001, 01-010, 01-015

3: 01-017

4: 01-018

5: 01-003, 01-004, 01-006, 01-021

6: 01-011

7: 01-002, 01-007, 01-008, 01-009, 01-012, 01-019, 01-022,

01-025, 01-026


49

4 10 1: 01-005

2: 01-011

3: 01-017

4: 01-018

5: 01-001, 01-010

6: 01-015

7: 01-021

8: 01-003, 01-004, 01-006

9: 01-002

10: 01-007, 01-008, 01-009, 01-012, 01-019, 01-022,

01-025, 01-026

5 12 1: 01-005

2: 01-011

3: 01-017

4: 01-018

5: 01-001, 01-010

6: 01-015

7: 01-021

8: 01-002

9: 01-006

10: 01-003,01-004

11: 01-012

12: 01-007, 01-008, 01-009, 01-019, 01-022, 01-025, 01-026

6 13 1: 01-005

2: 01-011

3: 01-017

4: 01-018

5: 01-001, 01-010

6: 01-015

7: 01-021

8: 01-002


50

9: 01-006

10: 01-003,01-004

11: 01-012

12: 01-007

13: 01-008, 01-009, 01-019, 01-022, 01-025, 01-026

7 14 1: 01-005

2: 01-011

3: 01-017

4: 01-018

5: 01-001, 01-010

6: 01-015

7: 01-021

8: 01-002

9: 01-006

10: 01-003,01-004

11: 01-012

12: 01-007

13: 01-019

14: 01-008, 01-009, 01-022, 01-025, 01-026

8 15 1: 01-005

2: 01-011

3: 01-017

4: 01-018

5: 01-001, 01-010

6: 01-015

7: 01-021

8: 01-002

9: 01-006

10: 01-003,01-004

11: 01-012

12: 01-007

13: 01-019

14: 01-009


51

15: 01-008, 01-022, 01-025, 01-026

9 16 1: 01-005

2: 01-011

3: 01-017

4: 01-018

5: 01-001, 01-010

6: 01-015

7: 01-021

8: 01-002

9: 01-006

10: 01-003,01-004

11: 01-012

12: 01-007

13: 01-019

14: 01-009

15: 01-008

16: 01-022, 01-025,01-026

10 17 1: 01-005

2: 01-011

3: 01-017

4: 01-018

5: 01-001, 01-010

6: 01-015

7: 01-021

8: 01-002

9: 01-006

10: 01-003,01-004

11: 01-012, 12: 01-007

13: 01-019

14: 01-009

15: 01-008

16: 01-026 ,17: 01-022,01-025


52

5.2.2.2 Pengelompokan dengan menggunakan microsoft excel.

Pengujian ini dilakukan dengan menggunakan 5 dan 20 data nilai daya serap Ujian

Nasional SMA Jurusan IPA tahun ajaran 2014/2015. Pengujian ini menggunakan 29 atribut

yaitu, mat1, mat2, mat3, mat4, mat5, mat6, mat7, mat8, mat9, mat10, mat11, mat12, mat13,


mat26, mat27, mat28, mat29, gambar 5.7 ,gambar 5.8 ,tabel 5.7 dan tabel 5.8 dibawah ini

merupakan hasil dari pengelompokan dengan menggunakan microsoft excel, proses

perhitungan manual menggunakan microsoft excel dapat dilihat pada lampiran 2 dan

lampiran 6.

-

Kedalaman

pertama

Kedalaman

kedua

Kedalaman

ketiga

Gambar 5.5 Hasil Perhitungan Menggunakan Microsoft Excel Menghitung 5 Data

Tabel 5.7 Hasil Perhitungan Menggunakan Microsoft Excel Menghitung 5 Data


1 2 1 : 01-001

2 : 01-002,01-003,01-004,01-005

2 3 1 : 01-001

2 : 01-002

3 : 01-003,01-004,01-005

3 4 1 : 01-001

2 : 01-002

3 : 01-005

4: 01-003.01-004

01-001, 01-002, 01-003,01-004,01-005

01-001

01-002,01-003,01-004,01-005

01-002

01-003,01-004, 01-005

01-005

01-003, 01-004


53

Gambar 5.6 Hasil Perhitungan Menggunakan Microsoft Excel Menghitung 20 Data

Tabel 5.8 Tabel Perhitungan Menggunakan Microsoft Excel Menghitung 20 Data


1 2 1: 01-001,01-003 ,01-004, 01-006, 01-010, 01-015, 01-017,

01-018

2: 01-002, 01-005, 01-007, 01-008, 01-009, 01-011, 01-012,

01-019, 01-022, 01-025, 01-026

2 4 1: 01-001, 01-010, 01-015, 01-017

2: 3-003, 04-004, 05-006, 01-018, 01-21

3: 01-005

4: 01-002, 01-007, 01-008, 01-009, 01-011, 01-012, 01-019,

01-022, 01-025, 01-026

3

7

1: 01-005

2: 01-001, 01-010, 01-015

3: 01-017

4: 01-018

5: 01-003, 01-004, 01-006, 01-021

6: 01-011

7: 01-002, 01-007, 01-008, 01-009, 01-012, 01-019, 01-022,

01-025, 01-026


54

4 10 1: 01-005

2: 01-011

3: 01-017

4: 01-018

5: 01-001, 01-010

6: 01-015

7: 01-021

8: 01-003, 01-004, 01-006

9: 01-002

10: 01-007, 01-008, 01-009, 01-012, 01-019, 01-022,

01-025, 01-026

5 12 1: 01-005

2: 01-011

3: 01-017

4: 01-018

5: 01-001, 01-010

6: 01-015

7: 01-021

8: 01-002

9: 01-006

10: 01-003,01-004

11: 01-012

12: 01-007, 01-008, 01-009, 01-019, 01-022, 01-025, 01-026

6 13 1: 01-005, 2: 01-011 ,3: 01-017 ,4: 01-018

5: 01-001, 01-010

6: 01-015, 7: 01-021, 8: 01-002 , 9: 01-006

10: 01-003,01-004

11: 01-012

12: 01-007

13: 01-008, 01-009, 01-019, 01-022, 01-025, 01-026


55

7 14 1: 01-005

2: 01-011

3: 01-017

4: 01-018

5: 01-001, 01-010

6: 01-015

7: 01-021

8: 01-002

9: 01-006

10: 01-003,01-004

11: 01-012

12: 01-007

13: 01-019

14: 01-008, 01-009, 01-022, 01-025, 01-026

8 15 1: 01-005

2: 01-011

3: 01-017

4: 01-018

5: 01-001, 01-010

6: 01-015

7: 01-021

8: 01-002

9: 01-006

10: 01-003,01-004

11: 01-012

12: 01-007

13: 01-019

14: 01-009

15: 01-008, 01-022, 01-025, 01-026

9 16 1: 01-005

2: 01-011

3: 01-017

4: 01-018


56

5: 01-001, 01-010

6: 01-015

7: 01-021

8: 01-002

9: 01-006

10: 01-003,01-004

11: 01-012

12: 01-007

13: 01-019

14: 01-009

15: 01-008

16: 01-022, 01-025,01-026

10 17 1: 01-005

2: 01-011

3: 01-017

4: 01-018

5: 01-001, 01-010

6: 01-015

7: 01-021

8: 01-002

9: 01-006

10: 01-003,01-004

11: 01-012, 12: 01-007

13: 01-019

14: 01-009

15: 01-008

16: 01-026 , 17: 01-022,01-025


57

5.2..2.3 Evaluasi Pengujian Perbandingan Perangkat Lunak dengan Hasil Microsoft Excel.

Dari hasil perhitungan perangkat lunak yang dibangun dengan menggunakan 5 dan

20 data, dengan perhitungan manual microsoft excel menggunakan 5 dan 20 data

menunjukkan hasil yang sama. Oleh karena itu dapat dikatakan bahwa perangkat lunak yang

dibuat sudah dapat berjalan dengan baik dan sesuai dengan yang diharapkan.

5.2.3 Pengujian Perangkat Lunak dengan Menggunakan Seluruh Data.

Pengujian ini dilakukan dengan menggunakan dataset nilai daya serap Ujian Nasional

SMA Jurusan IPA tahun ajaran 2014/2015. Pengujian ini menggunakan 29 atribut yaitu,

mat1, mat2, mat3, mat4, mat5, mat6, mat7, mat8, mat9, mat10, mat11, mat12, mat13, mat14,


mat27, mat28, mat29, gambar 5.5 , tabel 5.9 dibawah ini merupakan hasil dari

pengelompokan dengan menggunakan perangkat lunak.

Tabel 5.9 Hasil Uji Perangkat Lunak dengan Menggunakan Seluruh Data

Kedalaman Jumlah

cluster

Keterangan tentang anggota cluster

1 2 - Jumlah anggota pada cluster 1 =34

- Jumlah anggota pada cluster 2 =103













58

4 11 - Jumlah anggota pada cluster 1-3=1









5 15 - Jumlah anggota pada cluster 1-6 =1











- Jumlah anggota pada cluster 10-11=2

- Jumlah anggota pada cluster 12=2









59


- Jumlah anggota pada cluster 14-16 =2

- Jumlah anggota pada cluster 19 = 1





























60







13 34 Jumlah anggota pada cluster 1-25 =1




























61



































62





24 53 -Jumlah anggota pada cluster 1-47=1








26-85 55-126 Jumlah anggota pada cluster 1-116 =1





















63

















Dari hasil running perangkat lunak didapatkan 102 kedalaman data dengan total 132 cluster


64

BAB VI

PENUTUP

5.1 Kesimpulan

Kesimpulan yang diperoleh sebagai hasil penyelesaian tugas akhir ini adalah:

1. Implementasi algoritma Divisive hierarchical Clustering untuk mengelompokan Sekolah

Menengah Atas di DIY berdasarkan nilai daya serap Ujian Nasional mata pelajaran

matematika telah berhasil dibangun

2. Algoritma Divisive hierarchical Clustering tidak dapat digunakan untuk analisis nilai daya

serap semua butir kompetensi ujian nasional mata pelajaran Matematika SMA jurusan IPA

di DIY tahun ajaran 2014/2015 karena pohon yang terbentuk tidak seimbang.

3. Berdasarkan hasil uji menggunakan 20 data dan 137 dataset nilai daya serap dengan 29

butir kompetensi ditemukan karakteristik sebagai berikut :

a. setiap cluster berisi minimum satu anggota, dan maksimum 2 anggota

b. pohon yang terbentuk tidak seimbang/timpang.

5.2 Saran

Berdasarkan hasil analisis pada tugas akhir ini, penulis memberikan saran untuk perbaikan dan

pengembangan perangkat lunak lebih lanjut antara lain:

1.Perangkat lunak perlu dikembangkan agar dapat menerima masukan file selain tipe .xls

2. Hasil clustering dapat divisualkan lebih baik agar lebih menarik dan mudah dipahami (misal

menampilkan struktur pohon yang lebih baik) .

3. Pemprosesan clustering dalam jumlah data yang banyak masih memakan waktu yang lama,

kedepannya pengembangan algoritma divisive perlu disederhanakan agar lebih cepat.

4. Uji hasil cluster dengan menggunakan Silhouette coeficient.


65

DAFTAR PUSTAKA

Anonim.2016. BAB III Devisive Analysis .

http://a-research.upi.edu/operator/upload/s_mat_0607092_chapter3.pdf

Diakses pada 15 Februari 2016 .

Desmaweni, Monica Rintan .2017.” Pengelompokan Sekolah Menengah Atas di DIY

Berdasarkan Nilai Daya Serap Ujian Nasional Bahasa Indonesia Menggunakan

Metode Agglomerative Hierarchical Clustering”, Universitas Sanata Dharma ,

Yogyakarta.

Han, Jiawei and Kamber, Micheline.(2011)..Data Mining: Concepts and Techniques Third

Edition, Morgan Kaufmann, USA.

Liu, Sandra S. and Chen, Jie. (2009). Using Data Mining to Segment Healthcare Markets

from Patients Preference Perspectives. International Journal of Health Care Quality

Assurance

Prasetyo, Eko.2014.Data Mining : Mengolah Data Menjadi Informasi Menggunakan

Matlab, Andi, Yogyakarta.

Santosa,Budi.2007 Data Mining :Teknik Pemanfaatan Data untuk Keperluan Bisnis.

Yogyakarta: Graha Ilmu

WisdomJobs “What Is Data Mining in Data Mining “ https://www.wisdomjobs.com/e-

university/data-mining-tutorial-199/what-is-data-mining-1864.html.

Diakses pada 20 April 2016.


http://a-research.upi.edu/operator/upload/s_mat_0607092_chapter3.pdf

https://www.wisdomjobs.com/e-%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20university/data-mining-tutorial-199/what-is-data-mining-1864.html.

https://www.wisdomjobs.com/e-%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20university/data-mining-tutorial-199/what-is-data-mining-1864.html.

66

LAMPIRAN 1

HASIL UJICOBA DENGAN 137 DATA

Hasil Uji coba nilai daya serap UN 2014-15 dengan jumlah 137 sekolah, dengan waktu kurang

lebih 104 menit


67


68

LAMPIRAN 2

1.Hasil uji coba menggunakan 5 data sample

*hasi perangkat lunak

a. Input Data

b.Hasil Matrik

c.Hasil Divisive

*hasil hitung manual excel

a.Data Dengan Atribut Mat1-Mat 29

KODE MAT1 MAT2 MAT3 MAT4 MAT5 MAT6 MAT7 MAT8 MAT9 MAT10 MAT11 MAT12 MAT13 MAT14 MAT15 MAT16 MAT17 MAT18 MAT19 MAT20 MAT21 MAT22 MAT23 MAT24 MAT25 MAT26 MAT27 MAT28 MAT29

01-001 66.51 91.39 82.42 89.00 64.11 71.29 90.43 84.21 47.37 63.16 90.44 89.95 93.78 75.60 89.47 48.80 83.73 89.00 78.95 94.26 90.36 7.18 82.66 77.51 76.08 97.01 98.56 79.43 39.71

01-002 32.86 56.43 49.47 72.14 40.00 43.57 68.10 54.29 27.86 32.50 54.29 67.86 72.14 55.71 56.43 45.00 57.86 62.86 60.71 80.00 63.39 12.14 62.32 37.14 42.86 75.89 94.29 57.14 29.29

01-003 46.11 85.56 60.00 78.89 44.44 50.56 78.52 67.22 34.72 34.72 65.84 83.33 82.22 68.89 68.33 42.22 67.22 68.89 67.22 84.44 79.72 7.22 68.20 41.67 48.89 83.45 92.22 61.67 25.56

01-004 51.02 76.87 63.10 74.83 59.18 39.46 81.18 61.90 28.23 45.92 75.51 86.39 87.76 65.31 68.03 44.22 71.43 70.75 72.11 87.07 82.20 14.29 72.11 41.50 50.34 89.74 98.64 61.22 26.53

01-005 47.59 72.19 56.69 70.59 45.99 48.66 74.33 41.71 26.74 32.62 64.71 86.63 83.42 49.73 66.31 44.92 60.96 68.45 65.78 75.40 75.33 10.70 61.36 32.09 47.59 79.05 95.19 59.89 37.43

b.Hasil Matrik

1 2 3 4 5

1 0 135.6863 92.65901 86.58061 117.2618 2 135.6863 0 55.1229 64.73132 43.21217 3 92.65901 55.1229 0 32.04833 43.15498 4 86.58061 64.73132 32.04833 0 46.65212 5 117.2618 43.21217 43.15498 46.65212 0


69

c.Hasil Divisive

c.1 Hasil Clustering


70

LAMPIRAN 3

Narasi umum usecase

1. Narasi memasukkan data

Nama usecase Memasukkan data

Kode usecase 01

Aktor User

Deskripsi Proses memasukkan data ke dalam

perangkat lunak

Kondisi awal User telah masukkan ke beranda sistem

Kondisi Akhir Data yang telah dimasukkan akan

ditampilkan dalam bentuk tabel,beserta

jumlah data

Aksi Aktor Reaksi Sistem

1.User mengklik tombol proses

2. Sistem menampilkan halam praprosessing

data

3.User memilih berkas .xls yang ingin

diproses dengan mengklik tombol pilih

berkas

4.User mengklik open pada file yg

hendak diproses

5.Sistem akan mengkoreksi file yang telah

dipilih, jika bukan file dengan format .xls

akan muncul pesan “file yang dipilih harus

berformat .xls”.

6.Jika data berformat .xls sistem akan

langsung menampilkan data beserta jumlah

data yang telah dipilih.

2.Narasi proses mengubah data ke dalam bentuk matrik

Nama Usecase Proses mengubah data ke bentuk matriks

jarak

Kode Usecase 02


71

Aktor User

Deskripsi Usecase ini adalah kegiatan mengubah data

mentah ke dalam bentuk data matrik

Kondisi awal User telah memilih data yang akan diolah

dan mengubah data ke dalam bentuk matrik

Kondisi akhir Sistem mengubah data ke dalam bentuk

matrik dan menampilkannya dalam bentuk

tabel matriks jarak


1.User mengklik tombol ubah ke dalam

bentuk matrik

2. Sistem akan mengolah data yang telah

dipilih dan mengubahnya kedalam bentuk

matrik

3.Sistem menampilkan data yang telah

diubah kedalam bentuk matrik dalam bentuk

tabel data

3.Narasi proses mengelompokkan data menggunakan algoritma Divisive menggunakan data

matrik

Nama Usecase Proses mengelompokkan data menggunakan

algoritma Divisive menggunakan data matrik

Kode Usecase 03

Aktor User

Deskripsi Usecase ini adalah kegiatan

mengelompokkan data menggunakan

algoritma Divisive dari data matrik

Kondisi awal Data yang telah diolah dalam bentuk matrik

dikelompokkan menggunakan algoritma

Divisive

Kondisi akhir Sistem mengelompokkan data matrik

menggunakan algoritma Divisive dan

menampilkan hasil clustering dalam tabel


72


1.User mengklik tombol proses

Divisive

2. Sistem akan mengolah data yang telah

dipilih dan mengelompokkannya

menggunakan algoritma Divisive

3.Sistem menampilkan data yang telah

dikelompokkan dalam bentuk tabel data


73

LAMPIRAN 4

Diagram Aktivitas

1. Diagram aktivitas user memasukkan data

Memasukkan data

User Sistem

tidak

ya

Menekan tombol “pilih berkas” Menampikan kotak dialog file

chooser

Memilih file yang akan digunakan

Apakah file

bertipe .xls?

Menampilkan pesan “File yang

dipih harus berformat .xls

Menampilkan data dalam bentuk

tabel


74

2. Diagram aktivitas usecase mengubah data ke dalam bentuk matrik

Mengubah data ke dalam bentuk matrik

User Sistem

3. Diagram aktivitas use case pengelompokkan

Pemgelompokkan data

User Sistem

Menekan tombol “ubah ke matrik

euclid” Mengubah data kedalam bentuk

matrik

Menampilkan data matrik ke dalam

bentuk tabel

Menekan tombol “proses Divisive” Mengolah data matrik dengan

menggunakan algoritma Divisive

Menampilkan hasil

pengelompokkan menggunakan

algoritma devisi dalam bentuk

tabel


75

LAMPIRAN 5 Prosedur Pengujian dan Kasus Uji

Identifik

asi

Usecase

Deskripsi Prosedur

pengujian

Masukka

n

Keluaran

yang

diharapkan

Hasil yang

didapat

Catatan

proses

pengemban

gan

UC-01 Pengujian

memasuk

kan file

berektensi

.xls

1.Jalankan

sistem

2.Pada

halaman

awal kli

proses

3.pada

halaman

proses

algoritma

Divisive

tekan

tombol

“pilih

berkas”

Fix.xls Data pada

file fix.xls

akan

ditampilkan

pada tabel

Data pada

file fix.xls

akan

ditampilkan

pada tabel

Tidak

diperbaiki

UC-02 Revisi4.d

oc

Muncul

pemberitah

uan bahwa

file yang

dipilih

bukan

berektensi

.xls

Muncul

pemberitah

uan bahwa

file yang

dipilih

bukan

berektensi

.xls

Tidak

diperbaiki

UC-03 Pengujian

melakuka

n proses

clustering

1.Berkas

yang akan

dioleh telah

dimasukkan

2.ubah data

kedalam

bentuk

matrik

dengan

menekan

tombol

“ubah ke

matriks

euclid”

3.setelah

terbentuk

matriks

jarak tekan

tombol

“proses

Divisive”

- Muncuk

tabel yang

menampilk

an pohon

kluster

Muncuk

tabel yang

menampilk

an pohon

kluster

Tidak

diperbaiki


76

UC-04 Pengujian

melakuka

n proses

clustering

pada

modul

1.memasuk

kan data

yang telah

terbentuk

dalam

bentuk

matrik jarak

3.selanjutny

a tekan

tombol

“proses

Divisive”

Data

berbentu

k matrik

jarak

Menampilk

an hasil

cluster

dengan

anggota

kluster

yang

didapat

{a,b}, {c},

dan {d,e}. didapat {a,b}, {c}, dan {d,e}. kluster {c}

Menampilk

an hasil

cluster

dengan

anggota

kluster

yang

didapat

{a,b}, {c},

dan {d,e}. didapat {a,b}, {c}, dan {d,e}. kluster {c}

Tidak

diperbaiki

Screenshot hasil running perangkat lunak pada ujicoba black box UC-04

Gmbar 5.2 Halaman proses algoritma Divisive (sesuai teori di hal 23-25 )


76

Gambar 5.3 hasil clustering


77

LAMPIRAN 6

PERHITUNGAN MANUAL


80


81


80


81


82


85


84


85


86


87


diajukan untuk memenuhi salah satu syarat memperoleh gelar ... · nilai daya serap ujian nasional...

Documents