laporan tugas 3.pdf

LAPORAN TUGAS 3

DATA MINING

NAMA : FERIAL WILLY S

NIM : 1008107020050

JURUSAN INFORMATIKA

FAKULTAS MIPA

UNIVERSITAS SYIAH KUALA

PENDAHULUAN

Syukur Alhamdulillah saya panjatkan kehadirat Allah SWT, karena atas segala karuniaNya saya

dapat menyelesaikan tugas 3 ini sebagai salah satu syarat mata kuliah Data Mining. Tugas 3 ini

tentang keakurasian dataset WDBC dan Abalone.

Klasifikasi adalah suatu proses pembelajaran secara terbimbing (supervised learning). Untuk

setiap melakukan klasifikasi, dibutuhkan training set sebagai data pembelajaran. Setiap sampel dari

training set memiliki atribut dan klas label. Oleh karena itu Pada tugas 3 ini, ditugaskan untuk

melakukan perhitungan akurasi dengan menggunakan perangkat lunak WEKA untuk kasus klasifikasi

dataset WDBC dan Abalone. Dataset WSDL memiliki total 569 sampel dan dataset abalone memiliki

4177 sampel. Pada kedua dataset ini dipecah file arff hasil dari tugas 2 menjadi 2 file ( WDBC-

training.arff dan WDBC-testing.arff serta abalone-training.arff dan abalone-testing.arff). Jumlah

sampel yang harus ada dalam file WDBC dan Abalone training.arff adalah sebanyak 75% sd 80% dari

total sampel yang dipilih secara acak sedangkan jumlah sampel yang harus ada dalam file WDBC dan

Abalone testing.arff adalah sebanyak kurang lebih 20% sd 25%.

Dalam melakukan proses klasifiksi, Set parameter yang saya gunakan adalah set parameter k=3,

k=5, k=7, k=9, dan k=11 dengan nilai parameter distanceWeighting = no distance weighting dan nilai

parameter distanceWeighting = Weight by 1/distance.

PEMISAHAN DATASET WDBC

(WDBC-TRAINING dan WDBC-TESTING)

Dalam melakukan pemisahan dataset WDBC, saya menggunakan dua alat bantu yaitu TEXT

MECHANIC TOOL MENU dan perangkat lunak Gsplit. Adapun cara kerjanya sebagai berikut :

Pertama tama hasil dari tugas 2 yang berbentuk file arff data dari WDBC di copy dan

dipastekan di TEXT MECHANIC TOOL MENU yang bisa didapatkan melalui link

http://textmechanic.com/Sort-Text-Lines.html.

Setelah itu random sesuka hati pada tugas ini saya mengrandom nya sebanyak 3 kali setelah

didapatkan hasil random saya copy dan pastekan ke notepad serta simpan dalam format arff.

Buka perangkat lunak Gsplit yang fungsinya untuk memisahkan data training dan data testing.

Kemudian saya buka original file masukkan data WDBC yang telah dirandom di text

mechanic

Setelah itu Destination folder klik browse pilih tempat penyimpanan untuk pemisahan file arff

WDBC

Kemudian saya pilih Type and Size pilih I want to split after the nth occurrence of a specified

pattern dan pilih split after the occurrence number. Karena 75% training set pada WDBC dan

WDBC memiliki total sampel 569 maka saya bulatkan menjadi 427 data sampel split after the

occurrence numbernya. (75/100.569)

Setelah itu saya klik filenames kemudian pada Piece Name Mask isikan {num}, {orf}, dan

{ore}

Kemudian klik other properties contreng Do not add Gsplit tags to piece files setelah itu

terakhir klik split. Maka didapatlah pemisahan file arff WDBC yang telah di random. File

dengan ukuran yang besar dinamakan WDBC-training dan file dengan ukuran yang lebih

kecil dinamakan WDBC-testing.

Hasil Untuk Setiap Parameter K dan distanceWeighting

Setelah didapatkan dua pemisahan file arff WDBC buka perangkat lunak WEKA open file pada

WDBC-training klik menu classify pada weka, choose klasifikasi menggunakan Classifier IBk

(Lazy/KNN) pilih Supplied test set pada set masukkan file WDBC-testing yang fungsinya untuk

menguji keakuratan hasil klasifikasi pada WDBC kemudian klik tombol start. Berikut adalah hasil

untuk setiap parameter K dan distanceWeighting.

No distance weighting

K=3

43 diklasifikasikan sebagai M ,97 diklasifikasikan sebagai B, 0 data diduga sebagai M ternyata

adalah B serta 2 data diduga sebagai B ternyata adalah M. precision 0.987, recall 0.986 dan F-measure

0,986.

K=5

42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data diduga sebagai M ternyata adalah

B serta 1 data diduga sebagai B ternyata adalah M. Precision 0.986, recall 0.986, dan F-measure

0.986.

K=7

43 diklasifikasikan sebagai M, 97 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M

ternyata adalah B dan 2 data yang diklasifikasikan B ternyata adalah M. precision 0.987, recall 0.986

dan F-measure 0.986.

K=9

42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data diklasifikasikan sebagai M

ternyata adalah B dan 1 data yang diklasifikasikan B ternyata adalah M. precision 0.986, recall 0.986

dan F-measure 0.986.

K=11


ternyata adalah B, dan 1 data yang diklasifikasikan sebagai B ternyata adalah M. precision 0.993,

recall 0.993 dan F-measure 0.993.

Weight By 1 Distance

K=3


ternyata adalah B, dan 2 data yang diklasifikasikan sebagai B ternyata adalah M. precision 0.987,


K=5


ternyata adalah B, dan 1 data yang diklasifikasikan sebagai B ternyata adalah M. Precision 0.986,


K=7




K=9




K=11




Jadi kesimpulan yang dapat saya ambil dari dataset WDBC dilihat dari F-Measure nya adalah nilai

parameter No distance weighting merupakan nilai akurasi yang paling baik karena lebih mendekati ke

satu.

PEMISAHAN DATASET ABALONE

(ABALONE-TRAINING dan ABALONE-TESTING)

Dalam melakukan pemisahan dataset Abalone, saya menggunakan dua alat bantu yaitu TEXT

MECHANIC TOOL MENU dan perangkat lunak Gsplit. Pada dataset Abalone ini untuk atribut jenis

kelamin tidak saya ikut sertakan sedangkan nilai Ring umur Abalone diganti dengan A, B , dan C agar

untuk mendapatkan metode klasifikasi KNN (distance-based), jadi atribut dari data harus bersifat

continuous. Adapun cara kerjanya sebagai berikut :

Pertama-tama umur abalone (1-8) diganti dengan kelas A, (9-10) diganti dengan kelas B, dan

(11-29) diganti dengan kelas C

Setelah berbentuk file arff data dari Abalone di copy dan dipastekan di TEXT MECHANIC

TOOL MENU yang bisa didapatkan melalui link http://textmechanic.com/Sort-Text-

Lines.html.

Setelah itu random sesuka hati pada tugas ini saya mengrandom nya sebanyak 3 kali setelah

didapatkan hasil random saya copy dan pastekan ke notepad serta simpan dalam format arff.

Buka perangkat lunak Gsplit yang fungsinya untuk memisahkan data training dan data testing.

Kemudian saya buka original file masukkan data Abalone yang telah dirandom di text

mechanic

Setelah itu Destination folder klik browse pilih tempat penyimpanan untuk pemisahan file arff

Abalone

Kemudian saya pilih Type and Size pilih I want to split after the nth occurrence of a specified

pattern dan pilih split after the occurrence number. Karena 75% training set pada Abalone dan

Abalone memiliki total sampel 4177 maka saya bulatkan menjadi 3133 data sampel split

after the occurrence numbernya. (75/100.4177)

Setelah itu saya klik filenames kemudian pada Piece Name Mask isikan {num}, {orf}, dan

{ore}

Kemudian klik other properties contreng Do not add Gsplit tags to piece files setelah itu

terakhir klik split. Maka didapatlah pemisahan file arff Abalone yang telah di random. File

dengan ukuran yang besar dinamakan Abalone-training dan file dengan ukuran yang lebih

kecil dinamakan Abalone-testing.

Hasil Untuk Setiap Parameter K dan distanceWeighting

Setelah didapatkan dua pemisahan file arff Abalone buka perangkat lunak WEKA open file

pada Abalone-training klik menu classify pada weka, choose klasifikasi menggunakan Classifier IBk

(Lazy/KNN) pilih Supplied test set pada set masukkan file Abalone-testing yang fungsinya untuk

menguji keakuratan hasil klasifikasi pada Abalone kemudian klik tombol start. Berikut adalah hasil

untuk setiap parameter K dan distanceWeighting.

No Distance Weighting

K=3

256 diklasifikasikan sebagai A, 140 diklasifikasikan sebagai B, dan 192 diklasifikasikan sebagai C.

Precision 0.557, recall 0.563 dan F-measure 0.558.

K=5



K=7



K=9



K=11



Weight By 1 Distance

K=3



K=5



K=7



K=9



K=11



Jadi kesimpulan yang dapat saya ambil dari dataset Abalone dilihat dari F-Measure nya adalah nilai

parameter No distance weighting merupakan nilai akurasi yang paling baik.

laporan tugas 3.pdf

Documents