laporan tugas 3.pdf

14
LAPORAN TUGAS 3 DATA MINING NAMA : FERIAL WILLY S NIM : 1008107020050 JURUSAN INFORMATIKA FAKULTAS MIPA UNIVERSITAS SYIAH KUALA

Upload: munasko-muhdan-bintang

Post on 03-Oct-2015

81 views

Category:

Documents


18 download

TRANSCRIPT

  • LAPORAN TUGAS 3

    DATA MINING

    NAMA : FERIAL WILLY S

    NIM : 1008107020050

    JURUSAN INFORMATIKA

    FAKULTAS MIPA

    UNIVERSITAS SYIAH KUALA

  • PENDAHULUAN

    Syukur Alhamdulillah saya panjatkan kehadirat Allah SWT, karena atas segala karuniaNya saya

    dapat menyelesaikan tugas 3 ini sebagai salah satu syarat mata kuliah Data Mining. Tugas 3 ini

    tentang keakurasian dataset WDBC dan Abalone.

    Klasifikasi adalah suatu proses pembelajaran secara terbimbing (supervised learning). Untuk

    setiap melakukan klasifikasi, dibutuhkan training set sebagai data pembelajaran. Setiap sampel dari

    training set memiliki atribut dan klas label. Oleh karena itu Pada tugas 3 ini, ditugaskan untuk

    melakukan perhitungan akurasi dengan menggunakan perangkat lunak WEKA untuk kasus klasifikasi

    dataset WDBC dan Abalone. Dataset WSDL memiliki total 569 sampel dan dataset abalone memiliki

    4177 sampel. Pada kedua dataset ini dipecah file arff hasil dari tugas 2 menjadi 2 file ( WDBC-

    training.arff dan WDBC-testing.arff serta abalone-training.arff dan abalone-testing.arff). Jumlah

    sampel yang harus ada dalam file WDBC dan Abalone training.arff adalah sebanyak 75% sd 80% dari

    total sampel yang dipilih secara acak sedangkan jumlah sampel yang harus ada dalam file WDBC dan

    Abalone testing.arff adalah sebanyak kurang lebih 20% sd 25%.

    Dalam melakukan proses klasifiksi, Set parameter yang saya gunakan adalah set parameter k=3,

    k=5, k=7, k=9, dan k=11 dengan nilai parameter distanceWeighting = no distance weighting dan nilai

    parameter distanceWeighting = Weight by 1/distance.

  • PEMISAHAN DATASET WDBC

    (WDBC-TRAINING dan WDBC-TESTING)

    Dalam melakukan pemisahan dataset WDBC, saya menggunakan dua alat bantu yaitu TEXT

    MECHANIC TOOL MENU dan perangkat lunak Gsplit. Adapun cara kerjanya sebagai berikut :

    Pertama tama hasil dari tugas 2 yang berbentuk file arff data dari WDBC di copy dan

    dipastekan di TEXT MECHANIC TOOL MENU yang bisa didapatkan melalui link

    http://textmechanic.com/Sort-Text-Lines.html.

    Setelah itu random sesuka hati pada tugas ini saya mengrandom nya sebanyak 3 kali setelah

    didapatkan hasil random saya copy dan pastekan ke notepad serta simpan dalam format arff.

    Buka perangkat lunak Gsplit yang fungsinya untuk memisahkan data training dan data testing.

    Kemudian saya buka original file masukkan data WDBC yang telah dirandom di text

    mechanic

    Setelah itu Destination folder klik browse pilih tempat penyimpanan untuk pemisahan file arff

    WDBC

    Kemudian saya pilih Type and Size pilih I want to split after the nth occurrence of a specified

    pattern dan pilih split after the occurrence number. Karena 75% training set pada WDBC dan

    WDBC memiliki total sampel 569 maka saya bulatkan menjadi 427 data sampel split after the

    occurrence numbernya. (75/100.569)

    Setelah itu saya klik filenames kemudian pada Piece Name Mask isikan {num}, {orf}, dan

    {ore}

    Kemudian klik other properties contreng Do not add Gsplit tags to piece files setelah itu

    terakhir klik split. Maka didapatlah pemisahan file arff WDBC yang telah di random. File

    dengan ukuran yang besar dinamakan WDBC-training dan file dengan ukuran yang lebih

    kecil dinamakan WDBC-testing.

    Hasil Untuk Setiap Parameter K dan distanceWeighting

    Setelah didapatkan dua pemisahan file arff WDBC buka perangkat lunak WEKA open file pada

    WDBC-training klik menu classify pada weka, choose klasifikasi menggunakan Classifier IBk

    (Lazy/KNN) pilih Supplied test set pada set masukkan file WDBC-testing yang fungsinya untuk

    menguji keakuratan hasil klasifikasi pada WDBC kemudian klik tombol start. Berikut adalah hasil

    untuk setiap parameter K dan distanceWeighting.

  • No distance weighting

    K=3

    43 diklasifikasikan sebagai M ,97 diklasifikasikan sebagai B, 0 data diduga sebagai M ternyata

    adalah B serta 2 data diduga sebagai B ternyata adalah M. precision 0.987, recall 0.986 dan F-measure

    0,986.

    K=5

    42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data diduga sebagai M ternyata adalah

    B serta 1 data diduga sebagai B ternyata adalah M. Precision 0.986, recall 0.986, dan F-measure

    0.986.

    K=7

  • 43 diklasifikasikan sebagai M, 97 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M

    ternyata adalah B dan 2 data yang diklasifikasikan B ternyata adalah M. precision 0.987, recall 0.986

    dan F-measure 0.986.

    K=9

    42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data diklasifikasikan sebagai M

    ternyata adalah B dan 1 data yang diklasifikasikan B ternyata adalah M. precision 0.986, recall 0.986

    dan F-measure 0.986.

    K=11

  • 43 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M

    ternyata adalah B, dan 1 data yang diklasifikasikan sebagai B ternyata adalah M. precision 0.993,

    recall 0.993 dan F-measure 0.993.

    Weight By 1 Distance

    K=3

    43 diklasifikasikan sebagai M, 97 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M

    ternyata adalah B, dan 2 data yang diklasifikasikan sebagai B ternyata adalah M. precision 0.987,

    recall 0.986 dan F-measure 0.986.

    K=5

  • 42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data yang diklasifikasikan sebagai M

    ternyata adalah B, dan 1 data yang diklasifikasikan sebagai B ternyata adalah M. Precision 0.986,

    recall 0.986 dan F-measure 0.986.

    K=7

    43 diklasifikasikan sebagai M, 97 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M

    ternyata adalah B, dan 2 data yang diklasifikasikan sebagai B ternyata adalah M. Precision 0.987,

    recall 0.986 dan F-measure 0.986.

    K=9

  • 42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data yang diklasifikasikan sebagai M

    ternyata adalah B, dan 1 data yang diklasifikasikan sebagai B ternyata adalah M. Precision 0.986,

    recall 0.986 dan F-measure 0.986.

    K=11

    43 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M

    ternyata adalah B, dan 1 data yang diklasifikasikan sebagai B ternyata adalah M. Precision 0.993,

    recall 0.993 dan F-measure 0.993.

    Jadi kesimpulan yang dapat saya ambil dari dataset WDBC dilihat dari F-Measure nya adalah nilai

    parameter No distance weighting merupakan nilai akurasi yang paling baik karena lebih mendekati ke

    satu.

  • PEMISAHAN DATASET ABALONE

    (ABALONE-TRAINING dan ABALONE-TESTING)

    Dalam melakukan pemisahan dataset Abalone, saya menggunakan dua alat bantu yaitu TEXT

    MECHANIC TOOL MENU dan perangkat lunak Gsplit. Pada dataset Abalone ini untuk atribut jenis

    kelamin tidak saya ikut sertakan sedangkan nilai Ring umur Abalone diganti dengan A, B , dan C agar

    untuk mendapatkan metode klasifikasi KNN (distance-based), jadi atribut dari data harus bersifat

    continuous. Adapun cara kerjanya sebagai berikut :

    Pertama-tama umur abalone (1-8) diganti dengan kelas A, (9-10) diganti dengan kelas B, dan

    (11-29) diganti dengan kelas C

    Setelah berbentuk file arff data dari Abalone di copy dan dipastekan di TEXT MECHANIC

    TOOL MENU yang bisa didapatkan melalui link http://textmechanic.com/Sort-Text-

    Lines.html.

    Setelah itu random sesuka hati pada tugas ini saya mengrandom nya sebanyak 3 kali setelah

    didapatkan hasil random saya copy dan pastekan ke notepad serta simpan dalam format arff.

    Buka perangkat lunak Gsplit yang fungsinya untuk memisahkan data training dan data testing.

    Kemudian saya buka original file masukkan data Abalone yang telah dirandom di text

    mechanic

    Setelah itu Destination folder klik browse pilih tempat penyimpanan untuk pemisahan file arff

    Abalone

    Kemudian saya pilih Type and Size pilih I want to split after the nth occurrence of a specified

    pattern dan pilih split after the occurrence number. Karena 75% training set pada Abalone dan

    Abalone memiliki total sampel 4177 maka saya bulatkan menjadi 3133 data sampel split

    after the occurrence numbernya. (75/100.4177)

    Setelah itu saya klik filenames kemudian pada Piece Name Mask isikan {num}, {orf}, dan

    {ore}

    Kemudian klik other properties contreng Do not add Gsplit tags to piece files setelah itu

    terakhir klik split. Maka didapatlah pemisahan file arff Abalone yang telah di random. File

    dengan ukuran yang besar dinamakan Abalone-training dan file dengan ukuran yang lebih

    kecil dinamakan Abalone-testing.

    Hasil Untuk Setiap Parameter K dan distanceWeighting

    Setelah didapatkan dua pemisahan file arff Abalone buka perangkat lunak WEKA open file

    pada Abalone-training klik menu classify pada weka, choose klasifikasi menggunakan Classifier IBk

    (Lazy/KNN) pilih Supplied test set pada set masukkan file Abalone-testing yang fungsinya untuk

  • menguji keakuratan hasil klasifikasi pada Abalone kemudian klik tombol start. Berikut adalah hasil

    untuk setiap parameter K dan distanceWeighting.

    No Distance Weighting

    K=3

    256 diklasifikasikan sebagai A, 140 diklasifikasikan sebagai B, dan 192 diklasifikasikan sebagai C.

    Precision 0.557, recall 0.563 dan F-measure 0.558.

    K=5

    268 diklasifikasikan sebagai A, 153 diklasifikasikan sebagai B, dan 185 diklasifikasikan sebagai C.

    Precision 0.577, recall 0.58 dan F-measure 0.576.

    K=7

  • 262 diklasifikasikan sebagai A, 152 diklasifikasikan sebagai B, dan 194 diklasifikasikan sebagai C.

    Precision 0.579, recall 0.582 dan F-measure 0.58.

    K=9

    263 diklasifikasikan sebagai A, 154 diklasifikasikan sebagai B, dan 200 diklasifikasikan sebagai C.

    Precision 0.587, recall 0.591 dan F-measure 0.588.

  • K=11

    269 diklasifikasikan sebagai A, 168 diklasifikasikan sebagai B, dan 206 diklasifikasikan sebagai C.

    Precision 0.614, recall 0.616 dan F-measure 0.614.

    Weight By 1 Distance

    K=3

    241 diklasifikasikan sebagai A, 150 diklasifikasikan sebagai B, dan 202 diklasifikasikan sebagai C.

    Precision 0.567, recall 0.568 dan F-measure 0.567.

  • K=5

    255 diklasifikasikan sebagai A, 144 diklasifikasikan sebagai B, dan 198 diklasifikasikan sebagai C.

    Precision 0.569, recall 0.572 dan F-measure 0.57.

    K=7

    254 diklasifikasikan sebagai A, 151 diklasifikasikan sebagai B, dan 203 diklasifikasikan sebagai C.

    Precision 0.581, recall 0.582 dan F-measure 0.582.

  • K=9

    258 diklasifikasikan sebagai A, 152 diklasifikasikan sebagai B, dan 208 diklasifikasikan sebagai C.

    Precision 0.589, recall 0.592 dan F-measure 0.59.

    K=11

    261 diklasifikasikan sebagai A, 156 diklasifikasikan sebagai B, dan 216 diklasifikasikan sebagai C.

    Precision 0.603, recall 0.606 dan F-measure 0.604.

    Jadi kesimpulan yang dapat saya ambil dari dataset Abalone dilihat dari F-Measure nya adalah nilai

    parameter No distance weighting merupakan nilai akurasi yang paling baik.