penentuan gen data microarray kanker payudara …

67
PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA MENGGUNAKAN METODE SUPPORT VECTOR MACHINE RECURSIVE FEATURE ELIMINATION SKRIPSI Oleh Heryanti Dewi Febriyaningtyas 11150940000025 PROGRAM STUDI MATEMATIKA FAKULTAS SAINS DAN TEKNOLOGI UIN SYARIF HIDAYATULLAH JAKARTA 2019 M / 1441 H

Upload: others

Post on 24-Oct-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA

MENGGUNAKAN METODE SUPPORT VECTOR MACHINE RECURSIVE

FEATURE ELIMINATION

SKRIPSI

Oleh

Heryanti Dewi Febriyaningtyas

11150940000025

PROGRAM STUDI MATEMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UIN SYARIF HIDAYATULLAH JAKARTA

2019 M / 1441 H

Page 2: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

i

PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA

MENGGUNAKAN METODE SUPPORT VECTOR MACHINE RECURSIVE

FEATURE ELIMINATION

Skripsi

Diajukan kepada

Universitas Islam Negeri Syarif Hidayatullah Jakarta

Fakultas Sains dan Teknologi

Untuk Memenuhi Salah Satu Persyaratan Dalam

Memperoleh Gelar Sarjana Matematika (S.Mat)

Oleh

Heryanti Dewi Febriyaningtyas

11150940000025

PROGRAM STUDI MATEMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UIN SYARIF HIDAYATULLAH JAKARTA

2019 M / 1441 H

Page 3: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

Scanned with CamScanner

Page 4: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

Scanned with CamScanner

Page 5: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

iv

PERSEMBAHAN DAN MOTTO

PERSEMBAHAN

MOTTO

“Sebaik-baik manusia adalah yang paling bermanfaat bagi manusia” (HR. Ahmad,

ath-Thabrani, ad-Daruqutni)

Page 6: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

v

KATA PENGANTAR

Puji beserta syukur penulis ucapkan kehadirat Allah Yang Maha Esa atas

segala rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi

yang berjudul “Penentuan Gen Data Microarray Kanker Payudara

menggunakan Metode Support Vector Machine Recursive Feature

Elimination”.

Skripsi ini merupakan persyaratan bagi penulis untuk bisa memperoleh gelar

sarjana. Dalam penulisan skripsi ini penulis memperoleh pembelajaran berharga

seperti kerja keras, pantang menyerah dalam mencapai tujuan, dan melatih

kesabaran.

Dalam penyusunan skripsi ini, penulis memperoleh banyak motivasi,

dukungan, inspirasi, bimbingan, do’a, serta saran dan kritikan dari berbagai pihak

sehingga skripsi ini dapat terselesaikan dengan baik. Oleh karena itu, penulis

ingin menyampaikan rasa terima kasih penulis kepada :

1. Ibu Prof. Dr. Lily Surayya Eka Putri, M.Env.Stud, selaku Dekan Fakultas

Sains dan Teknologi Universitas Islam Negeri Syarif Hidayatullah

Jakarta.

2. Ibu Dr. Suma’inna, M.Si, selaku Ketua Program Studi Matematika

Fakultas Sains dan Teknologi UIN Jakarta.

3. Ibu Irma Fauziah, M.Sc, selaku Sekretaris Program Studi Matematika

Fakultas Sains dan Teknologi UIN Jakarta yang telah membantu penulis

dalam mengurus administrasi.

4. Bapak Dr. Taufik Edy Sutanto, MscTech, sebagai pembimbing I yang

telah membantu, mengarahkan, mendukung, dan memberi motivasi

kepada penulis dalam menyelesaikan skripsi ini.

Page 7: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

vi

5. Bapak Muhammad Manaqib, M.Sc, sebagai pembimbing II yang telah

memberikan motivasi dan semangat kepada penulis dalam menyelesaikan

skripsi ini.

6. Ibu Dr. Nina Fitriyati, M.Kom, sebagai penguji I dan Bapak Muhaza

Liebenlito, M.Si, sebagai penguji II, terimakasih atas kritik dan saran

yang telah diberikan kepada penulis dalam menyelesaikan skripsi ini.

7. Bapak Irvan Septiar Musti, M.Si, terima kasih atas topik skripsi dan saran

yang telah diberikan kepada penulis.

8. Kedua orang tua penulis, Bapak Hermawan Yulianto, S.T dan Mama Jati

Widayanti, juga Nenek penulis, Mbah Sri Winarti, yang tidak pernah

berhenti berdo’a untuk kesuksesan penulis, memberikan kasih sayang,

semangat, serta dukungan sehingga penulis dapat menyelesaikan skripsi

ini dengan baik.

9. Adik-adik penulis, Mba Ghifa, Mas Gibran dan Dek Annizar, yang telah

memberikan do’a, dukungan dan semangat kepada penulis dalam

menyelesaikan skripsi ini.

10. Seluruh teman Matematika 2015, terutama Hamid dan Aldo yang telah

banyak membantu penulis dalam memahami program python dan

memberi banyak masukan dalam menyusun skripsi ini. Wina, teman

seperjuangan skripsi bioinformatika, teman diskusi yang selalu memberi

semangat kepada penulis. Dino, terimakasih telah membantu penulisan

dalam menyusun skripsi ini dan selalu memberi semangat kepada penulis.

Khusnul, Fitria, Shinta, Ayu, Auli, Intan, Vika dan Tanjung yang telah

memotivasi penulis.

11. Kak Nadya, terimakasih telah membantu penulis memahami python dan

bioinformatika terutama mengenai analisis data microarray ini. Kak Ika,

terima kasih atas motivasi dan bantuan selama perkuliahan. Putri, terima

kasih telah memberikan semangat dan bantuan dalam menyusun skripsi

ini. Ahyar, terima kasih telah memberikan bantuan fasilitas kepada

penulis sehingga skripsi ini terselesaikan dengan baik.

Page 8: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

vii

12. Ilsyar Ridwan dan Astri, terima kasih telah memberikan warna kehidupan

kepada penulis selama perkuliahan.

13. Seluruh pihak yang telah membantu penulis dalam menyelesaikan skripsi

ini yang tidak bisa penulis sebutkan satu-persatu tanpa mengurangi rasa

hormat.

Penulis menyadari bahwa dalam penyusunan skripsi ini masih terdapat

banyak kekurangan. Penulis mengharapkan kritik dan saran yang membangun dari

pembaca untuk perbaikan di masa yang akan datang. Terakhir, semoga skripsi ini

bermanfaat bagi penulis dan pembaca sekalian.

Ciputat, September 2019

Penulis

Page 9: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

Scanned with CamScanner

Page 10: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

ix

ABSTRAK

Heryanti Dewi Febriyaningtyas, Penentuan Gen Data Microarray Kanker

Payudara menggunakan Metode Support Vector Machines-Recursive Feature

Elimination (SVM-RFE), di bawah bimbingan Dr. Taufik Edy Sutanto,

MScTech dan Muhammad Manaqib, M.Sc.

Kanker payudara adalah salah satu penyakit kanker mematikan di dunia.

Diagnosa dini penyakit kanker payudara diperlukan agar penyakit kanker dapat

ditangani dengan baik. Penelitian ini menggunakan data microarray untuk

mendiagnosa penyakit kanker payudara. Sebelum proses analisa data dilakukan

normalisasi data menggunakan min-max normalization. Data microarray kanker

payudara yang digunakan memiliki 22283 fitur. Fitur tersebut terdiri dari gen-gen

yang terdapat dalam tubuh manusia. Semua fitur memungkinkan tidak memberi

pengaruh signifikan terhadap data sehingga perlu dilakukan proses seleksi fitur.

Proses seleksi fitur menggunakan metode Support Vector Machine-Recursive

Elimination (SVM-RFE) dan digunakan sebagai masukan untuk membangun

sebuah model menggunakan metode Support Vector Machine (SVM). Dalam

penelitian ini juga membandingkan evaluasi hasil klasifikasi kanker payudara

menggunakan semua fitur dan menggunakan fitur yang telah terseleksi.

Kompleksitas algoritma SVM-RFE adalah 𝑂(𝐹(𝑁3)). Hasil dari penelitian ini

menunjukkan bahwa klasifikasi kanker payudara menggunakan semua fitur

menghasilkan akurasi sebesar 87.2% tetapi dengan adanya proses seleksi fitur

sebelum membangun model, dengan menggunakan 128 fitur terseleksi akurasi

yang dihasilkan lebih tinggi mencapai 90.6%.

Kata Kunci : Data Microarray, Gen Kanker Payudara, Seleksi Fitur, Support

Vector Machine Recursive Feature Elimination (SVM-RFE).

Page 11: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

x

ABSTRACT

Heryanti Dewi Febriyaningtyas, Determination of Breast Cancer Microarray

Data Gene Using Support Vector Machines Recursive Feature Elimination

Method. Supervised by Dr. Taufik Edy Sutanto, MScTech and Muhammad

Manaqib, M.Sc.

Breast cancer is one of the deadliest cancers in the world. Early diagnosis of

breast cancer is needed so that cancer can be treated properly. This study uses

microarrays data to diagnose breast cancer. Before the process of data analysis,

the data is normalized by using min-max normalization. The breast cancer

microarrays data used has 22283 features. This feature consists of genes contained

in the human body. All possible features do not have a significant influence on the

data so a selection process is needed. The feature selection process uses the

Support Vector Machine-Recursive Elimination (SVM-RFE) method and is used

as input to build a model using the Support Vector Machine (SVM) method. In

this study also compared the evaluation of breast cancer classification results

using all features and using features that have been selected. The complexity of

algorithm is 𝑂(𝐹(𝑁3)). The results of this study indicate that the classification of

breast cancer using all features produces an accuracy of 87.2% but with the

feature selection process before building the model, by using 128 selected features

the resulting accuracy is higher at 90.6%.

Keywords : Microarray Data, Breast Cancer Gene, Feature Selection, Support

Vector Machine Recursive Feature Elimination (SVM-RFE).

Page 12: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

xi

DAFTAR ISI

PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA

MENGGUNAKAN METODE SUPPORT VECTOR MACHINE RECURSIVE

FEATURE ELIMINATION ................................................................................ i

PERNYATAAN ................................................................................................. ii

LEMBAR PENGESAHAN ...............................................................................iii

LEMBAR PERNYATAAN PERSETUJUAN................................................ viii

ABSTRAK ......................................................................................................... ix

ABSTRACT ....................................................................................................... x

DAFTAR ISI ..................................................................................................... xi

DAFTAR TABEL ........................................................................................... xiii

DAFTAR GAMBAR ....................................................................................... xiv

DAFTAR SIMBOL .......................................................................................... xv

BAB I PENDAHULUAN ................................................................................... 1

1.1. Latar Belakang .......................................................................................... 1

1.2. Rumusan Masalah ..................................................................................... 3

1.3. Batasan Masalah ........................................................................................ 4

1.4. Tujuan Penelitian ....................................................................................... 4

1.5. Manfaat Penelitian ..................................................................................... 4

BAB II LANDASAN TEORI ............................................................................. 5

2.1. Kanker Payudara ....................................................................................... 5

2.2. Data Microarray ........................................................................................ 6

2.3. Normalisasi Data ....................................................................................... 7

2.4. Curse of Dimensionality ............................................................................ 8

2.5. Seleksi Fitur .............................................................................................. 9

2.6. Klasifikasi ............................................................................................... 11

2.7. Norm dan Dot Product ............................................................................. 12

2.8. Teori Pengali Lagrange dan Kondisi Karush-Kuhn-Tucker (KKT) ........... 13

2.9. Leave One Out Cross Validation.............................................................. 13

2.10.Evaluasi Model ....................................................................................... 14

Page 13: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

xii

BAB III METODOLOGI PENELITIAN ....................................................... 16

3.1. SVM ........................................................................................................ 16

3.2. SVM-RFE ............................................................................................... 21

3.3. Alur Penelitian......................................................................................... 24

BAB IV HASIL DAN PEMBAHASAN........................................................... 25

4.1. Deskripsi Data ......................................................................................... 25

4.2. Hasil Normalisasi Data ............................................................................ 26

4.3. Analisa Numerik SVM dan SVM-RFE .................................................... 28

4.4. Hasil SVM tanpa Seleksi Fitur ................................................................. 32

4.5. Hasil Seleksi Fitur menggunakan SVM-RFE ........................................... 33

BAB V KESIMPULAN DAN SARAN ............................................................ 38

5.1. Kesimpulan ............................................................................................. 38

5.2. Saran ....................................................................................................... 38

REFERENSI .................................................................................................... 40

LAMPIRAN ..................................................................................................... 43

Page 14: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

xiii

DAFTAR TABEL

Tabel 2.1. Confusion Matrix............................................................................... 14

Tabel 4.1. Data Microarray Kanker Payudara. ................................................... 25

Tabel 4.2. Statistika Deskriptif Data Microarray Kanker Payudara. ................... 26

Tabel 4.3. Hasil Normalisasi Data Microarray Kanker Payudara. ...................... 27

Tabel 4.4. Statistika Deskriptif Data Microarray Kanker Payudara yang telah

dinormalisasi. ..................................................................................... 27

Tabel 4.5. Contoh Data Manual Metode SVM-RFE. .......................................... 30

Tabel 4.6. Confusion Matrix Model SVM tanpa Seleksi Fitur. ........................... 33

Tabel 4.7. Confusion Matrix Model SVM dengan Seleksi Fitur menggunakan

SVM-RFE. ......................................................................................... 34

Tabel 4.8. Rangkuman Rata-Rata Akurasi SVM-RFE. ....................................... 34

Tabel 4.9. Deskripsi 5 Fitur dari 128 Fitur yang terseleksi. ................................. 37

Page 15: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

xiv

DAFTAR GAMBAR

Gambar 2.1. Microarray Experiment.................................................................... 7

Gambar 2.2. Metode Filter ................................................................................. 10

Gambar 2.3. Metode Wrapper ............................................................................ 10

Gambar 2.4. Metode Embedded. ........................................................................ 11

Gambar 2.5. Leave One Out Cross Validation. ................................................... 14

Gambar 3.1. Contoh Hyperplane Dua Dimensi. ................................................. 17

Gambar 3.2. Flowchart Algoritma SVM-RFE. ................................................... 23

Gambar 3.3. Alur Penelitian. .............................................................................. 24

Gambar 4.1. Grafik Nilai Akurasi dari SVM-RFE pada fitur terseleksi. ............. 35

Gambar 4.2. Skor Feature Importance. .............................................................. 35

Page 16: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

xv

DAFTAR SIMBOL

𝒙 : Data input

𝒙𝒊 : Vektor baris fitur ke-𝑖

𝑦𝑖 : Label kelas dari 𝑥𝑖

𝒘 : Vektor parameter bobot

𝑏 : bias

d : Jarak antar setiap data ke hyperplane

𝐿𝑝 : Fungsi lagrange (primal problem)

𝐿𝐷 : Fungsi lagrange (dual problem)

𝛼 : Nilai dari koefisien lagrange

S : Himpunan indeks support vector

𝑁𝑆 : Jumlah support vector

𝑐 : Nilai peringkat data

𝑿𝟎 : Vektor data latih

𝐹 : Fitur data

𝑓 : Fitur indeks dari peringkat terkecil data

𝑅 : Himpunan peringkat fitur

𝑣′ : Nilai hasil normalisasi data

𝑣 : Nilai awal data sebelum dinormalisasi

𝑚𝑖𝑛𝑎 : Nilai minimum data pada variabel ke-𝑎

𝑚𝑎𝑥𝑎 : Nilai maksimum data pada variabel ke-𝑎

𝑛𝑚𝑎𝑥𝑎: rentang nilai maksimum pada variabel ke-𝑎

𝑛𝑚𝑖𝑛𝑎: rentang nilai minimum pada variabel ke-𝑎

Page 17: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

1

BAB I

PENDAHULUAN

Bab ini menjelaskan tentang gambaran gambaran umum pelaksanaan

penelitian yang mencangkup latar belakang, rumusan masalah, batasan masalah,

tujuan penelitian dan manfaat penelitian.

1.1. Latar Belakang

Manusia diciptakan oleh Allah Subhanallahu wa Ta’ala dengan anggota

tubuh yang sempurna. Seperti firman Allah Subhanallahu wa Ta’ala dalam kitab

suci Al-Qur’an, surat At-tin ayat 4, yaitu :

نسان فى احسن تقو يم لقد خلقنا ال

“Sesungguhnya Kami telah menciptakan manusia dalam bentuk yang sebaik-

baiknya.”

Tubuh manusia terdiri dari jaringan yang merupakan kumpulan dari sel. Sel-

sel jaringan tubuh manusia tumbuh dengan cepat. Jika pertumbuhan sel-sel

jaringan tubuh manusia tidak normal maka akan mengakibatkan penyakit, salah

satunya yaitu penyakit kanker. Sel-sel kanker akan berkembang dengan cepat,

terus membelah diri dan tidak terkendali, hingga masuk ke jaringan sekitarnya dan

menyerang organ penting. Berdasarkan data Global Burden Cancer

(GLOBOCAN), beban penyakit kanker di dunia meningkat, yaitu terdapat 18,1

juta kasus baru yang didiagnosis kanker dengan angka kematian sebesar 9,6 juta

kematian di tahun 2018. Pada tahun 2030, diperkirakan angka kejadian kanker

meningkat menjadi 21,7 juta penderita. Menurut Kementrian Kesehatan Republik

Indonesia, Penyakit kanker terbanyak di Indonesia adalah kanker serviks dan

kanker payudara pada perempuan, dan kanker paru-paru pada laki-laki [1].

Kanker payudara umumnya terjadi pada wanita, tetapi bisa juga terjadi pada

pria. Saat ini penyebab kanker payudara belum diketahui secara pasti. Gejala awal

pada kanker payudara tidak disadari sehingga banyak penderita yang menyadari

saat kanker tersebut sudah memasuki stadium lanjut. Akibat dari terlambatnya

penanganan penderita kanker payudara sangat fatal dan menyebabkan kematian,

Page 18: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

2

sehingga perlu dilakukan diagnosa kanker sejak dini agar penyakit kanker

payudara dapat ditangani dengan baik.

Beberapa penelitian telah dikembangkan untuk membantu diagnosa kanker.

Salah satu penelitian dalam bioinformatika menggunakan data microarray.

Microarray adalah teknologi yang mampu menyimpan ribuan ekspresi gen yang

diambil dari beberapa sel sekaligus dalam suatu percobaan. Informasi yang

diperoleh dari microarray dapat digunakan untuk diagnosa kanker. Data

microarray mengekspresikan gen-gen yang terdapat dibagian tubuh tertentu

secara numerik. Mengolah data microarray dengan fitur yang banyak sangat sulit

dilakukan dengan cara konvensional, maka diperlukan suatu metode machine

learning untuk mempermudah analisis [2].

Salah satu pemasalahan dalam machine learning dalam diagnosa kanker

menggunakan data microarray adalah permasalahan klasifikasi. Klasifikasi yang

dimaksud adalah mendiagnosa apakah pasien terkena kanker atau tidak melalui

pola ekspresi gen dari sejumlah pasien yang telah diketahui mengidap kanker dari

data microarray. Terdapat berbagai macam metode klasifikasi pada machine

learning. Beberapa metode klasifikasi yang telah digunakan dalam penelitian

untuk diagnosa kanker diantaranya Random Forest [3], Hierarchical Naïve Bayes

[4], Neural Network [5], dan Support Vector Machines [6].

Pada umumnya, data microarray adalah data yang memiliki dimensi besar

(high dimensional data), dimana data microarray memiliki banyak fitur berjumlah

ratusan hingga puluhan ribu fitur, sehingga memungkinkan bahwa tidak semua

fitur gen memberikan pengaruh yang signifikan terhadap data. Fitur yang tidak

memberikan pengaruh signifikan dapat menurunkan kinerja machine learning

dalam mengklasifikasi. Untuk menyelesaikannya dengan cara seleksi fitur untuk

melihat gen mana saja yang sangat berperan dalam diagnosa kanker. Sehingga

sebelum proses klasifikasi dilakukan seleksi fitur terlebih dahulu.

Pada tahun 2017, Zhong [7] membandingkan beberapa seleksi fitur dengan

SVM sebagai metode klasifikasi. Data yang digunakan beberapa dataset kanker.

Pada penelitiannya, SVM-RFE memberikan hasil akurasi tinggi mencapai 94.1%.

Zifa [8] mengatakan dalam penelitiannya mengenai seleksi fitur dan klasifikasi

Page 19: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

3

data microarray bahwa SVM-RFE merupakan salah satu metode seleksi fitur

terbaik.

Pada penelitian ini dilakukan dua proses dimana proses pertama dilakukan

klasifikasi data microarray tanpa seleksi fitur menggunakan metode SVM dan

proses kedua dilakukan seleksi fitur terlebih dahulu sebelum proses klasifikasi.

Metode pemilihan fitur yang digunakan pada penelitian ini adalah metode SVM-

RFE dan SVM sebagai metode klasifikasinya dengan tujuan mengetahui

bagaimana kinerjanya dalam mengklasifikasi seseorang terkena kanker. SVM-

RFE pertama kali dikenalkan oleh Guyon [9] pada tahun 2002. Prinsip kerja

SVM-RFE adalah menghilangkan fitur yang memiliki nilai kuadrat bobot SVM

paling rendah pada setiap iterasinya. Hasil yang diperoleh adalah urutan fitur yang

memiliki pengaruh signifikan hingga fitur yang tidak memiliki pengaruh

signifikan terhadap data. Dari urutan-urutan tersebut dapat dipilih sejumlah fitur

terbaik. Jumlah fitur terpilih yang digunakan dalam penelitian ini adalah 2𝑛

dimana 𝑛 = 1, 2, 3,… , 14. Pemilihan jumlah fitur terpilih tersebut berdasarkan

penelitian yang telah dilakukan oleh Guyon, sehingga dapat dilihat bagaimana

hasil akurasi yang diperoleh jika menggunakan jumlah sedikit dari fitur, setengah

dari fitur, atau seluruh fitur dari nilai akurasi.

1.2. Rumusan Masalah

Adapun rumusan masalah berdasarkan latar belakang di atas, yaitu:

1. Bagaimana kemampuan atau kinerja SVM dalam mengklasifikasikan

seseorang terkena kanker payudara dari nilai akurasi menggunakan semua

fitur?

2. Bagaimana kemampuan atau kinerja SVM dalam mengklasifikasikan

seseorang terkena kanker payudara dari nilai akurasi menggunakan fitur

yang telah terseleksi dari metode SVM-RFE?

3. Bagaimana perbandingan ketepatan klasifikasi seseorang terkena kanker

payudara menggunakan metode SVM dan SVM-RFE?

Page 20: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

4

1.3. Batasan Masalah

Batasan masalah dari penelitian ini, yaitu :

1. Data yang digunakan adalah data microarray kanker payudara.

2. Jumlah seleksi fitur yang digunakan adalah 2, 4, 8, 16, 32, 64, 128, 256,

512, 1024, 2048, 4096, 8192, dan 16384.

1.4. Tujuan Penelitian

Tujuan penelitian dari skripsi ini, yaitu :

1. Mengetahui kemampuan atau kinerja SVM dalam mengklasifikasikan

seseorang terkena kanker payudara dari nilai akurasi menggunakan semua

fitur.

2. Mengetahui kemampuan atau kinerja SVM dalam mengklasifikasikan

seseorang terkena kanker payudara dari nilai akurasi menggunakan fitur

yang telah terseleksi dari metode SVM-RFE.

3. Mengetahui perbandingan ketepatan klasifikasi seseorang terkena kanker

payudara menggunakan metode SVM dan SVM-RFE.

1.5. Manfaat Penelitian

Manfaat dari penelitian ini, yaitu:

1. Secara umum dapat membantu menyelesaikan permasalahan klasfikasi

high dimensional data berupa data microarray kanker payudara.

2. Secara khusus mendapatkan hasil klasifikasi menggunakan metode SVM

menggunakan seleksi fitur SVM-RFE yang dapat digunakan untuk

mendeteksi kanker payudara sejak dini di Indonesia.

Page 21: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

5

BAB II

LANDASAN TEORI

Bab ini menjelaskan definisi dan teori-teori yang digunakan sebagai landasan

pelaksanaan penelitian yaitu penjelasan tentang kanker payudara, data

microarray, normalisasi data, seleksi fitur, klasifikasi, norm dan dot product, teori

pengali lagrange dan Karush-Kuhn-Tucker (KKT), leave one out cross validation,

dan evaluasi model. Teori-teori tersebut dijelaskan secara berurutan pada bab ini.

2.1. Kanker Payudara

Kanker adalah penyakit mematikan di dunia, penyebabnya terdapat

sekelompok sel yang tumbuh tidak normal dan berkembang pada bagian tubuh

yang normal. Sel kanker yang tumbuh membentuk benjolan disebut tumor.

Sedangkan tumor yang bersifat ganas disebut kanker. Kanker yang tumbuh pada

payudara disebut kanker payudara. Kanker payudara bisa mulai tumbuh di

jaringan payudara yang berisi kelenjar untuk produksi susu (lobulus), saluran

duktus yang menghubungkan lobulus ke puting, jaringan lemak dan jaringan ikat

pada payudara [10]. Kanker payudara merupakan salah satu jenis kanker yang

mempunyai prevalensi cukup tinggi. Kanker payudara dapat terjadi pada pria dan

wanita, hanya saja prevalensi pada wanita jauh lebih tinggi.

Berdasarkan karakteristiknya, kanker payudara dikelompokkan menjadi dua,

yaitu invasive carcinoma dan in situ carcinoma [10]. Invasive carcinoma yaitu sel

abnormal yang tumbuh baik didalam duktus atau lobulus dan mampu menyebar

ke jaringan sekitarnya. Sedangkan in situ carcinoma yaitu sel abnormal yang

tumbuh baik di dalam duktus atau lobulus dan tidak menyebar ke jaringan

sekitarnya.

Kanker payudara sering terjadi pada pria berusia lebih dari 50 tahun dan

wanita berusia lebih dari 40 tahun. Beberapa orang tidak memiliki gejala kanker

selama rontgen payudara atau pemeriksaan fisik oleh dokter. Namun sebagian

besar kanker ditandai dengan benjolan di payudara, perubahan bentuk atau ukuran

Page 22: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

6

pada payudara, perubahan pada puting seperti perubahan bentuk, pengerasan kulit,

luka, kemerahan, keluarnya cairan bening atau berdarah, perubahan pada kulit

payudara, pembengkakan pada ketiak, dan nyeri yang tidak biasa di satu payudara

[11].

2.2. Data Microarray

Microarray adalah teknologi yang mampu menyimpan ribuan ekspresi gen

yang diambil dalam beberapa sel sekaligus dalam suatu percobaan. Dalam bidang

penelitian seperti bioinformatik, biostatistik, kedokteran dan penelitian bidang

kesehatan lainnya, analisis ekspresi gen diperlukan dan sangat penting. Data

microarray digunakan untuk mengumpulkan informasi dari sampel jaringan dan

sel mengenai perbedaan ekspresi gen yang dapat berguna untuk diagnosis

penyakit atau prognosis penyakit. Untuk memperoleh data microarray dapat

dilakukan microarray experiment dengan langkah-langkah sebagai berikut [12]:

1. Mendapatkan dua sampel mRNA dari jaringan pada sampel dalam dua

kondisi yang berbeda. Misalkan pada kasus kanker, sampel sel diamati

dari sel pasien yang terkena kanker dan sel pasien normal.

2. Mengkonversi mRNA menjadi cDNA menggunakan enzim reverse

transciptase.

3. Dua sampel diberi label menggunakan dua pewarna fluourescent yang

berbeda. Warna merah untuk sel kanker dan warna hijau untuk sel normal.

4. Sampel mengalami hibridisasi, yaitu cDNA saling mengikat terhadap

DNA.

5. Microarray disinari laser dan hasil warna setiap spot diukur.

6. Terdapat 4 reaksi spot warna, yaitu spot yang bersinar merah terang adalah

gen yang sangat diekspresikan dalam sel kanker, sedangkan titik yang

bersinar hijau terang adalah gen yang sangat diekspresikan dalam sel

normal. Jika gen yang diekspresikan pada kedua sampel (kanker dan

normal) maka warna yang dihasilkan adalah kuning terang, dan gen yang

tidak mengekspresikan kedua sampel (kanker dan normal) maka warna

yang dihasilkan adalah hitam.

Page 23: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

7

Gambar 2.1. Microarray Experiment [12].

Pada gambar 2.1 terlihat dalam proses microarray experiment diperoleh

ribuan spot titik-titik yang memiliki warna berbeda. Untuk melakukan analisis

lebih lanjut titik-titik warna tersebut diinterpretasikan ke dalam bentuk nilai

angka. Langkah analisis yang dilakukan dengan mengkonversi setiap spot ke

dalam bentuk angka berdasarkan perbandingan rasio intensitas warna merah

dengan warna hijau [12].

𝑅𝑎𝑠𝑖𝑜 =𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑎𝑠 𝑤𝑎𝑟𝑛𝑎 𝑚𝑒𝑟𝑎ℎ

𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑎𝑠 𝑤𝑎𝑟𝑛𝑎 ℎ𝑖𝑗𝑎𝑢

Apabila nilai rasio lebih dari satu, mengindikasikan bahwa gen tersebut

tersimulasi untuk memproduksi lebih banyak mRNA akibat sel kanker, tetapi

apabila nilai rasio kurang dari satu, mengindikasikan bahwa gen tersebut

tersimulasi untuk memproduksi lebih sedikit mRNA akibat sel kanker dan apabila

nilai rasio sama dengan satu maka tidak ada pengaruh yang terjadi [12].

2.3. Normalisasi Data

Data mentah yang diperoleh perlu dilakukan preprocessing data terlebih

dahulu sebelum dianalisis lebih lanjut. Salah satu cara preprocessing data adalah

transformasi data. Transformasi data adalah mengubah data lama mejadi data baru

dengan menggunakan metode tertentu sehingga lebih efisien dalam menganalisis

Page 24: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

8

data dan pola yang diperoleh mudah dipahami [13]. Ada beberapa cara dalam

mentransformasi data. Dalam penelitian ini, transformasi data dilakukan dengan

normalisasi data menggunakan metode Min-Max Normalization. Normalisasi data

bertujuan untuk menghindari fitur yang memiliki nilai lebih besar mendominasi

fitur yang memiliki nilai lebih kecil. Nilai yang dihasilkan setelah ditransformasi

berada pada rentang (0,1). Normalisasi dengan metode Min-Max Normalization

dilakukan menggunakan persamaan berikut [13].

𝑣′ =𝑣−𝑚𝑖𝑛𝑎

𝑚𝑎𝑥𝑎−𝑚𝑖𝑛𝑎(𝑛𝑚𝑎𝑥𝑎 − 𝑛𝑚𝑖𝑛𝑎) + 𝑛𝑚𝑖𝑛𝑎 , (2.1)

dengan:

𝑣′ ∶ nilai hasil transformasi.

𝑣 ∶ nilai awal.

𝑚𝑖𝑛𝑎 ∶ nilai minimum pada variabel ke-𝑎.

𝑚𝑎𝑥𝑎 ∶ nilai maksimum pada variabel ke-𝑎.

𝑛𝑚𝑎𝑥𝑎: rentang nilai maksimum pada variabel ke-𝑎.

𝑛𝑚𝑖𝑛𝑎: rentang nilai minimum pada variabel ke-𝑎.

2.4. Curse of Dimensionality

Curse of dimensionality didefinisikan sebagai masalah yang dihadapi suatu

metode pattern recognition dalam mengestimasikan parameter dikarenakan

jumlah sampel data yang relatif sedikit dibandingkan dimensi data tersebut. Curse

of dimensionality biasanya terjadi pada algoritma machine learning berbasis jarak.

Algoritma kehilangan keefektifannya karena dimensi data meningkat. Jumlah

memori dan waktu lebih banyak diperlukan oleh algoritma untuk mempelajari

model, sehingga menyebabkan penurunan kinerja algoritma tersebut dan semakin

besar eror yang dihasilkan [14]. Curse of dimensionality sering terjadi dalam

pengaplikasian di bidang bioinformatika, karena biasanya data biologi yang

tersedia sangat terbatas dan penyediaannya memerlukan biaya mahal.

Berikut ini merupakan teorema mengenai curse of dimensionality pada

algoritma machine learning berbasis jarak [15].

Page 25: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

9

Teorema 2.4.1

Jika lim𝑑→∞

𝑣𝑎𝑟 (‖𝑋𝑑‖

𝐸‖𝑋𝑑‖) = 0, maka lim

𝑑→∞

𝐷𝑚𝑎𝑥𝑑 −𝐷𝑚𝑖𝑛𝑑𝐷𝑚𝑖𝑛𝑑

= 0.

Saat dimensi meningkat menuju takhingga maka 𝐷𝑚𝑖𝑛𝑑 akan cepat meningkat

dibandingkan 𝐷𝑚𝑎𝑥𝑑 − 𝐷𝑚𝑖𝑛𝑑. Hal ini mengakibatkan limitnya menuju nol,

sehingga akan semakin sulit mencari pola untuk memisahkan data. Pembuktian

teorema dapat dilihat pada jurnal curse of dimensionality [15].

2.5. Seleksi Fitur

Proses analisis data microarray terdapat fitur yang sangat banyak tetapi

seringkali data yang tersedia sedikit. Fitur yang sangat banyak tersebut disebut

high dimensional data. Data dengan dimensi yang besar membawa beberapa

masalah pada pembelajaran mesin. Masalah tersebut diantaranya model

pembelajaran sulit untuk memiliki kinerja yang optimal pada data berdimensi

tinggi. Semakin banyak fitur yang digunakan maka semakin kompleks suatu

model pembelajaran mesin harus memodelkan permasalahan. Selain itu,

permasalahan high dimensional data juga menyebabkan mudah terjadi overfitting

dan juga sulit untuk diproses secara komputasi, baik dari segi memori maupun

waktu. Masalah-masalah high dimensional data dapat diselesaikan menggunakan

metode seleksi fitur. Metode seleksi fitur dapat membantu memilih fitur yang

informatif dan relevan. Berdasarkan tekniknya, seleksi fitur dibagi menjadi tiga,

yaitu filter, wrapper, dan embedded [16].

Metode filter adalah metode seleksi fitur yang tidak bergantung pada

algoritma machine learning, tetapi membutuhkan hitungan statistika untuk

meranking fitur [16]. Contoh metode filter antara lain Chi-squared test,

information gain, fast correlation-based filter (FCBF), dan spectral feature

selection [17]. Metode ini mengevaluasi secara bebas dari metode klasifikasi lalu

memberikan peringkat dan mengambil peringkat yang unggul. Metode filter

menggunakan kriteria penilaian yang tepat yang mencangkup jarak, informasi,

ketergantungan dan konsistensi. Metode ini dapat memproses dataset

Page 26: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

10

menghasilkan fitur yang relevan dengan sederhana dan cepat secara komputasi,

tetapi metode ini hanya mempertimbangkan fitur secara sendiri-sendiri tanpa

mempertimbangkan interaksi antar fitur, sehingga dapat menurunkan kemampuan

dalam mengklasifikasi suatu masalah. Gambar 2.2 mengilustrasikan metode filter.

Gambar 2.2. Metode Filter

Metode wrapper membutuhkan satu algoritma machine learning dan

mengevaluasi kinerjanya [16]. Contoh metode wrapper diantaranya forward

feature selection, backward feature selection dan genetic algorithm [17]. Metode

ini melakukan seleksi fitur bersamaan dengan membuat model. Metode ini

bekerja lebih baik daripada metode filter karena mengevaluasi semua

kemungkinan kombinasi fitur dan memilih kombinasi yang menghasilkan hasil

terbaik untuk algoritma machine learning. Fitur-fitur dipilih berdasarkan

kontribusinya terhadap akurasi klasifikasi. Namun metode ini membutuhkan

waktu komputasi yang lama dan juga mahal. Gambar 2.3 mengilustrasikan

metode filter.

Gambar 2.3. Metode Wrapper

Metode embedded adalah metode penggabungan metode filter dan metode

wrapper. Contoh metode embedded adalah decision tree, random forest, dan

support vector machine recursive feature elimination [17]. Metode embedded

menghilangkan fitur apabila algoritma machine learning menganggap fitur

Page 27: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

11

tersebut tidak berpengaruh. Metode embedded memiliki kecepatan komputasi

lebih cepat, sederhana dan tidak mudah overfitting berdasarkan algoritma machine

learning yang digunakan [16]. Gambar 2.3 mengilustrasikan metode filter.

Gambar 2.4. Metode Embedded.

2.6. Klasifikasi

Klasifikasi adalah proses pembagian data berdasarkan karakteristik atau kelas

tertentu. Tujuan klasifikasi adalah mencari model dari kumpulan data yang sudah

ditentukan labelnya berdasarkan karakteristik atau kelas data tersebut. Proses

klasifikasi data adalah melatih suatu data yang diklasifikasikan berdasarkan kelas

label yang ditentukan sehingga membentuk model dari hasil klasifikasi. Lalu

model tersebut diuji ke dalam data baru yang belum diketahui labelnya. Setelah

model diuji, dihitung akurasi model yang menjelaskan seberapa akurat data

tersebut terklasifikasi dengan baik [13].

Contoh dalam klasifikasi buah, misalkan buah pisang adalah buah yang

tumbuh di daerah tropis dengan ciri-ciri berbuah sepanjang tahun, memiliki rasa

manis, tekstur kulitnya halus. Buah salak adalah buah yang tumbuh di daerah

tropis dengan ciri-ciri berbuah sepanjang tahun, memiliki rasa manis-asam,

tekstur kulitnya kasar. Buah matoa adalah buah yang tumbuh di daerah tropis

dengan ciri-ciri berbuah dua kali dalam satu tahun, memiliki rasa manis, tekstur

kulitnya halus. Buah rambutan adalah buah yang tumbuh di daerah tropis dengan

ciri-ciri berbuah dua kali dalam satu tahun, memiliki rasa manis-asam, tekstur

kulitnya kasar. Dari contoh tersebut, terdapat perbedaan ciri-ciri buah meskipun

setiap buah memiliki label buah yang sama. Buah tersebut diklasifikasikan

berdasarkan ciri-ciri yang telah diketahui.

Page 28: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

12

Dalam machine learning, proses klasifikasi termasuk dalam supervised

learning. Supervised learning adalah proses pembelajaran label data dari suatu

data latih. Terdapat berbagai algoritma machine learning dalam proses klasifikasi,

diantaranya Support Vector Machine (SVM), K-Nearest Neighbors (KNN),

Random Forest, dan Naïve Bayes [13].

2.7. Norm dan Dot Product

Panjang dari sebuah vektor 𝒗 = [𝑣1, 𝑣2, … , 𝑣𝑛] pada ℝ𝑛, atau disebut juga

sebagai norm didefinisikan sebagai berikut [18]:

‖𝒗‖ = √𝑣12 + 𝑣22 + …+ 𝑣𝑛2 .

Jika 𝒖 = [𝑢1, 𝑢2, … , 𝑢𝑛] dan 𝒗 = 𝑣1, 𝑣2, … , 𝑣𝑛 merupakan vektor di ℝ𝑛,

maka dot product didefinisikan sebagai berikut [18]:

𝒖 ∙ 𝒗 = 𝑢1𝑣1 + 𝑢2𝑣2 +⋯+ 𝑢𝑛𝑣𝑛 .

Vektor 𝒖 = (𝑢1, 𝑢2, … , 𝑢𝑛) dan 𝒗 = (𝑣1, 𝑣2, … , 𝑣𝑛) pada ℝ𝑛 dapat

direpresentasikan ke dalam matriks berukuran 𝑛 × 1 sebagai berikut:

𝒖 = [

𝑢1𝑢2⋮𝑢𝑛

] dan 𝒗 = [

𝑣1𝑣2⋮𝑣𝑛

].

Dot product dari vektor 𝑢 dan 𝑣 dapat direpresentasikan sebagai perkalian

matriks transpose 𝑢 dengan matriks 𝑣 sebagai berikut:

𝒖 ∙ 𝒗 = 𝒖𝑻𝒗 = [𝑢1 𝑢2 ⋯ 𝑢𝑛] [

𝑣1𝑣2⋮𝑣𝑛

] = [𝑢1𝑣1 𝑢2𝑣2 ⋯ 𝑢𝑛𝑣𝑛].

Sifat-sifat dot product adalah sebagai berikut [18]:

Jika 𝒖, 𝒗 dan 𝒘 adalah vektor-vektor pada ruang berdimensi 2 atau

berdimensi 3 dan 𝑘 adalah skalar, maka:

1. 𝒖 ∙ 𝒗 = 𝒗 ∙ 𝒖.

2. 𝒖 ∙ (𝒗 + 𝒘) = 𝒖 ∙ 𝒗 + 𝒖 ∙ 𝒘.

3. 𝑘(𝒖 ∙ 𝒗) = (𝑘𝒖) ∙ 𝒗 = 𝒖 ∙ (𝑘𝒗).

4. 𝒗 ∙ 𝒗 > 0 jika 𝒗 ≠ 0, dan 𝒗 ∙ 𝒗 = 0 jika 𝒗 = 0.

Page 29: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

13

2.8. Teori Pengali Lagrange dan Kondisi Karush-Kuhn-Tucker (KKT)

Metode pengali lagrange dapat menyelesaikan masalah optimasi berkendala

dengan menentukan titik ekstrim dari fungsi yang dibatasi oleh suatu kondisi

(constrain conditions). Misalkan 𝑓(𝑥) adalah fungsi objektif dari permasalahan

optimisasi dengan kendala 𝑔(𝑥) = 𝑐, dimana 𝑐 adalah konstanta.

Fungsi lagrange dapat ditulis sebagai persamaan berikut:

𝐿(𝑥, 𝜆) = 𝑓(𝑥) − 𝜆(𝑔(𝑥) − 𝑐),

dimana 𝜆 adalah konstanta pengali lagrange [19].

Suatu kondisi optimal dari fungsi objektif akan terpenuhi jika memenuhi

kondisi:

𝜆 ≥ 0,

𝑔(𝑥) − 𝑐 ≥ 0,

𝜆(𝑔(𝑥) − 𝑐) = 0.

Kondisi tersebut yang dinamakan kondisi Karush-Kuhn-Tucker (KKT) [20].

2.9. Leave One Out Cross Validation

Leave One Out Cross Validation adalah teknik validasi model khusus dari k-

fold dimana k sama dengan banyak jumlah data [21]. Metode validasi ini biasa

digunakan untuk data yang sedikit seperti dalam bidang bioinformatika.

Penerapan metode ini dengan cara membagi 𝑘 = 𝑁, dimana 𝑁 adalah banyaknya

data. Dimana 𝑁 − 1 observasi digunakan menjadi data latih dan 1 observasi

digunakan menjadi data uji sehingga semua data berkesempatan untuk menjadi

data latih dan data uji. Prakiraan akurasi yang didapatkan dari metode validasi ini

hampir tidak bias tetapi memiliki varians yang sangat tinggi [21].

Page 30: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

14

Gambar 2.5. Leave One Out Cross Validation.

Gambar 2.5 mengilustrasikan penerapan Leave One Out Cross Validation,

dimana percobaan dilakukan sebanyak 𝑁 observasi dengan setiap observasi

terdapat 1 data uji dan sisanya menjadi data latih.

2.10.Evaluasi Model

Evaluasi model dilakukan untuk mengetahui seberapa baik model dalam

mengklasifikasi sebuah kelas. Data yang terklasifikasikan dengan benar atau salah

dapat dilihat menggunakan confusion matrix. Tabel confusion matrix dalam

mengklasifikasi dua kelas kanker dan normal adalah:

Tabel 2.1. Confusion Matrix

Kelas Sebenarnya Kelas Prediksi

Normal Kanker

Normal True Negative (TN) False Positive (FP)

Kanker False Negative (FN) True Positive (TP)

Pada tabel 2.1 terdapat empat istilah representasi hasil proses klasifikasi,

yaitu True Negative (TN), True Positive (TP), False Negative (FN) dan False

Positive (FP). True Negative (TN) adalah jumlah data uji kelas normal yang

didiagnosis dengan benar, sedangkan True Positive (TP) adalah jumlah data uji

kelas kanker yang didiagnosis dengan benar. Selanjutnya False Negative (FN)

Percobaan ke-1

Percobaan ke-2

Percobaan ke-3

Percobaan ke-4

Percobaan ke-5

Percobaan ke-N

Observasi 1 Observasi 2 Observasi 3 Observasi 4 Observasi 5 ⋯⋯⋯ Observasi N ⋯⋯⋯ ⋯⋯⋯

: Data Uji

: Data Latih

Page 31: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

15

adalah jumlah data uji kelas normal yang didiagnosis dengan salah dan False

Positive (FP) adalah jumlah data uji kelas kanker yang didoagnosis dengan salah.

Berdasarkan confusion matrix dapat dihasilkan nilai akurasi [22]. Nilai

akurasi digunakan untuk mengukur seberapa akurat dan tepat klasifikasi yang

diperoleh. Formula menghitung nilai akurasi adalah:

Akurasi = 𝑇𝑁+𝑇𝑃

𝑇𝑁+𝐹𝑃+𝑇𝑃+𝐹𝑁 (2.2)

Page 32: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

16

BAB III

METODOLOGI PENELITIAN

Bab ini menjelaskan metode-metode yang digunakan dalam penelitian secara

teori dan contoh penerapannya. Metode yang digunakan antara lain SVM sebagai

metode klasifikasi dan SVM-RFE sebagai metode seleksi fitur. Pada bab ini juga

akan dijelaskan bagaimana alur penelitian klasifikasi data microarray.

3.1. SVM

Pada tahun 1992, Vladimir Vapnik, Boser dan Guyon mengenalkan sebuah

metode pembelajaran untuk menganalisis data dan mengenal pola yang digunakan

untuk klasifikasi dan analisis regresi. Metode tersebut adalah SVM. Konsep dasar

SVM adalah mentransformasi data ke ruang yang berdimensi lebih tinggi dan

menemukan hyperplane terbaik [6]. Hyperplane adalah bidang datar penentu yang

memisahkan dua buah kelas di dimensi 𝑛. Untuk menemukan hyperplane terbaik

adalah dengan cara mengukur margin hyperplane tersebut. Margin adalah jarak

antara hyperplane dengan pattern terdekat dari masing-masing kelas. Pattern yang

paling dekat dengan hyperplane disebut support vector [23].

Misalkan data latih dinyatakan sebagai (𝒙𝒊, 𝑦𝑖) dimana 𝑖 = 1,2,… , 𝑛. 𝒙𝒊 =

[𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑗] adalah vektor baris dari fitur ke- 𝑖 di ruang dimensi ke- 𝑗 dan

𝑦𝑖 adalah label dari 𝒙𝒊 yang didefinisikan sebagai 𝑦𝑖 ∈ {+1,−1}. Diasumsikan

kedua kelas -1 dan +1 dapat dipisah secara linear oleh hyperplane. Pada gambar

3.1 hyperplane ditunjukkan dengan garis lurus berwarna merah. Data yang berada

di atas hyperplane adalah kelas +1 dan data yang berada di bawah hyperplane

adalah kelas -1.

Page 33: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

17

Gambar 3.1. Contoh Hyperplane Dua Dimensi [23].

Persamaan hyperplane didefinisikan sebagai berikut:

𝑓(𝑥) = 𝒘 ∙ 𝒙 + 𝑏, (3.1)

dimana:

𝒘 = parameter bobot,

𝒙 = vektor input,

𝑏 = bias.

Vektor 𝒘 memiliki arah tegak lurus dengan hyperplane. Jika nilai 𝑏 berubah

maka hyperplane akan berubah juga. Hyperplane terbaik adalah hyperplane yang

terletak di tengah-tengah antara dua set obyek dari dua kelas. Untuk itu, perlu

menemukan hyperplane terbaik dengan mendapatkan nilai margin terbesar.

Margin terbesar dapat ditemukan dengan memaksimalkan nilai jarak antara

hyperplane dan titik terdekatnya. Pattern yang memenuhi kelas -1 adalah pattern

yang memenuhi persamaan 𝒘 ∙ 𝒙𝒊 + 𝑏 = −1 dan pattern yang memenuhi kelas +1

adalah pattern yang memenuhi persamaan 𝒘 ∙ 𝒙𝒊 + 𝑏 = 1.

Support vektor direpresentasikan sebagai titik (𝑥, 𝑦). Hyperplane sebagai

berikut:

𝐴𝑥 + 𝐵𝑦 + 𝐶 = 0, (3.2)

dengan rumus jarak sebagai berikut:

d = |𝐴𝑥+𝐵𝑦+𝐶|

√𝐴2+𝐵2.

Persamaan (3.2) diubah dalam bentuk dot product pada vektor sehingga menjadi:

[𝐴 𝐵] [𝑥

𝑦] + 𝐶 = 0.

Page 34: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

18

Misalkan 𝒘 = [𝐴 𝐵] dan 𝒙 = [𝑥𝑦] dan b = C, maka diperoleh:

𝑑 =|𝐴𝑥 + 𝐵𝑦 + 𝐶|

√𝐴2 + 𝐵2=|𝒘 ∙ 𝒙 + 𝑏|

√𝒘2 + 𝐶2=|𝒘 ∙ 𝒙 + 𝑏|

√𝒘2=|𝒘 ∙ 𝒙 + 𝑏|

‖𝒘‖.

Nilai margin dapat dicari menggunakan nilai tengah antara jarak kedua kelas

sebagai berikut:

margin = 1

2(𝑑+ − 𝑑−)

= 1

2(|𝒘∙𝒙𝟏+𝑏|

‖𝒘‖−|𝒘∙𝒙𝟐+𝑏|

‖𝒘‖)

= 1

2(1

‖𝒘‖−(−1)

‖𝒘‖)

= 1

‖𝒘‖ , ‖𝒘‖ ≠ 0,

dimana:

𝑑+ : jarak antara hyperplane terhadap kelas +1,

𝑑− : jarak antara hyperplane terhadap kelas -1.

Setiap kelas harus ditambahkan batasan pada data dari masing-masing kelas

agar tidak masuk ke dalam margin, batasannya sebagai berikut:

𝒘 ∙ 𝒙𝒊 + 𝑏 ≤ −1, jika 𝑦 = −1,

𝒘 ∙ 𝒙𝒊 + 𝑏 ≥ +1, jika 𝑦 = +1,

atau dapat ditulis sebagai berikut:

𝑦𝑖(𝒘 ∙ 𝒙𝒊 + 𝑏) − 1 ≥ 0, ∀1 ≤ 𝑖 ≤ 𝑛, 𝑖 ∈ 𝑁.

Memaksimalkan nilai margin ekuivalen dengan meminimumkan ‖𝒘‖2. Maka

pencarian hyperplane terbaik dengan nilai margin terbesar dapat dirumuskan

menjadi masalah optimasi pemograman kuadratik sebagai berikut:

max margin = min 1

2 ‖𝒘‖2,

dengan kendala:

𝑦𝑖(𝒘 ∙ 𝒙𝒊 + 𝑏) − 1 ≥ 0, ∀1 ≤ 𝑖 ≤ 𝑛, 𝑖 ∈ 𝑁.

Masalah ini dapat diselesaikan dengan mengubah persamaan ke dalam fungsi

lagrange:

min 𝐿𝑝(𝒘, 𝑏, 𝛼) = 1

2 ‖𝒘‖2 −∑𝛼𝑖[𝑦𝑖(𝒘 ∙ 𝒙𝒊 + 𝑏) − 1]

𝑛

𝑖=1

,

dimana:

Page 35: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

19

𝐿𝑝: fungsi lagrange (primal problem),

𝛼𝑖 : nilai dari koefisien lagrange, 𝛼𝑖 ≥ 0 dengan 𝑖 = 1,2,… , 𝑛.

Fungsi 𝐿𝑝 diminimumkan terhadap 𝒘 dan 𝑏 dan dimaksimalkan terhadap 𝛼,

sehingga akan dicari turunan pertama dari fungsi 𝐿𝑝 terhadap 𝒘 dan 𝑏, maka

didapat:

1. Turunan pertama fungsi 𝐿𝑝 terhadap 𝒘

𝜕

𝜕𝒘𝐿𝑝(𝒘, 𝑏, 𝛼) = 0.

Maka akan didapatkan:

min 𝐿𝑝(𝒘, 𝑏, 𝛼) = 1

2 ‖𝒘‖2 −∑𝛼𝑖[𝑦𝑖(𝒘 ∙ 𝒙𝒊 + 𝑏)]

𝑛

𝑖=1

+∑𝛼𝑖

𝑛

𝑖=1

,

𝜕

𝜕𝒘𝐿𝑝(𝒘, 𝑏, 𝛼) = 𝒘−∑𝛼𝑖𝑦𝑖𝒙𝒊

𝑛

𝑖=1

⟺ 0 = 𝒘−∑𝛼𝑖𝑦𝑖𝒙𝒊

𝑛

𝑖=1

⟺ 𝒘 = ∑𝛼𝑖𝑦𝑖𝒙𝒊

𝑛

𝑖=1

. (3.3)

2. Turunan pertama fungsi 𝐿𝑝 terhadap 𝑏

𝜕

𝜕𝑏𝐿𝑝(𝒘, 𝑏, 𝛼) = 0.

Maka akan didapatkan:

min 𝐿𝑝(𝒘, 𝑏, 𝛼) = 1

2 ‖𝒘‖2 −∑𝛼𝑖[𝑦𝑖(𝒘 ∙ 𝒙𝒊 + 𝑏)]

𝑛

𝑖=1

+∑𝛼𝑖

𝑛

𝑖=1

,

𝜕

𝜕𝑏𝐿𝑝(𝒘, 𝑏, 𝛼) =∑𝛼𝑖𝑦𝑖𝒙𝒊

𝑛

𝑖=1

⟺ 0 =∑𝛼𝑖𝑦𝑖

𝑛

𝑖=1

.

Formula langrange 𝐿𝑝 (primal problem) diubah menjadi 𝐿𝐷 (dual problem).

Page 36: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

20

𝑚𝑎𝑘𝑠 𝐿𝐷(𝛼) =1

2( ∑𝛼𝑖𝑦𝑖𝒙𝒊

𝑛

𝑖=1

)(∑𝛼𝑖𝑦𝑖𝒙𝒊

𝑛

𝑖=1

) −∑𝛼𝑖𝑦𝑖

𝑛

𝑖=1

((∑𝛼𝑖𝑦𝑖𝒙𝒊

𝑛

𝑖=1

)𝒙𝒊 + 𝑏)

+𝛼𝑖

= ∑∑𝛼𝑖𝑦𝑖𝛼𝑗𝑦𝑗(𝒙𝒊 ∙ 𝒙𝒋)

𝑛

𝑗=1

𝑛

𝑖=1

−∑∑𝛼𝑖𝑦𝑖𝛼𝑗𝑦𝑗(𝒙𝒊 ∙ 𝒙𝒋)

𝑛

𝑗=1

𝑛

𝑖=1

− 𝑏

= ∑𝛼𝑖 −1

2∑∑𝛼𝑖𝑦𝑖𝛼𝑗𝑦𝑗(𝒙𝒊 ∙ 𝒙𝒋)

𝑛

𝑗=1

𝑛

𝑖=1

𝑛

𝑖=1

, (3.4)

dengan kendala,

∑𝛼𝑖𝑦𝑖 = 0, 𝛼𝑖 ≥ 0.

𝑛

𝑖=1

Nilai 𝛼𝑖 diperoleh dari hasil perhitungan substitusi kendala pada persamaan

(3.4). Nilai 𝛼𝑖 akan digunakan untuk menemukan nilai 𝒘. Setiap titik data selalu

terjadi 𝛼𝑖 = 0. Titik-titik data dimana 𝛼𝑖 = 0 tidak akan muncul dalam

perhitungan mencari nilai 𝒘 sehingga tidak berperan dalam memprediksi data

baru. Data lain dimana 𝛼𝑖 > 0 disebut support vector.

Dilakukan 𝑠𝑖𝑔𝑛{𝑓(𝑥)} untuk menguji data baru menggunakan model yang

sudah dilatih. Substitusikan persaman (3.3) ke persamaan (3.1) dan menggunakan

kernel linear 𝐾(𝒙𝒊, 𝒙𝒋) = 𝒙 ∙ 𝒙𝑻 sehingga diperoleh:

𝑓(𝑥) = ∑𝛼𝑖𝑦𝑖(𝒙𝒊𝑇 ∙ 𝒙)

𝑛

𝑖=1

+ 𝑏. (3.5)

Mensubstitusikan persamaan (3.5) ke dalam 𝑦𝑖𝑓(𝒙𝒊) = 1 diperoleh:

𝑦𝑖∑𝛼𝑚𝑦𝑚𝒙𝒎𝑇

𝑚𝜖𝑆

∙ 𝒙𝒊 + 𝑏 = 1,

dimana S adalah himpunan indeks support vector.

Nilai 𝑏 diperoleh sebagai berikut:

𝑦𝑖 (∑ 𝛼𝑚𝑦𝑚𝒙𝒎𝑇

𝑆

𝑖=𝑚

∙ 𝒙𝒊 + 𝑏) = 1

Page 37: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

21

⟺ 𝑦𝑖𝑦𝑖 (∑𝛼𝑚𝑦𝑚𝒙𝒎𝑇

𝑆

𝑖=𝑚

∙ 𝒙𝒊 + 𝑏) = 𝑦𝑖

⟺ (∑ 𝛼𝑚𝑦𝑚𝒙𝒎𝑇

𝑆

𝑖=𝑚

∙ 𝒙𝑖 + 𝑏) = 𝑦𝑖

⟺ 𝑏 = 𝑦𝑖 −∑ 𝛼𝑚𝑦𝑚𝒙𝒎𝑇

𝑆

𝑖=𝑚

∙ 𝒙𝒊

⟺ 𝑏 =1

𝑁𝑆∑(𝑦𝑖 −∑ 𝛼𝑚𝑦𝑚𝒙𝒎

𝑇

𝑆

𝑖=𝑚

∙ 𝒙𝒊)

𝑖∈𝑆

(3.6)

dimana 𝑁𝑆 adalah jumlah support vector.

3.2. SVM-RFE

Support Vector Machine-Recursive Feature Elimination atau biasa disebut

SVM-RFE adalah sebuah algoritma pemilihan fitur dan juga algoritma klasifikasi

yang diperkenalkan oleh Guyon [9]. Algoritma ini sangat efisien digunakan dalam

studi bioinformatika seperti analisis data microarray untuk menjauhkan dari

overfitting saat jumlah fitur tinggi mencapai puluhan ribu hingga ratusan ribu

[24].

Pada studi analisis data microarray, SVM-RFE bekerja dengan cara eliminasi

fitur yang berlebihan yang tidak mempunyai pengaruh terhadap suatu penyakit.

Tujuan eliminasi fitur yang dilakukan secara berulang adalah untuk mendapatkan

fitur gen dengan jumlah sedikit tetapi gen tersebut sangat berpengaruh terhadap

penyakit. Gen diranking untuk mengukur signifikansi gen yang akan

diklasifikasikan. Untuk menentukan nilai peringkat gen dengan menghitung

kuadrat bobot vektor 𝑤 dari SVM, dan nilai 𝑤 dihitung sebagai berikut [25]:

𝒘 = ∑ 𝛼𝑖𝑦𝑖𝒙𝒊𝑘𝑖=1 . (3.7)

Sehingga,

𝑐𝑖 = 𝒘𝒊2, 𝑖 = 1,2,… , 𝑛, (3.8)

dimana:

𝛼𝑖 = hasil klasifikasi SVM dari data latih,

𝑦𝑖 = kelas label,

Page 38: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

22

𝑥𝑖 = data latih.

Algoritma SVM-RFE akan dijelaskan sebagai berikut [9]:

Input:

Data latih: 𝑿𝟎 = [𝑥1, 𝑥2, 𝑥3, … , 𝑥𝑘, … , 𝑥𝑙]𝑇

Label kelas: 𝒚 = [𝑦1, 𝑦2, 𝑦3, … , 𝑦𝑘 , … , 𝑦𝑙]𝑇

Inisialisasi:

Fitur: 𝐹 = {1, 2, 3,… , 𝑛}

List peringkat fitur: 𝑅 = { }

Batasi fitur terhadap 𝐹: 𝑋 = 𝑋0(: , 𝐹)

While 𝐹 = ∅ do:

1. Latih SVM

𝛼 = SVM-train (𝑋, 𝑦).

2. Menghitung bobot vektor 𝒘 menggunakan rumus (3.7).

3. Menghitung nilai peringkat 𝑐𝑖 dengan rumus (3.8).

4. Mencari fitur dengan peringkat 𝑐𝑖 terkecil

𝑓 = 𝑎𝑟𝑔𝑚𝑖𝑛(𝑐).

5. Perbarui peringkat fitur

𝑅 = {𝐹(𝑓), 𝑅}.

6. Eliminasi fitur yang memiliki peringkat 𝑐𝑖 terkecil

𝐹 = 𝐹{1: 𝑓 − 1, 𝑓 + 1: 𝑙𝑒𝑛𝑔𝑡ℎ(𝒔)}.

End.

Output:

List peringkat fitur R.

Lebih jelasnya diberikan flowchart dari algoritma SVM-RFE tersebut pada

Gambar 3.2.

Page 39: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

23

Gambar 3.2. Flowchart Algoritma SVM-RFE.

Page 40: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

24

3.3. Alur Penelitian

Gambar 3.3. Alur Penelitian.

Page 41: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

25

BAB IV

HASIL DAN PEMBAHASAN

Bab ini menjelaskan deskripsi data yang digunakan dan hasil penelitian yang

telah dilakukan mulai dari preprocessing data hingga evaluasi model. Pada bab

ini dijelaskan berapa banyak fitur yang informatif dan relevan untuk mendiagnosa

seseorang terkena kanker payudara dan seberapa akurat model yang

didapatkannya.

4.1. Deskripsi Data

Data yang digunakan dalam penelitian ini adalah data sekunder yang

merupakan data microarray kanker payudara dari jurnal yang berjudul “Gene

expression patterns distinguish breast carcinomas from normal breast tissues:

The Malaysian context” pada tahun 2008. Data diambil dari National Center for

Biotechnology Information (NCBI) yang dapat diakses pada website

www.ncbi.nlm.nih.gov.

Tabel 4.1. Data Microarray Kanker Payudara.

Pengamatan

Ke-

Y 𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑

1 0 1881.8 78.0658 ⋯ 27.9838 130.756

2 1 2317.51 61.354 ⋯ 19.4840 35.2956

3 0 1553.86 80.0525 ⋯ 35.8309 85.5188

4 1 1915.57 79.8518 ⋯ 38.6235 65.0371

5 0 1240.13 104.9330 ⋯ 52.1979 84.5100

⋮ ⋮ ⋮ ⋮ ⋯ ⋮ ⋮ 82 1 2993.61 68.1142 ⋯ 61.3352 173.2770

83 0 1467.17 104.3090 ⋯ 44.8726 93.3868

84 1 5501.41 69.8169 ⋯ 186.7580 64.3201

85 0 2387.61 113.436 ⋯ 83.3411 114.7210

86 1 4809.98 189.753 ⋯ 51.9849 149.5330

Berdasarkan tabel 4.1 data dipresentasikan dalam suatu matriks. Jumlah fitur

yang digunakan untuk mengklasifikasikan seseorang terkena kanker payudara

sebanyak 22283 fitur. Fitur yang dimaksud adalah gen kanker payudara yang

Page 42: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

26

diteliti. Setiap fitur memiliki nilai yang disebut nilai ekspresi gen. Sedangkan

jumlah kelasnya sebanyak 2 kelas yaitu 1 dan 0. Dimana kelas 1 menunjukkan

seseorang terkena kanker dan kelas 0 menunjukkan seseorang tidak terkena

kanker.

Adapun hasil statistika deskriptif dari data microarray kanker payudara

adalah:

Tabel 4.2. Statistika Deskriptif Data Microarray Kanker Payudara.

Statistika

deskriptif

𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑

Jumlah

data

86 86 ⋯ 86 86

Rata-rata 2152.667721 98.103267 ⋯ 49.230853 91.758915

Standar

Deviasi

950.185378 48.672374 ⋯ 26.946304 52.220395

Min 786.355000 36.048100 ⋯ 16.739300 24.542500

Q1 1582.102500 67.434250 ⋯ 29.283875 53.522275

Q2 1979.39000 83.952650 ⋯ 44.713750 83.281850

Q3 2499.257500 123.283000 ⋯ 61.383275 114.109500

Max 5501.41000 371.654000 ⋯ 186.758000 289.005

4.2. Hasil Normalisasi Data

Pada tahapan ini, normalisasi data dilakukan menggunakan metode Min-Max

Normalization. Nilai hasil normalisasi terdapat pada range (0,1) dimana nilai

minimal yang diperoleh adalah 0 dan nilai maksimal yang diperoleh adalah 1

dengan tujuan data yang memiliki nilai besar ataupun kecil tidak mempengaruhi

hasil klasifikasi.

Contoh perhitungan nilai normalisasi data menggunakan persaman (2.1)

adalah sebagai berikut:

𝑋11 =1881.8 − 786.355000

5501.41000− 786.355000(1 − 0) + 0 = 0.232329,

𝑋12 =2317.51 − 786.355000

5501.41000 − 786.355000(1 − 0) + 0 = 0.324737,

𝑋21 =78.0658− 36.048100

371.654000 − 36.048100(1 − 0) + 0 = 0.1252,

Page 43: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

27

𝑋22 =61.354 − 36.048100

371.654000 − 36.048100(1 − 0) + 0 = 0.075404.

Menggunakan bantuan software python diperoleh hasil normalisasi seluruh

data sebagai berikut:

Tabel 4.3. Hasil Normalisasi Data Microarray Kanker Payudara.

Pengamatan

Ke-

Y 𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑

1 0 0.232329 0.125200 ⋯ 0.066137 0.401620

2 1 0.324737 0.075404 ⋯ 0.016144 0.040660

3 0 0.162778 0.131119 ⋯ 0.112291 0.230567

4 1 0.239491 0.130521 ⋯ 0.128716 0.153120

5 0 0.096240 0.205255 ⋯ 0.208557 0.226752

⋮ ⋮ ⋮ ⋮ ⋯ ⋮ ⋮

82 1 0.468129 0.095547 ⋯ 0.262300 0.562403

83 0 0.144392 0.203396 ⋯ 0.165472 0.260318

84 1 1.000000 0.100620 ⋯ 1.000000 0.150409

85 0 0.339605 0.230592 ⋯ 0.391732 0.340988

86 1 0.853357 0.457992 ⋯ 0.207304 0.472621

Berdasarkan hasil normalisasi, terlihat bahwa dengan menggunakan metode

min-max normalization data yang dihasilkan bernilai di range antara 0 sampai 1,

sehingga tidak ada nilai yang lebih besar atau lebih kecil yang mendominasi.

Hasil statistika deskriptif dari data yang telah dinormalisasi tertera pada tabel 4.4.

Tabel 4.4. Statistika Deskriptif Data Microarray Kanker Payudara yang telah

dinormalisasi.

Statistika

deskriptif

𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑

Jumlah data 86 86 ⋯ 86 86

Rata-rata 0.289777 0.184905 ⋯ 0.191106 0.254162

Standar Deviasi 0.201522 0.145028 ⋯ 0.158490 0.197459

Min 0.000000 0.000000 ⋯ 0.000000 0.000000

Q1 0.168767 0.093521 ⋯ 0.073784 0.109580

Q2 0.253027 0.142740 ⋯ 0.164537 0.222108

Q3 0.363284 0.259933 ⋯ 0.101320 0.338676

Max 1.000000 1.000000 ⋯ 1.000000 1.000000

Page 44: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

28

4.3. Analisa Numerik SVM dan SVM-RFE

Diberikan contoh data penerapan metode SVM linear:

Misalkan terdapat data (2,2) pada kelas +1 dan data (4,3) pada kelas -1. Dengan

menggunakan kedua kelas tersebut dibuat model yang memprediksi kelas (1,0).

Menggunakan persamaan (3.4) diperoleh:

𝐿𝐷(𝛼) =∑𝛼𝑖 −1

2∑∑𝛼𝑖𝑦𝑖𝛼𝑗𝑦𝑗(𝒙𝒊 ∙ 𝒙𝒋)

𝑛

𝑗=1

𝑛

𝑖=1

𝑛

𝑖=1

= ∑𝛼𝑖 −1

2∑∑𝛼𝑖𝑦𝑖𝛼𝑗𝑦𝑗(𝒙𝒊 ∙ 𝒙𝒋)

2

𝑗=1

2

𝑖=1

2

𝑖=1

= 𝛼1 + 𝛼2 −1

2(𝛼1𝛼1𝑦1𝑦1(𝒙𝟏 ∙ 𝒙𝟏) + 𝛼1𝛼2𝑦1𝑦2(𝒙𝟏 ∙ 𝒙𝟐)

+𝛼2𝛼1𝑦2𝑦1(𝒙𝟐 ∙ 𝒙𝟏) + 𝛼2𝛼2𝑦2𝑦2(𝒙𝟐 ∙ 𝒙𝟐)

= 𝛼1 + 𝛼2 −1

2(𝛼1

2(1)(1) (2

2) ∙ (

2

2) + 𝛼1𝛼2(1)(−1)(

2

2) ∙ (

4

3)

+𝛼2𝛼1(−1)(1)(43) ∙ (2

2) +𝛼2

2(−1)(−1)(43) ∙ (4

3)

= 𝛼1 + 𝛼2 −1

2(8𝛼1

2 − 14𝛼1𝛼2 − 14𝛼2𝛼1 + 25𝛼22)

= 𝛼1 + 𝛼2 − 4𝛼12 + 14𝛼1𝛼2 −

25

2𝛼2

2,

dengan ∑𝛼𝑖𝑦𝑖

2

𝑖=1

= 0

⟺ 𝛼1𝑦1 + 𝛼2𝑦2 = 0

⟺ 𝛼1(1) + 𝛼2(−1) = 0

⟺ 𝛼1 = 𝛼2.

Substitusi 𝛼1 = 𝛼2 ke persamaan 𝐿𝐷(𝛼) sehingga:

𝐿𝐷(𝛼) = 𝛼1 + 𝛼1 − 4𝛼12 + 14𝛼1𝛼1 −

25

2𝛼12

= 2𝛼1 − 4𝛼12 + 14𝛼1

2 −25

2𝛼12

= 2𝛼1 −5

2𝛼12.

Lalu 𝐿𝐷(𝛼) diturunkan terhadap 𝛼1 diperoleh:

𝜕𝐿

𝜕𝛼1𝐿𝐷(𝛼) = 0

Page 45: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

29

⟺𝜕𝐿

𝜕𝛼1(2𝛼1 −

5

2𝛼12) = 0

⟺ 2 − 5 𝛼1 = 0

⟺ 𝛼1 =2

5.

Karena 𝛼1 = 𝛼2 dan 𝛼1 =2

5 maka 𝛼2 =

2

5 sehingga menggunakan persamaan (3.3)

diperoleh nilai 𝑤 sebagai berikut:

𝒘 = ∑ 𝛼𝑖𝑦𝑖𝒙𝒊2𝑖=1 = 𝛼1𝑦1𝒙𝟏 + 𝛼2𝑦2𝒙𝟐 =

2

5(1)(2

2) +

2

5(−1)(4

3) = (

−4

5

−2

5

).

Mencari nilai 𝑏 menggunakan persamaan (3.6) sehingga diperoleh:

𝑏 = 1

2∑(𝑦𝑗 −∑𝛼𝑖𝑦𝑖(𝒙𝒊

𝑻 ∙ 𝒙𝒋)

2

𝑖=1

)

2

𝑗=1

=1

2∑(𝑦𝑗 − (𝛼1𝑦1(𝒙𝟏

𝑻 ∙ 𝒙𝒋) + 𝛼2𝑦2(𝒙𝟐𝑻 ∙ 𝒙𝒋)))

2

𝑗=1

=1

2(𝑦1 − (𝛼1𝑦1(𝒙𝟏

𝑻 ∙ 𝒙𝟏) + 𝛼2𝑦2(𝒙𝟐𝑻 ∙ 𝒙𝟏)) + 𝑦2 − (𝛼1𝑦1(𝒙𝟏

𝑻 ∙ 𝒙𝟐) +

𝛼2𝑦2(𝒙𝟐𝑻 ∙ 𝒙𝟐)))

=1

2(1 − (

2

5(1)(2 2) ∙ (2

2) +

2

5(−1)(4 3) ∙ (2

2)) + (−1) − (

2

5(1)(2 2) ∙ (4

3) +

2

5(−1)(4 3)(4

3)))

=17

5,

sehingga 𝑓(𝒙) = 𝒘 ∙ 𝒙 + 𝑏 = (−4

5 −

2

5) 𝒙 +

17

5,

maka 𝑠𝑖𝑔𝑛(𝑓(𝒙)) = 𝑠𝑖𝑔𝑛 ((−4

5 −

2

5) (1

0) +

17

5) = 𝑠𝑖𝑔𝑛 (

13

5) = +1,

dengan mengevaluasi tanda dari 𝑓(𝒙) diperoleh kelas dari (1,0) adalah +1.

Penerapan metode SVM-RFE menggunakan contoh data pada tabel 3.1.

Berdasarkan data terdapat 3 fitur, yaitu 𝑓1, 𝑓2, dan 𝑓3, dan 4 sampel data dengan 2

kelas berbeda.

Page 46: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

30

Tabel 4.5. Contoh Data Manual Metode SVM-RFE.

Sampel 𝒇𝟏 𝒇𝟐 𝒇𝟑 Kelas

𝑥1 4 3 6 1

𝑥2 2 1 3 1

𝑥3 5 7 4 -1

𝑥4 2 5 2 -1

𝑅 = { }

𝐹 = [𝑓1, 𝑓2, 𝑓3].

Akan dilakukan pemilihan fitur hingga menjadi 2 fitur menggunakan metode

SVM-RFE.

1. Hitung bobot vektor 𝒘

Menggunakan rumus (3.7) untuk memperoleh bobot vektor, SVM dilatih

terlebih dahulu. Pada contoh ini akan digunakan fungsi kernel linear sehingga

diperoleh matriks kernel 𝐾 sebagai berikut:

𝐾(𝒙𝒊, 𝒙𝒋) = 𝑿 ∙ 𝑿𝑻 = (

4 3 62 1 35 7 42 5 2

)(4 23 16 3

5 27 54 2

) = (

61 2929 1465 19

65 3529 1590 53

35 15 53 33

)

Maka diperoleh masalah dual lagrange menggunakan persamaan (3.3) sebagai

berikut:

𝐿𝐷(𝛼) =∑𝛼𝑖 −1

2∑∑𝛼𝑖𝑦𝑖𝛼𝑗𝑦𝑗𝐾(𝒙𝒊 ∙ 𝒙𝒋)

4

𝑗=1

4

𝑖=1

4

𝑖=1

= 𝛼1 + 𝛼2 + 𝛼3 + 𝛼4 −1

2(61𝛼1

2 + 29𝛼1𝛼2 − 65𝛼1𝛼3 − 35𝛼1𝛼4

+29𝛼2𝛼1 + 14𝛼22 − 29𝛼2𝛼3 − 15𝛼2𝛼4 − 65𝛼3𝛼1 − 29𝛼3𝛼2

+90𝛼32 + 53𝛼3𝛼4 − 35𝛼4𝛼1 − 15𝛼4𝛼2 + 53𝛼4𝛼3 + 33𝛼4

2

= 𝛼1 + 𝛼2 + 𝛼3 + 𝛼4 −1

2(61𝛼1

2 + 58𝛼1𝛼2 − 130𝛼1𝛼3 − 70𝛼1𝛼4

+14𝛼22 − 58𝛼2𝛼3 − 30𝛼2𝛼4 + 90𝛼3

2 + 106𝛼3𝛼4 + 33𝛼42

Page 47: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

31

= 𝛼1 + 𝛼2 + 𝛼3 + 𝛼4 −61

2𝛼12 − 29𝛼1𝛼2 + 65𝛼1𝛼3 + 35𝛼1𝛼4 − 7𝛼2

2

+29𝛼2𝛼3 + 15𝛼2𝛼4 − 45𝛼32 − 58𝛼3𝛼4 −

33

2𝛼42

Turunkan fungsi 𝐿𝐷(𝛼) terhadap 𝛼𝑖 dimana 𝑖 = 1,2,3,4.

𝜕𝐿

𝜕𝛼1= 0 ⟺ −61𝛼1 − 29𝛼2 + 65𝛼3 + 35𝛼4 = −1 (4.1)

𝜕𝐿

𝜕𝛼2= 0 ⟺ −29𝛼1 −

7

2𝛼2 + 29𝛼3 + 15𝛼4 = −1 (4.2)

𝜕𝐿

𝜕𝛼3= 0 ⟺ 65𝛼1 + 29𝛼2 −

45

2𝛼3 − 58𝛼4 = −1 (4.3)

𝜕𝐿

𝜕𝛼4= 0 ⟺ 35𝛼1 + 15𝛼2 − 58𝛼3 − 33𝛼4 = −1 (4.4)

Berdasarkan persamaan (4.1), (4.2), (4.3) dan (4.4) diperoleh:

(

−61 −29

−29 −7

265 29

65 3529 15

−45

2−58

35 15 −58 −33)

(

𝛼1𝛼2𝛼3𝛼4

) = (

−1−1−1−1

)

Solusi dari persamaan di atas adalah:

𝛼1 = 0,10436781

𝛼2 = −0,0313702

𝛼3 = 0,0059992

𝛼4 = 0,11619293

Fungsi yang dihasilkan adalah fungsi yang hanya dipengaruhi oleh support vector.

Support vector adalah data yang memiliki nilai 𝛼 > 0, maka nilai yang

berpengaruh adalah 𝛼1, 𝛼3, dan 𝛼4, sehingga diperoleh:

Page 48: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

32

𝒘 = 𝛼1𝑦1𝒙𝟏 + 𝛼3𝑦3𝒙𝟑 + 𝛼4𝑦4𝒙𝟒

= (0,10436781)(1)(436) + (0,0059992)(−1)(

574

) (0,11619293)(−1)(252)

= (0,15513538−0,309791220,369861

).

2. Menghitung nilai peringkat 𝑐𝑖

Menggunakan rumus (3.8), diperoleh nilai peringkat untuk fitur 𝑓𝑖 sebagai

berikut:

𝑐𝑖 = 𝑤𝑖2 = (

0,155135382

−0,309791222

0,3698612) = (

0,0240,0950,1367

).

3. Cari fitur dengan nilai 𝑐𝑖 terkecil

Berdasarkan hasil nilai 𝑐𝑖 pada proses kedua diperoleh peringkat terendah

yaitu 𝑓1.

4. Tambahkan fitur 𝑓1 ke dalam 𝑅

𝑅 = {𝑓1}

5. Eliminasi 𝑓1 dari 𝐹

𝐹 = {𝑓2, 𝑓3}

Didapatkan fitur yang tersisa 𝑆 = {𝑓2, 𝑓3}, lakukan kembali langkah 1-5

hingga 𝐹 = { }. Setelah semua fitur diurutkan berdasarkan nilai 𝑐𝑖 yang diperoleh,

maka didapatkan 𝑅 = {𝑓1 , 𝑓3, 𝑓2}. Dengan demikian fitur dengan peringkat

tertinggi adalah 𝑓2.

4.4. Hasil SVM tanpa Seleksi Fitur

Dalam proses ini, setelah menormalisasikan data dilakukan pembangunan

model menggunakan SVM. Dengan menggunakan leave one out cross validation,

data dibagi menjadi sebanyak data yaitu 86 bagian dimana setiap data

berkesempatan menjadi data uji. Hasil rata-rata evaluasi model dapat

diilustrasikan dalam bentuk confusion matrix sehingga menghasilkan nilai

Page 49: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

33

akurasi. Adapun hasil rata-rata evaluasi model menggunakan SVM tanpa seleksi

fitur adalah sebagai berikut.

Tabel 4.6. Confusion Matrix Model SVM tanpa Seleksi Fitur.

Kelas Sebenarnya Kelas Prediksi

Normal Kanker

Normal 37 6

Kanker 5 38

Berdasarkan hasil tabel confusion matrix diperoleh nilai akurasi dengan

menggunakan rumus (2.2) sebagai berikut:

Akurasi = 𝑇𝑁+𝑇𝑃

𝑇𝑁+𝐹𝑃+𝑇𝑃+𝐹𝑁=

37+38

37+6+38+5= 0.872.

Artinya sebesar 87.2% model dapat memprediksi masalah klasifikasi kanker

payudara dengan benar.

4.5. Hasil Seleksi Fitur menggunakan SVM-RFE

Dalam proses ini, setelah menormalisasikan data dilakukan proses seleksi

fitur menggunakan SVM-RFE sebelum membangun model menggunakan SVM.

Seleksi fitur dilakukan setelah membagi data menjadi data latih dan data uji,

seluruh data berkesempatan menjadi data latih dan data uji dimana metode cross

validation yang digunakan adalah leave one out cross validation. Data latih

digunakan untuk menseleksi fitur sehingga hasil seleksi fitur sama sekali tidak

mengandung informasi mengenai data uji. Banyak fitur yang digunakan dalam

penelitian ini adalah 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 8192,

dan 16384. Setelah mendapatkan fitur yang terseleksi, dilakukan pembangunan

model. Fitur yang telah terseleksi diuji ke dalam data uji. Hasil pengujian

diilustrasikan dalam bentuk tabel confusion matrix seperti contoh saat

menggunakan 128 fitur terseleksi berikut.

Page 50: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

34

Tabel 4.7. Confusion Matrix Model SVM dengan Seleksi Fitur menggunakan

SVM-RFE.

Kelas Sebenarnya Kelas Prediksi

Normal Kanker

Normal 38 5

Kanker 3 40

Berdasarkan tabel 4.6 hasil confusion matrix, diperoleh nilai akurasi dengan

menggunakan formula (2.2) sebagai berikut:

Akurasi = 𝑇𝑁+𝑇𝑃

𝑇𝑁+𝐹𝑃+𝑇𝑃+𝐹𝑁=

38+40

38+5+40+3= 0.906.

Artinya sebesar 90.6% model dapat memprediksi masalah klasifikasi kanker

payudara dengan benar.

Berikut tabel rangkuman rata-rata akurasi berdasarkan banyak fitur yang

digunakan.

Tabel 4.8. Rangkuman Rata-Rata Akurasi SVM-RFE.

Banyak Fitur Rata-Rata Akurasi

2 0.813

4 0.825

8 0.837

16 0.848

32 0.872

64 0.883

128 0.906

256 0.895

512 0.883

1024 0.883

2048 0.883

4096 0.883

8192 0.872

16384 0.872

Page 51: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

35

Hasil rata-rata akurasi dapat digambarkan melalui grafik sebagai berikut:

Gambar 4.1. Grafik Nilai Akurasi dari SVM-RFE pada fitur terseleksi.

Berdasarkan hasil rata-rata akurasi yang didapatkan, terlihat dalam rangkuman

tabel ataupun grafik dengan menggunakan percobaan fitur yang ditentukan bahwa

128 fitur mencapai akurasi tertinggi pada data kanker payudara ini.

Adapun grafik hasil 10 nilai skor setiap fitur dari 128 fitur yang telah

terseleksi.

Gambar 4.2. Skor Feature Importance.

Page 52: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

36

Berdasarkan percobaan yang telah dilakukan dengan seleksi fitur yang telah

dicoba, 128 fitur memiliki skor nilai untuk setiap fiturnya. Terlihat pada Gambar

4.2, dari 128 fitur yang telah terseleksi diperlihatkan 10 fitur nilai skor tertinggi.

Grafiknya sedikit turun lalu landai sehingga 10 fitur tersebut adalah fitur-fitur

penting. Studi literatur 5 fitur dari 128 fitur dapat dilihat pada tabel 4.8. 5 fitur

tersebut fitur yang memiliki skor nilai tertinggi dari 128 fitur terseleksi.

Page 53: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

37

Tabel 4.9. Deskripsi 5 Fitur dari 128 Fitur yang terseleksi.

No Fitur GenBank Acession

Number Gen Title Description

Literatur Biologi

1 𝑋992 NM_006755 transaldolase 1

Gen protein yang berfungsi menyeimbangkan

metabolisme dalam pantose phosphate pathway

[26].

2 𝑋10341 AB007457 TP53 target 1 (non-protein coding)

Tumor Protein p53 target 1adalah isoform dari

protein apa pun yang dikodekan oleh gen

homolog dalam berbagai organisme. Homolog

ini sangat penting dalam organisme multiseluler

yang berperan mencegah pembentukan kanker

dan sebagai penekan tumor [27].

3 𝑋13102 L07335 SRY (sex determining region Y)-box 2

Gen SOX didefinisikan sebagai kandungan box

HMG dan gen yang terlibat dalam penentuan

jenis kelamin yang disebut SRY (SOX stands

for Sry-related HMG box). Gen SOX menjadi

faktor transkripsi yang terlibat dalam keputusan

nasib sel penting selama pengembangan [28].

4 𝑋14233 AL050035 RPARP antisense RNA 1

RPARP-AS 1 adalah gen RNA yang berafiliasi

dengan kelas RNA non-coding [29].

5 𝑋11558 H95344 vascular endothelial growth factor A

Gen ini adalah anggota dari faktor pertumbuhan

turunan trombosit (PGDF) yang menjadi faktor

pertumbuhan dan pembelahan sel. PGDF

berperan dalam pembentukan pembuluh darah

[30].

Page 54: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

38

BAB V

KESIMPULAN DAN SARAN

5.1. Kesimpulan

Berdasarkan analisis yang telah dilakukan, masalah high dimensional data

dapat diselesaikan menggunakan machine learning. Dalam penelitian ini telah

dilakukan klasifikasi data microarray kanker payudara dengan semua fitur dan

dengan fitur terseleksi. Seleksi fitur dilakukan menggunakan metode SVM-RFE

dan metode SVM sebagai metode klasifikasinya. Kompleksitas dari algoritma

SVM-RFE yang digunakan adalah 𝑂(𝐹(𝑁3)).

Klasifikasi data microarray kanker payudara menggunakan metode SVM

dengan kernel linear untuk semua fitur menghasilkan akurasi sebesar 87.2%.

Adanya proses seleksi fitur menggunakan metode SVM-RFE dan metode

SVM sebagai metode klasifikasinya dengan kernel linear terjadi peningkatan

akurasi. Akurasi yang dihasilkan sebesar 90.6% dengan jumlah fitur sebanyak 128

fitur.

Hasil penelitian ini, klasifikasi data microarray kanker payudara dengan

seleksi fitur menggunakan metode SVM-RFE menghasilkan nilai akurasi lebih

tinggi dibandingkan klasifikasi tanpa seleksi fitur. Sehingga memungkinkan

bahwa tidak semua fitur gen memberikan pengaruh yang signifikan terhadap data.

5.2. Saran

Berdasarkan penelitian yang telah dilakukan, penulis menyarankan untuk

menentukan nilai parameter yang optimum yang memungkinkan menghasilkan

nilai akurasi lebih baik, algoritma SVM-RFE memiliki kelemahan yaitu lambat

dalam menseleksi fiturnya maka untuk penelitian selanjutnya dapat menggunakan

metode seleksi fitur lainnya seperti fast correlation-based filter (FCBF) atau

genetic algorithm dan metode klasifikasi lainnya seperti Neural Network atau K-

Nearest Neighbors dalam menyelesaikan masalah data microarray kanker

payudara.

Page 55: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

39

Dataset microarray yang digunakan sangat sedikit sehingga evaluasi model

yang digunakan adalah metode leave one out cross validation. Metode evaluasi

tersebut membutuhkan waktu komputasi yang sangat besar, oleh karena itu

metode Support Vector Machine-Recursive Feature Elimination (SVM-RFE)

dapat digunakan pada data dataset yang lebih banyak dengan menggunakan

metode evaluasi model lainnya.

Page 56: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

40

REFERENSI

[1] B. K. d. P. Masyarakat, "Kementerian Kesehatan Republik Indonesia," 9

Januari 2019. [Online]. Available:

http://www.depkes.go.id/article/view/19020100003/hari-kanker-sedunia-

2019.html. [Accessed 1 Agustus 2019].

[2] A. Bhola and A. K. Tiwari, "Machine Learning Based Approaches for

Cancer Classification using Gene Expression Data," Machine Learning and

Application: An International Journal (MLAIJ), vol. 2, no. 3/4, pp. 1-12,

2015.

[3] R. D. Uriarte and S. A. d. Andres, "Gene Selection and Classification of

Microarray Data using Random Forest," BMC Bioinformatics, pp. 1-13,

2006.

[4] F. Demichelis, P. Magni, P. Piergiorgi, M. A. Rubin and R. Bellazzi, "A

hierarchical Naive Bayes Model for Handling Sample Heterogenity in

Classification Problem: An Application to Tissue Microarray," BMC

Bioinformatics, pp. 1-12, 2006.

[5] M. C. O'Neill and L. Song, "Neural Network Analysis of Lymphoma

Microarray Data: Prognosis and Diagnosis Near-Perfect," BMC

Bioinformatics, pp. 1-12, 2003.

[6] T. S. Furey, N. Cristianini, N. Duffy, D. W. Bednarsky, M. Schummer and

D. Haussler, "Support Vector Machine Classification and Validation of

Cancer Tissue Samples using Microarray Expression Data," Bioinformatics,

vol. 16, pp. 906-914, 2000.

[7] W. Zhong, X. Lu and J. Wu, "Feature Selection for Cancer Classification

Using Microarray Gene Expression Data," Biostatistics and Biometrics, vol.

1, no. 2, pp. 01-07, 2017.

[8] Z. Li, W. Xie and T. Liu, "Efficient Feature Selection and Classification for

Microarray Data," Plos One, pp. 1-21, 2018.

[9] I. Guyon and V. Vapnik, "Gene Selection for Cancer Classification using

Support Vector Machines," Kluwer Academic Publishers. Manufactured in

Page 57: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

41

The Netherlands, no. 46, pp. 389-422, 2002.

[10] A. M. Elsharkawy, "Breast Cancer," OMICS Group Ebook, 2014.

[11] Understanding Breast Cancer, Australia: Cancer Council Australia, 2016.

[12] M. M. Babu, "An Introduction to Microarray Data Analysis," MRC

Laboratory of Molecular Biology, 2004.

[13] J. Han, M. Kamber and J. Pei, Data Mining Concepts and Techniques Third

Edition, USA: Morgan Kaufmann, 2012.

[14] M. Verleysen and D. Francois, "The Curse of Dimensionality in Data

Mining and Time Series Prediction," Springer, pp. 758-770, 2005.

[15] A. Hinneburg, C. C. Aggarwal and D. A. Keim, "What is The Nearest

Neighbor in High Dimensional Spaces," in VLDB, Cairo, 2000.

[16] Z. M. Hira and D. F. Gillies, "A Review of Feature Selection and Feature

Extraction Methods Applied on Microarray Data," Advances in

Bioinformatics, pp. 1-13, 015.

[17] A. Jovic, K. Brkic and N. Bogunovuc, "A Review of Feature Selection

Methods with Applications," in IEEE, Croatia, 2015.

[18] H. Anton and C. Rorres, Elementary Linear Algebra 11th Edition, Canada:

Wiley, 2014.

[19] D. P. Bertsekas and A. E. Ozdaglar, "Pseudonormality and a Lagrange

Multiplier Theory for Constrained Optimization," Journal of Optimization

Theory and Applications, vol. 114, pp. 287-343, 2002.

[20] C. M. Bioshop, Pattern Recognition and Machine Learning, Cambridge:

Springer, 2006.

[21] P. Refaeilzadeh, L. Tang and H. Liu, "Cross Validation," Springer, 2009.

[22] L. Rokach and O. Maimon, Data Mining with Decision Tree Theory and

Application 2nd Edition, Singapore: World Scientific, 2015.

[23] A. S. Nugroho, A. B. Witarto and D. Handoko, "Kuliah Umum Ilmu

Komputer," 2003. [Online]. Available: http://ilmukomputer.com. [Accessed

Page 58: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

42

10 juli 2019].

[24] R. K. K, S. Rajendran and V. J, "A Correlation Based SVM-Recursive

Multiple Feature Elimination Classifier for Breast Cancer Disease using

Microarray," in Intl. Conference on Advances in Computing,

Communications and Informatics (ICACCI), Jaipur, 2016.

[25] X. Li, S. Peng, J. Chen, B. Lu, H. Zhang and M. Lai, "SVM-T-RFE: A

Novel Gene Selection Algorithm for Identifying Metastasis-Related Genes

in Colorectal Cancer using Gene Expression Profiles," Elsevier, pp. 148-

153, 2012.

[26] Y. Ding, C. W. Gong, D. Huang, R. Chen, P. Sui, K. H.-Y. Lin, G. Liang,

L. Yuan, H. Xiang, J. Chen, T. Yin, P. B. Alexander, Q.-F. Wang, E.-W.

Song, Q.-J. Li, K. C. Wood and X.-F. Wang, "Synthetic Lethality between

HER2 and Transaldolase in Intrinsically Resistant HER2-Positive Breast

Cancer," Nature Communication, pp. 1-11, 2018.

[27] P. Y. Suyanto, A. R. Utomo and F. Sandra, "Mutasi Gen p53; Faktor

Prediktif Kanker Payudara?," Indonesian Journal of Cancer, no. 4, pp. 138-

143, 2008.

[28] P. Jay, Iman, Sahly, C. Goze, S. Taviaux, F. Poulat, G. Couly, M. Abitbol

and P. Berta, "SOX22 is a New Member of The SOX Gene Family, Mainly

Expressed in Human Nervous Tissue," Human Molecular Genetics, vol. VI,

no. 7, pp. 1069-1077, 1997.

[29] NCBI, "National Center for Biotechnology Information," 12 Oktober 2019.

[Online]. Available:

https://www.ncbi.nlm.nih.gov/gene/?term=RPARP+antisense+RNA+1#gen

e-expression. [Accessed 31 Oktober 2019].

[30] NCBI, "National Center for Biotechnology Information," 28 Oktober 2019.

[Online]. Available:

https://www.ncbi.nlm.nih.gov/gene?Db=gene&Cmd=ShowDetailView&Te

rmToSearch=7422. [Accessed 31 Oktober 2019].

Page 59: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

43

LAMPIRAN

Lampiran I. Data Microarray Kanker Payudara.

Pengamatan

Ke-

Kelas 𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑

1 Normal 1881.8 78.0658 ⋯ 27.9838 130.756

2 Kanker 2317.51 61.354 ⋯ 19.4840 35.2956

3 Normal 1553.86 80.0525 ⋯ 35.8309 85.5188

4 Kanker 1915.57 79.8518 ⋯ 38.6235 65.0371

5 Normal 1240.13 104.9330 ⋯ 52.1979 84.5100

6 Kanker 2448.16 78.429 ⋯ 37.7262 76.8022

7 Normal 1007.43 152.432 ⋯ 50.8079 76.2715

8 Kanker 1827.95 72.7092 ⋯ 24.4856 73.4246

9 Normal 956.965 134.47 ⋯ 41.2545 154.718

10 Kanker 1973.05 48.4393 ⋯ 31.766 49.0741

11 Normal 882.229 93.5228 ⋯ 22.2703 86.0076

12 Kanker 1902.96 84.3622 ⋯ 40.8126 56.5296

13 Normal 2081.36 71.0835 ⋯ 23.2067 60.3867

14 Kanker 1872.11 78.4025 ⋯ 29.0189 53.3214

15 Normal 1235.31 117.263 ⋯ 24.2845 75.3205

16 Kanker 1516.65 77.589 ⋯ 33.5032 64.5949

17 Normal 1017.24 69.1435 ⋯ 32.7593 46.5276

18 Kanker 2225.59 65.1867 ⋯ 27.2118 46.4419

19 Normal 958.413 126.787 ⋯ 31.1072 77.7777

20 Kanker 1691.01 66.0304 ⋯ 26.4924 54.05

21 Normal 810.677 59.2485 ⋯ 16.7393 93.0559

22 Kanker 2518.29 57.4177 ⋯ 25.6084 42.8628

23 Normal 1749.15 65.1338 ⋯ 31.9268 53.8039

24 Kanker 2311.18 74.9848 ⋯ 33.372 47.996

25 Normal 2458.09 73.5661 ⋯ 38.8703 29.841

26 Kanker 3407.77 67.2076 ⋯ 54.8672 67.0647

27 Normal 1984.38 371.654 ⋯ 92.4856 60.0872

28 Kanker 2017.13 52.4098 ⋯ 31.9386 82.9476

29 Normal 786.355 70.6604 ⋯ 28.4626 128.508

30 Kanker 1795.35 49.4813 ⋯ 33.0839 33.2025

31 Normal 2058.78 123.172 ⋯ 41.1412 53.4284

32 Kanker 1983.03 53.0219 ⋯ 18.361 37.4705

33 Normal 2022.29 97.4185 ⋯ 56.2379 144.595

34 Kanker 2313.88 59.2167 ⋯ 18.1205 24.5425

35 Normal 1640.25 66.7657 ⋯ 32.3327 60.5228

36 Kanker 963.085 54.0823 ⋯ 28.7724 67.7675

37 Normal 2038.92 138.709 ⋯ 60.3902 102.099

Page 60: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

44

Pengamatan

Ke-

Kelas 𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑

38 Kanker 2030.19 36.0481 ⋯ 46.4155 27.3133

39 Normal 1150.76 37.4476 ⋯ 26.0693 47.6413

40 Kanker 1959.98 46.5972 ⋯ 26.8274 47.3912

41 Normal 903.648 55.2745 ⋯ 23.6905 32.9342

42 Kanker 1860.15 45.0863 ⋯ 20.0246 48.7259

43 Normal 3063.61 50.9969 ⋯ 36.7085 46.9881

44 Kanker 3000.23 124.668 ⋯ 50.8171 104.53

45 Normal 2509.38 147.142 ⋯ 46.2531 85.2358

46 Kanker 1568.49 93.5223 ⋯ 61.3993 95.3678

47 Normal 801.992 42.8506 ⋯ 23.023 33.6936

48 Kanker 2504.98 48.0842 ⋯ 21.2497 32.6328

49 Normal 1744.35 77.9707 ⋯ 23.833 35.003

50 Kanker 1975.75 83.5431 ⋯ 56.4656 106.272

51 Normal 1082.51 70.3011 ⋯ 30.0788 67.6716

52 Kanker 2608.79 76.8818 ⋯ 40.4907 41.0845

53 Normal 1162.58 97.0026 ⋯ 43.5276 71.7611

54 Kanker 3823.97 94.471 ⋯ 55.8134 100.647

55 Normal 1690.34 72.6695 ⋯ 64.0712 124.502

56 Kanker 2953.64 114.075 ⋯ 52.1498 83.6161

57 Normal 2482.09 104.623 ⋯ 75.6664 112.275

58 Kanker 4196.65 81.5676 ⋯ 70.9146 289.005

59 Normal 1704.36 83.5266 ⋯ 52.9521 122.952

60 Kanker 3469.26 134.42 ⋯ 44.5549 101.545

61 Normal 1882.39 91.4913 ⋯ 50.6183 90.1815

62 Kanker 2313.58 101.481 ⋯ 67.5472 104.732

63 Normal 1405.02 141.32 ⋯ 64.5501 84.253

64 Kanker 3509.75 126.298 ⋯ 66.9987 75.4201

65 Normal 1852.28 105.911 ⋯ 79.8493 196.262

66 Kanker 3144.43 237.316 ⋯ 128.277 101.471

67 Normal 1622.94 120.977 ⋯ 56.9934 146.472

68 Kanker 3216.91 129.507 ⋯ 46.1948 115.887

69 Normal 2179.56 181.677 ⋯ 52.7318 164.1

70 Kanker 3008.71 111.075 ⋯ 110.908 163.813

71 Normal 2242.76 98.7473 ⋯ 74.2612 100.936

72 Kanker 3001.39 144.524 ⋯ 70.1436 126.281

73 Normal 1391.47 156.098 ⋯ 76.3601 106.164

74 Kanker 2187.33 123.32 ⋯ 86.6711 218.612

75 Normal 2343.89 87.0273 ⋯ 47.4935 99.5516

76 Kanker 3875.9 150.474 ⋯ 85.2973 71.8082

77 Normal 1434.71 144.179 ⋯ 59.017 118.175

78 Kanker 5158.85 134.313 ⋯ 70.8883 286.319

79 Normal 1753.98 168.42 ⋯ 69.3947 159.167

Page 61: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

45

Pengamatan

Ke-

Kelas 𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑

80 Kanker 2876.29 117.656 ⋯ 64.8027 143.366

81 Normal 1955.95 126.613 ⋯ 90.0296 182.108

82 Kanker 2993.61 68.1142 ⋯ 61.3352 173.2770

83 Normal 1467.17 104.3090 ⋯ 44.8726 93.3868

84 Kanker 5501.41 69.8169 ⋯ 186.7580 64.3201

85 Normal 2387.61 113.436 ⋯ 83.3411 114.7210

86 Kanker 4809.98 189.753 ⋯ 51.9849 149.5330

Page 62: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

46

Lampiran II. 128 Fitur Terseleksi.

No Fitur GenBank

Acession Number Gen Title Description

1 𝑋133 M18468 protein kinase, cAMP-dependent,

regulatory, type I, alpha

2 𝑋751 AL527365 RAD23 homolog B (S. cerevisiae)

3 𝑋992 NM_006755 transaldolase 1

4 𝑋1266 NM_005885

membrane-associated ring finger

(C3HC4) 6, E3 ubiquitin protein

ligase

5 𝑋1353 AB022663 ring finger protein 14

6 𝑋1438 NM_001008 ribosomal protein S4, Y-linked 1

7 𝑋1737 BC001051 ADP-ribosylation factor-like 4C

8 𝑋1917 NM_002923 regulator of G-protein signaling 2

9 𝑋1987 NM_007173 protease, serine, 23

10 𝑋2516 NM_014862 aryl-hydrocarbon receptor nuclear

translocator 2

11 𝑋3075 U47924 CD4 molecule

12 𝑋3241 NM_004524 lethal giant larvae homolog 2

(Drosophila)

13 𝑋3506 NM_002484 nucleotide binding protein 1

14 𝑋3626 NM_016024 RNA binding motif protein, X-linked

2

15 𝑋3677 NM_000850 glutathione S-transferase mu 4

16 𝑋3797 NM_006875 Pim-2 proto-oncogene,

serine/threonine kinase

17 𝑋3856 NM_007267 transmembrane channel-like 6

18 𝑋3914 BF303597 mitochondrial ribosomal protein L57

19 𝑋3948 NM_000184 hemoglobin, gamma A ///

hemoglobin, gamma G

20 𝑋4063 AI978576 RE1-silencing transcription factor

21 𝑋4096 NM_014924 autophagy related 14

22 𝑋4194 NM_025073 suppressor of IKBKE 1

23 𝑋4307 NM_004502 homeobox B7

24 𝑋4690 NM_000082 excision repair cross-

complementation group 8

25 𝑋4825 NM_000626 CD79b molecule, immunoglobulin-

associated beta

26 𝑋4865 AL139318 dopachrome tautomerase

27 𝑋4876 NM_004411 dynein, cytoplasmic 1, intermediate

chain 1

Page 63: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

47

No Fitur GenBank

Acession Number Gen Title Description

28 𝑋4908 NM_002614 PDZ domain containing 1

29 𝑋5084 NM_002449 msh homeobox 2

30 𝑋5350 NM_002130 3-hydroxy-3-methylglutaryl-CoA

synthase 1 (soluble)

31 𝑋5389 NM_003121 Spi-B transcription factor (Spi-

1/PU.1 related)

32 𝑋5439 NM_000316 parathyroid hormone 1 receptor

33 𝑋5933 NM_030663 sperm mitochondria-associated

cysteine-rich protein

34 𝑋6120 NM_006752 mediator complex subunit 22

35 𝑋6208 NM_003447 zinc finger protein 165

36 𝑋6617 NM_014898 ZFP30 zinc finger protein

37 𝑋6737 AF079564 ubiquitin specific peptidase 2

38 𝑋7043 AF068220 ATPase, Ca++ transporting,

ubiquitous

39 𝑋7497 NM_014355 enolase alpha, lung-specific

(ENO1B), mRNA

40 𝑋7595 NM_006125 Rho GTPase activating protein 6

41 𝑋7678 NM_007028 tripartite motif containing 31

42 𝑋8022 NM_003525

histone cluster 1, H2bc /// histone

cluster 1, H2be /// histone cluster 1,

H2bf /// histone cluster 1, H2bg ///

histone cluster 1, H2bi

43 𝑋8065 NM_002244 ATP-sensitive inward rectifier

potassium channel 12-like

44 𝑋8361 BG534245 casein kinase 1, alpha 1

45 𝑋8389 BC005047 dual specificity phosphatase 6

46 𝑋8653 BC004361 cytohesin 2

47 𝑋8843 U63139 RAD50 homolog (S. cerevisiae)

48 𝑋8985 AA919119 adenosine monophosphate deaminase

3 /// uncharacterized LOC100130460

49 𝑋8988 AI807017 POZ (BTB) and AT hook containing

zinc finger 1

50 𝑋9093 AI796169 GATA binding protein 3

51 𝑋9173 AL136924 Ras and Rab interactor 2

52 𝑋9186 BC004864 Homo sapiens cDNA FLJ43872 fis,

clone TESTI4008417

53 𝑋9214 AF072718

UTP20, small subunit (SSU)

processome component, homolog

(yeast)

Page 64: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

48

No Fitur GenBank

Acession Number Gen Title Description

54 𝑋9250 AA969194 SP110 nuclear body protein

55 𝑋9262 BC001886 ribonucleotide reductase M2

56 𝑋9301 BC004421 zinc finger protein 330

57 𝑋9386 AF217197 poly-U binding splicing factor

60KDa

58 𝑋9677 AB013452

ATPase, aminophospholipid

transporter (APLT), class I, type 8A,

member 1

59 𝑋9684 U66584 crystallin, alpha A

60 𝑋9686 AF001383 bridging integrator 1

61 𝑋9890 U90278 glutamate receptor, ionotropic, N-

methyl D-aspartate 2B

62 𝑋10032 U97075 CASP8 and FADD-like apoptosis

regulator

63 𝑋10341 AB007457 TP53 target 1 (non-protein coding)

64 𝑋10367 AF130097 PH domain and leucine rich repeat

protein phosphatase 1

65 𝑋10382 BC004473 BLK proto-oncogene, Src family

tyrosine kinase

66 𝑋10431 AF279900 minichromosome maintenance

complex component 7

67 𝑋11202 AF108389

solute carrier family 8

(sodium/calcium exchanger),

member 1

68 𝑋11558 H95344 vascular endothelial growth factor A

69 𝑋11610 AI926544 iduronate 2-sulfatase

70 𝑋11803 BF058944 secretory carrier membrane protein 1

71 𝑋12125 AL523860 NME/NM23 nucleoside diphosphate

kinase 4

72 𝑋12220 BE963238 DEAD (Asp-Glu-Ala-Asp) box

polypeptide 52

73 𝑋12304 AV715578 decapping mRNA 2

74 𝑋12409 AL134904 THUMP domain containing 1

75 𝑋12607 AK025724 BBSome interacting protein 1

76 𝑋12634 AV712064

SWI/SNF related, matrix associated,

actin dependent regulator of

chromatin, subfamily a, member 5

77 𝑋12655 BF112171 teneurin transmembrane protein 4

78 𝑋12904 AA527578 casein kinase 1, delta

79 𝑋12918 AA910614

ubiquitin-conjugating enzyme E2I

(homologous to yeast UBC9)

Page 65: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

49

No Fitur GenBank

Acession Number Gen Title Description

80 𝑋13102 L07335 SRY (sex determining region Y)-box

2

81 𝑋13107 AA515698 tubulin, beta 4B class IVb

82 𝑋13297 BE465829 paired box 8

83 𝑋13411 AI920979 keratin 7

84 𝑋13481 BG153399 aminopeptidase puromycin sensitive

85 𝑋13626 AI859060 misshapen-like kinase 1

86 𝑋13817 NM_005412 serine hydroxymethyltransferase 2

(mitochondrial)

87 𝑋13834 NM_014244 ADAM metallopeptidase with

thrombospondin type 1 motif, 2

88 𝑋13862 NM_006977 zinc finger and BTB domain

containing 25

89 𝑋14233 AL050035 RPARP antisense RNA 1

90 𝑋14248 AL080129 uncharacterized LOC101929336 ///

replication timing regulatory factor 1

91 𝑋14394 AW474158 zinc finger protein 528

92 𝑋14666 AL022238 megakaryoblastic leukemia

(translocation) 1

93 𝑋15040 U70544 major histocompatibility complex,

class II, DR beta 4

94 𝑋15067 AL512707 DEAD (Asp-Glu-Ala-Asp) box

polypeptide 27

95 𝑋15230 AK025833 sialic acid binding Ig-like lectin 15

96 𝑋15289 AK023668 GULP, engulfment adaptor PTB

domain containing 1

97 𝑋15570 AK021569 Homo sapiens cDNA FLJ11507 fis,

clone HEMBA1002160

98 𝑋16079 D84143

Human immunoglobulin (mAb59)

light chain V region mRNA, partial

sequence

99 𝑋16203 AF018283 runt-related transcription factor 1;

translocated to, 1 (cyclin D-related)

100 𝑋16397 M96936

cystic fibrosis transmembrane

conductance regulator (ATP-binding

cassette sub-family C, member 7)

101 𝑋16483 Z70200

U5 small nuclear ribonucleoprotein

200 kDa helicase-like /// small

nuclear ribonucleoprotein 200kDa

(U5)

102 𝑋16969 AW444520 ATPase, H+ transporting, lysosomal

V0 subunit a2

Page 66: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

50

No Fitur GenBank

Acession Number Gen Title Description

103 𝑋17046 BG151284 ribosomal protein L10 /// small

nucleolar RNA, H/ACA box 70

104 𝑋17866 NM_016647 thioesterase superfamily member 6

105 𝑋18389 NM_021622

pleckstrin homology domain

containing, family A

(phosphoinositide binding specific)

member 1

106 𝑋18427 NM_017742 zinc finger, CCHC

107 𝑋18558 NM_018034 WD repeat domain 70

108 𝑋18933 NM_018419 SRY (sex determining region Y)-box

18

109 𝑋18987 NM_017817 RAB20, member RAS oncogene

family

110 𝑋19090 NM_018965 triggering receptor expressed on

myeloid cells 2

111 𝑋19189 NM_012450

solute carrier family 13

(sodium/sulfate symporter), member

4

112 𝑋19243 NM_015995 Kruppel-like factor 13

113 𝑋19520 NM_023924 bromodomain containing 9

114 𝑋19569 NM_024732 bone morphogenetic protein 8a

115 𝑋19656 NM_017711

glycerophosphodiester

phosphodiesterase domain containing

2

116 𝑋19751 NM_019063 echinoderm microtubule associated

protein like 4

117 𝑋20083 NM_025005 HEXA antisense RNA 1

118 𝑋20267 NM_024995 Homo sapiens hypothetical protein

FLJ12616 (FLJ12616), mRNA

119 𝑋20372 NM_030917 factor interacting with PAPOLA and

CPSF1

120 𝑋20553 NM_025150

microRNA 6878 /// threonyl-tRNA

synthetase 2, mitochondrial

(putative)

121 𝑋20776 NM_020633 vomeronasal 1 receptor 1

122 𝑋21231 AI417917 EH-domain containing 2

123 𝑋21658 AA129909

HUMAN ALU SUBFAMILY SQ

SEQUENCE CONTAMINATION

WARNING ENTRY H.sapiens

124 𝑋21659 AW301937 Hs.138036 ESTs

125 𝑋21675 AW972855 uncharacterized LOC100996756

Page 67: PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA …

51

No Fitur GenBank

Acession Number Gen Title Description

126 𝑋21820 AC005954 tight junction protein 3

127 𝑋21832 U02619 general transcription factor IIIC,

polypeptide 1, alpha 220kDa

128 𝑋22037 AA004757 zinc finger protein 236