analisis survival dengan pendekatan multivariate …digilib.unila.ac.id/24084/3/skripsi tanpa bab...

50
ANALISIS SURVIVAL DENGAN PENDEKATAN MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) UNTUK DATA RESAMPLING ( Skripsi ) Oleh ERNI YULIA SARI FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS LAMPUNG BANDAR LAMPUNG 2016

Upload: lamhanh

Post on 23-Apr-2019

231 views

Category:

Documents


0 download

TRANSCRIPT

ANALISIS SURVIVAL DENGAN PENDEKATAN

MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS)

UNTUK DATA RESAMPLING

( Skripsi )

Oleh

ERNI YULIA SARI

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS LAMPUNG

BANDAR LAMPUNG

2016

ABSTRACT

SURVIVAAL ANALYSIS WITH

MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) APPROACH

FOR RESAMPLING DATA

By

ERNI YULIA SARI

The lifetime of an object or an individual can be affected by one or more factors.

To determine the rate failure of an individual at a time that is affected by one or

more predictor variables it can be done with the Multivariate Adaptive Regression

Spline (MARS) approach. This method have 3 ≤ k ≤ 20 predictor variables and the

sample size 50 ≤ n ≤ 1000. Maximum Likelihood Estimation (MLE) can be used to

estimate parameter of baseline hazard and Penalized Least Square (PLS) can be to

used estimate coefficients of MARS model. In case study, MARS use to perform

the analysis remission survival time on 42 patient leukimia. It cause n < 50 it is

necessary to resampling to fulfill the assumptions on MARS. Resampling amount

used is 50, 100, 500, 900, 1000.

Keyword: Multivariate Adaptive Regression Spline (MARS), Maximum

Likelihood Estimation (MLE), Penalized Least Square (PLS)

ABSTRAK

ANALISIS SURVIVAL DENGAN PENDEKATAN

MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS)

UNTUK DATA RESAMPLING

Oleh

ERNI YULIA SARI

Masa hidup suatu objek atau individu dapat dipengaruhi oleh satu atau lebih faktor.

Untuk mengetahui laju kegagalan suatu individu pada suatu waktu yang

dipengaruhi oleh satu atau lebih variabel prediktor maka dapat dilakukan dengan

pendekatan Multivariate Adaptive Regression Spline (MARS). Metode ini memiliki

variabel prediktor 3 ≤ 𝑘 ≤ 20 dan ukuran sampel 50 ≤ 𝑛 ≤ 1000. Pada penelitian

untuk menduga fungsi baseline hazard digunakan metode maximum likelihood

estimation (MLE) dan untuk menduga koefisien model MARS digunakan metode

penalized least square (PLS). Pada studi kasus, MARS digunakan untuk

menganalisis waktu sisa hidup pada 42 pasien leukimia. Karena 𝑛 < 50 perlu

dilakukan resampling untuk memenuhi asumsi pada MARS. Jumlah resampling

yang digunakan yaitu 50, 100, 500, 900, 1000.

Kata kunci: Multivariate Adaptive Regression Spline (MARS), Maximum

Likelihood Estimation (MLE), Penalized Least Square (PLS), Resampling.

ANALISIS SURVIVAL DENGAN PENDEKATAN

MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS)

UNTUK DATA RESAMPLING

Oleh

ERNI YULIA SARI

Skripsi

Sebagai salah satu syarat untuk mencapai gelar

SARJANA SAINS

Pada

Jurusan Matematika

Fakultas Matematika dan Ilmu Pengetahuan Alam

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS LAMPUNG

BANDAR LAMPUNG

2016

RIWAYAT HIDUP

Penulis bernama lengkap Erni Yulia Sari , dilahirkan di Bandar Lampung tepatnya

pada tanggal 2 Juli 1994. Merupakan anak pertama dari dua bersaudara, pasangan

Bapak Edwar dan Ibu Marhayah.

Menempuh pendidikan awal Taman Kanak-kanak di TK Kartini pada tahun 2000,

Sekolah Dasar (SD) di SD Negeri 1 Pelita pada tahun 2006, Sekolah Menengah

Pertama (SMP) di SMP Negeri 19 Bandar Lampung pada tahun 2009, dan

Sekolah Menengah Atas (SMA) di SMA Negeri 9 Bandar Lampung pada tahun

2012.

Pada tahun 2012 penulis terdaftar sebagai Mahasiswa Jurusan Matematika

Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung, melalui

jalur SNMPTN tulis serta mendapatkan beasiswa BIDIK MISI. Selama menjadi

mahasiswa, penulis bergabung di Himpunan Mahasiswa Jurusan Matematika

(HIMATIKA) yang diamanahkan pada tahun pertama dan kedua sebagai Anggota

di Bidang Kaderisasi periode 2012-2014, pada tahun ketiga sebagai anggota Biro

Dana dan Usaha HIMATIKA.

Pada bulan Januari 2015 melaksanakan Kerja Praktek (KP) di Balai Riset dan

Standardisasi Industri Bandar Lampung guna mengaplikasikan serta menerapkan

ilmu yang telah diperoleh dalam perkuliahan.

Selanjutnya bulan Juli-September 2015 melaksanakan Kuliah Kerja Nyata (KKN)

di Desa Toto Makmur, Kecamatan Gunung Terang, Kabupaten Tulang Bawang

Barat.

KATA INSPIRASI

Kesenangan dalam sebuah pekerjaan membuat kesempurnaan pada hasil

yang dicapai

(Aristoteles)

Hargai usahamu, hargailah dirimu

Harga diri mrmunculkan disiplin diri

Ketika anda memilikikeduanya, itulah kekuatan sesungguhnya

(Clint Eastwood)

Satu-satunya sumber pengetahuan adalah pengalaman

(Albert Einstein)

Anda mungkin bisa menunda, tapi waktu tidak akan menunggu

(Benjamin Franklin)

Jangan pernah puas terhadap apa yang kita peroleh

tetapi

bersyukurlah terhadap apa yang kita peroleh

(Erni Yulia Sari)

PERSEMBAHAN

Dengan mengucap Syukur Alhamdulillah atas Rahmat Allah SWT

Kupersembahkan karya sederhana ini kepada orang yang sangat kukasihi dan

kusayangi

Mama dan Ayah

Sebagai tanda bakti, hormat, dan rasa terima kasih yang tiada terhingga

kupersembahkan karya kecil ini kepada Mama dan Ayah yang telah memberikan

kasih sayang, segala dukungan, dan do’a yang tiada henti untuk kesuksesan saya

karena tiada kata seindah lantunan do’a dan tiada do’a yang paling khusuk selain

do’a yang terucap dari orang tua

Semoga ini menjadi langkah awal untuk membuat Mama dan Ayah bahagia,

karena aku sadar selama ini belum dapat berbuat yang lebih.

SANWACANA

Alhamdulillah, Segala puji bagi Allah SWT, karena berkat rahmat, dan ridho-Nya

skripsi yang berjudul “Analisis Survival dengan Pendekatan Mutivariate Adaptive

Regression Spline (MARS) untuk Data Rsampling” dapat diselesaikan tepat pada

waktunya. Dalam penyusunan skripsi ini, penulis menyadari bahwa banyak pihak

yang telah berpartisipasi memberikan bimbingan dan saran - saran. Untuk itu,

penulis ucapkan terimakasih yang sebesar-besarnya , terutama kepada:

1. Ibu Dian Kurniasari, S.Si., M.Si., selaku Dosen Pembimbing 1 yang telah

meluangkan waktu untuk membimbing dan memberi saran kepada penulis

dalam menyelesaikan skripsi ini.

2. Bapak Drs. Rudi Ruswandi, M.Si., selaku Dosen Pembimbing 2 yang telah

memberikan banyak sekali saran dan arahan dengan penuh kesabaran guna

menyelesaikan skripsi ini.

3. Bapak Warsono, Ph.D., selaku Dosen Penguji yang telah mengevaluasi,

memberikan saran dan kritik yang membangun dalam penyelesaian skripsi ini.

4. Bapak Drs. Eri Setiawan, M.Si., selaku dosen pembimbing akademik yang

telah membimbing penulis selama mengikuti perkuliahan di Jurusan

Matematika FMIPA Universitas Lampung.

5. Bapak Drs. Tiryono Ruby, M.Sc.,Ph.D., selaku Ketua Jurusan Matematika

Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung.

6. Bapak Prof. Warsito, S.Si., DEA., Ph.D., selaku Dekan Fakultas Matematika

dan Ilmu Pengetahuan Alam Universitas lampung.

7. Seluruh dosen, staf, dan karyawan Jurusan Matematika FMIPA Universitas

Lampung yang telah memberikan banyak ilmu dan pengalaman.

8. Ayah dan Ibu tercinta yang selalu mendukung dan mendoakan, serta adikku

Virgiwan Rivaldi yang selalu memberikan semangat.

9. Sahabat-sahabat tersayang Fakhrunisa, Agnes, Dwi, Elva, Putri, dan Mutia yang

selalu membantu, memberikan tawa canda dan dukungan semangat dari awal

perkuliahan hingga saat ini serta teman-teman seperjuangan, Ernia, Anggryani,

Suyanti, Maya, Hana, Riyama, Rohimatul, Anisa, Desti, yang selalu

menghibur, memberikan semangat, dan motivasi.

10. Teman-teman angkatan 2012, Keluarga HIMATIKA, Kelompok KKN Desa toto

Makmur 2015 yang selalu menjadi penyemangat.

11. Seluruh pihak yang telah membantu penulis yang tidak dapat disebutkan satu

persatu, atas peran dan dukungannya dalam menyusun skripsi ini.

Penulis berharap Allah SWT akan membalas kebaikan dan pengorbanan mereka.

Semoga karya kecil ini dapat bermanfaat bagi kita semua.

Bandar Lampung,29 September 2016

Penulis,

Erni Yulia Sari

DAFTAR ISI

halaman

1.1. Latar Belakang dan Masalah ................................................... 1

1.2. Rumusan Masalah ................................................................... 3

1.3. Tujuan Penelitian ..................................................................... 3

1.4. Manfaat Penelitian ................................................................... 3

II. TINJAUAN PUSTAKA

2.1 Analisis Survival ..................................................................... 4

2.1.1 Fungsi Kepekatan Peluang ............................................. 5

2.1.2 Fungsi Survival .............................................................. 6

2.1.3 Fungsi Hazard ................................................................ 7

2.1.4 Data Tersensor dan Data Tidak Tersensor ..................... 8

2.2 Distribusi Weibull ................................................................... 10

2.3 Metode Kemungkinan Maksimum .......................................... 12

2.4 Metode Iterasi Newton-Rhapson ............................................. 13

2.5 Multivariat ............................................................................... 14

2.6 Cox Proportional Hazard (Cox) Model .................................. 16

2.7 Residual Martingale ................................................................ 17

2.8 Multivariate Adaptive Regression Spline (MARS) ................. 18

2.8.1 Recursive Partion Regression (RPR) ............................ 19

2.8.2 Spline ............................................................................. 21

2.9 Metode Stepwise ..................................................................... 24

2.10 Metode Penalized Least Square .............................................. 25

III. METODOLOGI PENELITIAN

3.1 Waktu dan Tempat Penelitian ................................................. 26

3.2 Metode Penelitian .................................................................... 26

3.3 Studi Kasus .............................................................................. 27

DAFTAR TABEL .................................................................................... xv

DAFTAR GAMBAR ................................................................................ xvii

I. PENDAHULUAN

IV. HASIL DAN PEMBAHASAN

4.1 Fungsi Baseline Hazard Distribusi Weibull .......................... 28

4.2 Pendugaan Parameter Distribusi Weibull dengan Metode

Kemungkinan Maksimum ....................................................... 30

4.3 Metode Newton Raphson ........................................................ 32

4.4 Model Multivariate Adaptive Regression Spline (MARS) dan

Estimsi Koefisien Model MARS dengan Metode Penalized

Least Square (PLS) ................................................................. 33

4.5 Studi Kasus ............................................................................... 35

V. KESIMPULAN

DAFTAR PUSTAKA

LAMPIRAN

............................................................................... 56

DAFTAR GAMBAR

halaman

Gambar 4.1 Plot MARS Kadar Sel Darah Putih dengan n = 50 , d = 2

dan MI = 2 ........................................................................ 42

Gambar 4.2 Plot MARS Kadar Sel Darah Putih dengan n = 100 , d = 2

dan MI = 2 ........................................................................ 44

Gambar 4.3 Interaksi Antara Kadar Sel Darah Putih dan Jenis Treatment

Penyembuhan dengan n = 100, d = 2, dan MI = 2 ............. 45

Gambar 4.4 Plot MARS Kadar Sel Darah Putih dengan n = 500 , d = 2

dan MI = 2 ........................................................................ 47

Gambar 4.5 Interaksi Antara Kadar Sel Darah Putih dan Jenis Treatment

Penyembuhan dengan n = 500, d = 2, dan MI = 2 ............. 48

Gambar 4.6 Plot MARS Kadar Sel Darah Putih dengan n = 900 , d = 2

dan MI = 2 ........................................................................ 50

Gambar 4.7 Interaksi Antara Kadar Sel Darah Putih dan Jenis Treatment

Penyembuhan dengan n = 900, d = 2, dan MI = 2 ............. 51

Gambar 4.8 Plot MARS Kadar Sel Darah Putih dengan n = 100 , d = 2

dan MI = 2 ........................................................................ 54

Gambar 4.9 Interaksi Antara Kadar Sel Darah Putih dan Jenis Treatment

Penyembuhan dengan n = 1000, d = 2, dan MI = 2 ........... 54

DAFTAR TABEL

halaman

Tabel 4.1 Data Remission Survival Time on 42 Pasien Leukaemia ........ 35

Tabel 4.2 Deskriptif Data Survival .......................................................... 37

Tabel 4.3 Deskriptif Pasien Leukimia ...................................................... 37

Tabel 4.4 Hasil Pengujian Distribusi Anderson-Darling ......................... 38

Tabel 4.5 Hasil Pengujian Signifikan Variabel Bebas untuk n = 30 ........ 38

Tabel 4.6 Pengaruh Waktu Sisa Massa Hidup Terhadap Jenis Kelamin,

Kadar Sel Darah Putih, dan Jenis Treatment Penyembuhan

Pasien Leukimia untuk n = 30 .................................................... 39

Tabel 4.7 Hasil Pengujian Signifikan Variabel Bebas untuk n = 50 ........ 40

Tabel 4.8 Pengaruh Waktu Sisa Massa Hidup Terhadap Jenis Kelamin,

Kadar Sel Darah Putih, dan Jenis Treatment Penyembuhan

Pasien Leukimia untuk n = 50 .................................................... 41

Tabel 4.9 Tingkat Kepentingan Variabel untuk n = 50 ............................ 42

Tabel 4.10 Hasil Pengujian Signifikan Variabel Bebas untuk n = 100 ...... 43

Tabel 4.11 Pengaruh Waktu Sisa Massa Hidup Terhadap Jenis Kelamin,

Kadar Sel Darah Putih, dan Jenis Treatment Penyembuhan

Pasien Leukimia untuk n = 100 .................................................. 43

Tabel 4.12 Tingkat Kepentingan Variabel untuk n = 100 .......................... 45

Tabel 4.13 Hasil Pengujian Signifikan Variabel Bebas untuk n = 500 ...... 46

Tabel 4.14 Pengaruh Waktu Sisa Massa Hidup Terhadap Jenis Kelamin,

Kadar Sel Darah Putih, dan Jenis Treatment Penyembuhan

Pasien Leukimia untuk n = 500 .................................................. 46

Tabel 4.15 Tingkat Kepentingan Variabel untuk n = 500 .......................... 48

Tabel 4.16 Hasil Pengujian Signifikan Variabel Bebas untuk n = 900 ...... 49

Tabel 4.17 Pengaruh Waktu Sisa Massa Hidup Terhadap Jenis Kelamin,

Kadar Sel Darah Putih, dan Jenis Treatment Penyembuhan

Pasien Leukimia untuk n = 900 .................................................. 49

Tabel 4.18 Tingkat Kepentingan Variabel untuk n = 900 .......................... 51

Tabel 4.19 Hasil Pengujian Signifikan Variabel Bebas untuk n = 1000 .... 52

Tabel 4.20 Pengaruh Waktu Sisa Massa Hidup Terhadap Jenis Kelamin,

Kadar Sel Darah Putih, dan Jenis Treatment Penyembuhan

Pasien Leukimia untuk n = 1000 ................................................ 53

Tabel 4.21 Tingkat Kepentingan Variabel untuk n = 1000 ........................ 55

I. PENDAHULUAN

1.1 Latar Belakang dan Masalah

Masa hidup merupakan interval waktu yang diamati dari suatu objek atau individu

dari saat pertama kali masuk ke dalam pengamatan hingga mengalami kegagalan.

Masa hidup merupakan random variabel yang mengikuti sebaran distribusi tertentu.

Dari beberapa distribusi yang dapat menggambarkan masa hidup, distribusi weibull

merupakan salah satu distribusi yang umum digunakan dalam menyelesaikan

persoalan yang berhubungan dengan massa hidup suatu individu.

Analisis yang digunakan untuk menganalisis masa hidup adalah analisis survival.

Analisis survival adalah suatu metode yang berhubungan dengan waktu, mulai dari

time origin atau start point sampai dengan terjadinya suatu kejadian khusus atau

end point. Pada analisis survival, jenis data waktu hidup dapat dibagi menjadi dua

yaitu data tidak tersensor (data lengkap) dan data tersensor (data tidak lengkap).

Data tidak tersensor adalah data yang diambil jika semua obyek penelitian

mengalami kejadian yang dimaksudkan dalam penelitian sedangkan data tersensor

adalah data yang tidak bisa diamati secara keseluruhan karena terdapat data massa

hidup yang tidak diketahui secara pasti. Dalam analisis survival terdapat dua fungsi

yang dapat digunakan, yaitu fungsi survival dan fungsi hazard. Fungsi hazard

merupakan peluang suatu individu mencapai kejadian khusus pada waktu 𝑡, dengan

2

diketahui bahwa individu tersebut masih bertahan sampai waktu tersebut. Kejadian

khusus yang dimaksud merupakan waktu bertahan hidup atau waktu sisa hidup

pasien dalam suatu penyakit, contohnya penyakit leukimia.

Massa hidup individu dapat dipengaruhi oleh beberapa faktor. Jika data massa

hidup dipengaruhi lebih dari dua faktor dan diukur secara bersamaan maka data

yang digunakan adalah data multivariat. Metode statstik yang digunakan untuk

mengetahui hubungan dua atau lebih variabel yaitu analisis regresi. Pada analisis

regresi jenis data yang digunakan ada dua yaitu data numerik dan kategorik. Jika

penggunakan data kategorik maka analisis yang digunakan yaitu analisis regresi

nonparametrik. Bentuk model regresi nonparametrik sebagai berikut :

𝒚 = 𝒇(𝒙) + 𝜺

Untuk mengetahui laju kegagalan (hazard rate) individu pada suatu waktu yang

dipengaruhi oleh satu atau lebih variabel prediktor maka dapat digunakan

pendekatan metode Multivariate Adaptive Regression Splines (MARS).

Multivariate Adaptive Regression Splines merupakan salah satu metode regresi

nonparametrik dengan pendekatan multivariat yang mempertimbangangkan

covariate dari variabel prediktor yang dikembangkan oleh Friedman (1991).

Kelebihan dari metode MARS adalah memiliki sifat yang fleksibel pada data yang

berdimensi tinggi, memiliki variabel prediktor 3 < k < 20, dan ukuran sampel 50 <

n < 1000. Selain itu, pemodelan MARS dapat melibatkan banyak interaksi antar

variabel prediktor dan mampu mendeteksi interaksi tersebut (Kriner, 2007). Jika

data yang ada berukuran kecil atau < 50 maka data tersebut dapat diresampling

untuk memenuhi asumsi yang ada pada metode MARS.

3

1.2 Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan sebelumnya maka dapat ditentukan

rumusan permasalahan dalam penelitian ini yaitu :

1. Bagaimana model analisis survival dengan pendekatan multivariate

adaptive regression spline (MARS) untuk data resampling ?

2. Bagaimana estimasi model analisis survival dengan pendekatan

multivariate adaptive regression spline (MARS) untuk data resampling.

1.3 Tujuan Penelitian

Adapun tujuan yang ingin dicapai dalam penelitian ini yaitu :

1. Menentukanmodel analisis survival dengan pendekatan multivariate

adaptive regression spline (MARS) untuk data resampling ?

2. Menentukan estimasi model analisis survival dengan pendekatan

multivariate adaptive regression spline (MARS) untuk data resampling.

3. Menerapkan model analisis survival dengan pendekatan multivariate

adaptive regression spline (MARS) untuk data resampling pada data

remission survival time pada pasien leukimia.

1.4 Manfaat Penelitian

Adapun manfaat dari penelitian ini adalah memberikan sumbangan mengenai

hazard rate berdistribusi Weibull dengan pendekatan Multivariate Adaptive

Regression Spline (MARS).

II. TINJAUAN PUSTAKA

Teori-teori yang digunakan untuk mendukung dalam penelitian ini adalah sebagai

berikut :

2.1 Analisis Survival

Massa hidup merupakan interval waktu yang diamati dari suatu objek atau

individu pada saat pertama kali masuk kedalam pengamatan hingga terjadinya

kegagalan. Analisis yang digunakan untuk menganalisis massa hidup adalah

analisis survival. Analisis survival merupakan suatu metode statistik yang

berkaitan dengan waktu, yaitu dimulai dari time origin atau start point sampai

pada suatu kejadian khusus (failure event/end point) (Collect, 2003). Dalam

menentukan waktu survival T, terdapat tiga elemen yang perlu diperhatikan yaitu :

a. Time origin or starting point (titik awal) adalah waktu dimulainya suatu

penelitian.

b. Ending event of interest (kejadian akhir) adalah kejadian yang menjadi inti

dari penelitian.

c. Measurement scale for the passage of time (skala pengukuran waktu yang

jelas). Skala diukur dalam hari, minggu atau tahun.

Adapun tujuan melakukan anaisis survival adalah :

1. Mengestimasi/memperkirakan dan menginterpretasikan fungsi survival atau

5

hazard dari data survival.

2. Membandingkan fungsi survival dan fungsi hazard pada dua atau lebih

kelompok.

3. Menilai hubungan variabel-variabel explanatory dengan survival waktu

ketahanan.

Massa hidup dalam analisis survival mengikuti distribusi peluang tertentu. Fungsi

distribusi tersebut dapat dijelaskan dalam tiga fungsi yaitu fungsi kepekatan

peluang, fungsi survival, fungsi, dan hazard.

2.1.1 Fungsi Kepekatan Peluang

Fungsi kepadatan peluang merupakan peluang suatu individu mengalami

event, gagal atau mati dalam interval waktu t sampai ( 𝑡 + ∆𝑡 ) yang

dinotasikan dengan (𝑓(𝑡)). Fungsi ini dirumuskan sebagai berikut:

𝑓(𝑡) = 𝑙𝑖𝑚∆𝑡→0

[𝑃(𝑜𝑏𝑗𝑒𝑘 𝑔𝑎𝑔𝑎𝑙 𝑝𝑎𝑑𝑎 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙 (𝑡,𝑡+∆𝑡))

∆𝑡]

𝑓(𝑡) = 𝑙𝑖𝑚∆𝑡→0

[𝑃(𝑡<𝑇<𝑡+∆𝑡)

∆𝑡] (2.1)

(Collettt, D., 2003)

T merupakan variabel random non negatif dalam interval [0,∞ ). Fungsi

kepekatan peluang mempunyai sifat dasar sebagai berikut :

a. 𝑓(𝑡) ≥ 0, 𝑡 ≥ 0

b. ∫ 𝑓(𝑡)𝑑𝑡 = 1∞

0

Fungsi 𝑓 disebut fungsi peluang bagi variabel random kontinu T bila luas

daerah di bawah kurva dan di atas sumbu-t sama dengan 1, dan bila luas

6

daerah di bawah kurva antara 𝑡 = 𝑎 dan 𝑡 = 𝑏 menyatakan peluang T terletak

antara 𝑎 dan 𝑏.

Dengan demikian luas daerah yang diarsir adalah :

𝑃(𝑎 < 𝑇 < 𝑏) = ∫ 𝑓(𝑡)𝑑𝑡𝑏

𝑎

dengan 𝑎, 𝑏 𝜖 [0,∞).

𝐹(𝑡) merupakan fungsi distribusi kumulatif (cdf) dari 𝑇 . Fungsi ini

didefinisikan sebagai peluang suatu individu mengalami event sampai dengan

waktu t yang dapat dituliskan sebagai berikut:

𝐹(𝑡) = 𝑃(𝑇 ≤ 𝑡)

= ∫ 𝑓(𝑡)𝑡

0 𝑑𝑡 (2.2)

2.1.2 Fungsi Survival

Massa hidup individu merupakan selang waktu yang diamati dari suatu objek

saat pertama kali masuk ke dalam pengamatan sampai dengan objek tersebut

tidak berfungsi atau mati. Misalnya selang waktu yang mengukur kerusakan

suatu produk, matinya suatu makhluk hidup, atau kambuhnya suatu penyakit.

Menurut Kleinbaum dan Klein (2005) fungsi survival menyatakan peluang

yang tidak mengalami kegagalan sampai batas waktu t. Jika T melambangkan

waktu survival lebih besar dari t, maka persamaannya adalah :

𝑆(𝑡) = P (Objek hidup lebih dari waktu t)

= 𝑃(𝑇 > 𝑡)

= 1 − 𝑃(𝑇 < 𝑡)

7

= 1 − 𝐹(𝑡) (2.3)

2.1.3 Fungsi Hazard

Menurut Kleinbaum dan Klein (2005) fungsi hazard atau fungsi kegagalan

dari waktu tahan hidup T dinotasikan h(t) adalah probabilitas suatu individu

mencapai kejadian khusus pada waktu t, dengan syarat ia telah bertahan

sampai waktu tersebut. Fungsi hazard didefinisikan sebagai berikut :

h(t) = 𝑝𝑒𝑙𝑢𝑎𝑛𝑔𝑘𝑒𝑔𝑎𝑔𝑎𝑙𝑎𝑛(𝑡,𝑡+∆𝑡)

𝑝𝑒𝑙𝑢𝑎𝑛𝑔𝑘𝑒𝑔𝑎𝑔𝑎𝑙𝑎𝑛(𝑡,∞)

= lim∆𝑡→0

𝑃(𝑡≤𝑇<𝑡+∆𝑡│𝑇≥𝑡)

∆𝑡

= lim∆𝑡→0

𝑃(𝑡≤𝑇<𝑡+∆𝑡,𝑇≥𝑡)

∆𝑡.𝑃(𝑇≥𝑡)

= lim∆𝑡→0

𝑃(𝑡≤𝑇<𝑡+∆𝑡)

∆𝑡.𝑆(𝑡)

= lim∆𝑡→0

𝐹(𝑡+∆𝑡)−𝐹(𝑡)

∆𝑡.𝑆(𝑡)

= 1

𝑆(𝑡) lim∆𝑡→0

𝐹(𝑡+∆𝑡)−𝐹(𝑡)

∆𝑡

= 𝐹′(𝑡)

𝑆(𝑡)

= 𝑓(𝑡)

𝑆(𝑡) (2.4)

Perbedaan antara analisis survival dengan analisis statistik lainnya adalah pada

jenis datanya. Pada analisis survival jenis data massa hidup dapat dibagi menjadi

dua yaitu data tersensor dan data tidak tersensor atau data lengkap.

8

2.1.4 Data Tersensor dan Data Tidak Tersensor

Dalam analisis survival, terdapat kesulitan dalam pengamatan data yaitu

adanya kemungkinan pengamatan beberapa produk yang tidak dapat di

observasi berawal dari start point hingga end point. Keadaan tersebut

dikatakan data tersensor (Kleinbaum dan Klein, 2005).

Sensor dilakukan untuk memperpendek suatu percobaan karena untuk

mengukur waktu kegagalan atau kematian objek memerlukan waktu yang

lama dan biaya yang tidak sedikit. Dalam uji ketahanan terdapat jenis-jenis

sensor, yaitu :

1. Sensor kanan

Data survival dikatakan tersensor kanan jika : (1) subyek yang diamati

tetap bertahan hidup pada saat waktu T yang telah ditentukan atau belum

mengalami suatu event sampai masa penelitian berakhir, (2) subyek yang

diamati keluar pada saat penelitian berlangsung, (3) subyek yang diamati

meninggal paa saat penelitian karena penyebab lain.

2. Sensor Kiri

Data survival dikatan tersensor kiri jika subyek yang diamati tidak diamati

pada awalwaktu pengamatan akan tetapi sebelum penelitian berakhir

semua event sudah diamati secara penuh atau dengan kata lain subyek

yang dialami mengalami event sebelum penelitian berlangsung.

9

3. Terpancung

Data dikatakan terpancung jika individu/ sistem mengalami kematian/

kerusakan dikarenakan sebab lain di luar dari tujuan utama penelitian.

Sehingga tidak teramati tujuan utama penelitiannya.

Menurut Kleinbaum dan Klein (2005) penyensoran data dapat disebabkan

oleh beberapa hal, antara lain :

a. Subyek pengamatan yang diamati tidak mengalami suatu event sampai

penelitian berakhir (loss to follow-up).

b. Subyek pengamatan hilang selama penelitian.

c. Subyek pengamatan ditarik dari penelitian karena meninggal dimana

meninggal merupakan suatu peristiwa yang tidak diperhatikan oleh

peneliti atau alasan yang lain.

Percobaan juga dapat dilakukan tanpa menggunakan ketiga tipe penyensoran

tersebut yaitu dengan sampel lengkap. Sampel lengkap berarti bahwa nilai

kegagalan dari semua unit sampel yang diobservasi dapat diketahui.

Percobaan akan berhenti jika semua sampel yang diamati mengalami

kegagalan.

Umumnya data massa hidup dalam analisis survival mengikuti distribusi peluang

tertentu. Dari beberapa distribusi yang dapat menggambarkan data massa hidup,

distribusi weibull merupakan salah satu distribusi yang digunakan dalam

menyelesaikan persoalan yang berhubungan dengan massa hidup suatu individu.

10

2.2 Distribusi Weibull

Distribusi Weibull diperkenalkan oleh seorang matematikawan bernama Wallodi

Weibull. Menurut Evan, dkk (2011) distribusi Weibull umumnya digunakan

sebagai distribusi waktu hidup dalam aplikasi ketahanan hidup . Distribusi

Weibull memiliki 2 parameter yang dapat mewakili menurun, konstan atau

meningkatnya dari laju kegagalan. Dua parameter Weibull yaitu :

α = Parameter bentuk (shape) yaitu menggambarkan tingkat kegagalan pada

distribusi Weibull.

τ = Parameter skala (scale) yaitu menggambarkan bentuk keragaman data pada

distribusi Weibull.

Jika t merupakan peubah acak menyebar menurut distribusi Weibull dengan 2

parameter, maka fungsi densitas dapat diuraikan dalam bentuk sebagai berikut :

f(t) = (𝛼

𝜏) (

𝑡

𝜏)𝛼−1

𝑒𝑥𝑝 [−(𝑡

𝜏)𝛼

] ; t > 0 , α > 0 , τ > 0 (2.5)

(Evan, dkk, 2011)

Rata-rata (mean) dan ragam (Variance) distribusi Weibull

a. Rata-rata [E(t)]

E(t) = ∫ 𝑡 𝑓(𝑡)𝑑𝑡∞

0

= ∫ 𝑡 (𝛼

𝜏) (

𝑡

𝜏)𝛼−1

𝑒𝑥𝑝 [−(𝑡

𝜏)𝛼

] 𝑑𝑡∞

0

Misal : x = (𝑡

𝜏)𝛼

→ t = 𝑥1

𝛼 𝜏

dx = 𝛼

𝜏(

𝑡

𝜏)𝛼−1

𝑑𝑡

Jika t = 0 → x = 0 ; t = ∞ → x = ∞

11

Sehingga :

E(t) = ∫ 𝑥1

𝛼 𝜏 𝑒𝑥𝑝[−𝑥] 𝑑𝑥𝑡

0

= 𝜏 ∫ 𝑥(1+1

𝛼)−1 𝑒𝑥𝑝[−𝑥] 𝑑𝑥

𝑡

0

= 𝜏 𝛤 (1 +1

𝛼) (2.6)

Sehingga nilai rata-rata (mean) pada distribusi Weibull yaitu : 𝜏2 𝛤 (1 +2

𝛼)

b. Ragam [Var(t)]

E(t2) = ∫ t2 𝑓(𝑡)𝑑𝑡∞

0

= ∫ t2 (𝛼

𝜏) (

𝑡

𝜏)𝛼−1

𝑒𝑥𝑝 [−(𝑡

𝜏)𝛼

] 𝑑𝑡∞

0

Misal : x = (𝑡

𝜏)𝛼

→ t = 𝑥1

𝛼 𝜏

dx = 𝛼

𝜏(

𝑡

𝜏)𝛼−1

𝑑𝑡

Jika t = 0 → x = 0 ; t = ∞ → x = ∞

Sehingga :

E(t2) = ∫ (𝑥1

𝛼𝜏 )2

𝑒𝑥𝑝[−𝑥] 𝑑𝑥𝑡

0

= 𝜏2 ∫ 𝑥(2

𝛼) 𝑒𝑥𝑝[−𝑥] 𝑑𝑥

𝑡

0

= 𝜏2 ∫ 𝑥(1+2

𝛼)−1 𝑒𝑥𝑝[−𝑥] 𝑑𝑥

𝑡

0

= 𝜏2 𝛤 (1 +2

𝛼)

Var (t) = E(𝑡2) − [𝐸(𝑡)]2

= 𝜏2 𝛤 (1 +2

𝛼) − [𝜏 𝛤 (1 +

1

𝛼)]

2

= 𝜏2𝛤 (1 +2

𝛼) − 𝜏2 𝛤 (1 +

1

𝛼) 𝛤 (1 +

1

𝛼)

12

= 𝜏2 {𝛤 (1 +2

𝛼) − [𝛤 (1 +

1

𝛼) 𝛤 (1 +

1

𝛼)]}

= 𝜏2 {𝛤 (1 +2

𝛼) − 𝛤2 (1 +

1

𝛼)} (2.7)

Sehingga nilai ragam (varian) pada distribusi Weibull yaitu :

𝜏2 {𝛤 (1 +2

𝛼) − 𝛤2 (1 +

1

𝛼)}

Parameter-parameter pada distribusi weibull dapat diestimasi dengan berbgai

macam metode. Salah satu metode yang sering digunakan untuk mencari nilai

estimasi dari suatu parameter yaitu metode kemungkinan maksimum. Metode

kemungkinan maksimum dapat digunakan jika fungsi densitasnya diketahui.

2.3 Metode Kemungkinan Maksimum ( Method of Maximum Likelihood)

Metode maksimum Likelihood adalah salah satu metode yang paling sering

digunakan untuk mencari nilai estimasi dari suatu parameter. Fungsi densitas

bersama dari variabel random X1, X2, … , Xn yang bernilai x1, x2, … , xn adalah

L(θ) = f(x1, x2, ... , xn; θ) yang merupakan fungsi likelihood. Fungsi likelihood

merupakan fungsi dari θ dan dilambangkan dengan L(θ). Jika x1, x2, … , xn

adalah sampel random yang saling bebas stokastik independen (iid) dari f(x; θ) ;

θ∈Ω, maka :

L(θ) = f(xi; θ)

= f(x1, x2, … , xn; θ)

= f(x1; θ).f(x2; θ). … . f(xn; θ)

= ∏ 𝑓(𝑥𝑖; θ)𝑛𝑖=1 (2.8)

13

Untuk hasil pengamatan x1, x2, ... , xn nilai θ̂ berada dalam Ω(θ̂ ∈Ω), dimana

L(θ)maksimum yang disebut sebagai Maximum Likelihood Estimation (MLE.)

dari θ. Jadi, θ̂ merupakan nilai duga dari θ. Jika f(x1, x2, ... , xn) = max f(x1, x2, ... ,

xn; θ); θ ∈ Ω, maka untuk memperoleh nilai θ̂ tersebut yang memaksimumkan

L(θ) harus di derivatifkan yaitu :

𝜕

∂θ L(θ) = 0

(Hoog and Craig, 1995)

Apabila hasil yang diperoleh dari metode kemungkinan maksimum berbentuk non

linear atau masih mengandung parameter maka dibutuhkan metode iteratif untuk

menyelesaikannya. Salah satu metode iteratif untuk menyelesaikan masalah ini

adalah metode iterasi newton raphson.

2.4 Metode Iterasi Newton Raphson

Apabila dalam proses estimasi parameter yang diperoleh merupakan persamaan

akhir yang non linear maka tidak mudah untuk memperoleh estimasi parameter

tersebut, sehingga diperlukan suatu metode numerik untuk menyelesaikan

persamaan non linear ersebut. Salah satu metode yang sering digunakan untuk

menyelesaikan sistem non linear adalah metode Newton Rhapson. Metode Newton

Rhapson merupakan metode untuk menyelesaikan persamaan non linear secara

iteratif.

14

Adapun langkah-langkah metode iterasi Newton Rhapson adalah sebagai berikut :

1. Ambil estimasi dari θ, misal θ0.

2. 𝜃1 = 𝜃0 − 𝐺( 𝜃0)

𝐻( 𝜃0) , 𝐺( 𝜃0) merupakan turunan pertama dari f(θ) pada 𝜃 =

𝜃𝑡.

3. 𝜃1+1 = 𝜃𝑡 − 𝐺( 𝜃𝑡)

𝐻( 𝜃𝑡) , 𝐻( 𝜃𝑡) dan 𝐺( 𝜃0) = 𝐺𝑡 , maka 𝜃1+1 = 𝜃𝑡 −

(𝐻𝑡)−1𝐺𝑡

4. Estimator 𝜃𝑡 diiteratif terus sampai diperoleh jarak antara 𝜃1+1 dengan 𝜃𝑡

nilainya sangat kecil atau 𝜃1+1 − 𝜃𝑡 ≈ 𝜀

Metode ini dapat diperluas untuk menyelesaikan system persamaan dengan lebih

dari satu parameter. Misal θ1, θ2, …, θp maka iterasinya sebagai berikut :

𝜃1+1 = 𝜃𝑡 − (𝐻𝑡)−1𝐺𝑡 (2.10)

Dimana 𝜃1+1 dan 𝜃𝑡 dalam bentuk vector yaitu :

𝜃1+1 = [𝜃1

𝑡+1

⋮𝜃𝑝

𝑡+1] dan 𝜃𝑡 = [

𝜃1𝑡

⋮𝜃𝑝

𝑡]

𝐻 =

[ 𝜕2𝐹(𝜃)

𝜕𝜃12

𝜕2𝐹(𝜃)

𝜕𝜃1𝜕𝜃2…

𝜕2𝐹(𝜃)

𝜕𝜃1𝜕𝜃𝑝

⋮ ⋮ ⋮𝜕2𝐹(𝜃)

𝜕𝜃𝑝2

𝜕2𝐹(𝜃)

𝜕𝜃𝑝𝜕𝜃2 …

𝜕2𝐹(𝜃)

𝜕𝜃𝑝2

]

dan 𝐺 =

[ 𝜕𝐹(𝜃)

𝜕𝜃1

⋮𝜕𝐹(𝜃)

𝜕𝜃𝑝 ]

(Casella dan Berger, 1990)

2.5 Multivariat

Data massa hidup individu dapat dipengaruhi oleh beberapa faktor. Jika data

massa hidup dipengaruhi lebih dua faktor dan diukur secara bersamaan maka data

yang digunakan adalah data multivariat. Analisis multivariat merupakan

15

pengembangan lanjutan dari analisis univariat maupun bivariat. Menurut Rencher

(2002), analisis multivariat berasal dari kata multi dan variate, yang artinya

analisis lebih dari dua variabel. Dengan demikian, analisis multivariat merupakan

metode statistik yang memungkinkan melakukan penelitian terhadap lebih dari

dua variable secara bersamaan. Dengan menggunakan teknik analisis ini maka

kita dapat menganalisis pengaruh beberapa variable terhadap variabel lainnya

dalam waktu yang bersamaan. Analisis multivariat digunakan karena pada

kenyataannya masalah yang terjadi tidak dapat diselesaikan dengan

menghubungkan dua variabel atau melihat pengaruh satu variabel terhadap

variabel lainnya.

Data massa hidup yang dipengaruhi oleh faktor-faktor dapat menimbulkan

hubungan sebab akibat. Metode satistika yang digunakan untuk mengetahui

hubungan antara variabel bebas dan variabel tak bebas adalah analis regresi.

Menurut Sudjana (2005) analisis regresi adalah hubungan yang didapat dan

dinyatakan dalam bantuk persamaan matematik yang menyatakan hubungan

fungsional antar variabel – variabel. Tujuan utama regresi adalah untuk membuat

perkiraan nilai suatu variabel (variabel tak bebas) jika nilai variabel yang lain

yang berhubungan dengannya (variabel bebas) sudah ditentukan. Analisis regresi

untuk data massa hidup adalah regresi cox atau model Cox Proportional Hazard

(Cox PH).

16

2.6 Cox Proportional Hazard (Cox PH) Model

Model cox proportional hazard (Cox PH) atau model regresi cox diperkenalkan

oleh D.R. Cox pada tahun 1972 dan pertama kali diterapkan pada data survival.

Pada model tersebut variabel peyerta dimasukkan dalam model sebagai variabel

bebas dan waktu survival sebagai variabel tak bebas. Dengan menerapkan model

regresi Cox, maka akan diketahui bentuk hubungan antar variabel bebas dan

variabel tak bebas. Model Cox proportional hazard (Cox PH) adalah pemodelan

matematika yang sangat popular yang digunakan untuk menganalisis data survival

(Kleinbaum dan Klein, 2005). Menurut Nisa’ dan Budiantara (2012), pemodelan

data survival tersebut merupakan pemodelan metode semi parametrik yang

digunakan untuk mengestimasi efek covariate pada data survival. Pemodelan

regresi untuk mengetahui faktor-faktor yang mempengaruhi data survival untuk

data tidak tersensor yang disebut Regresi Cox (Cox PH Model). Model Cox PH

dapat ditulis sebagai berikut :

h(t,X) = ℎ0(t)𝑒∑ 𝛽𝑖𝑋𝑖𝑘𝑖=1 (2.11)

dimana :

ℎ0(t) = Baseline hazard

𝛽 = Koefisien regresi (𝛽1, 𝛽2, … , 𝛽𝑘)

X = Variabel Prediktor (𝑋1, 𝑋2, … , 𝑋𝑘)

Model Cox PH menghasilkan beberapa jenis residual yaitu Cox-Snell residual,

martingale residual, dan deviance residual. Martingale residual menyediakan

ukuran perbedaan jumlah observasi yang mati dalam interval (0,t) dan jumlah

prediksi dalam model (Collet, 2003).

17

2.7 Residual Martingale

Residual merupakan suatu alat diagnostik yang digunakan untuk menilai suatu

ketepatan model dan berfokus pada masing masing variabel secara grafikal.

Penggunaan residual dalam analisis data survival digunakan untuk menilai hal-hal

sebagai berikut :

1. Bentuk fungsional untuk mengetahui pengaruh dari variabel prediktor pada

suatu model.

2. Ketepatan suatu model dengan memperhitungkan asumsi-asumsi pada

pemodelan proportional hazard.

3. Ketepatan suatu model dengan memperhitungkan signifikansi dari masing-

masing variabel.

4. Pengaruh yang diberikan untuk suatu variabel dalam estimasi parameter.

Model Cox PH pada persamaan dapat menghasilkan berbagai macam jenis

residual, salah satunya adalah residual martingale. Martingale residual

menyediakan ukuran perbedaan jumlah observasi yang mati dalam interval (0,t)

dan jumlah prediksi dalam model (Collet, 2003).Persamaan residual martingale

dapat dijelaskan sebagai berikut :

𝑀𝑖(𝑡) = 𝑁𝑖(𝑡) − 𝐻𝑖(𝑡) (2.12)

Dengan :

𝑀𝑖(𝑡) = Residual martingale ke-I pada waktu ke-t

𝑁𝑖(𝑡) = 1 , Untuk data tidak tersensor.

0 , untuk data tersensor.

𝐻𝑖(𝑡) = Fungsi hazard kumulatif

18

Nilai residual martingale adalah antara −∞ hingga 1. Nilai tersebut negatif pada

data tersensor. Residual martingale dapat menjadi gambaran mengenai perbedaan

hasil pengamatan 𝑁𝑖(𝑡) dengan angka prediksi pada kejadian kejadian 𝐻𝑖(𝑡) .

Ketika perbedaan antara hasil pengamatan dengan angka prediksi untuk subjek

ke-i cukup besar, itu menunjukkan bahwa subjek ke-i tidak sesuai dengan model

dan mengakibatkan suatu nilai besar pada 𝑀𝑖(𝑡). Karena range dari 𝐻𝑖(𝑡) adalah

(0,∞) dan 𝑁𝑖(𝑡) hanya bernilai 0 atau 1, maka dapat diambil kesimpulan bahwa

residual martingale bernilai (−∞, 1 ) dan kesimetrisan dari distribusi residual

martingale mendekati 0.

Dalam penelitian ini martingale residual digunakan sebagai variabel respon pada

metode Multivariate Adaptive Regression Spine (MARS).

2.8 Multivariate Adaptive Regression Spline (MARS)

Multivariate Adaptive Regression Splines (MARS) merupakan metode regresi

multivariat nonparametrik. Menurut Eubank (1998), regresi nonparametrik

merupakan pendekatan metode regresi dimana bentuk kurva dari fungsi

regresinya tidak diketahui. bentuk model regresi nonparametrik adalah sebagai

berikut:

𝒚𝒊 = 𝒇(𝒙𝒊) + 𝜺 (2.13)

dengan 𝒚𝒊 adalah variabel terikat sedangkan fungsi 𝒇 merupakan kurva regresi

yang tidak diketahui bentuknya, dan 𝒙𝒊 adalah variabel bebas, serta diasumsikan 𝜺

berdistribusi 𝑁(0, 𝜎2) . Pendekatan regresi nonparametrik memiliki fleksibilitas

yang tinggi, karena data yang diharapkan mencari sendiri bentuk estimasi kurva

regresinya tanpa dipengaruhi oleh faktor subyektifitas peneliti.

19

Multivariate Adaptive Regression Splines (MARS) merupakan pendekatan untuk

regresi multivariat nonparametrik yang menghasilkan pemodelan regresi yang

fleksibel. Metode ini diperkenalkan oleh Jerome H. Friedman pada tahun 1990.

Model MARS difokuskan untuk mengatasi permasalahan berdimensi tinggi,

memiliki variable prediktor 3 < k < 20 , ukuran sampel 50 < N < 1000. MARS

mampu mengatasi diskontinuitas pada data. MARS merupakan pengembangan

dari pendekatan Recursive Partition Regression (RPR) yang dikombinasikan

dengan metode spline sehingga model yang dihasilkan kontinu pada knot

(Friedman, 1991).

2.8.1 Recursive Partition Regression (RPR)

Misal Y adalah variabel tak bebas tunggal yang dipengaruhi oleh variabel bebas 𝑋

sebanyak p, dimana 𝑋 = (𝑋1, 𝑋2, … , 𝑋𝑝) maka Y dapat dinyatakan dalam model

regresi sebagai berikut :

𝑌 = 𝑓(𝑋1, 𝑋2, … , 𝑋𝑝) + 𝜀 (2.14)

Dengan domain D merupakan subset dari ruang berdimensi p. Sisaan diasumsikan

memiliki rataan nol dan ragam 𝜎2 . Dari persamaan (2.14), misalkan terdapat

sampel sebanyak N untuk Y dan 𝑋 = (𝑋1, 𝑋2, … , 𝑋𝑝) dinyatakan sebagai

{𝑦1, 𝑥1𝑖, … , 𝑋𝑝𝑖}𝑁

𝑖=1. Ambil {𝑅𝑗}

𝑠𝑗=1

yang merupakan subset yang saling lepas dari

domain D, sehingga 𝐷 =∪𝑗=1𝑠 𝑅𝑗 . RPR menduga fungsi 𝑓(𝑥) yang tidak diketahui

dengan

𝑓(𝑥) = ∑ 𝐶𝑗(𝑥)𝐵𝑗(𝑥)𝑠𝑗=1 (2.15)

20

Dengan 𝐵𝑗(𝑥) = 𝐼⌊𝑥 ∈ 𝑅𝑗⌋. I adalah fungsi indikator yang bernilai 1 jika benar

dan bernilai 0 jika salah. dan 𝐶𝑗(𝑥) adalah koefisien subregion. Setiap fungsi

indikator merupakan perkalian dari fungsi univariat yang menggambarkan setiap

subregion j di R .

Secara umum, RPR mempunyai dua tahap yaitu tahap forward dan backward.

Dimulai dari subregion pertama 𝑅1 = 𝐷, tahap forward memilah domain D secara

iteratif menjadi himpunan bagian (subregion) yang saling lepas {𝑅𝑗}𝑀

𝑗=2, untuk

𝑀 ≥ 𝑆. Dengan M ditentukan sebarang. Selanjutnya, tahap backward berlawanan

dengan tahap forward yaitu menghilangkan atau memangkas subregion dari

model

dengan dua kriteria yaitu evaluasi dugaan model dan jumlah subregion dalam

model.

Tahap forward dan backward ini menghasilkan sekumpulan subregion yang tidak

saling tumpang tindih, sehingga 𝑓(𝑥) mendekati 𝑓(𝑥) untuk setiap subregion

daerah asal. RPR merupakan metode yang mampu mengatasi kesulitan dalam

menentukan knot karena knot ditentukan oleh data. Namun RPR masih memiliki

kekurangan dalam pemodelan regresi. Kekurangan RPR yaitu belum cukup

mampu menduga 𝑓(𝑥) linier atau aditif dan model RPR menghasilkan subregion

yang tidak kontinu pada knot (Friedman, 1991).

21

2.8.2 Spline

Untuk mengatasi kekurangan dari RPR, Jerome H. Friedman melakukan

modifikasi. Untuk menduga fungsi linier atau aditif, Friedman melakukan inovasi

dengan cara tidak menghapus induk atau parent region selama pemilahan

subregion dilakukan. Sehingga pada iterasi selanjutnya parent dan pilahan

subregion dapat dipilah lebih lanjut, hal ini akan menghasilkan subregion yang

saling tumpang tindih. Selain itu, modifikasi ini juga menghasilkan model linier

dengan pemilahan berulang pada peubah prediktor yang berbeda serta

menghasilkan model yang fleksibel (Friedman, 1991).

Modifikasi tersebut belum dapat mengatasi diskontinuitas pada titik knot yang

disebabkan oleh adanya perkalian fungsi univariat. Oleh karena itu Friedman

mengganti perkalian fungsi univariat dengan regresi linier spline ordo satu.

Regresi spline adalah suatu pendekatan ke arah plot data dengan tetap

memperhitungkan kemulusan kurva. Spline merupakan model polinomial yang

tersegmen atau terbagi dimana sifat segmen inilah yang memberikan fleksibelitas

yang lebih baik dibanding model polinomial biasa. Sifat ini memungkinkan model

regresi spline menyesuaikan diri secara efektif terhadap karakteristik lokal dari

data. Penggunaan spline difokuskan kepada adanya perilaku atau pola data, yang

pada daerah tertentu mempunyai karakteristik yang berbeda dengan daerah lain.

Fungsi spline berorde ke-1 dengan satu variabel penjelas adalah sembarang fungsi

yang secara umum dapat disajikan dalam bentuk

𝑓(𝑥) = 𝛽0 + 𝛽1𝑋 + 𝛽2 (𝑋 − 𝐾)+1 +𝜀𝑖 (2.16)

22

𝛽0 = Intersep

𝛽1 = Slope

K = Knot

X = Peubah penjelas

(Eubank, 1998)

Pada regresi splines ini sisi kiri (-) dan sisi kanan (+) truncated spline sebagai

berikut :

𝐵𝑗(𝑥) = ∏ [𝑠𝑖𝑗(𝑥𝑘(𝑖,𝑗) − 𝑡(𝑖,𝑗))]𝑆𝑗

𝑖=1 (2.17)

Dengan 𝑆𝑗 jumlah pilihan subregion ke-j dari domain D, 𝑡(𝑖,𝑗) merupakan knot dari

variabel bebas 𝑥𝑘(𝑖,𝑗) dan nilai 𝑠𝑖𝑗 nilainya 1 dan -1 jika knot ada di kanan dan kiri

subregion.

Beberapa istilah yang perlu diperhatikan dalam metode dan pemodelan MARS

adalah sebagai berikut :

1. Knots

Knot merupakan nilai variabel prediktor ketika slope suatu garis regresi

mengalami perubahan yang dapat didefinisikan sebagai akhir dari sebuah

garis regresi (region) dan awal dari sebuah garis regresi (region) yang lain.

Pada setiap titik knot, diharapkan adanya kontinuitas dari fungsi basis antar

satu region dengan region lainnya. Minimum jarak antara knot atau minimum

observasi (MO) antara knot adalah 0,1,2, dan 3 observasi.

23

2. Basis Fungsi (BF)

Fungsi Basis yaitu suatu fungsi parametrik yang didefinisikan pada tiap

region yang digunakan untuk menjelaskan hubungan antara variable respon

dan variable prediktornya. Fungsi basis ini berupa selang antar knot yang

berurutan. Pada umumnya fungsi basis yang dipilih berbentuk polynomial

dengan turunan yang kontinu pada setiap titik knot. Maksimum fungsi basis

yang diizinkan adalah 2-4 kali jumlah variable prediktornya.

3. Interaksi

Merupakan hubungan korelasi antar variabel (hasil perkalian silang antar

variabel yang saling berkorelasi). Jumlah Maksimum Interaksi (MI) yang

diperbolehkan adalah 1,2 atau 3. Jika MI > 3 akan dihasilkan model semakin

kompleks dan model akan sulit diinterpretasi.

Model MARS digunakan untuk mengatasi kelemahan Recursive Partitioning

Regression (RPR) yaitu menghasilkan model yang kontinu pada knot dan dapat

mengidentifikasi adanya fungsi linear dan aditif. Hasil modifikasi model RPR

dengan kombinasi splines oleh Friedman (1991) adalah model multivariate

adaptive regression splines (MARS) sebagai berikut:

𝑓(𝑥) = 𝑎0 + ∑ 𝑎𝑚 ∏ [𝑠𝑘𝑚(𝑥𝑖(𝑘,𝑚) − 𝑡(𝑘,𝑚))]𝐾𝑚𝑘=1

𝑀𝑚=1 + 𝜀𝑖 (2.18)

Persamaan model MARS dapat disederhanakan sebagai berikut :

𝑓(𝑥) = 𝑎0 + 𝑎1𝐵𝐹1 + 𝑎2𝐵𝐹2 + … + 𝑎𝑚𝐵𝐹𝑚 + 𝜀𝑖 (2.19)

dimana :

𝑓(𝑥) = Variabel respon

𝑎0 = Konstanta

24

𝑎𝑚 = Koefisien untuk basis fungsi ke-m

𝐵𝐹𝑚 = Basis fungsi ke-m

Pemodelan MARS ditentukan berdasarkan trial and error untuk kombinasi BF, MI

dan MO untuk mendapatkan nilai GCV yang minimum. Persamaan GCV adalah

sebagai berikut :

GCV(M) =

1

𝑛 ∑ [𝑦𝑖−�̂�𝑀(𝑥𝑖]

2𝑛𝑖=1

[1−�̃�(𝑀)

𝑛]2 (2.20)

dengan :

�̃�(𝑀) = 𝐶(𝑀) + 𝑑𝑀

𝐶(𝑀) = trace (𝑩(𝑩𝑇𝑩)−1𝑩𝑇) + 1

Dimana :

n = Banyaknya data

B = Basis fungsi

M = Jumlah basis fungsi

d = 2 ≤ 𝑑 ≤ 4

1

𝑛 ∑ [𝑦𝑖 − 𝑓𝑀(𝑥𝑖]

2𝑛𝑖=1 = Average Sum Square of Residual

Untuk memperoleh model akhir MARS digunakan metode stepwise.

2.8.2 Metode Stepwise

Multivariate adaptive Regression Spline (MARS) merupakan proses stepwise.

Metode Stepwise adalah kombinasi antara metode forward dan backward. Pada

tahap proses forward, proses penambahan basis fungsi ditambahkan sampai batas

maksimum yang diperbolehkan dalam model tercapai. Pada tahap proses

25

backward yaitu proses penghapusan stepwise. Semua basis fungsi yang tidak

perlu dihapus sampai model akhir diperoleh yang berdasarkan GCV yaitu model

dengan minimum GCV. Pada proses forward dan backward menghasilkan model

dengan jumlah basis fungsi yang berbeda. Model yang menghasilkan nilai GCV

terkecil dipilih sebagai model terbaik.

(Kriner, 2007)

Untuk menduga koefisien model mars yaitu 𝑎 digunakan metode Penalized Least

Square (PLS). Metode Penalized Least Square (PLS) merupakan perluasan

metode least square dengan menambahkan parameter penghalus dan penalti pada

fungsi yang akan digunakan.

2.9 Metode Penalized Least Square

Metode Penalized Least Square (PLS) merupakan perluasan metode least square

dengan menambahkan parameter penghalus dan penalti pada fungsi yang akan

digunakan. Fungsi yang akan dipergunakan merupakan keluarga fungsi yang

terdifferensial pada interva [𝑎, 𝑏] dan kontinu absolut pada turunan pertama.

Bentuknya adalah sebagai berikut :

𝑆(𝛽, 𝑓) =1

𝑛∑ (𝑦𝑖 − 𝑓(𝑦𝑖) + 𝜆2 ∫ (𝑓𝑚(𝑢))2 𝑑𝑢

𝑏

𝑎𝑛𝑖=1 (2.21)

Dalam hal ini 𝜆 merupakan parameter penghalus dan ∫ (𝑓𝑚(𝑢))2 𝑑𝑢𝑏

𝑎 merupakan

penalti. Metode PLS dilakuakn dengan cara meminimumkan nilai 𝑍 dengan nilai

𝑍 = (𝑌⏞ − 𝐵𝑎) 𝑇(𝑌⏞ − 𝐵𝑎) dan 𝜆2 = 0.

(Wahba, 1990)

III. METODOLOGI PENELITIAN

3.1 Waktu dan Tempat Penelitian

Penelitian ini dilakukan pada semester genap tahun akademik 2015/2016,

bertempat di Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan

Alam Universitas Lampung.

3.2 Metode Penelitian

Adapun langkah-langkah dalam penelitian ini adalah sebagai berikut :

1. Menentukan fungsi baseline hazard.

a. Menentukan fungsi distribusi kumulatif distribusi Weibull.

b. Menentukan fungsi masa hidup (survival) distribusi Weibull.

c. Menentukan fungsi hazard distribusi Weibull.

2. Menentukan estimasi parameter untuk fungsi baseline hazard dengan metode

Maximum Likelihood Estimator (MLE).

a. Menentukan fungsi Maximum Likelihood Estimation (MLE)

b. Menurunkan fungsi MLE dengan fungsi ln.

c. Mencari turunan pertama dari ln fungsi MLE terhadap parameter α dan β

yang akan diduga dan menyamakan dengan nol.

27

d. Apabila solusi dari persamaan yang dihasilkan dari langkah ini tidak

memperoleh penyelesaian, maka prosedur pendugaan dilanjutkan dengan

menggunakan itersi Newton-Raphson.

3. Menentukan model MARS dengan metode stepwise dan menentukan estimasi

koefisien model pada model MARS dengan menggunakan pendekatan

Penalized Least Square.

3.3 Studi Kasus

Dalam melakukan studi kasus, penulis menggunakan data sekunder yaitu data

remission survival time on 42 patient leukaemia dengan menggunakan software

R. adapun langkah-langkahnya sebagai berikut :

1. Menentukan data survival dengan menghilangkan data tersensor.

2. Mendeskripsikan karakteristik pasien leukimia yang diteliti.

3. Mencocokkan apakah distribusi data survival merupakan distribusi weibull.

4. Melakukan resampling sebanyak 50, 100, 500, 900, dan 1000.

5. Menentukan estimasi dari masing-masing jumlah resampling.

6. Menentukan model analisis survival dengan pendekatan MARS untuk

masing-masing resampling.

7. Mendapatkan model terbaik berdasarkan nilai GVC minimum.

8. Membandingkan model analisis survival dengan pendekatan MARS untuk

masing-masing resampling.

V. KESIMPULAN

Adapun kesimpulan dari penelitian ini yaitu :

1. Model analisis survival dengan pendekatan MARS untuk distribusi Weibull

yaitu :

h(t,X) = ℎ𝑦(t)𝑒𝛽𝑋

= 𝑎

𝜏𝑎 𝑡𝑎−1𝑒𝛽𝑋

2. Hasil estimasi dari parameter model analisis survival dengan pendekatan

MARS yaitu :

�̂� = 𝑛

1

𝜏�̂� ∑ 𝑡𝑖

𝛼 ln 𝑡𝑖𝑛𝑖=1 − ∑ ln(𝑡𝑖)𝑛

𝑖=1

�̂� = [1

𝑛 ∑ 𝑡𝑖

𝛼𝑛𝑖=1 ]

1

𝛼

�̂� = (𝑩𝑻𝑩)−𝟏𝑩𝑻𝑌

3. Dalam penerapan analisis survival dengan pendekatan MARS data yang

tersedia yaitu 30 sehingga model laju kematian yang dihasilkan yaitu :

h(t,X) = 1.49451

(10.74389)1.49451𝑡0.49451 exp (1.621585𝑒 − 16)

Berdasarkan model diatas dapat dilihat bahwa tidak ada variabel bebas yang

signifikan.

57

4. Dalam penerapan analisis survival dengan pendekatan MARS untuk data

resampling sebanyak 50, 100, 500, 900, dan 1000, model MARS yang

dihasilkan adalah sebagai berikut :

Model MARS n d MI GCV Rsq RSS

Model MARS 1 50 2 2 0.7417563 0.1973455 30.0411

Model MARS 2 100 2 2 0.4634711 0.6190184 30.4083

Model MARS 3 500 2 2 0.437007 0.4849229 198.864

Model MARS 4 900 2 2 0.4342531 0.4705763 371.107

Model MARS 5 1000 2 2 0.4013747 0.5087707 383.124

Berdasarkan tabel diatas dapat dilihat bahwa semakin besar jumlah sampel

yang digunakan maka nilai GCV yang dihasilkan semakin minimum dan nilai

kelajuannya semakin kecil yaitu pada jumlah resampling 1000 dengan nilai

GCV = 0.4013747. Adapun laju kematian yang dihasilkan adalah sebagai

berikut :

h(t,X) =1.301890

2.711739(1.301890) 𝑡0.301890exp (− 7.85 + 9.82 𝐵𝐹1 − 14.54 𝐵𝐹2 +

14.88 𝐵𝐹3 − 20.19 𝐵𝐹4 + 16.55 𝐵𝐹5 − 8.86 𝐵𝐹6 + 4.13 𝐵𝐹7 + 6.04 𝐵𝐹8 −

3.18 𝐵𝐹9 + 2.89 𝐵𝐹10 − 3.32 𝐵𝐹11

Dimana

𝐵𝐹1 = h(𝑋2 − 1.97)

𝐵𝐹2 = h(𝑋2 − 2,32)

𝐵𝐹3 = h(𝑋2 − 2,57)

𝐵𝐹4 = h(𝑋2 − 2.88)

𝐵𝐹5 = h(𝑋2 − 2.95)

𝐵𝐹6 = h(𝑋2 − 3.28)

𝐵𝐹7 = h(3.6 − 𝑋2)

𝐵𝐹8 = h(𝑋2 − 3.6)

𝐵𝐹9 =h(𝑋2 − 3.97)

𝐵𝐹10 = h(𝑋2 − 3.28) ∗ 𝑋3

𝐵𝐹11 = h(𝑋2 − 3.6) ∗ 𝑋3

58

Berdasarkan model yang diperoleh variabel yang berpengaruh terhadap laju

kematian pasien leukimia baik secara individu maupun berinteraksi adalah

kadar sel darah putih dan jenis treatment penyembuhan. Jumlah kadar sel

darah putih mempunyai tingkat kepentingan tertinggi dalam mempengaruhi

laju kematian pasien leukimia yaitu sebesar 100% sedangkan tingakt

kepentingan jenis treatment penyembuhan yaitu sebesar 36.6%.

DAFTAR PUSTAKA

Casella, G. dan Berger, R.L. 1990. Statistical Inference. Wadsworth and

Brooks/Cole, California.

Collett, D. 2003. Modelling Survival Data n Medical Research (2𝑛𝑑). London.

Chapman & Hall/CRC

Eubank, R.L. 1998. Spline Smoothing and Nonparametric Regression. New York.

Marcel Dekker.

Evan, M., dkk. 2011. Statical Distribution (4𝑡ℎ). United State of America. John

Wiley &Sons, Inc.

Friedman, J. H. 1990. Multivariate Adaptive Regression Spline. Stanford Linear

Acceleration Center and Department of statistic, Stanford University.

Hogg, R.V. dan Craig, A.T. 1995. Introduction to Mathematical Statistics, 5 th

Edition. Prentice-Hall, Inc.

Kleinbaum, D. , & Klein, M. 2005. Survival Analysis, a self-learning (2𝑛𝑑 ).

USA. Springer Science+Bussiness Media, Inc.

Kriner, M. 2007. Survival Analysis with Multivariate Adaptive Regression Spline.

German. Munchen University.

Nisa, S.F., dan Budiantara, I N. 2012. Analisis Survival dengan Pendekatan

Multivariat Adaptive Regression Splines pada Kasus Demam Berdarah

Dengue (DBD). Jurnal Sains dan Seni ITS. Vol. 1, No.1.

Rencher, Alvin C. (2002). Method of Multivariate Analysis(2𝑛𝑑). USA: A John

Wiley & Sons, Inc. Publication

Sudjana. 2005. Metoda Statistik. Bandung. Tarsito.

Wahba, G.(1990). Spline Models for Observasional Data. Pensylvania. SIAM.