ii. tinjauan pustaka 2.1 analisis regresidigilib.unila.ac.id/11208/15/bab ii.pdf · nilai minimum...
TRANSCRIPT
II. TINJAUAN PUSTAKA
2.1 Analisis Regresi
Menurut Hardle (1994) analisis regresi adalah suatu metode analisis data yang
menggambarkan hubungan antara variabel respon dengan satu atau beberapa
variabel prediktor . Model regresi umum dari sejumlah n data pengamatan
independen 1
,i
nYX ii adalah:
( ) , i= 1, 2, …, n (2.1)
Dengan ( ) merupakan fungsi regresi yang akan diduga, adalah galat yang
memiliki mean 0 dan varians (konstan).
2.2 Pendekatan Parametrik dan Nonparametrik
Terdapat dua pendekatan yang dapat dilakukan dalam mengestimasi fungsi
regresi, yaitu pendekatan parametrik dan nonparametrik. Dalam pendekatan
parametrik, fungsi ( ) diketahui distribusinya.
6
Menurut Chatterjee dan Hadi (2006), apabila bentuk fungsi ( ) merupakan
fungsi linear maka untuk melakukan analisis regresi harus memenuhi asumsi-
asumsi berikut:
1. Linearitas
Uji ini dilakukan untuk mengetahui apakah hubungan antara respon Y dan
prediktor X membentuk hubungan linear atau tidak. Memeriksa asumsi
linearitas dalam regresi sederhana mudah karena validitas asumsi ini dapat
ditentukan dengan memeriksa scatterplot dari Y terhadap X. Namun,
memeriksa linearitas dalam regresi berganda lebih sulit karena dimensi
yang tinggi dari data. Ketika asumsi linearitas tidak terpenuhi maka data
dianalisis dengan regresi nonlinear atau dapat dilakukan transformasi data.
2. Normalitas
Normalitas yang dimaksudkan adalah galat yang berdistribusi normal yaitu
( ). Pelanggaran terhadap kenormalan dapat terjadi karena
adanya beberapa data yang merupakan pencilan atau karena terdapat nilai
ekstrim dalam data yang digunakan.
3. Homoskedastisitas
Homoskedastisitas diartikan sebagai distribusi dari galat memiliki ragam
yang konstan (homogen). Apabila varian galat dalam model tidak konstan
disebut dengan heteroskedastisitas. Heteroskedastisitas disebabkan karena
variabel yang digunakan memiliki nilai yang sangat beragam, sehingga
menghasilkan nilai galat yang tidak konstan.
7
4. Tidak terjadi autokorelasi
Autokorelasi terjadi karena galat antar pengamatan tidak saling bebas atau
berkaitan satu sama lain.
5. Tidak terjadi multikolinearitas
Khusus untuk regresi linear berganda terdapat tambahan satu asumsi lagi
yaitu tidak terjadi multikolinearitas. Kolinearitas dapat terjadi karena
suatu faktor diukur lebih dari sekali. Kolinearitas seperti ini disebut
kolinearitas sempurna, yaitu suatu peubah bebas bergantung sepenuhnya
pada yang lainnya. Namun, dalam prakteknya kolinearitas sering muncul
dalam bentuk tersamar sehingga sukar dikenali, dimana suatu peubah
tidaklah sepenuhnya tergantung pada peubah lainnya tapi hanya sebagian.
Kolinearitas tidak sempurna seperti ini sering terjadi bila dua atau lebih
peubah dalam model saling berkaitan (multikolinearitas). Sehingga, yang
dimaksudkan dengan multikolinearitas adalah terjadinya kolinearitas
antara dua atau lebih peubah bebas dalam model.
Jika fungsi ( ) tidak diketahui distribusinya maka digunakan pendekatan
nonparametrik. Dalam pendekatan nonparametrik, kurva didekati dengan cara
melakukan teknik pemulus. Teori dan metode pemulus telah berkembang dengan
pesat. Hal ini didasari oleh pemikiran bahwa pendekatan parametrik dalam
estimasi kurva regresi sering tidak memenuhi kebutuhan fleksibilitas dalam
analisis data. Terdapat beberapa teknik pemulus yang sudah populer diterapkan
seperti histogram, penduga kernel, penduga spline, dan fourier. Dalam
8
perkembangannya, fourier dikembangkan menjadi penduga wavelet dengan
mengganti basis-basis fungsi konstan, sinus dan cosinus pada penduga deret
fourier dengan basis-basis fungsi wavelet (Hardle, 1994).
2.3 Penduga Kernel
Penduga kernel diperkenalkan oleh Rosenblatt (1956) yang merupakan
pengembangan dari estimator histogram. Rosenblatt mengusulkan menempatkan
smoothing kernel di setiap pengamatan. Kernel memiliki parameter pemulus yang
mengatur tingkat kehalusan kurva dugaan kernel yang disebut bandwidth h.
Pemilihan bandwidth h akan memengaruhi hasil smoothing kernel. Nilai
bandwidth h yang semakin kecil akan menyebabkan bentuk kurva semakin kasar
dan sebaliknya semakin besar nilai bandwidth h akan menyebabkan kurva
semakin mulus. Hal ini serupa dengan yang tersaji pada Gambar 1.
Gambar 1. Estimasi kernel dengan bandwidth h= 0.2, 0.8, 1.4 dan 4.
9
Secara umum kernel K dengan bandwidth h didefinisikan sebagai:
Kh(x) =
(
) untuk dan h>0
Serta memenuhi :
(i) K(x) 0, untuk semua x
(ii) ∫ ( )
= 1
(iii) ∫ ( )
(iv) ∫ ( )
Sementara penduga densitas kernel untuk fungsi densitas f(x) didefinisikan
sebagai:
( )=
∑ ( )
∑ .
/
(2.2)
Terdapat beberapa jenis fungsi kernel yaitu:
1. Kernel Uniform : K(x) =
;|x| 1 , 0 selainnya
2. Kernel Triangle : K(x) = (1 - |x|) ;|x| 1 , 0 selainnya
3. Kernel Epanechnikov : K(x) =
(1 - ) ;|x| 1 , 0 selainnya
4. Kernel Kuartik : K(x) =
( ) ;|x| 1 , 0 selainnya
5. Kernel Triweight : K(x) =
(1 - ) ;|x| 1 , 0 selainnya
6. Kernel Cosinus : K(x) =
.
/ ;|x| 1 , 0 selainnya
7. Kernel Gaussian : K(x) =
√
10
Berdasarkan persamaan (2.2) penduga densitas kernel tergantung pada dua
parameter yaitu fungsi kernel K dan bandwidth h. Berikut gambar demonstrasi
pengaruh fungsi kernel K yang berbeda terhadap pemulusan kurva dengan
bandwidth h tetap.
Gambar 2. Estimasi kernel dengan uniform kernel(…), triangle kernel( ),
quartic kernel(---); bandwidth h=0,8.
Berdasarkan Gambar 2. dapat dilihat bahwa perkiraan f(x) oleh fungsi kernel K
yang berbeda memberikan kualitatif perkiraan f(x) yang berbeda atau dengan kata
lain perkiraan kepadatan agak berbeda meskipun dengan bandwidth yang sama
(Hardle, 1991).
Dalam regresi kernel pemilihan bandwidth jauh lebih penting dibandingkan
dengan pemilihan fungsi kernel. Hal ini disebabkan penggunaan fungsi kernel
yang berbeda dengan nilai bandwidth optimal menghasilkan estimasi kurva
regresi yang hampir sama. Permasalahan dalam kernel adalah pemilihan
bandwidth, bukan pada pemilihan fungsi kernel. Fungsi kernel yang umum
11
digunakan adalah kernel Gaussian dan kernel Epanechnicov. Kernel Triangle
sering digunakan karena lebih mudah dan cepat dalam perhitungan (Sukarsa dan
Srinadi, 2012).
2.4 Penduga Nadaraya-Watson
Jika terdapat n data pengamatan {(Xi ,Yi)+ yang memenuhi persamaan (2.1)
dimana dan , maka penduga m(x) adalah:
( ) ( | ) ∫ ( )
( ) (2.3)
Penyebut pada persamaan (2.3) diduga dengan menggunakan penduga densitas
kernel sebagai berikut:
( ) =
∑ ( )
Fungsi densitas peluang bersama diduga dengan perkalian kernel, yaitu :
( ) =
∑ ( ) ( )
Sehingga, pembilang dari penduga Nadaraya menjadi :
∫ ( ) ∑ ( )∫ ( )
∑ ( )∫
(
)
∑ ( )
∫( ) ( )
∑ ( )
12
Dengan demikian bentuk penduga Nadaraya-Watson dapat ditulis :
( )
∑ ( )
∑ ( )
( )
∑ .
/
∑ .
/
( ) ∑ .
/
∑ . /
(2.4)
( ) ∑ ( )
dimana
( ) ( )
∑ ( )
(2.5)
Matriks W pada persamaan (2.5) disebut dengan Hat Matriks dari penduga m(x).
Persamaan (2.4) ditemukan oleh Nadaraya dan Watson (1964), sehingga disebut
estimator Nadaraya-Watson (Hardle, 1991).
Dalam penelitian ini, akan digunakan fungsi kernel gausian yang didefinisikan:
K(x) =
√
;
Sehingga penduga Nadaraya-Watson menjadi :
( )
∑
√
(
)
∑
√ .
/
13
( )
√ ∑
(
)
√ ∑
.
/
( ) ∑
(
)
∑ (
)
(2.6)
( )
dengan (
)
∑ (
)
(2.7)
Matriks W pada persamaan (2.7) disebut dengan Hat Matriks dari penduga m(x)
sedangkan persamaan (2.6) merupakan estimator Nadaraya-Watson dengan
menggunakan kernel Gaussian.
2.5 Deret Fourier
Menurut Tolstov (1962), jika fungsi f(x) terdefinisi pada interval [ ] dan
diluar selang ini oleh ( ) ( ) maka f(x) merupakan fungsi periodik
dengan periode 2L. ( ) dapat direpresentasikan dengan deret perluasan fourier
sebagai berikut :
( )
∑( (
) (
))
( )
∑( (
) (
))
14
dengan:
∫ ( )
∫ ( ) .
/
∫ ( ) .
/
;
2.6 Penduga Fourier
Diberikan n data pengamatan {(xi ,yi)+ yang memenuhi persamaan (2.1). Jika
, - dan , dan diasumsikan periode m(x) adalah , maka
penduga m(x) dapat didekati oleh deret fourier yang didefinisikan sebagai berikut:
( )
∑ .
/ .
/
(2.8)
persamaan (2.8) merupakan penduga m(x) dengan metode fourier untuk bentuk
data gelombang periodik dengan a0 , dan adalah koefisien Fourier.
Berdasarkan persamaan (2.8), untuk menentukan koefisien deret fourier dapat
dilakukan perhitungan seperti pada metode parametrik sebagai berikut:
( )
∑ ( ) ( )
;
( )
, ( ) ( ) ( )
( ) ( ) ( )
( )
, ( ) ( ) ( )
( ) ( ) ( )]; j=1,2,…,J
15
Jadi, persamaan regresi nonparametrik menjadi :
= ( ) + i = 1,2,3,...,n, n menyatakan banyaknya jumlah data
[
] =
[ ( )
( )
( )]
+ [
]
Dengan :
( )
[
, ( ) ( ) ( ) ( ) ( ) ( )-
, ( ) ( ) ( ) ( ) ( ) ( )-
, ( ) ( ) ( ) ( ) ( ) ( )-]
Misalkan ( )= , maka
A=[
( ) ( )
( ) ( )
( )
( )
( )
( )
( )
( ) ( )
( ) ( )
( )
( )
( )
( )
( )
]
,
-
Menurut Chaterjee dan Andi (2006), nilai terbaik dapat diperoleh dengan
meminimalkan nilai kuadrat galat (metode least Square).
Karena Y=A , maka :
( ) ( )
Nilai minimum diperoleh jika diferensial pertamanya sama dengan nol
=
(( ) ( ))
16
=
( )( )
=
( )
=
( ); karena konstanta
=
( )
=
= ( )
=
(2.9)
Jika memiliki invers, persamaan (2.9) memberikan solusi yang unik, yaitu:
( )
Karena ( ) maka :
( ) ( )
( ) , ( ) - (2.10)
Hat matrix Fourier yang dilambangkan dengan merupakan matrix berukuran
yang memenuhi ( ) . Berdasarkan persamaan (2.10) maka Hat
matrix pada metode Fourier didefnisikan sebagai:
( )
Hat matrix akan digunakan pada rumus metode pemilihan bandwidth optimal
untuk teknik pemulus Fourier.
17
2.7 Pemilihan Bandwidth Optimal
Bandwidth merupakan parameter pemulus yang berfungsi untuk mengontrol
kemulusan dari kurva yang diduga. Menurut Hardle (1991), pada metode kernel
tingkat kemulusan kurva ditentukan oleh pemilihan bandwidth h, semakin kecil
pemilihan nilai bandwidth h bentuk kurva dugaan akan semakin kasar dan
semakin besar nilai bandwidth h bentuk kurva dugaan akan semakin mulus.
Namun, tingkat kemulusan pada fourier berlaku sebaliknya, dimana semakin
kecil parameter pemulus J semakin mulus bentuk kurva dugaan dan semakin besar
parameter pemulus J semakin kurang mulus bentuk kurva dugaan dari f(x).
Tujuan estimasi kurva tidak hanya untuk memperoleh kurva yang mulus tetapi
juga memiliki tingkat kesalahan yang tidak terlalu besar. Berdasarkan hal itu
perlu dipilih nilai bandwidth optimal sehingga didapatkan kurva yang mulus
dengan kesalahan yang minimum. Terdapat beberapa kriteria pemilihan
bandwidth yang telah diperkenalkan, seperti Cross-Validation (CV), Generalized
Cross Validation (GCV), Bayesian Information Criterion (BIC), Minimum
Description Length (MDL), Akaike Information Criterion (AIC), serta Improved
Akaike Information Criterion (AICC). Dalam penelitian ini akan digunakan
kriteria AIC, AICC , dan GCV untuk mencari nilai bandwidth optimal.
18
2.7.1 Akaike Information Criterion (AIC) dan Improved Akaike Information
Criterion (AICC)
AIC klasik dirancang oleh Akaike tahun 1973 berisi estimator informasi
Kullback-Leibler untuk pemilihan model dan tahun 1989 Hurvich dan Tsai
mengembangkan akaike untuk regresi parametrik dan autoregressive time series.
Dalam sampel kecil bias AIC bisa sangat besar, dan mereka mengusulkan versi
dikoreksi AICC . AIC dan AICC didefinisikan sebagai
( ) ( ) ( )
( )
(2.11)
dengan
∑ ( ( ))
, n merupakan jumlah data yang digunakan,
dan p jumah parameter regresi dalam model (Hurvich dan Tsai, 1989).
Berdasarkan persamaan (2.11), Hurvich, et al., (1998) mengembangkan akaike
untuk regresi nonparametrik dan memperkenalkan metode pemilihan parameter
pemulus AICc dengan mengganti jumlah parameter p dengan trace dari hat
matriks H (tr (H)). Dan mendefinisikan AICC untuk pemilihan parameter
pemulus sebagai:
( )
* ( ) +
( ) (2.12)
dengan
∑ ( ( ))
dimana n merupakan jumlah data yang
digunakan, merupakan parameter pemulus dan H adalah hat matriks berukuran
nxn yang memenuhi (Hurvich, et al., 1998).
19
Pemilihan parameter pemulus menggunakan Akaike Information Criterion
didefinisikan sebagai:
( ) . ( )
/ (2.13)
dengan
∑ ( ( ))
dimana n merupakan jumlah data yang
digunakan, merupakan parameter pemulus dan H adalah hat matriks berukuran
nxn yang memenuhi (Manzan, 2003).
2.7.2 Generalized Cross Validation (GCV)
Generalized Cross Validation (GCV) merupakan bentuk modifikasi dari Cross
Validation (CV) yang merupakan metode terdahulu untuk memilih parameter
pemulus. GCV didefinisikan sebagai:
( ) ∑ ( )
, ( )
-
( )
, ( )
-
(2.14)
dengan merupakan parameter pemulus dan adalah hat matriks berukuran nxn
yang memenuhi (Craven dan Wahba, 1979).
2.8 Ukuran Kebaikan Penduga
Kebaikan suatu penduga dapat dilihat dari tingkat kesalahannya, semakin kecil
tingkat kesalahan semakin baik estimasinya. Menurut Aydin (2007) terdapat
beberapa kriteria untuk menentukan tingkat kesalahan antara lain Mean Square
Error (MSE), Root Mean Square Error (RMSE), Mean Absolute Error (MAE),
20
dan Mean Absolute Percentage Error (MAPE). Penelitian ini akan menggunakan
Mean Square Error (MSE) sebagai kriteria untuk menentukan tingkat kesalahan
yang didefinisikan sebagai:
∑ ( )
(2.15)
Dapat juga dengan mengamati nilai koefisien determinasi (R2) yang semakin
besar nilai R2
semakin baik estimasinya. Koefisien determinasi didefinisikan
sebagai:
(2.16)
Dengan , dimana makin dekat dengan 1 makin baik estimasinya,
dan sebaliknya, makin dekat dengan 0 makin jelek estimasinya. JKT (Jumlah
Kuadrat Total) merupakan jumlah kuadrat simpangan dari rata-rata variabel
respon, JKR (Jumlah Kuadrat Regresi) merupakan jumlah kuadrat simpangan
hasil dugaan dengan rata-rata variabel respon y, dan JKG (Jumlah Kuadrat Galat)
mengukur residual dalam prediksi.
Jadi dapat dituliskan sebagai :
∑( )
∑( )
∑( )
Dengan adalah data variabel respon ke-i, adalah rata-rata variabel respon,
sedangkan adalah nilai hasil dugaan variabel respon ke-i.
21
Secara grafis dideskripsikan sebagai berikut:
Gambar 3. Ilustrasi grafis JKG, JKT, dan JKR pada garis regresi.
(Chatterjee dan Hadi, 2006).