ii. tinjauan pustaka 2.1 analisis regresidigilib.unila.ac.id/11208/15/bab ii.pdf · nilai minimum...

II. TINJAUAN PUSTAKA

2.1 Analisis Regresi

Menurut Hardle (1994) analisis regresi adalah suatu metode analisis data yang

menggambarkan hubungan antara variabel respon dengan satu atau beberapa

variabel prediktor . Model regresi umum dari sejumlah n data pengamatan

independen 1

,i

nYX ii adalah:

( ) , i= 1, 2, …, n (2.1)

Dengan ( ) merupakan fungsi regresi yang akan diduga, adalah galat yang

memiliki mean 0 dan varians (konstan).

2.2 Pendekatan Parametrik dan Nonparametrik

Terdapat dua pendekatan yang dapat dilakukan dalam mengestimasi fungsi

regresi, yaitu pendekatan parametrik dan nonparametrik. Dalam pendekatan

parametrik, fungsi ( ) diketahui distribusinya.

6

Menurut Chatterjee dan Hadi (2006), apabila bentuk fungsi ( ) merupakan

fungsi linear maka untuk melakukan analisis regresi harus memenuhi asumsi-

asumsi berikut:

1. Linearitas

Uji ini dilakukan untuk mengetahui apakah hubungan antara respon Y dan

prediktor X membentuk hubungan linear atau tidak. Memeriksa asumsi

linearitas dalam regresi sederhana mudah karena validitas asumsi ini dapat

ditentukan dengan memeriksa scatterplot dari Y terhadap X. Namun,

memeriksa linearitas dalam regresi berganda lebih sulit karena dimensi

yang tinggi dari data. Ketika asumsi linearitas tidak terpenuhi maka data

dianalisis dengan regresi nonlinear atau dapat dilakukan transformasi data.

2. Normalitas

Normalitas yang dimaksudkan adalah galat yang berdistribusi normal yaitu

( ). Pelanggaran terhadap kenormalan dapat terjadi karena

adanya beberapa data yang merupakan pencilan atau karena terdapat nilai

ekstrim dalam data yang digunakan.

3. Homoskedastisitas

Homoskedastisitas diartikan sebagai distribusi dari galat memiliki ragam

yang konstan (homogen). Apabila varian galat dalam model tidak konstan

disebut dengan heteroskedastisitas. Heteroskedastisitas disebabkan karena

variabel yang digunakan memiliki nilai yang sangat beragam, sehingga

menghasilkan nilai galat yang tidak konstan.

7

4. Tidak terjadi autokorelasi

Autokorelasi terjadi karena galat antar pengamatan tidak saling bebas atau

berkaitan satu sama lain.

5. Tidak terjadi multikolinearitas

Khusus untuk regresi linear berganda terdapat tambahan satu asumsi lagi

yaitu tidak terjadi multikolinearitas. Kolinearitas dapat terjadi karena

suatu faktor diukur lebih dari sekali. Kolinearitas seperti ini disebut

kolinearitas sempurna, yaitu suatu peubah bebas bergantung sepenuhnya

pada yang lainnya. Namun, dalam prakteknya kolinearitas sering muncul

dalam bentuk tersamar sehingga sukar dikenali, dimana suatu peubah

tidaklah sepenuhnya tergantung pada peubah lainnya tapi hanya sebagian.

Kolinearitas tidak sempurna seperti ini sering terjadi bila dua atau lebih

peubah dalam model saling berkaitan (multikolinearitas). Sehingga, yang

dimaksudkan dengan multikolinearitas adalah terjadinya kolinearitas

antara dua atau lebih peubah bebas dalam model.

Jika fungsi ( ) tidak diketahui distribusinya maka digunakan pendekatan

nonparametrik. Dalam pendekatan nonparametrik, kurva didekati dengan cara

melakukan teknik pemulus. Teori dan metode pemulus telah berkembang dengan

pesat. Hal ini didasari oleh pemikiran bahwa pendekatan parametrik dalam

estimasi kurva regresi sering tidak memenuhi kebutuhan fleksibilitas dalam

analisis data. Terdapat beberapa teknik pemulus yang sudah populer diterapkan

seperti histogram, penduga kernel, penduga spline, dan fourier. Dalam

8

perkembangannya, fourier dikembangkan menjadi penduga wavelet dengan

mengganti basis-basis fungsi konstan, sinus dan cosinus pada penduga deret

fourier dengan basis-basis fungsi wavelet (Hardle, 1994).

2.3 Penduga Kernel

Penduga kernel diperkenalkan oleh Rosenblatt (1956) yang merupakan

pengembangan dari estimator histogram. Rosenblatt mengusulkan menempatkan

smoothing kernel di setiap pengamatan. Kernel memiliki parameter pemulus yang

mengatur tingkat kehalusan kurva dugaan kernel yang disebut bandwidth h.

Pemilihan bandwidth h akan memengaruhi hasil smoothing kernel. Nilai

bandwidth h yang semakin kecil akan menyebabkan bentuk kurva semakin kasar

dan sebaliknya semakin besar nilai bandwidth h akan menyebabkan kurva

semakin mulus. Hal ini serupa dengan yang tersaji pada Gambar 1.

Gambar 1. Estimasi kernel dengan bandwidth h= 0.2, 0.8, 1.4 dan 4.

9

Secara umum kernel K dengan bandwidth h didefinisikan sebagai:

Kh(x) =

(

) untuk dan h>0

Serta memenuhi :

(i) K(x) 0, untuk semua x

(ii) ∫ ( )

= 1

(iii) ∫ ( )

(iv) ∫ ( )

Sementara penduga densitas kernel untuk fungsi densitas f(x) didefinisikan

sebagai:

( )=

∑ ( )

∑ .

/

(2.2)

Terdapat beberapa jenis fungsi kernel yaitu:

1. Kernel Uniform : K(x) =

;|x| 1 , 0 selainnya

2. Kernel Triangle : K(x) = (1 - |x|) ;|x| 1 , 0 selainnya

3. Kernel Epanechnikov : K(x) =

(1 - ) ;|x| 1 , 0 selainnya

4. Kernel Kuartik : K(x) =

( ) ;|x| 1 , 0 selainnya

5. Kernel Triweight : K(x) =

(1 - ) ;|x| 1 , 0 selainnya

6. Kernel Cosinus : K(x) =

.

/ ;|x| 1 , 0 selainnya

7. Kernel Gaussian : K(x) =

√

10

Berdasarkan persamaan (2.2) penduga densitas kernel tergantung pada dua

parameter yaitu fungsi kernel K dan bandwidth h. Berikut gambar demonstrasi

pengaruh fungsi kernel K yang berbeda terhadap pemulusan kurva dengan

bandwidth h tetap.

Gambar 2. Estimasi kernel dengan uniform kernel(…), triangle kernel( ),

quartic kernel(---); bandwidth h=0,8.

Berdasarkan Gambar 2. dapat dilihat bahwa perkiraan f(x) oleh fungsi kernel K

yang berbeda memberikan kualitatif perkiraan f(x) yang berbeda atau dengan kata

lain perkiraan kepadatan agak berbeda meskipun dengan bandwidth yang sama

(Hardle, 1991).

Dalam regresi kernel pemilihan bandwidth jauh lebih penting dibandingkan

dengan pemilihan fungsi kernel. Hal ini disebabkan penggunaan fungsi kernel

yang berbeda dengan nilai bandwidth optimal menghasilkan estimasi kurva

regresi yang hampir sama. Permasalahan dalam kernel adalah pemilihan

bandwidth, bukan pada pemilihan fungsi kernel. Fungsi kernel yang umum

11

digunakan adalah kernel Gaussian dan kernel Epanechnicov. Kernel Triangle

sering digunakan karena lebih mudah dan cepat dalam perhitungan (Sukarsa dan

Srinadi, 2012).

2.4 Penduga Nadaraya-Watson

Jika terdapat n data pengamatan {(Xi ,Yi)+ yang memenuhi persamaan (2.1)

dimana dan , maka penduga m(x) adalah:

( ) ( | ) ∫ ( )

( ) (2.3)

Penyebut pada persamaan (2.3) diduga dengan menggunakan penduga densitas

kernel sebagai berikut:

( ) =

∑ ( )

Fungsi densitas peluang bersama diduga dengan perkalian kernel, yaitu :

( ) =

∑ ( ) ( )

Sehingga, pembilang dari penduga Nadaraya menjadi :

∫ ( ) ∑ ( )∫ ( )

∑ ( )∫

(

)

∑ ( )

∫( ) ( )

∑ ( )

12

Dengan demikian bentuk penduga Nadaraya-Watson dapat ditulis :

( )

∑ ( )

∑ ( )

( )

∑ .

/

∑ .

/

( ) ∑ .

/

∑ . /

(2.4)

( ) ∑ ( )

dimana

( ) ( )

∑ ( )

(2.5)

Matriks W pada persamaan (2.5) disebut dengan Hat Matriks dari penduga m(x).

Persamaan (2.4) ditemukan oleh Nadaraya dan Watson (1964), sehingga disebut

estimator Nadaraya-Watson (Hardle, 1991).

Dalam penelitian ini, akan digunakan fungsi kernel gausian yang didefinisikan:

K(x) =

√

;

Sehingga penduga Nadaraya-Watson menjadi :

( )

∑

√

(

)

∑

√ .

/

13

( )

√ ∑

(

)

√ ∑

.

/

( ) ∑

(

)

∑ (

)

(2.6)

( )

dengan (

)

∑ (

)

(2.7)

Matriks W pada persamaan (2.7) disebut dengan Hat Matriks dari penduga m(x)

sedangkan persamaan (2.6) merupakan estimator Nadaraya-Watson dengan

menggunakan kernel Gaussian.

2.5 Deret Fourier

Menurut Tolstov (1962), jika fungsi f(x) terdefinisi pada interval [ ] dan

diluar selang ini oleh ( ) ( ) maka f(x) merupakan fungsi periodik

dengan periode 2L. ( ) dapat direpresentasikan dengan deret perluasan fourier

sebagai berikut :

( )

∑( (

) (

))

( )

∑( (

) (

))

14

dengan:

∫ ( )

∫ ( ) .

/

∫ ( ) .

/

;

2.6 Penduga Fourier

Diberikan n data pengamatan {(xi ,yi)+ yang memenuhi persamaan (2.1). Jika

, - dan , dan diasumsikan periode m(x) adalah , maka

penduga m(x) dapat didekati oleh deret fourier yang didefinisikan sebagai berikut:

( )

∑ .

/ .

/

(2.8)

persamaan (2.8) merupakan penduga m(x) dengan metode fourier untuk bentuk

data gelombang periodik dengan a0 , dan adalah koefisien Fourier.

Berdasarkan persamaan (2.8), untuk menentukan koefisien deret fourier dapat

dilakukan perhitungan seperti pada metode parametrik sebagai berikut:

( )

∑ ( ) ( )

;

( )

, ( ) ( ) ( )

( ) ( ) ( )

( )

, ( ) ( ) ( )

( ) ( ) ( )]; j=1,2,…,J

15

Jadi, persamaan regresi nonparametrik menjadi :

= ( ) + i = 1,2,3,...,n, n menyatakan banyaknya jumlah data

[

] =

[ ( )

( )

( )]

+ [

]

Dengan :

( )

[

, ( ) ( ) ( ) ( ) ( ) ( )-

, ( ) ( ) ( ) ( ) ( ) ( )-

, ( ) ( ) ( ) ( ) ( ) ( )-]

Misalkan ( )= , maka

A=[

( ) ( )

( ) ( )

( )

( )

( )

( )

( )

( ) ( )

( ) ( )

( )

( )

( )

( )

( )

]

,

-

Menurut Chaterjee dan Andi (2006), nilai terbaik dapat diperoleh dengan

meminimalkan nilai kuadrat galat (metode least Square).

Karena Y=A , maka :

( ) ( )

Nilai minimum diperoleh jika diferensial pertamanya sama dengan nol

=

(( ) ( ))

16

=

( )( )

=

( )

=

( ); karena konstanta

=

( )

=

= ( )

=

(2.9)

Jika memiliki invers, persamaan (2.9) memberikan solusi yang unik, yaitu:

( )

Karena ( ) maka :

( ) ( )

( ) , ( ) - (2.10)

Hat matrix Fourier yang dilambangkan dengan merupakan matrix berukuran

yang memenuhi ( ) . Berdasarkan persamaan (2.10) maka Hat

matrix pada metode Fourier didefnisikan sebagai:

( )

Hat matrix akan digunakan pada rumus metode pemilihan bandwidth optimal

untuk teknik pemulus Fourier.

17

2.7 Pemilihan Bandwidth Optimal

Bandwidth merupakan parameter pemulus yang berfungsi untuk mengontrol

kemulusan dari kurva yang diduga. Menurut Hardle (1991), pada metode kernel

tingkat kemulusan kurva ditentukan oleh pemilihan bandwidth h, semakin kecil

pemilihan nilai bandwidth h bentuk kurva dugaan akan semakin kasar dan

semakin besar nilai bandwidth h bentuk kurva dugaan akan semakin mulus.

Namun, tingkat kemulusan pada fourier berlaku sebaliknya, dimana semakin

kecil parameter pemulus J semakin mulus bentuk kurva dugaan dan semakin besar

parameter pemulus J semakin kurang mulus bentuk kurva dugaan dari f(x).

Tujuan estimasi kurva tidak hanya untuk memperoleh kurva yang mulus tetapi

juga memiliki tingkat kesalahan yang tidak terlalu besar. Berdasarkan hal itu

perlu dipilih nilai bandwidth optimal sehingga didapatkan kurva yang mulus

dengan kesalahan yang minimum. Terdapat beberapa kriteria pemilihan

bandwidth yang telah diperkenalkan, seperti Cross-Validation (CV), Generalized

Cross Validation (GCV), Bayesian Information Criterion (BIC), Minimum

Description Length (MDL), Akaike Information Criterion (AIC), serta Improved

Akaike Information Criterion (AICC). Dalam penelitian ini akan digunakan

kriteria AIC, AICC , dan GCV untuk mencari nilai bandwidth optimal.

18

2.7.1 Akaike Information Criterion (AIC) dan Improved Akaike Information

Criterion (AICC)

AIC klasik dirancang oleh Akaike tahun 1973 berisi estimator informasi

Kullback-Leibler untuk pemilihan model dan tahun 1989 Hurvich dan Tsai

mengembangkan akaike untuk regresi parametrik dan autoregressive time series.

Dalam sampel kecil bias AIC bisa sangat besar, dan mereka mengusulkan versi

dikoreksi AICC . AIC dan AICC didefinisikan sebagai

( ) ( ) ( )

( )

(2.11)

dengan

∑ ( ( ))

, n merupakan jumlah data yang digunakan,

dan p jumah parameter regresi dalam model (Hurvich dan Tsai, 1989).

Berdasarkan persamaan (2.11), Hurvich, et al., (1998) mengembangkan akaike

untuk regresi nonparametrik dan memperkenalkan metode pemilihan parameter

pemulus AICc dengan mengganti jumlah parameter p dengan trace dari hat

matriks H (tr (H)). Dan mendefinisikan AICC untuk pemilihan parameter

pemulus sebagai:

( )

* ( ) +

( ) (2.12)

dengan

∑ ( ( ))

dimana n merupakan jumlah data yang

digunakan, merupakan parameter pemulus dan H adalah hat matriks berukuran

nxn yang memenuhi (Hurvich, et al., 1998).

19

Pemilihan parameter pemulus menggunakan Akaike Information Criterion

didefinisikan sebagai:

( ) . ( )

/ (2.13)

dengan

∑ ( ( ))

dimana n merupakan jumlah data yang

digunakan, merupakan parameter pemulus dan H adalah hat matriks berukuran

nxn yang memenuhi (Manzan, 2003).

2.7.2 Generalized Cross Validation (GCV)

Generalized Cross Validation (GCV) merupakan bentuk modifikasi dari Cross

Validation (CV) yang merupakan metode terdahulu untuk memilih parameter

pemulus. GCV didefinisikan sebagai:

( ) ∑ ( )

, ( )

-

( )

, ( )

-

(2.14)

dengan merupakan parameter pemulus dan adalah hat matriks berukuran nxn

yang memenuhi (Craven dan Wahba, 1979).

2.8 Ukuran Kebaikan Penduga

Kebaikan suatu penduga dapat dilihat dari tingkat kesalahannya, semakin kecil

tingkat kesalahan semakin baik estimasinya. Menurut Aydin (2007) terdapat

beberapa kriteria untuk menentukan tingkat kesalahan antara lain Mean Square

Error (MSE), Root Mean Square Error (RMSE), Mean Absolute Error (MAE),

20

dan Mean Absolute Percentage Error (MAPE). Penelitian ini akan menggunakan

Mean Square Error (MSE) sebagai kriteria untuk menentukan tingkat kesalahan

yang didefinisikan sebagai:

∑ ( )

(2.15)

Dapat juga dengan mengamati nilai koefisien determinasi (R2) yang semakin

besar nilai R2

semakin baik estimasinya. Koefisien determinasi didefinisikan

sebagai:

(2.16)

Dengan , dimana makin dekat dengan 1 makin baik estimasinya,

dan sebaliknya, makin dekat dengan 0 makin jelek estimasinya. JKT (Jumlah

Kuadrat Total) merupakan jumlah kuadrat simpangan dari rata-rata variabel

respon, JKR (Jumlah Kuadrat Regresi) merupakan jumlah kuadrat simpangan

hasil dugaan dengan rata-rata variabel respon y, dan JKG (Jumlah Kuadrat Galat)

mengukur residual dalam prediksi.

Jadi dapat dituliskan sebagai :

∑( )

∑( )

∑( )

Dengan adalah data variabel respon ke-i, adalah rata-rata variabel respon,

sedangkan adalah nilai hasil dugaan variabel respon ke-i.

21

Secara grafis dideskripsikan sebagai berikut:

Gambar 3. Ilustrasi grafis JKG, JKT, dan JKR pada garis regresi.

(Chatterjee dan Hadi, 2006).

ii. tinjauan pustaka 2.1 analisis regresidigilib.unila.ac.id/11208/15/bab ii.pdf · nilai minimum...

Documents