analisis regresi ridge
DESCRIPTION
analisis regresiTRANSCRIPT
ANALISIS REGRESI
RIDGE REGRESION
1. FARA ARIESTIA 31250801652. PUTRI WULANTRI 31250817603. PUTRIRINDI M 3125081766
REGRESI RIDGE UNTUK MENGATASI MASALAH MULTIKOLINEARITAS
JUDUL SKRIPSI
RUMUSAN MASALAH ???
Bagaimana mengatasi masalah multikolinearitas dengan Regresi
Ridge??
PENDAHULUAN
Model statistika merupakan suatu model
matematis yang meliputi variabel bebas dan
tidak bebas. Salah satu dari model statistika yang
sering digunakan dalam pemecahan suatu
permasalahan adalah Model Regresi Linier. Model
regresi linier adalah suatu model yang digunakan
untuk menganalisis hubungan antar variabel.
Regresi Linier dibagi menjadi dua, yaitu Regresi Linier Sederhana (satu variabel
bebas) dan Regresi Linier Berganda (dua atau lebih variabel bebas).
Satu dari asumsi model regresi linier adalah bahwa tidak terdapat
multikolinearitas diantara variabel regressor yang termasuk dalam model. Multikolinearitas terjadi apabila terdapat
hubungan atau korelasi diantara beberapa atau seluruh variabel regressor.
Salah satu cara untuk mendapatkan koefisien regresi pada persamaan regresi linier berganda adalah
Metode kuadrat terkecil : menghasilkan penaksir terbaik (tak bias dan bervarians minimum) jika saja tidak ada korelasi antar variabel regressor.
Metode ridge regression : nilai variabel regressornya ditransformasikan dahulu melalui prosedur centering and rescaling. Kemudian pada diagonal utama matriks korelasi variabel regressor ditambahkan Ridge Parameter dimana nilainya antara 0 dan 1
PEMBAHASAN
Regresi Linear Berganda Model regresi linear berganda yang
melibatkan p buah variable bebas adalah:
Asumsi-asumsi dalam analisis regresi linear meliputi:a. Galat saling bebas dengan dan variansi konstanta dimana b. Variabel bebas (X) diasumsikan bersifat tetapc. untuk setiap
PPXXXY ...22110
niE i ,...,2,1,0)( 2,0 Ni
0,cov ji ji
Model regresi berganda dalam notasi matriks:
Dengan :
XY
1n x berukuran galat acak vektor
bebas tak variabeldari
amatan nilai-nilaimerupakan elemennya-elemen yang 1n x berukuran vektor Y
1)(pn x berukuran yangrancangan matriks X
regresi )(koefisienparameter
berupa elemennya-elemen yang 1 x 1)(pberukuran yang vektor
Multikolinearitas pada Regresi Berganda
Multikolinearitas merupakan hubungan linear yang sempurna diantara beberapa atau semua variable bebas dari model regresi.
Masalah multikolinearitas akan membuat ragam dari penduga kofisien regresi menjadi besar, akibatnya selang kepercayaan dari parameter yang diduga menjadi lebar sehungga mengakibatkan pengujian hipotesis memeuhi signifikansi kofisien regresi cenderun menerima H0 yang berarti koefisin regresi tidak berbeda nyata dengan nol.
Beberapa metode untuk mengidentifikasi adanya maslah multikolinearitas, diantaranya:
a. Menentukan matriks korelasi dari semua variabel bebas.
b. VIFc. Akar ciri dari X’X
Regresi Ridge
Pada dasarnya untuk mendapatkan estimasi parameter regresi ridge adalah dengan memberikan kendala linear yang tepat pada metode kuadrat terkecil.
Estimasi Parameter dengan Regresi Ridge
Pada regresi linear berganda diberkan model umum : XY
Nilai Harapan Estimator Ridge
Hal ini mengakibatkan bahwa adalah taksiran bias dari .
Variansi Estimaor Ridge
ZRE ˆ
R̂
p
i i
i
ii
p
i i
k
kk
trRVar
12
2
1
2
112
11
''' ˆ
kIXXXXkIXX
Rata-rata Kuadrat Galat (Mean Square Error) dari Estimator Ridge
)()(ˆ21 kkMSE R
Rk var)(1
0k jika 0dengan sama ke ˆdar jarak kuadrat
atau dari bias )(
R
R2
k
Prosedur Penentuan Nilai k
Ridge Trace Ridge trace adalah plot antara koefisien regresi Ridge dengan nilai-nilai k. Untuk nilai k yang berbeda dimana k [0,1] akan dapat ditentukan nilai . Ridge trace merupakan suatu metode untuk menunjukkan pengaruh dua dimensi dari non orthogonal
Langkah Penentuan Nilai k Dengan Metode Iteratif Penentuan nilai k yang tepat dengan menggunakan iterasi yang diperoleh dengan meminimumkan rata-rata kuadrat galat residual.
R̂
STUDI KASUS
ANALISIS REGRESI RIDGE
Aplikasi Regresi Ridge
Contoh Kasus : Data yang digunakan adalah data sekunder mengenai tingkat kepuasan supervisor sebuah perusahaan yang dipengaruhi oleh beberapa factor. Akan dicari model regresi ganda untuk memprediksi keterkaitan hubungan antar variabelnya. Datanya sebagai berikut :
Dengan menggunakan software NCSS 2000 dapat dicari koefisien penduga Ridge, nilai k, dan perbandingan nilai korelasi antara Metode Kuadart Terkecil dan Regresi Ridge,
Bagaimana outputnya ???
menunjukkan bagaimana penyebaran dan pemusatan variabel bebas dan tak bebas tersebut.
Tabel statistik deskriptif
StandardVariable Count Mean Deviation Min MaxX1 35 7.174286 1.781332 3.8 10X2 35 10.00286 2.482229 5.3 14X3 35 10.65429 2.532535 5.7 14X4 35 7.125714 1.636234 4.6 9.9X5 35 15.06 3.280351 10.2 20Y 35 16.20572 1.122482 12.6 17.9
Tabel Matriks Korelasi
menunjukkan korelasi antar variabel satu dengan yang lain. Korelasi yang tinggi diihat dari nilai |r|semakin besar.
terdapat korelasi yang tinggi antara variabel X1 dan X2, X1 dan X3, X2 dan X3, serta X4 dan X5.
X1 X2 X3 X4 X5 YX1 1.000000 0.999306 0.995470 -0.080998 -0.048048 0.598604X2 0.999306 1.000000 0.995646 -0.073159 -0.040838 0.599047X3 0.995470 0.995646 1.000000 -0.085307 -0.052128 0.591077X4 -0.080998 -0.073159 -0.085307 1.000000 0.995582 -0.043960X5 -0.048048 -0.040838 -0.052128 0.995582 1.000000 -0.009761Y 0.598604 0.599047 0.591077 -0.043960 -0.009761 1.000000
Tabel Multikolinearitas kuadrat Terkecil
Pada tabel diatas nilai VIF > 10, maka dapat dikategorikan kelima variabel bebas terkait multikolinearitas.
Indpnden Variance R-Squared Variabel Inflation Vs Other X's
ToleranceX1 793.9328 0.9987 0.0013X2 844.0058 0.9988 0.0012X3 120.1540 0.9917 0.0083X4 136.7096 0.9927 0.0073X5 134.9242 0.9926 0.0074
Tabel Nilai Eigen dan Korelasi
Pada tabel diatas, nilai eigen merupakan variansi sebenarnya dari variabel bebas.
Nilai eigen yang mendekati 0 menunjukkan adanya masalah multikolinearitas. Angka kondisi antara 100 dan 1000 juga menunjukkan masalah serupaAngka kondisi yang melebih 1000 menunjukkan masalah mulikolinearitas yang serius.
Incremental Cumulative
ConditionNo. Eigen value Percent Percent Number1 3.017755 60.36 60.36 1.002 1.972057 39.44 99.80 1.533 0.005714 0.11 99.91 528.154 0.003847 0.08 99.99 784.385 0.000627 0.01 100.00 4810.15
menunjukkan vector eigen yang bersesuaian dengan nilai eigen dari korelasi antara variabel-variabel bebasnya.
No. Eigenvalue X1 X2 X3 X4 X51 3.017755 -0.571046 -0.570547 -0.570649 0.115548 0.0969012 1.972057 0.085984 0.091327 0.082834 0.696901 0.7012383 0.005714 -0.412749 -0.391752 0.801633 -0.126410 0.1325664 0.003847 -0.141833 0.009820 0.155088 0.692316 -0.6902425 0.000627 -0.689953 0.715939 -0.028814 -0.075481 0.069776
Tabel diatas menampilkan nilai koefisien regresi Ridge dalam k yang presisinya dibandingkan dengan nilai k yang diiterasikan
sehingga diperoleh nilai k = 0.361093
dapat dilihat nilai VIF yang dihasilkan menjadi lebih kecil atau VIF < 10
sehingga dengan menggunakan nilai k yang sesuai dapat menghilangkan pengaruh multikolinearitas yang ada.
menunjukkan perbandingan antara penyelesaian regresi dengan regresi Ridge dan OLS ( Metode Kuadrat Terkecil).
Regular Regular Stand'zed Stand'zed Ridge L.S.Indep. Ridge L.S. Ridge L.S. Standard StandardVar. Coeff's Coeff's Coeff's Coeff's Error ErrorIntercept 13.72804 13.49537X1 0.1156222 -0.4759508 0.1835 -0.7553 3.039132E-02 2.56655X2 8.345649E-02 0.9542688 0.1846 2.1102 2 .170739E-02 1.899038X3 7.304389E-02 -0.3669116 0.1648 -0.8278 2 .319735E-02 0.7022901X4 -1.370527E-02 -1.428679 -0.0200 -2.0826 0.0463255 1.159463X5 8.817396E-03 0.7084383 0.0258 2.0703 2 .317429E-02
0.5745493
R-Squared 0.3184 0.3940Sigma 1.0034 0.9461
Hasil diatas adalah penyelesaian regresi Ridge secara terperinci,
sehingga didapat persamaan regresi :
510.817386.84370525.1
310.304388.7210.345647.811156222.072804.13ˆ
3
22
XX
XXXY
Stand'zedIndependent Regression Standard RegressionVariable Coefficient Error Coefficient VIFIntercept 13.72804X1 0.1156222 3.039132E-02 0.1835 0.0990X2 8.345649E-02 2.170739E-02 0.1846 0.0980X3 7.304389E-02 2.319735E-02 0.1648 0.1166X4 -1.370527E-02 0.0463255 -0.0200 0.1940X5 8.817396E-03 2.317429E-02 0.0258 0.1952
Tabel ANOVA untuk menguji keberartian koefisien regresi Ridge yang telah diperoleh. Pengujian akan dilakukan dengan taraf kepercayaan 95%.
Tabel ANOVA untuk k = 0.361093Sum of Mean Prob
Source DF Squares Square F-Ratio LevelIntercept 1 9191.881 9191.881Model 5 13.64115 2.728231 2.7098 0.039709Error 29 29.1977 1.006817Total(Adjusted) 34 42.83886 1.259966
Mean of Dependent 16.20572Root Mean Square Error 1.003403R-Squared 0.3184Coefficient of Variation 6.191661E-02
1. Perumusan Hipotesis H0 = koefisien regresi Ridge yang diperoleh tidak
berarti. Hi = koefisien regresi Ridge yang diperoleh
berarti.
3. Kriteria pengujian Tolak H0 jika F hitung > F tabel
Karena F hitung (2.7089) > F tabel (F0.05(5,29) = 2.55)
4.Kesimpulan yang didapat : dengan taraf kepercayaan 95% maka tolak H0 artinya koefisien reresi
Ridge yang diperoleh berarti, sehingga signifikan.
2. F hitung = 2.7089
KESIMPULAN
Langkah-langkah dalam menyelesaikan masalah multikolinearitas dengan Regresi Ridge :
Menentukan estimasi dari regresi ridge dengan menambah kendala k untuk mengatasi besarnya keragaman.
Menentukan nilai k dengan dua prosedur yaitu Ridge Trace dan iterasi.
Penduga regresi Ridge dipakai sebagai kriteria yang lebih baik dari penduga kuadrat terkecil (OLS).
SELESAI
Terima Kasih