modul praktikum regresi - · pdf filesebagai contoh penggunaan dummy variable adalah...

61
1 ANALISIS REGRESI Analisis regresi adalah analisis statistika yang bertujuan untuk memodelkan hubungan antara variabel independent dengan variabel dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886) melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary Stature, di dalam artikel ini Galton mengkaji hubungan antara tinggi badan anak dengan tinggi badan orang tua. Dari hasil kajian ini diperoleh informasi adanya hubungan antara tinggi badan anak dengan tinggi orang-tuanya. Model yang menggambarkan hubungan antara variabel independent (X) dengan variabel dependent (Y) adalah : Y= f(X, )+

Upload: ngokhue

Post on 30-Jan-2018

260 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

1

ANALISIS REGRESI

Analisis regresi adalah analisis statistika yang bertujuan untuk

memodelkan hubungan antara variabel independent dengan variabel

dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886)

melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary

Stature, di dalam artikel ini Galton mengkaji hubungan antara tinggi badan

anak dengan tinggi badan orang tua. Dari hasil kajian ini diperoleh informasi

adanya hubungan antara tinggi badan anak dengan tinggi orang-tuanya.

Model yang menggambarkan hubungan antara variabel independent (X)

dengan variabel dependent (Y) adalah :

Y= f(X,) +

Page 2: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

2

Hubungan antara variabel independent dengan variabel dependent

dikatakan linear jika dapat dinyatakan dalam model :

Y = X1 + X2 + …+ pXp +

Dalam catatan matriks, model regresi linear dapat ditulis dalam :

Y =X

atau

npnpn

p

p

n XX

XXXX

Y

YY

......1

............1...1

...2

1

1

0

1

221

111

2

1

Nilai dapat ditaksir dengan menggunakan metode kuadrat terkecil

dengan cara :

)'()'(ˆ 1 YXXX

p

ˆ...

ˆˆ

ˆ 2

0

21[

1211

1

.........

)'(

ppp

p

p

xxxx

xxxxxxn

XX

yx

yxy

YX

p

...)'( 1

Pengujian terhadap dapat dilakukan dengan dua cara yaitu pengujian

secara serentak dan pengujian secara individu.

Pengujian secera serentak

Hipotesis :

H0 :

H1 :

Page 3: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

3

Statistik Uji

Sumber

Variasi

df Sum of

Squares

MS F

Regresi p 2)ˆ( YY pYY /)ˆ( 2 sidualMSgresiMS

Re.Re.

Residual n-p-1 2)( YY )1/()( 2 pnYY

Total n-1 2)( YY

Tolak Ho jika F>F,p,n-p-1

Pengujian secara individu

Hipotesis

H0 : I = 0

H1 : I 0

Statistik uji

is

t i

ˆ

ˆ

Tolak H0 jika |t|>tn-p-1

Kegiatan Praktikum

Tentukan model yang menggambarkan hubungan antara harapan hidup

perempuan (Y) dengan pendapatan per-kapita dan kepadatan penduduk yang

dinyatakan dalam :

Y = ln(gdp_cap) + ln(density) +

Penyelesaian :

a. Melakukan transformasi ln(gdp_cap) dan ln(density) dengan cara : [klik

transform+ compute]

Page 4: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

4

Page 5: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

5

b. Melakukan analisis regresi ;[klik+analyze+regression+linear]

dan hasilnya adalah :

Model Summary

.840a .706 .700 5.788Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), ln_gdp, ln_densa.

ANOVAb

8519.080 2 4259.540 127.141 .000a

3551.268 106 33.50312070.349 108

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), ln_gdp, ln_densa.

Dependent Variable: Average female life expectancyb.

Page 6: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

6

Coefficientsa

17.981 3.501 5.136 .000.904 .388 .123 2.332 .022

6.150 .390 .831 15.766 .000

(Constant)ln_densln_gdp

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Average female life expectancya.

Seluruh nilai sig.<5% sehingga harapan hidup perempuan dipengaruhi (Y)

oleh kepadatan penduduk dan pendapatan per-kapita yang dinyatakan dalam

model :

Y= 17.981 +0.904 ln(density) +6.150 ln(gdp_cap)

Page 7: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

7

PEMILIHAN MODEL TERBAIK

Salah satu tujuan di dalam analisis regresi adalah untuk mendapatkan

model terbaik yang menjelaskan hubungan antara variabel independent

dengan variabel dependent, model terbaik adalah model yang seluruh

koefisien regresinya berarti (significant) dan mempunyai kriteria model terbaik

optimum. Beberapa kriteria model terbaik adalah :

Nomor Kriteria Formula Optimum

1 SSE 2)( YY Minimum

2 MSE )1/()( 2 pnYY Minimum

3 R2

%100)(

)ˆ(2

2

YY

YY Maksimum

4 Adjusted

R2 )()1(

]1[1 2

pnn

R

Maksimum

5 Cp Mallow)2( pn

MSESSE

Minimum

6 AIC ln(SSE/n) +2p/n Minimum

7 SBC ln(SSE/n)+p/n ln(n) Minimum

Page 8: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

8

Untuk memperoleh model terbaik, ada beberapa metode yang biasa

digunakan yaitu :

Metode Penjelasan

Backward Mulai dengan model lengkap, kemudian variabel independent

yang ada dievaluasi, jika ada yang tidak significant dikeluarkan

yang paling tidak significant, dilakukan terus menerus sampai

tidak ada lagi variabel independent yang tidak significant

Forward Variabel independent yang pertama kali masuk ke dalam model

adalah variabel yang mempunyai korelasi tertinggi dan

significant dengan variabel dependent, variabel yang masuk

kedua adalah variabel yang korelasinya dengan variabel

dependent adalah tertinggi kedua dan masih significant,

dilakukan terus menerus sampai tidak ada lagi variabel

independent yang significant

StepSwise Gabungan antara metode forward dan backward, variabel yang

pertama kali masuk adalah variabel yang korelasinya tertinggi

dan significant dengan variabel dependent, variabel yang masuk

kedua adalah variabel yang korelasi parsialnya tertinggi dan

masih significant, setelah variabel tertentu masuk ke dalam

model maka variabel lain yang ada di dalam model dievaluasi,

jika ada variabel yang tidak significant maka variabel tersebut

dikeluarkan

Best subset

regression

Metode ini tersedia di dalam program paket MINITAB. Metode

ini menyajikan k buah model terbaik untuk model dengan

1,2,…,p variabel independent.

Page 9: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

9

Kegiatan Praktikum

Tentukan model terbaik yang menggambarkan hubungan antara harapan

hidup perempuan (lifeexpf) dengan pendapatan perkapita (gdp_cap),

persenta-se penduduk yang tinggal dikota (urban), persentase penduduk yang

dapat membaca (literacy), banyaknya kematian per 1000 penduduk (death_rt).

rata-rata banyaknya anak (fertility), konsumsi makanan per-hari (calories)

dengan menggunakan metode stepwise dan best subset regression.

Penyelesaian :

Dengan bantuan SPSS permasalahan di atas dapat diselesaikan

dengan cara : [klik analyze+regression+linear]

atau melalui syntax :REGRESSION

/STATISTICS COEFF OUTS R ANOVA/CRITERIA=PIN(.05) POUT(.10)/NOORIGIN/DEPENDENT lifeexpf/METHOD=STEPWISE gdp_cap calories literacy urban death_rt .

dan hasilnya adalah :

Page 10: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

10

ANOVA

7229.894 1 7229.894 222.690 .0002337.565 72 32.4669567.459 738206.309 2 4103.154 214.028 .0001361.150 71 19.1719567.459 738906.744 3 2968.915 314.544 .000660.716 70 9.439

9567.459 739017.788 4 2254.447 282.999 .000549.672 69 7.966

9567.459 73

RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotal

Model1

2

3

4

Sum ofSquares df Mean Square F Sig.

Model Summary

.869a .756 .752 5.698

.926b .858 .854 4.378

.965c .931 .928 3.072

.971d .943 .939 2.822

Model1234

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), People who read (%)a.

Predictors: (Constant), People who read (%), Deathrate per 1000 people

b.

Predictors: (Constant), People who read (%), Deathrate per 1000 people, Gross domestic product / capita

c.

Predictors: (Constant), People who read (%), Deathrate per 1000 people, Gross domestic product / capita,Daily calorie intake

d.

Page 11: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

11

Coefficients a

36.226 2.275 15.924 .000.430 .029 .869 14.923 .000

53.279 2.961 17.995 .000.330 .026 .667 12.606 .000

-.966 .135 -.378 -7.137 .000

62.740 2.350 26.699 .000.192 .024 .389 7.890 .000

-1.211 .099 -.474 -12.214 .000

.001 .000 .363 8.614 .000

54.214 3.143 17.252 .000.172 .023 .347 7.456 .000

-1.136 .093 -.444 -12.178 .000

.000 .000 .252 5.170 .000

.004 .001 .186 3.734 .000

(Constant)People who read (%)(Constant)People who read (%)Death rate per 1000people(Constant)People who read (%)Death rate per 1000peopleGross domesticproduct / capita(Constant)People who read (%)Death rate per 1000peopleGross domesticproduct / capitaDaily calorie intake

Model1

2

3

4

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Average female life expectancya.

Sehingga model terbaiknya adalah :

lifeexpf = 54.214 +0.172 literacy –1.136 death_rt + 0.000 gdp_cap +0.004

calori dengan R2= 0.943

Dengan menggunakan best subset regression :[klik stat+regression+best

subset]

Page 12: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

12

diperoleh hasil :

Response is LIFEEXPF

L C DI G A ET D L A

U E P O TR R _ R HB A C I _A C A E R

Vars R-Sq R-Sq(adj) C-p S N Y P S T

1 75.6 75.2 225.8 5.6979 X1 60.2 59.6 412.2 7.2752 X1 59.8 59.3 416.2 7.3055 X2 86.9 86.6 90.3 4.1981 X X2 85.8 85.4 103.5 4.3686 X X2 83.7 83.3 128.9 4.6816 X X3 93.1 92.8 17.5 3.0711 X X X3 92.1 91.7 30.1 3.2935 X X X3 89.6 89.2 59.8 3.7688 X X X4 94.3 93.9 5.5 2.8207 X X X X4 93.5 93.1 15.1 3.0095 X X X X4 92.5 92.1 26.2 3.2150 X X X X5 94.4 94.0 6.0 2.8112 X X X X X

Dengan menggunakan criteria Cp-Mallows dan MSE terkecil diperoleh

model terbaik yang mengandung variabel literacy, gdp_cap, calories dan

death_rt, hasil ini sama dengan metode stepwise

Page 13: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

13

DUMMY VARIABLE

Dalam beberapa kasus tertentu, penggunaan analisis regresi melibatkan

adanya variabel independent yang berskala nominal ataupun ordinal. Untuk

mengatasi hal ini dipergunakan dummy variable. Sebagai contoh penggunaan

dummy variable adalah penentuan model terbaik yang menggambarkan

hubungan antara harapan hidup perempuan dengan pendapan perkapita dan

region (Asia dan Afrika).

Model yang menggambarkan hubungan antar variabel tersebut dapat

dinyatakan dalam persamaan regresi :

lifeexpf = ln(gdp_cap) + untuk region Asia

lifeexpf = ln(gdp_cap) + untuk region Afrika

Dua persamaan regresi di atas dapat dijadikan satu persamaan regresi

dengan cara menyisipkan sebuah dummy variable (D) yang bernilai 0 untuk

region Asia dan 1 untuk region Afrika :

lifeexpf = ln(gdp_cap) + D + D*ln(gdp_cap) +

Nilai menggambarkan perbedaaan intercept antara region Asia dan

Afrika, sedangkan nilai menggambarkan perbedaan slope antara region Asia

dan Afrika.

Jika region yang dilibatkan lebih dari dua, misalkan region Asia, Afrika

dan Amerika Latin maka persamaan regresinya menjadi :

lifeexpf=ln(gdp_cap)+D1+D1*ln(gdp_cap)+D1+D1*ln(gdp_cap)+

dengan aturan pemberian nilai dummy variabel adalah :

region D1 D2 Persamaan regresi

Asia 0 0 ln(gdp_cap)+

Afrika 0 1 +ln(gdp_cap)+

Amerika Latin 1 0 +ln(gdp_cap)+

Page 14: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

14

Secara umum banyaknya dummy variable yang dibutuhkan adalah

banyaknya region-1.

Kegiatan Praktikum :

Tentukan model yang menggambarkan hubungan antara harapan hidup

perempuan dan pendapatan perkapita di region Asia, Afrika dan Amerika Latin

Penyelesaian :

Pembangkitan nilai D1 dan D2 :[klik transform+compute]

Page 15: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

15

Lakukan dengan cara yang sama untuk membangkitkan variabel D2(

bernilai 0 untuk region Asia, Amerika Latin dan bernilai 1 untuk region Afrika).

Pembangkitan nilai D1*ln(gdp_cap) dan D2*ln(gdp_cap)

Page 16: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

16

Analisis regresi :[klik analyze+regression+linear]

dan hasilnya adalah :

Coefficientsa

27.034 6.116 4.420 .0005.643 .834 .720 6.767 .000

22.860 14.130 .975 1.618 .112-4.190 10.402 -.184 -.403 .689-2.986 1.761 -1.049 -1.696 .097-.720 1.547 -.205 -.465 .644

(Constant)ln_gdpD1d2d1_lngdpd2_lngdp

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Average female life expectancya.

Masih ada koefisien regresi yang tidak significant, setelah digunakan

metode backward diperoleh hasil sebagai berikut :

Page 17: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

17

Coefficientsa

27.034 6.116 4.420 .0005.643 .834 .720 6.767 .000

22.860 14.130 .975 1.618 .112-4.190 10.402 -.184 -.403 .689-2.986 1.761 -1.049 -1.696 .097-.720 1.547 -.205 -.465 .644

25.585 4.904 5.217 .0005.836 .677 .745 8.619 .000

24.308 13.545 1.037 1.795 .079-3.179 1.680 -1.117 -1.892 .065-1.333 .284 -.379 -4.695 .00028.771 4.674 6.156 .0005.412 .649 .691 8.341 .000-.197 .255 -.069 -.773 .443

-1.397 .288 -.398 -4.851 .00029.562 4.542 6.508 .0005.202 .587 .664 8.860 .000

-1.308 .263 -.373 -4.972 .000

(Constant)ln_gdpD1d2d1_lngdpd2_lngdp(Constant)ln_gdpD1d1_lngdpd2_lngdp(Constant)ln_gdpd1_lngdpd2_lngdp(Constant)ln_gdpd2_lngdp

Model1

2

3

4

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Average female life expectancya.

Model terbaik yang menggambarkan hubungan antara harapan hidup

perempuan dan pendapatan per-kapita adalah :

lifeexpf = 29.562 + 5.202 ln(gdp_cap) -1.308 D2*ln(gdp_cap)

atau

region D1 D2 Persamaan regresi

Asia 0 0 lifeexpf = 29.562 + 5.202 ln(gdp_cap)

Afrika 0 1 lifeexpf = 29.562 + 3.894 ln(gdp_cap)

Amerika Latin 1 0 lifeexpf = 29.562 + 5.202 ln(gdp_cap)

Page 18: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

18

INFLUENTIAL OBSERVATIONS

Influential observations adalah titik pengamatan yang keberadaannya

mempunyai pengaruh terhadap persamaan regresi, sebagai contoh seperti

yang tetera pada gambar di atas, titik (13.12.74) adalah influential observation,

persamaan regresi kalau titik ini diikutkan adalah :

The regression equation is Y3 = 3.00 + 0.500 X R2 = 66.6%

sedangkan kalau titik ini tidak diikutkan, diperoleh persamaan regresi :

The regression equation is Y3 = 4.01 + 0.345 X R2 = 100.0 %

Page 19: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

19

Untuk mendeteksi adanya influential observation dapat dipergunakan

beberapa statistik berikut :

No Statistik Formula influential Penjelasan

1 DFFIT

)(

ˆˆ)(

i

ii

Ystdev

YY np

2

Difference fit

Perbedaan nilai Y

taksiran dengan

atau tanpa peng-

amatan ke-i

2 DFBETAS

)()(

j

ijj

bstdev

bb n

2

Difference Betas

Perbedaan nilai

koefisien regresi

dengan atau tanpa

pengamatan ke-i

3 Cook’s Distance

pMSE

bbXXbb ii ))('()'( )( pnpF .,50.0

Perbedaan vector

koefisien regresi

dengan atau tanpa

pengamatan ke-i

4 COVRATIO

)(cov(

)cov(

i

Covariance ratio

Nisbah dterminan

matriks covariance

koefisien regresi

dengan atau tanpa

pengamatan ke-i

Page 20: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

20

Kegiatan Praktikum :

Tentukan Negara di Asia yang keberadaanya mempengaruhi hubungan

antara harapan hidup perempuan dengan pedapatan per-kapita dengan

menggunakan kriteria DFFIT

Penyelesaian

Memilih Negara di region Asia : [klik Data+Select Cases]

Analisis regresi : [klik analyze + regression +linear]

klik save

Page 21: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

21

dan hasilnya adalah :

Coefficientsa

27.034 6.350 4.257 .0015.643 .866 .860 6.517 .000

(Constant)ln_gdp

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Average female life expectancya.

Model Summaryb

.860a .739 .722 5.744Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), ln_gdpa.

Dependent Variable: Average female life expectancyb.

Page 22: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

22

Negara yang merupakan influential observation adalah Negara yang nilai

np

DFFIT 2 atau 69.0DFFIT , Negara tersebut adalah Negara

Afganistan, Cina, Kamboja dan Vietnam

Page 23: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

23

ASUMSI DALAM ANALISIS REGRESI

Model linear yang menggambarkan hubungan antara variabel

independent dan variabel dependent adalah :

Y = X1 + X2 + …+ pXp +

Asumsi yang diperlukan untuk model ini adalah :

a. ~N(0. 2 )

b. var(i)= 2 untuk semua i

c. cov(I,j) = 0 untuk ij

d. antar X saling independent

Asumsi-asumsi di atas kadang-kadang tidak dipenuhi, untuk mendeteksi

dan mengatasi adanya masalah pelanggaran asumsi di atas dapat dilakukan :

No. Masalah Deteksi Solusi

1 Residual tak

berdistribusi

normal

normal probability plot

Uji kenormalan : KS,…

Tranformasi variabel

Regresi bootstrap

2 Hetroscedastivity

var(i) 2

Plot e dengan y

Uji Glesjer, White

Uji Golfeld-Quandt

Transformasi variabel

Weighted Least Squares

3 Autocorrelation

cov(I,j) 0

untuk ij

Plot e dengan y

Uji Durbin Watson

ACF plot

Regresi beda, Regresi ratio

memasukkan trend

Cochrane Orcutt, Hildreth-

Lu,Durbin, Prais-Winsten

4 Multicollinearity r(Xi,Xj) tinggi, VIF>10

0' XX

R2 tinggi tetapi tidak

ada yang significant

stepwise

Principal component reg.

Ridge regression

Page 24: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

24

REGRESI BOOTSTRAPP

Asumsi yang utama di dalam analisi regresi adalah asumsi kenormalan

residual. Asumsi ini dibutuhkan terkait dengan penggunaan statistik uji F dan t.

Jika asumsi kenormalan ini tidak dipenuhi maka kesimpulan dari hasil

pengujian dengan statistik uji F dan t menjadi tidak valid Untuk menguji

asumsi kenormalan ini dapat dipergunakan uji Kolmogorov-Smirnov,

Anderson-Darling, Shapiro-Wilk, dan Goodness-of-fit jika hasil pengujian

kenormalan menyimpulkan asumsi ini tak terpenuhi maka salah satu solusi

adalah dengan menerapkan metode regresi bootstrap.

Algoritma dari metode regresi bootstrap adalah :

1. mulai2. Tentukan nilai taksiran dari model Y=Xdengan metode kuadrat

terkecil, hasil taksirannya adalah olsj , dan nilai taksirannya adalah

olsiY ,

3. Tentukan nilai e1, e2, …, en, YYe iiˆ

4. B=10005. i=06. i=i+17. Melakukan resampling with resampling sebanyak n dari ei hasil

resamplingnya adalah e(i)

8. Menentukan nilai )(, iolsii eYY

9. Menduga besarnya j pada resampling ke-i yaitu ij , dari dan data Yi

dengan Xji dengan metode kuadrat terkecil10.Jika i<B pergi ke 611. Tentukan nilai taksiran koefisien regresi dari metode bootstrapp

sebagai rata-rata nilai koefisien regresi hasil resampling sebanyak Bkali

12. Tentukan confidence interval koefisien regresi melalui nilai persentil13. Selesai

Page 25: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

25

Kegiatan Praktikum :

Tentukan model yang menggambarkan hubungan antara harapan hidup

perempuan dengan pendapatan perkapita serta ujilah asumsi kenormalan

residual dengan uji Kolmogorov-Smirnov.

Penyelesaian :

Dengan bantuan MINITAB permaslahan ini dapat diselesaikan dengan

cara

Tranformasi variabel

MTB > let c27=loge(lifeexpf)

MTB > name c27=’ln_gdp’

Regresi [klk stat+regression+regression]

klik storage

Page 26: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

26

dan hasilnya adalah :

The regression equation isLIFEEXPF = 21.7 + 6.15 ln_gdpPredictor Coef SE Coef T PConstant 21.670 3.187 6.80 0.000ln_gdp 6.1538 0.3981 15.46 0.000S = 5.907 R-Sq = 69.1% R-Sq(adj) = 68.8%Analysis of VarianceSource DF SS MS F PRegression 1 8336.9 8336.9 238.93 0.000Residual Error 107 3733.4 34.9Total 108 12070.3Pengujian asumsi kenormalan [klik stat+basic statistics+normality test]

Page 27: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

27

Dengan menggunakan metode kuadrat terkecil diperoleh hasil

kenormalan residual tidak terpenuhi, sehiingga sebagai alternatif digunakan

metode regresi bootstrapp yang dinyatakan dalam macro MINITAB :

macroregb y xmconstant n i b low_b0 up_b0 low_b1 up_b1mcolumn x y yy yhat e ee b0 b1 beta b0_boot b1_bootlet n=count(y)let b=1000regr y 1 x;resid e;fits yhat.do i=1:b

sample n e ee;replacement.let yy=yhat+eeregr yy 1 x;coef beta.let b0(i)=beta(1)let b1(i)=beta(2)

enddohisto b0histo b1let b0_boot=mean(b0)let b1_boot=mean(b1)sort b1 b1sort b0 b0let low_b0=b0(25)let up_b0=b0(975)let low_b1=b1(25)let up_b1=b1(975)print b0_boot low_b0 up_b0print b1_boot low_b1 up_b1endmacro

Untuk menjalankan macro di atas dapat dilakukan dengan cara :

MTB > %regb.txt ‘lifeexpf’ ‘ln_gdp’

dan hasilnya adalah :

Page 28: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

28

b0 b1

low_b0 14.7859up_b0 27.6859

b0_boot21.5513

low_b1 5.40552up_b1 6.96901

b1_boot6.16731

Confidence interval yang diperoleh untuk dan semuanya tidak

melalui titik 0, sehingga dapat disimpulkan dua koefisien regresi ini significant

pada . Dan model yang diperoleh adalah :

lifeexpf = 21.5513 + 6.16731 ln(gdp_cap)

Page 29: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

29

HETEROSCEDASTICITY

Heteroscedasticity adalah sifat residual yang mempunyai varians yang

tidak homogen, atau :

iii 22)var(

Untuk memeriksa sifat ini dapat dipergunakan scatter-plot antara residual

yang sudah dibakukan dengan nilai y , jika scatter plot membentuk gambar

seperti pola sebelah kiri berikut maka varians residual masih dianggap konstan

dan jika membentuk pola seperi sebelah kanan maka varians residual

cenderung tidak homogen.

Selain dengan menggunakan scatter-plot seperti di atas, keberadaan

hetrocedasticity juga dapat diuji dengan menggunakan uji Glejser dengan cara

meregresikan kuadrad atau harga mutlak residual dengan variabel

independent, jika ada variabel independent yang significant maka varians

residual cenderung tidak homogen, untuk mengatasi hal ini biasanya dilakukan

transformasi dengan cara membagi seluruh nilai variabel dengan variabel yang

significant, atau :

Page 30: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

30

Jika 1.xke . maka dilakukan transformasi sebagai berikut :

...1

1

33

1

22

1

11

10

1

xx

xx

xx

xxy

atau

...*33

*22

*101

* xxxy

Koefisien regresi dari model ini kemudian ditaksir dengan menggunakan

metode kuadrat terkecil sehingga diperoleh :

...*33

*22

*101

* xbxbxbby

Kemudian model ini dikembalikan ke variabel asal dengan

menggandakan ruas kiri dan ruas kanan dengan x1 sehingga diperoleh :

...3322101 xbxbxbby

Secara umum masalah heterocedasticity dapat diatasi dengan

mengguna-kan metode weighted least-squares yaitu :

YXXX 111 )'(ˆ dan adalah matriks diagonal dengan unsur

diagonal adalah i

Selain dengan menggunakan uji Glejser, uji adanya heteroscedasticity

dapat diuji dengan koefisien korelasi Spearman antara residual dengan

variabel independent, jika korelasi ini significant maka cenderung terjadi kasus

hetroscedasticity.

Koefisien korelasi Spearman dihitung dengan cara :

)1(

61 2

2

nn

Dr dan D adalah selisih rank antar dua variabel.

Page 31: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

31

Kegiatan Praktikum :

Dengan menggunakan uji Glejser, periksalah adanya kasus

heteroscedasticity untuk data berikut :

Year Saving Income1 264 87772 105 92103 90 99544 131 105085 122 109796 107 119127 406 127478 503 134999 431 14269

10 588 1552211 898 1673012 950 1766313 779 1857514 819 1963515 1222 2116316 1702 2288017 1578 2412718 1654 2560419 1400 2650020 1829 2767021 2200 2830022 2017 2743023 2105 2956024 1600 2815025 2250 3210026 2420 3250027 2570 3525028 1720 3350029 1900 3600030 2100 3620031 2300 38200

Page 32: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

32

Penyelesaian :

Dengan bantuan MINITAB permasalahan di atas, dapat diselesaikan

dengan cara :

MTB > regr 'saving' 1 'income';SUBC> fits c11;SUBC> resid c12.

dan hasilnya adalah :

The regression equation issaving = - 648 + 0.0847 income

Predictor Coef SE Coef T PConstant -648.1 118.2 -5.49 0.000income 0.084665 0.004882 17.34 0.000

S = 247.6 R-Sq = 91.2% R-Sq(adj) = 90.9%

Untuk melakukan uji Glejser, dilakukan perintah :

MTB > let c13=abs(c12)MTB > name c13='abs_res'MTB > regr 'abs_res' 1 'income'

The regression equation isabs_res = - 7.7 + 0.00935 income

Predictor Coef SE Coef T PConstant -7.69 47.73 -0.16 0.873income 0.009346 0.001972 4.74 0.000

S = 100.0 R-Sq = 43.6% R-Sq(adj) = 41.7%

Dari hasil uji Glejser ini, diperoleh informasi adanya hubungan antara

variabel harga mutlak residual dengan variabel income sehingga terjadi kasus

heteroscedasticity. Karena nilai harga mutlak residual sebanding dengan nilai

income maka selanjutnya dilakukan analisis regresi untuk model :

saving/income = income)+

Dengan bantuan MINITAB analisis regresi untuk model di atas dapat

dilakukan dengan cara :

Page 33: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

33

MTB > let c4=saving/incomeMTB > let c5=1/incomeMTB > name c4='y*' c5='x*'MTB > regr 'y*' 1 'x*';SUBC> resid c21.

dan hasilnya adalah :

The regression equation isy* = 0.0881 - 723 x*

Predictor Coef SE Coef T PConstant 0.088139 0.004372 20.16 0.000x* -722.50 72.36 -9.98 0.000

S = 0.01051 R-Sq = 77.5% R-Sq(adj) = 76.7%

Pengujian adanya heteroscedasticity dengan uji Glejser

MTB > let c22=abs(c21)MTB > name c22='absres'MTB > regr 'absres' 1 'income'

Hasil pengujian Glejser

The regression equation isabsres = 0.00793 +0.000000 income

Predictor Coef SE Coef T PConstant 0.007931 0.002608 3.04 0.005income 0.00000003 0.00000011 0.31 0.760S = 0.005465 R-Sq = 0.3% R-Sq(adj) = 0.0%

NIlai p untuk variabel income >5% sehingga tidak ada hubungan antara

harga mutlak residual dengan income atau varians residual cenderung sudah

homogen.

Sedangkan asumsi kenormalan residual dapat diuji dengan cara :

MTB > %NormPlot C21;SUBC> Kstest.

Dan hasil uji kenormalan dengan menggunakan uji Kolmogorov Smirnov

adalah :

Page 34: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

34

Dari hasil pengujian Komogorov Smirnov, diperoleh hasil p-value>5%

sehingga dapat diputuskan residual sudah berdistribusi normal

Model yang menggambarkan hubungan antara saving dengan income

setelah dilakukan transfromasi adalah :

y* = 0.0881 - 723 x* atau :

saving/income= 0.0881 -723 (1/income)

setelah ruas kiri dan kanan digandakan dengan income maka diperoleh :

saving=-723 +0.0881 income

Page 35: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

35

MULTICOLLINEARITY

Multicollinearity

Adanya hubungan linear antar variabel independent

Multicollinearity dapat dideteksi dengan :

a. Variance Inflation Factor (VIF) yang tinggi, biasanya>10

b. korelasi antar variabel independent yang tinggi

c. 0' XX

d. R2 tinggi tetapi tidak ada variabel independent yang significant

e. Koefisien korelasi dan koefisien regresi berbeda tanda

Multicollinearity dapat diatasi dengan :

a. Mengeluarkan salah satu variabel independent yang berkorelasi tinggi

dengan variabel independent yang lain. Pengeluaran variabel ini dapat

dilakukan secara manual ataupun otomatis melalui metode stepwise.

b. Ridge Regression. YXkIXX ')'(ˆ 1 , 0<k<1

c. Principal Component Regression, tahapan dari metode ini adalah :

- Melakukan pembakuan data :s

xxz

- Membangkitkan variabel baru yang saling independent

w1 = a11z1 + a12z2+ … + a1pzp

w2 = a21z1 + a22z2+ … + a2pzp

wp = ap1z1 + ap2z2+ … + appzp

atau

wi =a’ix, nilai a’I adalah eigen-vector dari eigen-value ke-i dari

matriks korelasi antar variabel independent

- Melakukan regresi y dengan w dan menyatakan model regresi y

dengan w ke dalam model y dengan x

Page 36: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

36

Kegiatan Praktikum1. Periksa adanya kasus multicollinearity pada pemodelan harapan hidup

perempuan dengan pendapatan perkapita, persentase penduduk yangtinggal di kota, persentase perempuan yang dapat membaca, persentaselaki-laki yang dapat membaca di region Amerika Latin (region=6).

2. JIka ada kasus multicollinearity, atasi dengan beberapa metode untukmengatasi multicollinearity.

Penyelesaiana. Memilih data dari region Amerika Latin klik data+select cases+if

b. Memeriksa adanya kasus multicollinearity dengan menentukan matrikskorelasi antar variabel independent :klik analyze+correlate+bivariate

Page 37: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

37

Correlations

1 .550** .500* .833** .756**

.550** 1 .285 .617** .581**

.500* .285 1 .578** .542*

.833** .617** .578** 1 .956**

.756** .581** .542* .956** 1

Average female lifeexpectancy

Gross domestic product /capitaPeople living in cities (%)Females who read (%)Males who read (%)

Averagefemale lifeexpectancy

Grossdomesticproduct /

capita

Peopleliving incities(%)

Femaleswho read

(%)

Maleswhoread(%)

Correlation is significant at the 0.01 level (2-tailed).**.

Correlation is significant at the 0.05 level (2-tailed).*.

Korelasi antar variabel independent cukup tinggi dan significantsegingga ada kecenderungan terjadi kasus multicollinearity.

c. Memeriksa adanya kasus multicollinearity dengan VIF:klikanalyze+regression+linear

klik statistics

Page 38: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

38

Coefficientsa

45.921 8.483 5.413 .000

.000 .001 .320 .753 1.640

.011 .068 .159 .875 1.525

-.273 .274 -.997 .334 11.573.594 .238 2.498 .024 13.289

(Constant)Gross domestic product/ capitaPeople living in cities(%)Males who read (%)Females who read (%)

B Std. Error

UnstandardizedCoefficients

t Sig. VIF

CollinearityStatistics

Dependent Variable: Average female life expectancya.

Ada variabel independent yang nilai VIF>10 dan tanda koefisien regresiuntuk males who read negatif sedangkan koefisien korelasinya positifsehingga memang ada kasus multicollinearity.

d. Mengatasi multicollinearity dengan metode stepwise : klik analyze +regression + linear + method stepwise

Coefficientsa

39.013 5.077 7.684 .000.406 .062 6.557 .000 1.000

(Constant)Females who read (%)

Model1

B Std. Error

UnstandardizedCoefficients

t Sig. VIF

CollinearityStatistics

Dependent Variable: Average female life expectancya.

Page 39: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

39

e. Mengatasi multicollinearity dengan ridge regression : klik file + new +syntax

klik Run +All

R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF KK RSQ GDP_CAP URBAN LIT_FEMA LIT_MALE

______ ______ ________ ________ ________ ________.00000 .71418 .054792 .026292 1.216924 -.453266.05000 .69610 .094060 .064195 .727695 -.027707.10000 .68316 .108722 .079079 .576309 .089996.15000 .67496 .116972 .087904 .499551 .141542.20000 .66894 .122256 .093883 .451628 .168551.25000 .66400 .125810 .098171 .418018 .183994.30000 .65966 .128228 .101326 .392635 .193180.35000 .65564 .129847 .103668 .372467 .198665.40000 .65182 .130880 .105402 .355839 .201821.45000 .64811 .131470 .106666 .341745 .203441.50000 .64445 .131719 .107560 .329540 .204016.55000 .64083 .131700 .108158 .318790 .203861.60000 .63722 .131470 .108517 .309190 .203186.65000 .63360 .131071 .108681 .300520 .202137.70000 .62999 .130537 .108683 .292617 .200817.75000 .62637 .129895 .108551 .285355 .199298.80000 .62273 .129165 .108309 .278639 .197636.85000 .61909 .128365 .107975 .272392 .195871.90000 .61544 .127509 .107564 .266551 .194033.95000 .61179 .126608 .107088 .261068 .1921461.0000 .60813 .125671 .106558 .255901 .190227

Besarnya k dipilih sedemikian hingga nilai koefisien regresinyadianggap sudah tidak berubah lagi, besarnya k yang memenuhi

Page 40: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

40

kriteria ini adalah k=0.35, pemilihan k ini juga dapat ditentukanberdasarkan gambar berikut :

Page 41: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

41

f. Mengatasi multicollinearity dengan principal component regression

1. Menentukan skor komponen (w1, w2,…)

MTB > PCA 'GDP_CAP' 'URBAN' 'LIT_MALE' 'LIT_FEMA';SUBC> Coefficients c41-c44;SUBC> Scores c51-c54.

Eigenanalysis of the Correlation Matrix

Eigenvalue 2.8278 0.7163 0.4141 0.0419Proportion 0.707 0.179 0.104 0.010Cumulative 0.707 0.886 0.990 1.000

Variable PC1 PC2 PC3 PC4GDP_CAP -0.435 0.655 -0.616 0.049URBAN -0.414 -0.755 -0.506 0.046LIT_MALE -0.560 0.028 0.478 0.676LIT_FEMA -0.571 0.022 0.368 -0.734

2. Meregresikan y dengan w

Hanya w1 yang eigen-value-nya >1 sehingga regresinya hanyadengan w1MTB > regr 'lifeexpf' 1 'w1'The regression equation isLIFEEXPF = 71.8 - 3.51 w1Predictor Coef SE Coef T PConstant 71.7619 0.9930 72.26 0.000w1 -3.5140 0.6051 -5.81 0.000

3. Menyatakan model regresi ke dalam variabel asal

y = 71.8 -3.51 w1

y = 71.8–3.51(-0.435 z1 -0.414 z2 -0.560 z3 -0.571 z4

y = 71.8 + 1.53 z1 + 1.45 z2 + 1.97 z3 + 2.00 z4

4321

44332211 297.145.153.18.71xxxx s

xxs

xxs

xxs

xxy

Page 42: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

42

AUTOCORRELATION

Autocorrelation

Adanya hubungan antar residual atau residual bersifat tidak saling

independent, kasus ini sering dijumpai pada data time series.

Autocorrelation dapat dideteksi dengan :

a. Statistik uji Durbin-Watson :

n

ii

n

iii

e

eed

1

2

2

21)(

b. ACF plot, ada nilai r(et,et-k) melampaui batasn

20 maka residual

tidak saling independent

c. Statistik uji Ljung-Box

k

j

j

jn

rnnQ

1

2

)2( tolak Ho : residual saling independent jika Q>k

Adanya residual yang saling dependent dapat diatasi dengan :

a. Regresi beda

ttttt xxyy )( 1101

b. Regresi Nisbah

tt

t

t

t

xx

yy

1

101

c. ttttt xxyy ).(. 1101

Page 43: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

43

Kegiatan Praktikum

tahun export gdp1970 102 2551971 105 2611972 105 2611973 105 2601974 104 2571975 104 2571976 106 2611977 106 2601978 105 2571979 106 2591980 106 2591981 106 2581982 106 2571983 106 2571984 108 2611985 108 2611986 109 2621987 110 2641988 113 2711989 113 2711990 112 2681991 114 2711992 113 2691993 112 2661994 114 2701995 113 2671996 117 2761997 117 2761998 117 2761999 117 275

Tentukan model yang menggambarkan hubungan antara gdp dengan export

dan periksa apakah residual sudah saling independent.

Page 44: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

44

Penyelesaian

a. Penentuan model regresi dan pemeriksaan asumsi independent

residual

MTB > regr ‘gdp’ 1 ‘export’;

SUBC > resid c5.

The regression equation isgdp = 110 + 1.41 export

Predictor Coef SE Coef T PConstant 110.354 6.839 16.14 0.000export 1.40664 0.06251 22.50 0.000

S = 1.549 R-Sq = 94.8% R-Sq(adj) = 94.6%MTB > %acf c5

Nilai autokorelasi residual keluar dari batas pada lag ke-1 sehingga

residual tidak saling independent.

Page 45: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

45

b. Mengatasi autocorrelation dengan regresi beda

MTB > diff 'export' c7MTB > diff 'gdp' c8MTB > name c7 'dif_xprt' c8 'diff_gdp'MTB > regr c8 1 c7;SUBC> resid c9.

The regression equation isdiff_gdp = - 0.488 + 2.28 dif_xprt

29 cases used 1 cases contain missing values

Predictor Coef SE Coef T PConstant -0.48789 0.09875 -4.94 0.000dif_xprt 2.27658 0.06924 32.88 0.000

S = 0.4956 R-Sq = 97.6% R-Sq(adj) = 97.5%

MTB > %acf c9

residual sudah saling independent, dan modelnya adalah :)exp(exp28.2488.0)( 11 tttt ortortgdpgdp

Page 46: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

46

Mengatasi autocorrelation dengan regresi nisbah

MTB > let c11=c2/lag(c2)MTB > let c12=c3/lag(c3)MTB > regr c12 1 c11;SUBC> resid c13.

The regression equation isC12 = 0.0563 + 0.942 C11

29 cases used 1 cases contain missing values

Predictor Coef SE Coef T PConstant 0.05627 0.02957 1.90 0.068C11 0.94186 0.02942 32.01 0.000

S = 0.001930 R-Sq = 97.4% R-Sq(adj) = 97.3%

MTB > %acf c13

residual sudah saling independent, dan modelnya adalah

11 expexp

942.00563.0

t

t

t

t

ortort

gdpgdp

Page 47: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

47

ROBUST REGRESSION

Metode pendugaan parameter yang paling sering dipergunakan di dalam

analisis regresi adalah metode kuadrat terkecil (least squares), metode ini

mempunyai kelemahan jika diterapkan pada data yang mengandung

pengamatan berpengaruh (inflentual observation), persamaan regresi yang

dihasilkan oleh metode kuadrat terkecil cenderung mudah berubah-ubah

dengan adanya pengamatan berpengaruh.

Untik mengatasi kelemahan metode kuadrat terkecil ini dapat dilakukan

dengan dua cara yaitu :

a. Mengeluarkan titik yang berpengaruh yang dapat dideteksi dengan

dffit, cook distance, dfbetas, setelah itu tetap menggunakan metode

kuadrat terkecil

b. Tetap menggunakan seluruh data, tetapi dengan memberikan bobot

yang kecil untuk pengamatan yang berpengaruh, metode ini dikenal

dengan nama metode regresi robust.

Page 48: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

48

Metode pendugaan parameter di dalam analisis regresi robust

a. Least Absolute Deviation (LAD), metode ini bekerja dengan

meminimukan harga mutlak residual atau meminimumkan

n

iie

1

b. Least Trimmed Squares, metode ini bekerja dengan cara

meminimumkan jumlah kuadrat q buah residual terkecil atau

meminimumkan

q

iie

1

2 , besarnya 2/nq

c. Least Median Squares (LMS), metode ini bekerja dengan cara

meminimumkan median kuadrat residual atau meminimumkan

median( 2ie )

d. M estimate, metode ini dikenalkan oleh Huber dengan cara

meminimumkan jumlah fungsi dari residual atau meminimumkan

n

iief

1

)( , jika 2)( ii eef maka metode ini sama dengan OLS dan jika

ii eef )( maka metode ini sama dengan LAD. Peminimuman dari

n

iief

1

)( biasanya dilakukan dengan cara iteratively reweighted least

squares (IRLS) atau :

min

n

iief

1

)( ekuivalen dengan min 2

1i

n

iiew

dengan 2

)(

i

ii e

efw

untuk metode LAD :min

n

iie

1

ekuivalen dengan min 2

1i

n

iiew

dengani

i ew

1 , penentuan iw dapat juga ditentukan dengan cara :

1iw untuk )( ii emediane dan

i

ii e

emedianw

)( untuk )( ii emediane

Page 49: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

49

Implementasi metode LAD dapat dinyatakan dalam macro berikut :

macrolad y xmconstant i n s iterasi deltamcolumn y x w error b_old b_newlet n=count(y)let iterasi=0let delta=10regr y 1 x;

resid error;coef b_old.

let error=abs(error)let s=median(error)while delta>0.000001 and iterasi<100

let iterasi=iterasi+1do i=1:n

if error(i)<slet w(i)=1

elselet w(i)=s/error(i)

endifenddoregr y 1 x;

weight w;resid error;coef b_new.

let delta=sum(abs(b_old-b_new))let error=abs(error)let s=median(error)let b_old=b_new

endwhileendmacro

Page 50: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

50

Kegiatan Praktikum

Dari data Anscombe berikut, tentukan model regresi robust dengan

metode LAD dan bandingkan hasilnya dengan metode OLS setelah

pengamatan berpengaruhnya dikeluarkan.

Nomor X Y1 10 7.462 8 6.773 13 12.744 9 7.115 11 7.816 14 8.847 6 6.088 4 5.399 12 8.15

10 7 6.4211 5 5.73

Penyelesaian

Dengan menggunakan MINITAB diperoleh hasil sebagai berikut :

MTB >%lad.txt c2 c1

The regression equation isY = 4.01 + 0.345 XPredictor Coef SE Coef T PConstant 4.00533 0.03445 116.26 0.000X 0.345467 0.003783 91.31 0.000S = 0.03554 R-Sq = 99.9% R-Sq(adj) = 99.9%Analysis of VarianceSource DF SS MS F PRegression 1 10.533 10.533 8338.16 0.000Residual Error 9 0.011 0.001Total 10 10.545Unusual ObservationsObs X Y Fit SE Fit Residual St Resid3 13.0 12.7400 8.4964 0.0207 4.2436 2.99R

Page 51: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

51

Setelah kasus ke-3 dihilangkan, diperoleh persamaan regresi berikut :

MTB > let c2(3)=’*’

MTB > regr c2 1 c1

MTB > regr y 1 x

The regression equation isY = 4.01 + 0.345 X10 cases used 1 cases contain missing valuesPredictor Coef SE Coef T PConstant 4.00565 0.00292 1369.81 0.000X 0.345390 0.000321 1077.35 0.000S = 0.003082 R-Sq = 100.0% R-Sq(adj) = 100.0%

Setelah kasus ke-3 dihilangkan ternyata persamaan regresi dari OLS dan

LAD adalah hampir sama

Page 52: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

52

NONLINEAR REGRESSION

Berdasarkan kelinearan antar parameter di dalam model regresi, maka

model regresi dapat diklasifikasikan menjadi dua macam yaitu linear dan non-

linear. Model regresi dikatakan linear jika dapat dinyatakan dalam model :

kk xxxxy ...3322110

JIka model regresi tidak dapat dinyatakan ke dalam model di atas maka

model yang diperoleh adalah model regresi non-linear, secara umum model

regresi non-linear dapat dinyatakan dalam persamaan :

),( xfy

NIlai dapat diduga dengan dengan cara meminimukan jumlah kuadrat

residual, jumlah kuadrat ini dapat diminimukan jika turunan pertama terhadap

sama dengan nol atau :

0),(

),(

),(

1

2

1

in

iii

n

iii

xfxfy

SSE

xfySSE

Hasil turunan pertama terhadap sama dengan nol membentuk suatu

sistem persamaan non-linear yang tidak dapat diselesaikan secara langsung

tetapi dapat didekati secara iteratif dengan menggunakan metode numerik,

salah satu metode numerik yang dapat menyelesaikan hal ini adalah metode

Gauss-Newton. Metode Gauss-Newton ini bekerja dengan menggunakan

pendekatan deret Taylor dari fungsiSSE

sampai suku kedua. Nilai dugaan

pada iterasi ke i+1 adalah :

iiiiii e')(ˆˆ 1'1

Page 53: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

53

dan

k

nnn

k

k

xfxfxf

xfxfxf

xfxfxf

),(...

),(),(...

),(...

),(),(

),(...

),(),(

10

2

1

2

0

2

1

1

1

0

1

Iterasi ini dihentikan jika nilai

ii ˆˆ1 atau 0000.0ˆ

1 ii

Levenberg-Marquardt menyempurnakan metode Gauss-Newton dengan

memasukkan konstanta (nilai awal yang besarnya berubah-ubah

mengikuti perubahan SSE. Nilai akan diperkecil sepersepuluh kali dan iterasi

diteruskan jika SSE turun serta nilai akan meningkat sepuluh kali dan

kembali ke iterasi awal jika SSE meningkat. Formula Levenberg-Marquardt

adalah :

iiiiiiii ediag ')'(ˆˆ 1'1

Page 54: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

54

Kegiatan Praktikum

Tahun Penduduk1980 1001981 1051982 1101983 1151984 1241985 1301986 1351987 1421988 1491989 1551990 1651991 1721992 1821993 1941994 2031995 2121996 2231997 2341998 2461999 2582000 271

Banyaknya penduduk pada interval tahun 1980

sampai dengan tahun 2000 diduga mempunyai pola

pertumbuhan eksponensial yang dapat dinyatakan

dalam model :

tey 10

Tentukan nilai dugaan untuk dan

Penyelesaian

Model tey 10 adalah model non linear, berbeda dengan

modelet eey 1

0 yang dapat dilinearkan dengan transformasi

logaritma, untuk menduga besarnya koefisien regresi digunakan metode

Gauss-Newton dengan formula berikut :

iiiiii e')(ˆˆ 1'1

Page 55: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

55

Dengan nilai awal untuk 1000 (Nilai y pada tahun dasar) dan untuk

05.01 (nilai pertumbuhan relatif dari dua nilai y awal :100 ke 105).

Sedangkan nilai matriks dapat ditentukan dari0

fdan

1f

yaitu :

tef 10

tef

1

0

ttef

10

1

sehingga matriks menjadi :

nn tt

tt

tt

ete

eteete

11

2121

1111

.........

0

0

0

dan matriks ’adalah :

n

i

ti

n

i

ti

n

i

ti

n

i

t

iiii

iii

etet

ete

1

2220

1

20

1

20

1

2 1

'

Page 56: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

56

Untuk menyelesaikan kaus ini dengan metode Gauss-Newton, dapat

dilakukan dengan bantuan Macro MINITAB berikut :macro

nonlin yy xx b0 b1mconstant b0 b1 bb0 bb1 iterasi deltamcolumn yy xx x1 x2 b yhat errormmatrix x xt xtx xtxinv xte e yyhat h b_old b_new## nilai awal#let b(1)=b0let b(2)=b1copy b b_oldlet yhat=b0*expo(b1*xx)let error=yy-yhatcopy error elet x1=expo(b1*xx)let x2=b0*xx*expo(b1*xx)copy x1 x2 xlet delta=10let iterasi=0## iterasi gauss-newton#while delta>0.000001 and iterasi<100

let iterasi=iterasi+1transpose x xtmultiply xt x xtxinvert xtx xtxinvmultiply xt e xtemultiply xtxinv xte hadd b_old h b_newcopy b_new blet bb0=b(1)let bb1=b(2)let delta=abs(b0-bb0)+abs(b1-bb1)let b0=bb0let b1=bb1copy b_new b_oldlet yhat=b0*expo(b1*xx)let error=yy-yhatcopy error elet x1=expo(b1*xx)let x2=b0*xx*expo(b1*xx)copy x1 x2 x

endwhileprint b0 b1endmacroUntuk menjalankan macro MINITAB di atas dapat dilakukan dengan

perintah :

Page 57: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

57

MTB > set c1DATA> 0:20DATA> endMTB > set c2DATA> 100 105 110 115 124 130 135 142 149 155DATA> 165 172 182 194 203 212 223 234 246 258DATA> 271DATA> endMTB > %nonlin.txt c2 c1 100 0.05b0 100.150b1 0.0499193

Sehingga model pertumbuhan eksponensial banyaknya penduduk dari

tahun 1980 sampai dengan tahun 2000 adalah :

tt ey 0499.0150.100

Dengan bantuan SPSS pemodelan regresi nonlinear untuk banyaknya

penduduk dapat dilakukan dengan : klik analyze+regression+nonlinear

klik parameters

Page 58: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

58

Iteration Residual SS B0 B11 22.83350008 100.000000 .0500000001.1 22.58470063 100.149827 .0499191492 22.58470063 100.149827 .0499191492.1 22.58469961 100.149728 .0499192933 22.58469961 100.149728 .0499192933.1 22.58469961 100.149729 .049919293

Nilai koefisien regresi dan SSE sudah tidak berubah lagi sehingga iterasiberhenti.Nonlinear Regression Summary Statistics Dependent Variable Y

Source DF Sum of Squares Mean Square

Regression 2 681946.41530 340973.20765Residual 19 22.58470 1.18867Uncorrected Total 21 681969.00000(Corrected Total) 20 56224.95238R squared = 1 - Residual SS / Corrected SS = .99960

Asymptotic 95 %Asymptotic Confidence Interval

Parameter Estimate Std. Error Lower UpperB0 100.14972863 .350807378 99.415480345 100.88397691B1 .049919293 .000241815 .049413169 .050425416

Confidence interval untuk koefisien regresi tidak ada yang melalui titik nol

sehingga dapat dikatakan koefisien regresi yang diperoleh significant pada

Latihan

1. Rasio elektrifikasi (Persentase rumah tangga yang berlangganan PLN)

selama 20 tahun di suatu daerah adalah sebagai berikut :57.44 64.57 71.09 76.85 81.76 85.81 89.09 91.68 93.70

95.26 96.44 97.34 98.02 98.52 98.90 99.18 99.39 99.55

99.67 99.75

Tentukan model yang menggambarkan hubungan antara rasio

elektrifikasi dengan waktu

2. Tentukan model terbaik yang menggambarkan hubungan antara harapan

hidup perempuan (y), persentase penduduk yang tinggal di perkotaan (x1),

harapan hidup laki-laki (x2) dan pendapatan perkapita(x3) yang dinyatakan

dalam model :

3213210 xxxy

Page 59: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

59

Penyelesaian

Persentase penduduk yang berlangganan PLN tidak mungkin lebih dari

100 %, dan akan mendekati 100 % untuk t yang sangat besar, salah satu

model yang memenuhi sifat-sifat ini adalah :

tt e

y01

100

Dengan bantuan SPSS

Nonlinear Regression Summary Statistics Dependent Variable YSource DF Sum of Squares Mean SquareRegression 2 164053.29912 82026.64956Residual 18 1.799245E-04 9.995807E-06Uncorrected Total 20 164053.29930(Corrected Total) 19 3129.70530R squared = 1 - Residual SS / Corrected SS = 1.00000

Asymptotic 95 %Asymptotic Confidence Interval

Parameter Estimate Std. Error Lower Upper

B0 .740850358 .000067112 .740709362 .740991355B1 .299981460 .000027927 .299922787 .300040132

Page 60: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

60

Pemodelan 3213210 xxxy dengan bantuan SPSS dapat

dilakukan dengan cara :

Nonlinear Regression Summary StatisticsDependent Variable LIFEEXPF

Source DF Sum of Squares Mean SquareRegression 4 542255.95702 135563.98926Residual 104 368.04298 3.53887Uncorrected Total 108 542624.00000(Corrected Total) 107 12023.07407R squared = 1 - Residual SS / Corrected SS = .96939

Asymptotic 95 %Asymptotic Confidence Interval

Parameter Estimate Std. Error Lower UpperB0 1.266804442 .150462507 .968431646 1.565177239B1 .010369463 .007318355 -.004143109 .024882036B2 .934838552 .033915777 .867582293 1.002094811B3 .009008014 .003101373 .002857875 .015158153

Confidence interval untuk memuat titik nol, sehingga koefisien ini

tidak significant sehingga analisis regresi nonlinear perlu dilanjutkan dengan

tanpa memasukkan variabel persentase penduduk yang tinggal diperkotaan.

Page 61: MODUL PRAKTIKUM REGRESI -  · PDF fileSebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup

61

Nonlinear Regression Summary StatisticsDependent Variable LIFEEXPF

Source DF Sum of Squares Mean Square

Regression 3 548174.04067 182724.68022Residual 106 378.95933 3.57509Uncorrected Total 109 548553.00000

(Corrected Total) 108 12070.34862

R squared = 1 - Residual SS / Corrected SS = .96860

Asymptotic 95 %Asymptotic Confidence Interval

Parameter Estimate Std. Error Lower Upper

B0 1.208565153 .138090655 .934786998 1.482343308B2 .953133843 .031327433 .891024160 1.015243525B3 .010483637 .002967936 .004599416 .016367859