bab 2 landasan teori -...
TRANSCRIPT
8
BAB 2
LANDASAN TEORI
2.1 Regresi
2.1.1 Pengertian Persamaan Regresi
Menurut Sir Francis Galton (1822-1911), persamaan regresi adalah persamaan
matematik yang memungkinkan kita meramalkan nilai-nilai atau variabel-variabel suatu
peubah tak bebas dari nilai-nilai satu atau lebih peubah bebas (Walpole,1995,p340 ).
Nilai peubah tak bebas dinyatakan dengan konotasi y dan nilai peubah bebas dengan
konotasi x.
Kuat atau tidaknya hubungan variabel independen (X) dan variabel dependen (Y)
diukur dengan suatu nilai yang disebut dengan koefisien korelasi, sedangkan besarnya
pengaruh X terhadap Y, diukur dengan koefisien regresi.
Persamaan regresi juga menggambarkan relasi dari varabel-variabel yang ada didalamnya
(Supranto,2001, p178).
Di dalam pemakaiannya, variabel dependen (Y) ternyata juga dipengaruhi oleh
faktor lain selain variabel independen (X) yang tidak dimasukkan kedalam persamaan
tersebut.
Oleh karena persamaan dari regresi perlu untuk mengambarkan bentuk dari data dengan
tepat, maka dimasukkanlah error ε ke dalam persamaan regresi tersebut.
Karena error itu tidak dapat dihilangkan sama sekali, maka resiko itu akan selalu
ada. Resiko hanya bisa diperkecil dengan memperkecil kesalahan (minimized error).
9
2.1.2 Pengertian Regresi Linear dan Regresi Non Linear
Secara umum, regresi adalah suatu metode untuk meramalkan nilai harapan yang
bersyarat. Regresi dikatakan linear apabila hubungan antara peubah bebas dan peubah tak
bebas adalah linear, sedangkan apabila hubungan antara peubah bebas dan peubah tak
bebas tidak linear, maka regresi dikatakan regresi non linear. Hubungan antara peubah
bebas dan peubah tak bebas dapat dikatakan linear apabila diagram pencar data dari
peubah-peubah tersebut mendekati pola garis lurus.
2.1.3 Regresi Linear Sederhana
2.1.3.1 Pengertian Regresi Linear Sederhana
Regresi Linear Sederhana adalah suatu persamaan regresi di mana peubah
bebasnya berbentuk skalar dan apabila diagram pencar data dari peubah-peubah tersebut
mendekati pola garis lurus.
2.1.3.2 Persamaan Regresi Linear Sederhana
Model Regresi Linear Sederhana dapat dinyatakan dalam persamaan :
(2.1)
Keterangan :
Yi : nilai peubah tak bebas pada percobaan ke-i
β0, β1 : koefisien regresi
Xi : nilai peubah bebas pada percobaan ke - i
єi : error dengan mean E{єi}=0 dan varians σ2{єi}= σ2
, єi & єj tidak berkorelasi.
iii XY εββ ++= 10
10
i : 1,…,n
2.1.3.3 Pendugaan Koefisien Regresi Linear Sederhana
Metode Kuadrat Terkecil Biasa adalah suatu metode untuk menghitung koefisien
regresi sampel (b0 & b1) sebagai penduga koefisien regresi populasi (β0 & β1), sedemikian
rupa sehingga jumlah kesalahan kuadrat memiliki nilai terkecil.
Dengan bahasa matematik, dapat dinyatakan sebagai berikut :
Model sebenarnya adalah
Yi = β0 + β1Xi + εi
Model estimasi adalah
Ŷi = b0 + b1Xi
Kesalahan error i adalah
ei = Yi – (b0 + b1Xi)
Jumlah kesalahan kuadrat adalah
∑ei2
= ∑ [Yi – ( b0+ b1Xi)] 2
Jadi metode kuadrat terkecil adalah metode menghitung b0 dan b1 sedemikian rupa
sehingga ∑ei2 minimum. Caranya adalah dengan membuat turunan parsial
∑ei2 mula-mula terhadap b0 kemudian terhadap b1 dan menyamakannya dengan nol,
sehingga kita dapat memperoleh rumus :
(2.2.)
(2.3)
xbyb 10 −=
∑ ∑∑ ∑ ∑
−
−= 221 )( XiXin
YiXiXiYinb
11
Fungsi linear persamaan regresi apabila digambarkan akan tampak seperti
gambar 2.1.3.3
Gambar 2.1.3.3 Fungsi Yi = b0 + b1Xi
b0 dan b1 adalah konstanta yang harus diestimasi, εi adalah error yang harus
diminimalkan.
2.1.4 Regresi Linear Berganda
2.1.4.1.Pengertian Regresi Linear Berganda
Regresi Linear Berganda adalah regresi yang meramalkan hubungan antara satu
variabel peubah tak bebas dengan dua atau lebih variabel peubah bebas, yang akan
ditentukan hubungan antara Y dan X1, X2,...Xk.
12
2.1.4.2.Persamaan Regresi Linear Berganda
Untuk meramalkan Y, apabila semua nilai peubah bebas diketahui, dipergunakan
persamaan regresi linear berganda. Hubungan Y dan X1, X2,... ,Xk yang sebenarnya adalah
sebagai berikut :
( untuk populasi )
( untuk sampel )
(2.4)
Keterangan :
b0 ,b1, b2, bk : parameter / koefisien yang akan ditaksir
εi : nilai peubah gangguan yang berkaitan dengan pengamatan ke-i
i : 1, 2, 3, ..., n
Apabila dinyatakan dalam bentuk persamaan matriks, sebagai berikut :
Y = X B + ε (2.5)
Keterangan :
Y, B, ε : vector
X : matriks x
Y i = B0 + B1X1i + B2X2i + … + BkXki + εi
Y i = b0 + b1X1i + b2X2i + … + bkXki + εi
13
2.1.4.3 Metode Kuadrat Terkecil Biasa
Ketika model regresi tidak mencapai prediksi dan estimasi yang diharapkan maka
hasil yang didapat menjadi bias.
Residu jika terlampau besar dapat secara dominan mempengaruhi prediksi yang
dinamakan outlier. Outlier akan mempengaruhi standar error, sehingga selang
kepercayaan menjadi melebar, estimasi tidak lagi konsisten.
Beberapa asumsi yang penting adalah sebagai berikut :
1. Nilai harapan setiap error sama dengan nol E(ε i) = 0 untuk semua i.
2. error yang satu tidak berkorelasi terhadap error lainnya E( ε i) = 0 untuk i
≠ j, akan tetapi mempunyai varians yang sama homoskedastisitas untuk
semua i.
3. X1, X2,... ,Xk merupakan bilangan riil, tanpa mengandung kesalahan.
Dengan perkataan lain, matriks merupakan himpunan angka-angka
konstan(fixed number).
y1 y2 . . . y1
.
. yn
y1y2. . . y1
.
. yn
y1y2. . . y1
.
. yn
Y = B = ε =
1 X11 X21 ... Xk11 X12 X22 ... Xk2. . . .. . . . 1 X1i X2i ... Xki . . . .. . . .. . . .1 X1n X2n ... Xkn
X =
14
4. Matriks X mempunyai rank k < n. Banyaknya observasi n harus lebih
banyak dari banyaknya peubah, atau lebih banyak dari koefisien regresi
parsial yang akan diestimasi.
Ŷ = b0 + b1X1 + b2X2 + … + bkXk (2.6)
Jika asumsi di atas dapat dipenuhi, maka penggunaan metode kuadrat terkecil
sederhana akan menghasilkan Best Linear Unbiased Estimator terhadap koefisien B.
Dengan menggunakan metode Kuadrat Terkecil Biasa maka b0 dan b1 merupakan
penduga tidak bias dan mempunyai varians minimum diantara semua penduga linear tak
bias.
Misalkan b sebagai penduga β :
Y = Xb + e
e = Y - Xb
ei = Yi - b1Xi1 - b2Xi2 - ... – bkXik (2.7)
Maka jumlah pangkat dua simpangan yang harus diminimumkan :
∑ ei2 = ∑ ( Yi - b1Xi1 - b2Xi2 - ... - bkXik)2
Estimasi vektor β dengan menggunakan metode kuadrat terkecil, ialah vektor b
sedemikian rupa sehingga jumlah kuadrat error adalah
(2.8)
Caranya ialah dengan menurunkan penurunan parsial ∑ ei2 terhadap setiap
komponen vektor b dan menyamakannya dengan 0.
15
(2.9)
Persamaan tersebut dapat disederhanakan menjadi :
(2.10)
Apabila dinyatakan di dalam bentuk matriks, persamaan normal di atas akan
menjadi :
(2.11)
Dengan demikian b sebagai penduga β dapat diperoleh melalui rumus :
(2.12)
untuk menyelesaikan persamaan secara matriks persamaan matriks.
δ∑ei2/ δb1 = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-X1i) = 0
δ∑ei2/ δb2 = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-X2i) = 0
. .
. .
δ∑ei2/ δbk = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-Xki) = 0
YXXbX TT =
YXXXb TT 1)( −=
nb0 + b1∑X1i + b2∑X1iX2i + ... + bk∑X1iXki = ∑Yi
b0 ∑X 1i + b1∑X1i2 + b2∑X1i X2i
+ … + bk∑X1iXki = ∑X1iYi
b0 ∑X2i + b1∑X1i X2i + b2∑X2i2 + … + bk∑X2iXki = ∑X2iYi
. .
. .
b0 ∑Xki + b1∑X1i Xki + b2∑X2i2 Xki
+ … + bk∑Xki2
= ∑kiYi
16
Pada dasarnya, nilai-nilai dari koefisien bj bervariasi, dan varians dari bj dalam bentuk
vektor matrik adalah sebagai berikut :
Var (b) = σ²(XTX)-1 (2.13)
arena umumnya σ² tidak diketahui, maka σ² diduga dengan Se², sehingga perkiraan
varians (b) adalah
Var (b) = Sb² = Se²(XTX)-1 (2.14)
dimana Se² merupakan varians dari error yang dinyatakan dengan rumus berikut
Se² = eTe = Σ ei² n-k-1 n-k-1 (2.15)
dimana : n = banyaknya observasi
k = banyaknya variabel bebas
2.1.4.4 Standar Error
Kesalahan baku regresi sama dengan simpangan baku (standard deviation) atau
standar error dari kesalahan pengganggu, dinyatakan dengan
Se = √ Se² =
(2.16)
Jika matriks D = (XTX)-1 , maka varians bj dapat dinyatakan dengan
Sbj² = Se² djj (2.17)
dimana djj = elemen matriks D dari baris j dan kolom j yang terletak pada diagonal utama.
Simpangan baku dari bj adalah akar dari Sbj², dinyatakan dengan
Sbj = √S ² bj (2.18)
1 Σei2
n-k-1
17
2.1.5 Robust Regression
Robust regresi menyediakan analisis alternatif dari metode Kuadrat Terkecil
Biasa.
Dalam ruang lingkupnya, regresi robust memiliki ketahanan kuat terhadap outlier yang
menjadi keistimewaan dari metode ini. Salah satu alasan yang mungkin mengapa metode
regresi robust membutuhkan waktu yang lama untuk untuk diterima adalah adanya
beberapa metode bersaing yang salah diawal implementasinya. Selain itu komputasi
dalam regresi robust juga lebih rumit dari metode kuadrat terkecil sederhana dimana
membutuhkan komputasi yang lebih intensif. Alasan lain dari kurang terkenalnya regresi
robust adalah beberapa paket software statistik gagal mengimplementsi metode
ini(Stromberg,2004).
Pada tahun 1973, Huber memperkenalkan estimasi M untuk regresi, M pada
estimasi M adalah tipe dari maximum likelihood. Metode ini awalnya diperkirakan tahan
terhadap outlier pada variabel response, akan tetapi ternyata tetap rentan terhadap
pengaruh outlier.
Tahun 1980an, Least Median of Square dan Least Trimmed of Square muncul
sebagai alternatif dari estimasi M. Tipe-tipe dari regresi robust adalah least median of
squares, least trimmed of squares, weighted least squares,dan metode-metode lainnya.
Menurut Staudte dan Sheather(1990,p 92), estimasi yang resistant(kuat) adalah sesuatu
yang secara relatif tidak terpengaruh oleh perubahan besar pada bagian yang kecil dari
data atau perubahan kecil pada bagian yang besar pada data. Jadi jika estimasi mendapat
pengaruh kuat dari outlier maka hasil yang didapat tidak akan secara tepat mewakili
estimasi. Penggunaan umum dari regresi robust adalah pada data yang terdapat outlier.
18
Deteksi outlier mencakup determinasi dimana residu(error = prediksi – hasil aktual)
adalah nilai positif atau negatif ekstrim). Outlier dapat benar-benar mengacau pada
sample mean akan tetapi memili efek relatif kecil pada sample median.
Tipe dari outlier tidak dapat dengan mudah dibedakan walaupun dengan menggunakan
definisi matematis. Menurut Rousseeuw dan Zomeren (1990), Outlier adalah realitas
yang empiris, akan tetapi definisi exact adalah lebih sukar dipahami daripada
pendefinisian exact pada kluster.
Tipe-tipe dari outlier diantaranya adalah:
1. Outlier regresi adalah sebuah poin yang menyimpang dari hubungan kelinearan
ditentukan dari (n-1) poin yang lainnya, atau paling tidak dari mayoritas dari poin-
poin tersebut.
2. Outlier residu adalah sebuah poin yang memiliki standarisasi residu yang besar
ketka digunakan dalam perhitungan. Kita dapat membedakan antara outlier
regresui dan outlier residu, sebuah poin dapat menjadi sebuah outlier regresi tanpa
menjadi sebuah outlier residu (jika poin tersebut memiliki pengaruh) dan sebuah
poin dapat saja sebagai outlier residu tanpa menjadi bukti yang kuat bahwa poin
tersebut juga merupakan outlier regresi.
3. Outlier x adalah sebuah poin yang menyimpang hanya pada koordinat x.
Sepertinya poin tersebut dapat menyebabkan estimasi regresi robust menjadi
kurang baik, akan tetapi estimasi robust yang paling modern tidak terpengaruh
dengan adanya outlier x.sebuah outlier x dapat juga adalah outlier regresi atau
outlier residu.
19
4. outlier y adalah sebuah poin yang menjadi pencilan karena memiliki koordinat y
yang ekstrim. Cara dan tingkat dimana outlier tersebut dapat mengakibatkan
pengaruh pada estimasi parameter akan tergantung pada koordinat x dan
konfigurasi umum dari poin-poin lainnya. Poin tersebut juga mungkin saja
merupakan outlier regresi atau outlier residu.
5. outlier x dan y adalah sebuah poin yang menyimpang pada kedua koordinat dan
mungkin saja merupakan outlier regresi atau outlier residu, atau outlier tersebut
memiliki efek yang kecil atau bahkan tidak memiliki efek apa-apa pada
perhitungan regresi. Faktor tetapnya adalah konfigurasi dari poin-poin lainnya.
Dalam tulisan-tulisan mengenai regresi robust, umumnya regresi robust digunakan ketika
nilai regresor telah ditetapkan (fixed regresor), fixed regresor adalah kasus spesial dalam
regresi robust. Pengembangan historis pada banyak kelas-kelas dalam estimasi regresi
robust diikuti oleh Rousseeuw dan Leroy (1987) yang kemudian mengemukakan ide dari
meminimalisasi jumlah nilai-nilai absolut dari residu. Walaupun estimasi didapatkan dari
penggunaan dari krriteria yang ridak terlalu dipnegaruhi oleh outlier y, tetapi dpat juga
dipengaruhi secara kuat oleh outlier x.
Persentase terkecil dari data yang kurang baik yang menyebabkan garis persamaan
regresi kurang baik disebut sebagai poin pengganggu (breakdown point). Poin
pengganggu (breakdown point) dari estimasi adalah hanya 1/n.
Konsep penting lain dari regresi robust adalah efisiensi, ketika data set mengandung
outlier, kita dapat menggunakan efisensi dari estimasi robust ketika Kuadrat Terkecil
Biasa hanya hanya dapat diaplikasikan poin-poin data yang baik.
Tujuan penting dari estimasi robust adalah kita ingin sebuah estimator adalah :
20
- dapat membuat estimsi sebaik metode kuadrat terkecil
- untuk menciptakan perhitungan yang lebih baik dari metode kuadrat terkecil
ketika hasil dari Kuadrat Terkecil Biasa tidak mewakili dengan baik.
- tidak terlalu sulit untuk dihitung dan dimengerti.
2.1.5.1 Metode Kuadrat Median Terkecil
Least Median of Squares (Rouseseeuw, 1984) adalah adalah salah satu metode
estimasi dari keluarga robust regression. Metode ini melakukan perhitungan dengan
menghilangkan pengaruh-pengaruh dari residu. Menurut Venables dan Ripley (1999),
algoritma ini meminimalkan median(nilai tengah) dari kuadrat residu terurut.
Gambar disebelah kiri adalah sebuah foto jalan secara aerial
dari atas (garis hitam tebal).
Pada panel (b), kuadrat terkecil menentukan garis
persamaan akan tetapi jalan tersebut tidak tertangkap
dengan baik oleh garis putih.
Pada panel (c) juga terdapat garis, akan tetapi bukan
menggunakan algoritma OLS, metode pendekatan yang
digunakan adalah Kuadrat Median Terkecil.
Gambar 2.1.4.6 indentifikasi jalan
21
Hawkins (1993) menyatakan bahwa, kriteria dari metode Kuadrat Median
Terkecil adalah metode analisis standar dari data ketika adanya kemungkinan banyaknya
data outlier, dimana estimasi terhadap banyaknya nilai pengganggu tetap dimungkinkan.
Minimalisasi dilakukan pada urutan nilai residu kuadrat, dimana h= [n/2]+[(p+1)/2], n
adalah ukuran dari sampel, p adalah jumlah dari parameter random.
Garis yang dibentuk oleh metode Kuadrat Median Terkecil tidak akan merespon seperti
halnya garis dari metode Kuadrat Terkecil Biasa terhadap outlier. Hal ini dapat
ditunjukkan dari ketahanannya dari poin pengganggu sampai sebesar 50% dari data.
2.1.6 Masalah Regresi Linier Berganda
Di dalam regresi linier berganda dapat terjadi beberapa keadaan yang dapat
menyebabkan estimasi koefisien regresi tidak lagi menjadi penduga koefisien tak bias
terbaik. Beberapa masalah / kondisi yang dapat terjadi pada regresi linier berganda adalah
sebagai berikut :
2.1.6.1 Otokorelasi
Di dalam suatu model regresi, dianggap bahwa kesalahan pengganggu εi ,di mana
i = 1,2,3,…,n merupakan variabel acak yang bebas. Dengan kata lain bahwa kesalahan
observasi yang berikutnya diperoleh secara bebas terhadap kesalahan sebelumnya.
Artinya E(εi,εi+r ) = 0, untuk semua i dan semua r ≠ 0.
Apabila asumsi tersebut tidak berlaku, maka akan terdapat banyak kesukaran di
dalam analisis ekonomi. Jika terjadi suatu otokorelasi, maka apabila metode kuadrat
22
terkecil diterapkan untuk memperkirakan parameter / koefisien regresi, maka penduga
penduga yang dihasilkan bukan lagi penduga tak bias yang terbaik. Selain itu, apabila
terjadi otokorelasi di antara kesalahan pengganggu maka pengujian nyata berdasarkan
statistik uji t dan F sebetulnya tidak berlaku lagi.
Solusi untuk masalah otokorelasi adalah data asli harus ditransformasikan
terlebih dahulu untuk menghilangkan otokorelasi di antara kesalahan pengganggu
tersebut. Untuk menguji ada tidaknya otokorelasi dapat menggunakan Statistik d Durbin-
Watson (The Durbin-Watson d Statistics).
2.1.6.2 Heterokedastisitas
Apabila matriks ragam (variance) kesalahan adalah sebagai berikut :
Dan apabila beberapa elemen pada diagonal utama tidak sama dengan satu (Vii≠1), maka
kesalahan pengganggu tersebut disebut heteroskedastis. Dengan kata lain kesalahan
pengganggu merupakan variabel bebas, tetapi kesalahan pengganggu tersebut
mempunyai varians yang berbeda untuk setiap nilai X yang berbeda, di mana X
merupakan variabel bebas.
Cara untuk mengatasi masalah heterokedastisitas adalah mengubah matrik
kovarian menjadi matrik yang memenuhi homokedastisitas.
23
2.1.6.3 Multikolinieritas
Multikolinieritas adalah masalah yang timbul pada regresi linier apabila terdapat
suatu hubungan atau ketergantungan linier di antara beberapa atau semua dari peubah-
peubah bebas. Jika peubah-peubah bebas tersebut saling berkorelasi, maka akan sangat
sulit untuk memisahkan pengaruh mereka masing-masing terhadap peubah tak bebas dan
untuk mendapatkan penaksir yang baik bagi koefisien-koefisien regresi. Akibat dari
multikolinieritas adalah :
a. Apabila hubungan tersebut sempurna, maka koefisien regresi parsial tak
akan dapat diestimasi.
b. Apabila hubungan tersebut tidak sempurna, maka koefisien regresi parsial
masih dapat diestimasi, tetapi kesalahan baku dari penduga koefisien
regresi parsial sangat besar. Hal ini menyebabkan pendugaan/ramalan
nilai Y dengan menggunakan X1 dan X2 kurang teliti.
2.2 R Language
R Language adalah system komputasi menggunakan manipulasi data, kalkulasi
dan tampilan grafik dan dapat digunakan untuk implementasi pengujian-pengujian
statistika, analisi deret, akses pada bahasa pemrograman lain dan fasiliatas perbaikan
kesalahan. Dapat dijalankan dalam lingkungan system UNIX, Windows, dan MacOS.
24
R Language merupakan implementasi dari S Language yang dikembangkan oleh
Bell Laboratories oleh Rick Becker, John Chambers dan Allan Wilks pada tahun 1980,
dan sejak itu telah dipakai secara luas oleh komunitas statistika.
R Language telah banyak dikembangkan untuk analisis data interaktif ke dalam
paket-paket yang dapat diperoleh secara gratis. Bahasa pemrograman ini merupakan high
level language sehingga cukup mudah untuk dipahami dan dipelajari, memiliki fasilitas
pengaturan dan penyimpanan data yang efektif. R Language juga menyediakan operator
untuk perhitungan matriks dan array, selain itu dalam analis data R Language dapat
menyediakan tampilan analisis data dalam bentuk grafik.
R Language memiliki banyak kesamaan dengan bahasa S, namun perbedaan
mendasar adalah software S bersifat komersial. R Language dapat diperoleh dari
http://www.r-project.org . Versi terbaru dari R Language adalah R-2.3.1 yang terbit pada
1 Juni 2006. Penelitian ini menggunakan versi R terbaru. R menyediakan banyak paket-
paket fungsi yang dapat digunakan dalam pemodelan statistika.