bab 2 landasan teori -...

8

BAB 2

LANDASAN TEORI

2.1 Regresi

2.1.1 Pengertian Persamaan Regresi

Menurut Sir Francis Galton (1822-1911), persamaan regresi adalah persamaan

matematik yang memungkinkan kita meramalkan nilai-nilai atau variabel-variabel suatu

peubah tak bebas dari nilai-nilai satu atau lebih peubah bebas (Walpole,1995,p340 ).

Nilai peubah tak bebas dinyatakan dengan konotasi y dan nilai peubah bebas dengan

konotasi x.

Kuat atau tidaknya hubungan variabel independen (X) dan variabel dependen (Y)

diukur dengan suatu nilai yang disebut dengan koefisien korelasi, sedangkan besarnya

pengaruh X terhadap Y, diukur dengan koefisien regresi.

Persamaan regresi juga menggambarkan relasi dari varabel-variabel yang ada didalamnya

(Supranto,2001, p178).

Di dalam pemakaiannya, variabel dependen (Y) ternyata juga dipengaruhi oleh

faktor lain selain variabel independen (X) yang tidak dimasukkan kedalam persamaan

tersebut.

Oleh karena persamaan dari regresi perlu untuk mengambarkan bentuk dari data dengan

tepat, maka dimasukkanlah error ε ke dalam persamaan regresi tersebut.

Karena error itu tidak dapat dihilangkan sama sekali, maka resiko itu akan selalu

ada. Resiko hanya bisa diperkecil dengan memperkecil kesalahan (minimized error).

9

2.1.2 Pengertian Regresi Linear dan Regresi Non Linear

Secara umum, regresi adalah suatu metode untuk meramalkan nilai harapan yang

bersyarat. Regresi dikatakan linear apabila hubungan antara peubah bebas dan peubah tak

bebas adalah linear, sedangkan apabila hubungan antara peubah bebas dan peubah tak

bebas tidak linear, maka regresi dikatakan regresi non linear. Hubungan antara peubah

bebas dan peubah tak bebas dapat dikatakan linear apabila diagram pencar data dari

peubah-peubah tersebut mendekati pola garis lurus.

2.1.3 Regresi Linear Sederhana

2.1.3.1 Pengertian Regresi Linear Sederhana

Regresi Linear Sederhana adalah suatu persamaan regresi di mana peubah

bebasnya berbentuk skalar dan apabila diagram pencar data dari peubah-peubah tersebut

mendekati pola garis lurus.

2.1.3.2 Persamaan Regresi Linear Sederhana

Model Regresi Linear Sederhana dapat dinyatakan dalam persamaan :

(2.1)

Keterangan :

Yi : nilai peubah tak bebas pada percobaan ke-i

β0, β1 : koefisien regresi

Xi : nilai peubah bebas pada percobaan ke - i

єi : error dengan mean E{єi}=0 dan varians σ2{єi}= σ2

, єi & єj tidak berkorelasi.

iii XY εββ ++= 10

10

i : 1,…,n

2.1.3.3 Pendugaan Koefisien Regresi Linear Sederhana

Metode Kuadrat Terkecil Biasa adalah suatu metode untuk menghitung koefisien

regresi sampel (b0 & b1) sebagai penduga koefisien regresi populasi (β0 & β1), sedemikian

rupa sehingga jumlah kesalahan kuadrat memiliki nilai terkecil.

Dengan bahasa matematik, dapat dinyatakan sebagai berikut :

Model sebenarnya adalah

Yi = β0 + β1Xi + εi

Model estimasi adalah

Ŷi = b0 + b1Xi

Kesalahan error i adalah

ei = Yi – (b0 + b1Xi)

Jumlah kesalahan kuadrat adalah

∑ei2

= ∑ [Yi – ( b0+ b1Xi)] 2

Jadi metode kuadrat terkecil adalah metode menghitung b0 dan b1 sedemikian rupa

sehingga ∑ei2 minimum. Caranya adalah dengan membuat turunan parsial

∑ei2 mula-mula terhadap b0 kemudian terhadap b1 dan menyamakannya dengan nol,

sehingga kita dapat memperoleh rumus :

(2.2.)

(2.3)

xbyb 10 −=

∑ ∑∑ ∑ ∑

−

−= 221 )( XiXin

YiXiXiYinb

11

Fungsi linear persamaan regresi apabila digambarkan akan tampak seperti

gambar 2.1.3.3

Gambar 2.1.3.3 Fungsi Yi = b0 + b1Xi

b0 dan b1 adalah konstanta yang harus diestimasi, εi adalah error yang harus

diminimalkan.

2.1.4 Regresi Linear Berganda

2.1.4.1.Pengertian Regresi Linear Berganda

Regresi Linear Berganda adalah regresi yang meramalkan hubungan antara satu

variabel peubah tak bebas dengan dua atau lebih variabel peubah bebas, yang akan

ditentukan hubungan antara Y dan X1, X2,...Xk.

12

2.1.4.2.Persamaan Regresi Linear Berganda

Untuk meramalkan Y, apabila semua nilai peubah bebas diketahui, dipergunakan

persamaan regresi linear berganda. Hubungan Y dan X1, X2,... ,Xk yang sebenarnya adalah

sebagai berikut :

( untuk populasi )

( untuk sampel )

(2.4)

Keterangan :

b0 ,b1, b2, bk : parameter / koefisien yang akan ditaksir

εi : nilai peubah gangguan yang berkaitan dengan pengamatan ke-i

i : 1, 2, 3, ..., n

Apabila dinyatakan dalam bentuk persamaan matriks, sebagai berikut :

Y = X B + ε (2.5)

Keterangan :

Y, B, ε : vector

X : matriks x

Y i = B0 + B1X1i + B2X2i + … + BkXki + εi

Y i = b0 + b1X1i + b2X2i + … + bkXki + εi

13

2.1.4.3 Metode Kuadrat Terkecil Biasa

Ketika model regresi tidak mencapai prediksi dan estimasi yang diharapkan maka

hasil yang didapat menjadi bias.

Residu jika terlampau besar dapat secara dominan mempengaruhi prediksi yang

dinamakan outlier. Outlier akan mempengaruhi standar error, sehingga selang

kepercayaan menjadi melebar, estimasi tidak lagi konsisten.

Beberapa asumsi yang penting adalah sebagai berikut :

1. Nilai harapan setiap error sama dengan nol E(ε i) = 0 untuk semua i.

2. error yang satu tidak berkorelasi terhadap error lainnya E( ε i) = 0 untuk i

≠ j, akan tetapi mempunyai varians yang sama homoskedastisitas untuk

semua i.

3. X1, X2,... ,Xk merupakan bilangan riil, tanpa mengandung kesalahan.

Dengan perkataan lain, matriks merupakan himpunan angka-angka

konstan(fixed number).

y1 y2 . . . y1

.

. yn

y1y2. . . y1

.

. yn

y1y2. . . y1

.

. yn

Y = B = ε =

1 X11 X21 ... Xk11 X12 X22 ... Xk2. . . .. . . . 1 X1i X2i ... Xki . . . .. . . .. . . .1 X1n X2n ... Xkn

X =

14

4. Matriks X mempunyai rank k < n. Banyaknya observasi n harus lebih

banyak dari banyaknya peubah, atau lebih banyak dari koefisien regresi

parsial yang akan diestimasi.

Ŷ = b0 + b1X1 + b2X2 + … + bkXk (2.6)

Jika asumsi di atas dapat dipenuhi, maka penggunaan metode kuadrat terkecil

sederhana akan menghasilkan Best Linear Unbiased Estimator terhadap koefisien B.

Dengan menggunakan metode Kuadrat Terkecil Biasa maka b0 dan b1 merupakan

penduga tidak bias dan mempunyai varians minimum diantara semua penduga linear tak

bias.

Misalkan b sebagai penduga β :

Y = Xb + e

e = Y - Xb

ei = Yi - b1Xi1 - b2Xi2 - ... – bkXik (2.7)

Maka jumlah pangkat dua simpangan yang harus diminimumkan :

∑ ei2 = ∑ ( Yi - b1Xi1 - b2Xi2 - ... - bkXik)2

Estimasi vektor β dengan menggunakan metode kuadrat terkecil, ialah vektor b

sedemikian rupa sehingga jumlah kuadrat error adalah

(2.8)

Caranya ialah dengan menurunkan penurunan parsial ∑ ei2 terhadap setiap

komponen vektor b dan menyamakannya dengan 0.

15

(2.9)

Persamaan tersebut dapat disederhanakan menjadi :

(2.10)

Apabila dinyatakan di dalam bentuk matriks, persamaan normal di atas akan

menjadi :

(2.11)

Dengan demikian b sebagai penduga β dapat diperoleh melalui rumus :

(2.12)

untuk menyelesaikan persamaan secara matriks persamaan matriks.

δ∑ei2/ δb1 = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-X1i) = 0

δ∑ei2/ δb2 = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-X2i) = 0

. .

. .

δ∑ei2/ δbk = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-Xki) = 0

YXXbX TT =

YXXXb TT 1)( −=

nb0 + b1∑X1i + b2∑X1iX2i + ... + bk∑X1iXki = ∑Yi

b0 ∑X 1i + b1∑X1i2 + b2∑X1i X2i

+ … + bk∑X1iXki = ∑X1iYi

b0 ∑X2i + b1∑X1i X2i + b2∑X2i2 + … + bk∑X2iXki = ∑X2iYi

. .

. .

b0 ∑Xki + b1∑X1i Xki + b2∑X2i2 Xki

+ … + bk∑Xki2

= ∑kiYi

16

Pada dasarnya, nilai-nilai dari koefisien bj bervariasi, dan varians dari bj dalam bentuk

vektor matrik adalah sebagai berikut :

Var (b) = σ²(XTX)-1 (2.13)

arena umumnya σ² tidak diketahui, maka σ² diduga dengan Se², sehingga perkiraan

varians (b) adalah

Var (b) = Sb² = Se²(XTX)-1 (2.14)

dimana Se² merupakan varians dari error yang dinyatakan dengan rumus berikut

Se² = eTe = Σ ei² n-k-1 n-k-1 (2.15)

dimana : n = banyaknya observasi

k = banyaknya variabel bebas

2.1.4.4 Standar Error

Kesalahan baku regresi sama dengan simpangan baku (standard deviation) atau

standar error dari kesalahan pengganggu, dinyatakan dengan

Se = √ Se² =

(2.16)

Jika matriks D = (XTX)-1 , maka varians bj dapat dinyatakan dengan

Sbj² = Se² djj (2.17)

dimana djj = elemen matriks D dari baris j dan kolom j yang terletak pada diagonal utama.

Simpangan baku dari bj adalah akar dari Sbj², dinyatakan dengan

Sbj = √S ² bj (2.18)

1 Σei2

n-k-1

17

2.1.5 Robust Regression

Robust regresi menyediakan analisis alternatif dari metode Kuadrat Terkecil

Biasa.

Dalam ruang lingkupnya, regresi robust memiliki ketahanan kuat terhadap outlier yang

menjadi keistimewaan dari metode ini. Salah satu alasan yang mungkin mengapa metode

regresi robust membutuhkan waktu yang lama untuk untuk diterima adalah adanya

beberapa metode bersaing yang salah diawal implementasinya. Selain itu komputasi

dalam regresi robust juga lebih rumit dari metode kuadrat terkecil sederhana dimana

membutuhkan komputasi yang lebih intensif. Alasan lain dari kurang terkenalnya regresi

robust adalah beberapa paket software statistik gagal mengimplementsi metode

ini(Stromberg,2004).

Pada tahun 1973, Huber memperkenalkan estimasi M untuk regresi, M pada

estimasi M adalah tipe dari maximum likelihood. Metode ini awalnya diperkirakan tahan

terhadap outlier pada variabel response, akan tetapi ternyata tetap rentan terhadap

pengaruh outlier.

Tahun 1980an, Least Median of Square dan Least Trimmed of Square muncul

sebagai alternatif dari estimasi M. Tipe-tipe dari regresi robust adalah least median of

squares, least trimmed of squares, weighted least squares,dan metode-metode lainnya.

Menurut Staudte dan Sheather(1990,p 92), estimasi yang resistant(kuat) adalah sesuatu

yang secara relatif tidak terpengaruh oleh perubahan besar pada bagian yang kecil dari

data atau perubahan kecil pada bagian yang besar pada data. Jadi jika estimasi mendapat

pengaruh kuat dari outlier maka hasil yang didapat tidak akan secara tepat mewakili

estimasi. Penggunaan umum dari regresi robust adalah pada data yang terdapat outlier.

18

Deteksi outlier mencakup determinasi dimana residu(error = prediksi – hasil aktual)

adalah nilai positif atau negatif ekstrim). Outlier dapat benar-benar mengacau pada

sample mean akan tetapi memili efek relatif kecil pada sample median.

Tipe dari outlier tidak dapat dengan mudah dibedakan walaupun dengan menggunakan

definisi matematis. Menurut Rousseeuw dan Zomeren (1990), Outlier adalah realitas

yang empiris, akan tetapi definisi exact adalah lebih sukar dipahami daripada

pendefinisian exact pada kluster.

Tipe-tipe dari outlier diantaranya adalah:

1. Outlier regresi adalah sebuah poin yang menyimpang dari hubungan kelinearan

ditentukan dari (n-1) poin yang lainnya, atau paling tidak dari mayoritas dari poin-

poin tersebut.

2. Outlier residu adalah sebuah poin yang memiliki standarisasi residu yang besar

ketka digunakan dalam perhitungan. Kita dapat membedakan antara outlier

regresui dan outlier residu, sebuah poin dapat menjadi sebuah outlier regresi tanpa

menjadi sebuah outlier residu (jika poin tersebut memiliki pengaruh) dan sebuah

poin dapat saja sebagai outlier residu tanpa menjadi bukti yang kuat bahwa poin

tersebut juga merupakan outlier regresi.

3. Outlier x adalah sebuah poin yang menyimpang hanya pada koordinat x.

Sepertinya poin tersebut dapat menyebabkan estimasi regresi robust menjadi

kurang baik, akan tetapi estimasi robust yang paling modern tidak terpengaruh

dengan adanya outlier x.sebuah outlier x dapat juga adalah outlier regresi atau

outlier residu.

19

4. outlier y adalah sebuah poin yang menjadi pencilan karena memiliki koordinat y

yang ekstrim. Cara dan tingkat dimana outlier tersebut dapat mengakibatkan

pengaruh pada estimasi parameter akan tergantung pada koordinat x dan

konfigurasi umum dari poin-poin lainnya. Poin tersebut juga mungkin saja

merupakan outlier regresi atau outlier residu.

5. outlier x dan y adalah sebuah poin yang menyimpang pada kedua koordinat dan

mungkin saja merupakan outlier regresi atau outlier residu, atau outlier tersebut

memiliki efek yang kecil atau bahkan tidak memiliki efek apa-apa pada

perhitungan regresi. Faktor tetapnya adalah konfigurasi dari poin-poin lainnya.

Dalam tulisan-tulisan mengenai regresi robust, umumnya regresi robust digunakan ketika

nilai regresor telah ditetapkan (fixed regresor), fixed regresor adalah kasus spesial dalam

regresi robust. Pengembangan historis pada banyak kelas-kelas dalam estimasi regresi

robust diikuti oleh Rousseeuw dan Leroy (1987) yang kemudian mengemukakan ide dari

meminimalisasi jumlah nilai-nilai absolut dari residu. Walaupun estimasi didapatkan dari

penggunaan dari krriteria yang ridak terlalu dipnegaruhi oleh outlier y, tetapi dpat juga

dipengaruhi secara kuat oleh outlier x.

Persentase terkecil dari data yang kurang baik yang menyebabkan garis persamaan

regresi kurang baik disebut sebagai poin pengganggu (breakdown point). Poin

pengganggu (breakdown point) dari estimasi adalah hanya 1/n.

Konsep penting lain dari regresi robust adalah efisiensi, ketika data set mengandung

outlier, kita dapat menggunakan efisensi dari estimasi robust ketika Kuadrat Terkecil

Biasa hanya hanya dapat diaplikasikan poin-poin data yang baik.

Tujuan penting dari estimasi robust adalah kita ingin sebuah estimator adalah :

20

- dapat membuat estimsi sebaik metode kuadrat terkecil

- untuk menciptakan perhitungan yang lebih baik dari metode kuadrat terkecil

ketika hasil dari Kuadrat Terkecil Biasa tidak mewakili dengan baik.

- tidak terlalu sulit untuk dihitung dan dimengerti.

2.1.5.1 Metode Kuadrat Median Terkecil

Least Median of Squares (Rouseseeuw, 1984) adalah adalah salah satu metode

estimasi dari keluarga robust regression. Metode ini melakukan perhitungan dengan

menghilangkan pengaruh-pengaruh dari residu. Menurut Venables dan Ripley (1999),

algoritma ini meminimalkan median(nilai tengah) dari kuadrat residu terurut.

Gambar disebelah kiri adalah sebuah foto jalan secara aerial

dari atas (garis hitam tebal).

Pada panel (b), kuadrat terkecil menentukan garis

persamaan akan tetapi jalan tersebut tidak tertangkap

dengan baik oleh garis putih.

Pada panel (c) juga terdapat garis, akan tetapi bukan

menggunakan algoritma OLS, metode pendekatan yang

digunakan adalah Kuadrat Median Terkecil.

Gambar 2.1.4.6 indentifikasi jalan

21

Hawkins (1993) menyatakan bahwa, kriteria dari metode Kuadrat Median

Terkecil adalah metode analisis standar dari data ketika adanya kemungkinan banyaknya

data outlier, dimana estimasi terhadap banyaknya nilai pengganggu tetap dimungkinkan.

Minimalisasi dilakukan pada urutan nilai residu kuadrat, dimana h= [n/2]+[(p+1)/2], n

adalah ukuran dari sampel, p adalah jumlah dari parameter random.

Garis yang dibentuk oleh metode Kuadrat Median Terkecil tidak akan merespon seperti

halnya garis dari metode Kuadrat Terkecil Biasa terhadap outlier. Hal ini dapat

ditunjukkan dari ketahanannya dari poin pengganggu sampai sebesar 50% dari data.

2.1.6 Masalah Regresi Linier Berganda

Di dalam regresi linier berganda dapat terjadi beberapa keadaan yang dapat

menyebabkan estimasi koefisien regresi tidak lagi menjadi penduga koefisien tak bias

terbaik. Beberapa masalah / kondisi yang dapat terjadi pada regresi linier berganda adalah

sebagai berikut :

2.1.6.1 Otokorelasi

Di dalam suatu model regresi, dianggap bahwa kesalahan pengganggu εi ,di mana

i = 1,2,3,…,n merupakan variabel acak yang bebas. Dengan kata lain bahwa kesalahan

observasi yang berikutnya diperoleh secara bebas terhadap kesalahan sebelumnya.

Artinya E(εi,εi+r ) = 0, untuk semua i dan semua r ≠ 0.

Apabila asumsi tersebut tidak berlaku, maka akan terdapat banyak kesukaran di

dalam analisis ekonomi. Jika terjadi suatu otokorelasi, maka apabila metode kuadrat

22

terkecil diterapkan untuk memperkirakan parameter / koefisien regresi, maka penduga

penduga yang dihasilkan bukan lagi penduga tak bias yang terbaik. Selain itu, apabila

terjadi otokorelasi di antara kesalahan pengganggu maka pengujian nyata berdasarkan

statistik uji t dan F sebetulnya tidak berlaku lagi.

Solusi untuk masalah otokorelasi adalah data asli harus ditransformasikan

terlebih dahulu untuk menghilangkan otokorelasi di antara kesalahan pengganggu

tersebut. Untuk menguji ada tidaknya otokorelasi dapat menggunakan Statistik d Durbin-

Watson (The Durbin-Watson d Statistics).

2.1.6.2 Heterokedastisitas

Apabila matriks ragam (variance) kesalahan adalah sebagai berikut :

Dan apabila beberapa elemen pada diagonal utama tidak sama dengan satu (Vii≠1), maka

kesalahan pengganggu tersebut disebut heteroskedastis. Dengan kata lain kesalahan

pengganggu merupakan variabel bebas, tetapi kesalahan pengganggu tersebut

mempunyai varians yang berbeda untuk setiap nilai X yang berbeda, di mana X

merupakan variabel bebas.

Cara untuk mengatasi masalah heterokedastisitas adalah mengubah matrik

kovarian menjadi matrik yang memenuhi homokedastisitas.

23

2.1.6.3 Multikolinieritas

Multikolinieritas adalah masalah yang timbul pada regresi linier apabila terdapat

suatu hubungan atau ketergantungan linier di antara beberapa atau semua dari peubah-

peubah bebas. Jika peubah-peubah bebas tersebut saling berkorelasi, maka akan sangat

sulit untuk memisahkan pengaruh mereka masing-masing terhadap peubah tak bebas dan

untuk mendapatkan penaksir yang baik bagi koefisien-koefisien regresi. Akibat dari

multikolinieritas adalah :

a. Apabila hubungan tersebut sempurna, maka koefisien regresi parsial tak

akan dapat diestimasi.

b. Apabila hubungan tersebut tidak sempurna, maka koefisien regresi parsial

masih dapat diestimasi, tetapi kesalahan baku dari penduga koefisien

regresi parsial sangat besar. Hal ini menyebabkan pendugaan/ramalan

nilai Y dengan menggunakan X1 dan X2 kurang teliti.

2.2 R Language

R Language adalah system komputasi menggunakan manipulasi data, kalkulasi

dan tampilan grafik dan dapat digunakan untuk implementasi pengujian-pengujian

statistika, analisi deret, akses pada bahasa pemrograman lain dan fasiliatas perbaikan

kesalahan. Dapat dijalankan dalam lingkungan system UNIX, Windows, dan MacOS.

24

R Language merupakan implementasi dari S Language yang dikembangkan oleh

Bell Laboratories oleh Rick Becker, John Chambers dan Allan Wilks pada tahun 1980,

dan sejak itu telah dipakai secara luas oleh komunitas statistika.

R Language telah banyak dikembangkan untuk analisis data interaktif ke dalam

paket-paket yang dapat diperoleh secara gratis. Bahasa pemrograman ini merupakan high

level language sehingga cukup mudah untuk dipahami dan dipelajari, memiliki fasilitas

pengaturan dan penyimpanan data yang efektif. R Language juga menyediakan operator

untuk perhitungan matriks dan array, selain itu dalam analis data R Language dapat

menyediakan tampilan analisis data dalam bentuk grafik.

R Language memiliki banyak kesamaan dengan bahasa S, namun perbedaan

mendasar adalah software S bersifat komersial. R Language dapat diperoleh dari

http://www.r-project.org . Versi terbaru dari R Language adalah R-2.3.1 yang terbit pada

1 Juni 2006. Penelitian ini menggunakan versi R terbaru. R menyediakan banyak paket-

paket fungsi yang dapat digunakan dalam pemodelan statistika.

bab 2 landasan teori -...

Documents