chapter 15

33
Analisis Regressi Berbilang Analisis Regressi Berbilang Didalam Bab 13 kita telah membincangkan regressi linear mudah dan menunjukkan penggunaannya didalam membentuk persamaan yang boleh menerangkan perhubungan di antara dua angkubah. Ingat kembali yang diramalkan atau diterangkan oleh persamaan dipanggil sebagai angkubah sandar dan angkubah yang digunakan untuk meramalkan angkubah sandar dipanggil sebagai angkubah bebas. Didalam bab ini kita akan meneruskan kajian terhadap analisis regressi dengan mempertimbangkan situasi yang melibatkan dua atau lebih angkubah bebas. Bidang ini dipanggil sebagai analisis regresi berbilang. Ia membolehkan kita untuk mempertimbangkat lebih faktor dan oleh itu memperolehi penganggaran yang lebih baik berbanding kemungkinan yang diperolehi dari analisis regressi mudah. 14.1 Model Regressi Berbilang Analisis regressi berbilang adalah kajian bagaimana angkubah sandar y berhubungan dengan dua atau lebih angkubah bebas. Didalam kes yang am, kita akan menggunakan k untuk menandakan bilangan angkubah bebas. Model Regreassi dan Persamaan Regressi Analis regressi berbilang adalah sama konsepnya dengan analisis regressi mudah. Walau bagaimanapun, ia adalah lebih rumit secara konsep dan pengiraannya. 1 14

Upload: nong-photiwong

Post on 11-Dec-2014

47 views

Category:

Documents


0 download

DESCRIPTION

statistik

TRANSCRIPT

Page 1: Chapter 15

Analisis Regressi Berbilang

Analisis Regressi Berbilang

Didalam Bab 13 kita telah membincangkan regressi linear mudah dan menunjukkan penggunaannya didalam membentuk persamaan yang boleh menerangkan perhubungan di antara dua angkubah. Ingat kembali yang diramalkan atau diterangkan oleh persamaan dipanggil sebagai angkubah sandar dan angkubah yang digunakan untuk meramalkan angkubah sandar dipanggil sebagai angkubah bebas. Didalam bab ini kita akan meneruskan kajian terhadap analisis regressi dengan mempertimbangkan situasi yang melibatkan dua atau lebih angkubah bebas. Bidang ini dipanggil sebagai analisis regresi berbilang. Ia membolehkan kita untuk mempertimbangkat lebih faktor dan oleh itu memperolehi penganggaran yang lebih baik berbanding kemungkinan yang diperolehi dari analisis regressi mudah.

14.1 Model Regressi Berbilang

Analisis regressi berbilang adalah kajian bagaimana angkubah sandar y berhubungan dengan dua atau lebih angkubah bebas. Didalam kes yang am, kita akan menggunakan k untuk menandakan bilangan angkubah bebas.

Model Regreassi dan Persamaan Regressi

Analis regressi berbilang adalah sama konsepnya dengan analisis regressi mudah. Walau bagaimanapun, ia adalah lebih rumit secara konsep dan pengiraannya. Ingat kembali di dalam Bab 13 dimana persama model regressi berkebarangkalian mudah adalah

Y = 0 + 1X1 +

dimanaY = nilai angkubah sandar0 = pintasan populasi Y1 = kecerunan populasi, dan = ralat peramalan

Memperkembangkan tata tanda ini terhadap regressi berbilang memberikan kita persamaan am untuk model regressi berbilang

1

14

Page 2: Chapter 15

Pengenalan Kepada Statistik Ekonomi dan Perniagaan

Y = 0 + 1X1 + 2X2 + 3X3 + … + kXk +

dimanaY = nilai angkubah sandar,0 = pemalar regressi1 = keoffisien regressi separa bagi angkubah bebas 12 = keoffisien regressi separa bagi angkubah bebas 23 = keoffisien regressi separa bagi angkubah bebas 3k = keoffisien regressi separa bagi angkubah bebas kk = bilangan angkubah bebas.

Di dalam regressi berbilang, angkubah sandar, Y, kadangkala dirujukkan sebagai angkubah tindakbalas. Keoffisien regressi separa bagi angkubah bebas, i, mewakili peningkatannya yang akab terjadi didalam nilai Y akibat dari peningkatan 1 unit didalam angkubah bebas jika lain-lain angkubah bebas tidak berubah.Keoffisien regressi “penuh” (berbanding separa” bagi angkubag bebas ialah keoffisien yang diperolehi dari model regressi mudah dimana angkubah sandar adalah diramalkan sepenuhnya oleh keoffisien angkubah bebas.

Sebenarnya, keoffisien regressi separa dan pemalar regressi bagi model regressi berbilang adalah nilai populasi dan tidak diketahui. Nilai ini adalah dianggarkjan dengan menggunakan maklumat sampel. Ditunjukkan disini ialah bentuk persamaan untuk menganggar Y dengan maklumat sampel

= b0 + b1X1 + b2X2 + b3X3 + … + bkXk

dimana

= nilai ramalan Yb0 = anggaran pemalar regressib1 = anggran keoffisien regressi 1b2 = anggran keoffisien regressi 2b3 = anggran keoffisien regressi 3bk = anggran keoffisien regressi k

Menentukan Persamaan Regressi Berbilang

Persamaan regressi mudah untuk menentukan kecerunan dan pintasan sampel telah ditunjukkan di dalam Bab 13 adalah hasil dari kaedah kalkulus untuk meminimumkan jumlah kuasadua ralat untuk model regressi. Kaedah untuk membentuk persamaan ini melibatkan persamaan serentak dua paramater yang

2

Page 3: Chapter 15

Analisis Regressi Berbilang

tidak diketahui, bo dan b1. Mencari kecerunan dan pintasan sampel dari formula ini memerlukan nilai X, Y, XY dan Y2.

Kaedah untuk menentukan formula bagi menyelesaikan keoffisien regressi berbilang adalah sama. Formula yang telah dibentuk untuk memenuhi objektif meminimumkan jumlah kuasadua ralat bagi model. Oleh yang demikian, analisis regressi yang ditunjukkan disini adalah dirujukkan sebagai kaedah kuasadua terkesil (Ordinary Least Square, OLS). Kaedah kalkulus adalah digunakan, menghasilkan k + 1 persamaan dengan k + 1 paramater yang tidak diketahui (b0 dan k nilai bi) untuk analisis regressi dengan k angkubah bebas. Oleh itu, model regressi dengan enam angkubah bebas akan menghasilkan tujuk persamaan serentak dengan tujuh parameter yang tidak diketahui (b0, b1, b2, b3, b4, b5, b6).

Untuk model regressi berbilang dengan dua angkubah bebas, hasilnya ialah tiga persamaan serentak dengan tiga parameter yang tidak diketahui (b0, b1

dan b2).

b0n + b1X1 + b2X2 = Yb0X1 + b1 + b2X1X2 = X1Y

b0X2 + b1X1X2 +b2 = X2Y

Proses untuk menyelesaikan persamaan ini menggunakan tangan adalah merumitkan dan mengambil masa. Menyelesaikan keoffisien regressi dan pintasan didalam model regressi berbilang yang mempunyai dua angkubah bebas memerlukan X1, X2, Y, , X1X2, X1Y,

dan X2Y. Didalam keadaan sebenarnya, semua penyelidik akan

menggunakan pakej perisian komputer untuk menyelesaikan keoffisien regressi, pintasan dan lain-lain maklumat yang diperlukan. Di dalam bab ini, kita akan membincangkan output komputer dan sedikit pengiraan tangan sahaja. Penekanan adalah keatas tafsiran output komputer.

Pertimbangkan contoh berikut. Kajian pasaran saham telah dijalankan untuk menentukan, jika ada, yang mempengaruhi kadar harga/pendapatan (P/E) syarikat. Beberapa angkubah telah digunakan, dan penyelidik membuat keputusan untuk menggunakan hanya dua angkubah sahaja iaitu margin keuntungan kasar dan pertumbuhan jualan didalam meramalkan kadar harga/pendapatan syarikat. Sampel sebanyak 16 syarikat yang diambil dari pengkalan data Bursa saham Kuala Lumpur adalah digunakan untuk memperolehi data berikut bagi kadar harga/pendapatan (P/E), margin keuntungan kasar, dan pertumbuhan jualan bagi setiap syarikat. Disenaraikan didalam Jadual 14.1 data bagi tiga angkubah tersebut.

3

Page 4: Chapter 15

Pengenalan Kepada Statistik Ekonomi dan Perniagaan

Jadual 14.1Data Pasaran Saham

SyarikatKadar harga/

pendapatan (P/E)Y

Margin keuntungan kasar

(X1)

Pertumbuhan jualan(X2)

1 22.3 23.7 10.02 22.6 21.1 25.33 16.7 11.0 16.54 25.9 26.6 9.45 18.3 11.6 18.46 18.7 9.8 18.37 13.1 13.4 13.18 23.3 9.7 21.99 17.3 11.5 15.6

10 26.2 25.6 18.911 18.7 8.2 8.112 34.6 25.1 12.813 22.3 15.0 22.714 5.4 14.9 5.415 12.3 7.3 23.716 28.7 17.8 28.7

Banyak pakej perisian komputer boleh digunakan untuk menyelesaikan masalah analisis regressi berbilang termasuklah Excel. Output Excel untuk analisis regressi bermula dengan “SUMMARY OUTPUT”. Dari Rajah 14.1, persamaan regressi bagi Pasaran saham Kuala Lumpur ialah

= 2.2434 + 0.7175X1 + 0.40738X2

Rajah 14.1

4

Page 5: Chapter 15

Analisis Regressi Berbilang

Output Excel Regressi Bursa Saham Kuala Lumpur

SUMMARY OUTPUT

Regression StatisticsMultiple R 0.7337R Square 0.5383Adjusted R Square 0.4673Standard Error 5.0997Observations 16.0000

ANOVA  df SS MS F Significance F

Regression 2 394.1899 197.0949 7.578553 0.006581Residual 13 338.0901 26.00693Total 15 732.28     

  CoefficientsStandard Error t Stat P-valueIntercept 2.2434 5.0973 0.4401 0.6671X1 0.7175 0.2003 3.5826 0.0033X2 0.4073 0.1994 2.0430 0.0619

Pemalar regressi, 2.2434, merupakan pintasan Y. Pintasan Y, 2.2434 ialah nilai jika kedua-dua X1 (margin keuntungan kasar) dan X2 (pertumbuhan jualan adalah sifar. Di dalam contoh ini, pemahaman praktikal terhadap pintasan Y adalah tidak bermakna. Adalah tidak memberi apa-apa makna untuk menyatakan jika tiada margin keuntungan kasar (X1 = 0) dan tiada pertumbuhan jualan (X2 = 0), kadar PE adalah 2.2434. Disamping itu, nilai X1 = 0 dan X2 = 0 adalah diluar julat X1, X2 yang digunakan untuk membentuk model.

Keoffisien X1 (margin keuntungan kasar) ialah 0.7175. Ini bermakna jika peningkatan 1-unit didalam margin keuntungan kasar akan menghasilkan ramalan peningkatan 0.7175 didalam kadar P/E, jika pertumbuhan jualan tidak berubah. Semua angkubah lain tetap, peningtakan 1% didalam margin keuntungan kasar akan menghasilkan ramalan peningkatan 0.7175% didalam kadar P/E. Tafsiran yang sama juga boleh dibuat untuk keoffisien X2

(pertumbuhan jualan), 0.4073. Ini bermakna jika peningkatan 1-unit X2 didalam pertumbuhan jualan akan menyebabkan ramalan peningkatan 0.4073 didalam kadar P/E jika margin keuntungan kasar adalah tidak berubah.

5

Page 6: Chapter 15

Pengenalan Kepada Statistik Ekonomi dan Perniagaan

Didalam menguji keoffisien regressi, adalah penting bagi kita untuk mengingati bahawa angkubah bebas biasanya diukur didalam unit yang berbeza. Adalah biasa not wise untuk membandingkan keoffisien regressi peramal didalam model regressi berbilang dan membuat kesimpulan bahawa angkubah yang mempunyai keoffisien yang besar merupakan peramal yang terbaik.

Model regressi boleh digunakan untuk meramalkan kadar P/E syarikat. Bagi syarikat yang mempunyai margin keuntungan kasar 10% dan 5% pertumbuhan jualan , X1 = 10 dan X2 = 5, menggantikan nilai ini kedalam model regressi akan menghasilkan

= 2.2434 + 0.7175X1 + 0.40738X2

= 2.2434 + 0.7175(10) + 0.40738(5) = 11.4553

Contoh 14.1

Sebuah syarikat penyelidikan bebas telah menjalankan penyelidikan keatas gelagat dan sikap pengguna. Didalam satu kajian, responden telah ditemuduga untuk menyiasat ciri-ciri pengguna yang boleh digunakan untuk meramalkan jumlah perbelanjaan menggunakan kad kredit. Data yang dipungut ialah pendapatan tahunan, saiz isi rumah dan jumlah perbelanjaan menggunakan kad kredit bagi sampel 20 orang responden. Data tersebut ditunjukkan didalam jadual dibawah. Gunakan data tersebut untuk membentuk model regressi berbilang untuk meramalkan jumlah perbelanjaan menggunakan kad kredit. Tentukan jumlah perbelanjaan jika saiz isirumah pendapatan tahunan ialah RM50,000 dan bilangan isi rumah 5 orang.

RespondenPendapatan

Tahunan (RM’000)(X1)

Saiz Isirumah (X2)

Jumlah Perbelanjaan

(Y)1 53 3 40162 30 2 31593 32 4 51004 50 5 47425 31 2 18646 55 2 40707 37 1 27318 40 2 33489 66 4 476410 51 3 4110

6

Page 7: Chapter 15

Analisis Regressi Berbilang

11 25 3 420812 48 4 421913 27 1 247714 33 2 251415 65 3 421416 63 4 496517 42 6 441218 21 2 244819 44 1 299520 37 5 4171

Penyelesaian:

Output berikut menunjukkan keputusan analisis data menggunakan Excel.

SUMMARY OUTPUT

Regression StatisticsMultiple R 0.8508R Square 0.7238Adjusted R Square 0.6914Standard Error 531.3927Observations 20

ANOVA  df SS MS F Significance F

Regression 2 12582327 6291164 22.2792 0.0000Residual 17 4800429 282378.2Total 19 17382757     

  Coefficients Standard Error t Stat P-valueIntercept 1308.9304 421.2540 3.1072 0.0064Pendapatan 27.2947 9.5959 2.8444 0.0112Saiz 426.2352 90.5855 4.7053 0.0002

Persamaan regressi ialah

7

Page 8: Chapter 15

Pengenalan Kepada Statistik Ekonomi dan Perniagaan

= 1308.9304 + 27.2947X1 + 426.2352X2

dimanaY = perbelanjaan menggunakan kad kreditX1 = pendapatan tahunan, danX2 = saiz isirumah

Model tersebut menunjukkan peningkatan 1-unit (RM1,000) didalam pendapatan tahunan, ramalan perbelanjaan menggunakan kad kredit ialah RM27.2947, jika saiz isirumah tidak berubah. Jika saiz isirumah meningkat 1 orang, pebrbelanjaan menggunakan kad kredit akan meningkat sebanyak RM426.2352, jika pendapatan tahunan tidak berubah.

Jika X1 (pendapatan tahunan) ialah RM50,000 dan X2 (bilangan isirumah) ialah 5 orang, model tersebut meramalkan

= 1308.9304 + 27.2947X1 + 426.2352X2

= 1308.9304 + 27.2947(50) + 426.2352(5) = 4804.843

14.2 Menilai Model Regressi Berbilang

Model regressi berbilang boleh dibentuk untuk padan hampir kesemua set data jika taraf pengukuran adalah mencukupi dan cukup bilangan data. Setelah model dibentuk, adalah penting untuk menguji model didalam menentukan sama ada ia padan dengan data dan sama ada andaian disebalik analisis regressi dipenuhi. Terdapat beberapa cara untuk menguji kesesuaian model regressi, termasuklah menguji signifikan keseluruhan model, mengagkaji ujian signifikan keoffisien regressi, mengira residual, menguji sisihan piawai penganggaran, dan memerhatikan pengkali penentu.

Menguji Keseluruhan Model

Dengan regressi mudah, ujian t bagi kecerunan garisan regressi adalah digunakan untuk menentukan sama ada kecerunan populasi garisan regressi adalah berbeza dari sifar – iaitu, sama ada, angkubah bebas menyumbangkan secara signifikan didalam kelinearan peramal angkubah sandar. Hipotesis bagi ujian ini, dibincangkan didalam bab 13, adalah

Ho: 1 = 0Ha: 1 0

8

Page 9: Chapter 15

Analisis Regressi Berbilang

Untuk regressi berbilang, ujian yang sama menggunakan F statistik. Signifikan keseluruhan model regressi berbilang adalah diuji menggunakan hipotesis berikut

Ho: 1 = 2 = 3 = … = k = 0Ha: Sekurang-kurangnya satu keoffisien regressi 0

Jika kita gagal untuk menolak hipotesis nul, kita boleh menyatakan model regressi tidak signifikan untuk meramalkan angkubah sandar. Penolakan hipotesis nul menunjukkan sekurang-kurangnya satu angkubah bebas adalah menambah signifikan ramalan kepada Y.

Ujian F untuk signifikan keseluruhan ini biasanya ditunjukkan sebagai sebahagian dari output pakej perisian komputer yang biasa. Output yang ditunjukkan adalah sebagai jadual analisis varian (ANOVA). Ditunjukkan disini jadual ANOVA bagi contoh Bursa Saham Kuala Lumpur yang diambil dari output Excel Rajah 14.1.

ANOVA  df SS MS F Significance F

Regression 2 394.1899 197.0949 7.578553 0.006581Residual 13 338.0901 26.00693Total 15 732.28     

Nilai F ialah 7.578553; disebabkan p = 0.006581, nilai F adalah signifikan pada = 0.01. Hipotesis nul adalah ditolak, dan terdapat sekurang-kurangnya satu peramal adalah signifikan bagi kadar P/E syarikat didalam analisis ini.

Nilai F adalah dikira dengan menggunakan formula berikut.

dimanaMS = min kuasaduaSS = jumlah kuasaduadf = darjah kebebasank = bilangan angkubah bebas

9

Page 10: Chapter 15

Pengenalan Kepada Statistik Ekonomi dan Perniagaan

N = bilangan pemerhatian

Perhatikan, didalam jadual ANOVA contoh kita, dfreg = 2. Formula darjah kebebasan bagi regressi adalah bilangan keoffisien regressi tambah pemalar regressi tolak satu. Keputusannya ialah bilangan keoffisien regressi, yang mana sama dengan bilangan angkubah bebas, k. Didalam contoh kita, terdapat dua angkubah bebas dan oleh itu k = 2. Darjah kebebasan ralat didalam regressi berbilang ialah jumlah pemerhatian tolak bilangan keoffisien regressi tolak bilangan pemalar regressi, atau N – k – 1. Didalam contoh ini, N = 16; oleh itu dferr = 16 – 2 – 1 = 13.

Sebagaimana yang ditunjukkan didalam Bab 11, MS = SS/df. Kadar F adalah diperolehi dengan membahagikan MSreg dengan MSerr. Didalam menggunakan jadual taburan F untuk menentukan nilai kritikal berbanding untuk menguji nilai F yang dikira, darjah kebebasan numerator ialah dfreg dan darjah kebasan denominator ialah dferr. Nilai jadual F adalah diperolehi dengan cara yang biasa, sebagaimana yang dibincangkan didalam Bab 11. Dengan = 0.01 untuk contoh kita, nilai jadual ialah

F0.01,2,13 = 6.70

Membandingkan dengan nilai F yang dikira, 7.578553 dengan nilai jadual ini menunjukkan keputusan kita ialah menolak hipotesis nul. Ini adalah keputusan yang sama dicapai menggunakan kaedah nilai-p daripada output komputer.

Jika model regressi hanya mempunyai satu angkubah bebas linear, ia merupakan model regressi mudah. Didalam kes ini, ujian F untuk keseluruhan model adalah sama sebagaimana ujian t untuk signifikan kecerunana regressi. Nilai F yang ditunjukkan didalam jadual ANOVA regressi adalah berhubungan dengan ujian t untuk kecerunan didalam kes regressi mudah sebagaimana berikut

F = t2

Didalam regressi mudah, nilai F dan nilah t memberikan maklumat yang berulang berkaitan dengan ujian keseluruhan model.

Kebanyakan penyelidik yang menggunakan analisis regressi berbilang akan memerhatikan nilai F dan nilai-p berbanding menggunakan nilai jadual. Jika F tidak signifikan, naka tiada keoffisien regressi populasi yang berbeza dari sifar, dan model regressi tidak mempunyai kuasa peramalan untuk angkubah sandar.

10

Page 11: Chapter 15

Analisis Regressi Berbilang

Ujian Signifikan untuk Keoffisien Regressi

Ujian signifikan individu bagi setiap keoffisien regressi boleh diperolehi dengan menggunakan ujian t. Ujian ini adalah sama sebagaimana ujian t untuk kecerunan yang dibincangkan didalam Bab 13 untuk analisis regressi mudah. Hipotesis untuk menguji keoffisien regressi bagi setiap angkubah bebas adalah didalam bentuk berikut:

H0: 1 = 0Ha: 1 0

H0: 2 = 0Ha: 2 0...H0: k = 0Ha: k 0

Banyak pakej perisian komputer menghasilkan nilai t yang dikira untuk menguji keoffisien regressi individu sebagai output standard. Ditunjukkan disini nilai t dan kebarangkalian yang berpadanan dengannya bagi contoh kita sebagaimana yang diberikan oleh output regressi berbilang didalam Rajah 14.1

  Coefficients Standard Error t Stat P-valueIntercept 2.2434 5.0973 0.4401 0.6671X1 0.7175 0.2003 3.5826 0.0033X2 0.4073 0.1994 2.0430 0.0619

Pada = 0.05 hipotesis nul adalah ditolak untuk angkubah X1 (margin keuntungan kasar) disebabkan kebarangkalian (nilai-p) yang berpadanan dengan angkubah ini adalah lebih kecil daripada 0.05. Walau bagaimanapun, pada paras keyakinan yang sama ( = 0.05), kita gagal untuk menolak hipotesis nul bagi angkubah X2 (pertumbuhan jualan) disebabkan nilai-p adalah lebih besar daripada 0.05. Jika nilai-t bagi mana-mana angkubah bebas yang tidak signifikan (gagal untuk menolak hipotesis nul), penyelidik boleh membuat kesimpulan untuk menggugurkan angkubah tersebut dari analisis sebagai peramal yang tidak signifikan. Lain-lain faktor yang boleh diambil kira didalam membuat keputusn ini.

11

Page 12: Chapter 15

Pengenalan Kepada Statistik Ekonomi dan Perniagaan

Darjah kebebasan bagi setiap ujian individu keoffisien regressi adalah n – k – 1. Didalam contoh ini, darjah kebebasan adalah 16 – 2 – 1 = 13. Dengan = 0.05 dan ujian dua hujung, nilai jadual t ialah

t0.025,13 = 2.160

Perhatikan dari nilai t yang ditunjukkan disini, jika nilai kritikal jadual t digunakan sebagai kriteria ujian hipotesis berbanding kriteria kaedah nilai-p, keputusannya adalah masih sama. Menguji keoffisien regressi tidak hanya memberikan penyelidik beberapa perkara terhadap kepadanan model regressi, tetapi ia juga membantu kita didalam menilai bagaimana kebaikkan angkubah bebas individu didalam meramalkan Y.

Jumlah Kuasadua Ralat dan Ralat Piawai Penganggar

Residual atau ralat regressi adalah perbezaan diantara nilai Y dan nilai ramalan Y, (Y - ). Ralat bagi model regressi berbilang adalah diselesaikan dengan cara yang sama sebagaimana model regressi mudah. Pertama, nilai ramalan Y, , ditentukan dengan menggantikan nilai bagi setiap angkubah bebas bagi semua set pemerhatian kedalam persamaan regressi berbilang dang selesaikan untuk . Kemudian, nilai Y - bagi setiap pemerhatian dikira. Ditunjukkan disini pengiraan untuk mengira residual untuk set pertama pemerhatian Jadual 14.1. Nilai ramalan Y untuk X1 = 23.7 dan X2 = 10.0 ialah

= 2.2434 + 0.7175(23.7) + 0.40738 (10.0) = 23.3211Nilai sebenar Y = 22.3Residual = Y - = -1.0211

Di dalam Jadual 14.2, semua nilai residual adalah ditunjukkan bagi contoh kita berdasarkan kepada persamaan regressi berbilang yang telah dibentuk.

Satu daripada peraturan residual bagi sebarang model regressi, jumlah residual ialah sifar. Peraturan ini boleh diatasi dengan kuasaduakan nilai residual dan kemudian menjumlahkannya. Ini akan menghasilkan jumlah kuasadua ralat (SSE).

Jadual 14.2Residual untuk Model Regressi Bursa Saham Kuala Lumpur

Syarikat Y Y - (Y - )2

1 22.3 23.3211 -1.0211 1.0427

12

Page 13: Chapter 15

Analisis Regressi Berbilang

2 22.6 27.6871 -5.0871 25.87903 16.7 16.8562 -0.1562 0.02444 25.9 25.1575 0.7425 0.55135 18.3 18.0606 0.2394 0.05736 18.7 16.7283 1.9717 3.88757 13.1 17.1934 -4.0934 16.75638 23.3 18.1228 5.1772 26.80319 17.3 16.8484 0.4516 0.2039

10 26.2 28.3093 -2.1093 4.449011 18.7 11.4260 7.2740 52.911312 34.6 25.4660 9.1340 83.429113 22.3 22.2514 0.0486 0.002414 5.4 15.1336 -9.7336 94.742515 12.3 17.1339 -4.8339 23.3670

16 28.7 26.7042 1.9958 3.98340.0000 338.0901

Formula untuk mengira jumlah kuasadua ralat (SSE) bagi regressi berbilang adalah sama sevagaimana model regressi mudah.

Bagi contoh kita, SSE boleh dikira dengan kuasaduakan dan menjumlahkan residual sebagaimana ditunjukkan didalam Jadual 14.2

SSE = (-1.0211)2 + (-5.0871) 2 + (-0.1562) 2 + (0.7425) 2 + (0.2394) 2 + (1.9717 ) 2 + (-4.0934)2 + (5.1772)2 + (0.4516)2 + (-2.1093)2 + (7.2740)2 + (9.1340)2 + (0.0486)2 + (-9.7336)2 + (-4.8339)2 + (1.9958)2 = 338.0901

SSE juga boleh diperolehi secara langsung dar output komputer regressi berbilang dengan memilih nilai SS (jumlah kuasadua) yang disenaraikan disebelah ralat. Ditunjukkan disini bahagian jadual ANOVA Jadual Rajah 14.1. Perhatikan SS bagi ralat didalam jadual ANOVA adalah sama dengan nilai

yang dikira (338.0901)

13

SSE

Page 14: Chapter 15

Pengenalan Kepada Statistik Ekonomi dan Perniagaan

ANOVA

  df SS MS F Significance F

Regression 2 394.1899 197.0949 7.578553 0.006581

Residual 13 338.0901 26.00693

Total 15 732.28     

SSE mempunyai penggunaan yang terhad sebagai pengukuran ralat. Walau bagaimanapun, ia adalah alat yang digunakan untuk menyelesaikan ukuran-ukuran lain yang amat berguna. Satu daripadanya ialah ralat piawai penganggaran, Se, iaitu sisihan piawai residual untuk model regressi. Sebagaimana yang telah diterangkan didalam Bab 13, andaian disebalik analisis regressi ialah terma ralat adalah hampir bertaburan normal. Dengan min sifar. Dengan maklumat ini dan melalui peraturan empiris, hampir 67% residual sepatutnya disekitar 1Se dan 95% sepatutnya disekitar 2 Se. Ini membuatkan ralat piawai penganggaran adalah amat berguna didalam menganggarkan bagaimana tepatnya model regressi padan dengan data.

Ralat piawai penganggar adalah dikira dengan membahagikan SSE dengan darjah kebebasan ralat bagi model dan kemudian melakukan punca kuasadua

dimanan = bilangan pemerhatiank = bilangan angkubah bebas.

Nilai Se boleh dikira bagi contoh kita sebagaimana berikut

= = 5.099699

Ralat piawai penganggar, Se, biasanya diberikan oleh output komputer analisis regressi oleh pakej perisian komputer. Output Excel yang ditunjukkan didalam Rajah 14.1 mengandungi

14

Page 15: Chapter 15

Analisis Regressi Berbilang

Se = 5.0997

Melalui peraturan empiris, hampir 68% residual sepatutnya disekitar 1Se = 1(5.0997) = 5.0997. Residual bagi contoh ini, ditunjukkan didalam Jadual 14.2, menunjukkan 12/16, atau lebih kurang 75% daripada residual didalam lengkungan angka ini. Menurut peraturan empiris residual sepatutnya disekitar 2Se atau 2(5.0997) = 10.1994. Pengujian selanjutnya menunjukkan semua residual atau 100% berada didalam jeda ini.

Keoffisien Pengkali Penentu (R2)

Keoffisien pengkali penentu (R2) adalah sama dengan pengkali penentuan (r2) sebagaimana yang dibincangkan didalam Bab 13. R2 mewakili perkadaran variasi angkubah sandar, Y, diambil kira oleh angkubah bebas didalam model regressi. Sebagaimana r2, nilai R2 adalah diantara 0 dan 1. R2 samad dengan 0 menunjukkan tiada perhubungan diantara angkubah peramal didalam model dengan Y. R2 sama dengan 1 menunjukkan 100% variabiliti Y telah diambilkira oleh angkubah peramal. Oleh itu, nilai R2 yang tinggi diperlukan untuk menunjukkan kuasa peramal yang kuat bagi model regressi. Keoffisien pengkali penentua boleh dikira dengan menggunakan formula berikut:

R2 boleh dikira dari contoh kita dengan menggunakan SS regressi (SSR), SS ralat (SSE), dan Jumlah SS (SSyy) dari jadual ANOVA Rajah 14.1

SSR SSE SSyy

ANOVA

  df SS MS F Significance F

15

Page 16: Chapter 15

Pengenalan Kepada Statistik Ekonomi dan Perniagaan

Regression 2 394.1899 197.0949 7.578553 0.006581

Residual 13 338.0901 26.00693

Total 15 732.28     

n-1 n-k-1

= 0.5384

atau

= 0.538

Disamping itu, semua pakej perisian statistik memberikan nilai R2

sebagai output yang biasa bagi analisis regressi berbilang. Rajah 14.1 memberikan nilai R2 sebagaimana berikut

Multiple R 0.7337

R Square 0.5383

Adjusted R Square 0.4673Standard Error 5.0997Observations 16.0000

R2 Diselaraskan

Apabila tambahan angkubah bebas dilakukan kepada model regressi, nilai R2

tidak boleh berkurangan, dan didalam kebanyakan kes ia akan meningkat. Didalam formula untuk menentukan R2,

16

R2

Page 17: Chapter 15

Analisis Regressi Berbilang

Nilai SSyy bagi sebarang set pemerhatian akan masih sama apabila angkubah bebas ditambah kepada analisis regressi disebabkan SSyy ialah jumlah kuasadua angkubah sandar. Disebabkan tambahan angkubah bebas kelihatannya meningkatkan SSR sekurang-kurangnya dengan beberapa jumlah, nilai R2 akan meningkat bagi sebarang pertambahan angkubah bebas.

Walau bagaimanapun, kadangkala tambahan angkubah bebas tidak memberikan apa-apa maklumat yang signifikan kepada model regressi, oleh itu R2 meningkat. Oleh itu R2 mungkin menghasilkan angka yang di’inflated’. Ahli-ahli statistik telah membentuk R2 diselaraskan untuk mengambilkira tambahan maklumat setiap angkubah bebas baru yang dibawa masuk kedalam model regressi and perubahan darjah kebebasan regressi. Kebanyakan pakej komputer statistik akan melapurkan R2 diselaraskan sebagai sebahagian outputnya. Formula untuk mengira R2 diselaraskan adalah

Nilai R2 diselaraskan bagi contoh kita boleh diselesaikan dengan menggunakan maklumat dari jadual ANOVA sebagai bahagian output didalam Rajah 14.1 sebagaimana berikut

= = 0.4673

Output regressi Excel yang biasa didalam Rajah 14.1 mengandungi nilai R2 diselaraskan yang telah dikira. Bagi contoh kita, nilainya adalah ditunjukkan sebagaimana berikut

Multiple R 0.7337

R Square 0.5383

Adjusted R Square 0.4673

Standard Error 5.0997

17

adj-R2

Page 18: Chapter 15

Pengenalan Kepada Statistik Ekonomi dan Perniagaan

Observations 16.0000

Perbandingan R2 (0.5383) dan R2 diselaraskan (0.3673) bagi contoh ini menunjukkan bahawa R2 mengurangkan keseluruhan perkadaran variasi angkubah sandar yang diambilkira oleh angkubah bebas dengan faktor 0.071 arau 7.10%. Jurang diantara R2 dan R2 diselaraskan berkecenderungan untuk meningkatkan angkubah bebas yang tidak signifikan yang dimasukkan kedalam model regressi. Apabila n meningkat, perbezaan diantara R2 dan R2 diselaraskan akan menjadi kurang.

14.3 Angkubah Bebas Kualitatif

Sesetengah angkubah dirujukkan sebagai angkubah kualitatif atau angkubah patung (dummy variable) disebabkan angkubah kualitatif tidak boleh memberikan hasil yang boleh dikira. Sebaliknya, angkubah kualitatif menghasilkan maklumat taraf nominal atau ordinal, yang hanya digunakan lebih kepada untuk mengkatogerikan sesuatu item. Angkubah ini mempunyai peranan didalam regressi berbilang dan dirujukkan sebagai angkubah petunjuk atau patung. Di dalam bahagian ini, kita akan menguji peranan angkubah petunjuk atau patung sebagai peramal atau angkubah bebas di dalam analisis regressi berbilang.

Angkubah patung ujud didalam banyak cara didalam penyelidikan perniagaan atau ekonomi. Soal selidik melalui pos atau temuduga personel terhadap soalan-soalan demografi merupakan contoh yang akan menghasilkan pengukuran kualitatif seperti jantina, kawasan geografi, jenis pekerjaan, taraf perkahwinan, taraf pendidikan, kelas ekonomi, ugama, status pekerjaan, kaedah pengangkutan dan sebagainya. Di dalam satu penyelidikan perniagaan, penyelidik cuba untuk membentuk model regressi berbilang untuk meramal jarak pengguna memandu ke pusat membeli belah di Kuala Lumpur. Satu daripada angkubah bebas ialah sama ada pusat membeli belah tersebut mempunyai kawas letak kereta atau tidak.

Angkubah petunjuk ini adalah kualitatif dimana tiada ukuran taraf interval atau kadar yang dikenakan ke atas responden. Sebagai contoh, jika pusat membeli belah tersebut mempunyai tempat letakm kereta, kita meletakkan skor 20 atau 30 atau 70 disebabkan kedudukannya tidak memberikan apa-apa makna. Tetapi didalam soalan terhadap jantina, apakah nilai yang boleh kita letakkan terhadap lelaki atau wanita didalam kajian regressi? Oleh itu angkubah petunjuk atau patung adalah biasa digunakan didalam kajian regressi berbilang dan boleh dimasukkan jika ia dikodkan didalam format yang betul.

18

Page 19: Chapter 15

Analisis Regressi Berbilang

Kebanyakan penyelidik mengkodkan angkubah patung dengan menggunakan 0 dan 1. Sebagi contoh, didalam kajian pasar raya di atas, pasara raya yang mempunyai kemudahan tempat letak kereta ditandakan sebagai 1 dan 0 jika sebaliknya. Perletakan 1 dan 0 adalah arbitrari, yang hanya merupakan nombor kategori sahaja. Untuk sebab ini, pebgkodkan tersebut dirujukkan sebagai pengkodan “patung”; nombor tersebut hanya merupakan kategori sahaja.

Kebanyakan angkubah petunjuk atau patung adalah dikonomous, seperti lelaki/wanita, berkerja/menganggur, atau milik sendiri/sewa. Untuk angkubah seperti ini, nilai 1 adalah arbitrari diletakkan kepada satu kategori dan nilai 0 diletakkan pada ketegori yang lain. Sesetengah angkubah kualitatif mengandungi beberapa ketegori, seperti angkubah “jenis pekerjaan” yang mungkin mempunyai kategori pegawai kerajaan, swasta dan berkerja sendiri. Di dalam kes ini, menggunakan kod 1, 2, dan 3 kepada jenis pekerjaan adalah tempting. Walau bagaimanapun, kod jenis ini menimbulkan masalah kepada analisis regressi berbilang. Salah satunya ialah, kategori “berkerja sendiri” akan menerima nilai tiga kali lebih tinggi berbanding “pegawai kerajaan”. Disamping itu, nilai 1, 2, dan 3 menunjukkan hiraki jenis kerja: pegawai kerajaan < swasta < berkerja sendiri.

Cara yang paling baik untuk mengkod angkubah petunjuk ini ialah dengan kod 0,1. Dua angkubah bebas yang berasingan sepatutnya digunakan untuk mengkod tiga jenis kategori kerja. Angkubah pertama ialah pegawai kerajaan, dikodkan sebagai 1 jika ia pegawai kerajaan dan 0 jika sebaliknya. Angkubah kedua ialah pekerja swasta, dimana 1 dikodkan jika ia pekerja swasta dan 0 jika sebaliknya. Angkubah tidak ditandakan kepada berkerja sendiri, disebabkan semua pekerja didalam kajian yang dikodkan sebagai 1 adalah tidak dikodkan sama ada untuk pekerja kerajaan atau swasta adalah berkerja sendiri. Oleh itu, mengkodkan angkubah berkerja sendiri akan menghasilkan maklumat yang bertindih dan tidak diperlukan. Perkara ini adalah digunakan untuk semua angkubah petunjuk yang mempunyai lebih dari dua kategori. Jika angkubah kategori mempunyai c kategori, maka c – 1 angkubah patung mesti dijanakan dan dimasukkan kedalam analisis regressi didalam usaha untuk memasukkan angkubah petunjuk didalam regressi berbilang.

Contoh angkubah petunjuk dengan lebih dari dua kategori adalah dari soalan berikut yang diambil dari soal selidik biasa.

Pejabat anda terletak dikawasan mana Semenanjung Malaysia?

1. Utara 2. Selatan 3. Barat 4. Timur

Katakan penyelidik menggunakan analisis regressi berbilang untuk meramalkan kos menjalankan perniagaan dan percaya lokasi geografi pejabat adalah peramal yang berpotensi. Bagaimanakah penyelidik tersebut

19

Page 20: Chapter 15

Pengenalan Kepada Statistik Ekonomi dan Perniagaan

memasukkan angkubah petunjuk kualitatif ini kedalam analisis? Disebabkan c = 4 bagi soalan ini, maka tiga angkubah patung akan dimasukkan kedalam analisis. Jadual 14.3 menunjukkan salah satu kemungkinan yang boleh dilakukan bagi 13 responden. Perhatikan baris 2, 7 dan 10 mengandungi semuanya sifar, yang menunjukkanresponden tersebut datangnya dari kawasan Timur. Oleh itu, angkubah patung keempat untuk kawasan Timur adalah tidak diperlukan dan tidak sepatutnya dimasukkan disebabkan maklumat tersebut telah sedia terkandung didalam tiga angkubah yang lain.

Jadual 14.3Pengkodan untuk Angkubah Petunjuk bagi Lokasi Geografi

Analisis Regressi Berbilang

X1 X2 X31 0 00 0 00 1 00 0 10 0 10 1 00 0 01 0 01 0 00 0 00 1 00 0 11 0 0

Perhatian perlu diambil untuk memasukkan angkubah patung ke dalam analisis regressi berbilang. Disebabkan oleh darjah kebebasan dan pertimbangan tafsiran, adalah penting bagi analisis regressi berbilang mempunyai cukup pemerhatian untuk menguruskan bilangan angkubah bebas yang dimasukkan. Sesetengah penyelidik mencadangkan sebagai peraturan am, sekurang-kurangnya pemerhatian untuk satu angkubah bebas. Jika angkubah petunjuk mempunyai beberapa kategori, akan menghasilkan beberapa angkubah patung, dan jika beberapa angkubah petunjuk tersebut dimasukkan didalam analisis, bilangan peramal akan melebehi had bilangan angkubah per pemerhatian yang dicadangkan. Walau bagaimanapun, angkubah patung amat berguna dan ia merupakan cara dimana maklumat nominal atau ordinal boleh direkod dan dimasukkan kedalam analisis regressi berbilang.

Sebagai contoh, pertimbangkan isu merokok terhadap serangan strok. Kajia 10 tahun oleh Persatuan Jantung memberikan data bagaimana umur, dan

20

Page 21: Chapter 15

Analisis Regressi Berbilang

kegiatan merokok mempunyai kaitan dengan risiko terhadap stroke. Andaikan data di dalam Jadual 14.4 merupakan sebahagian daripada kajian tersebut. Risiko ditakrifkan sebagai kebarangkalian (100 kali) dimana pesakit akan memgalami strok disepanjang 10 tahun akan datang. Untuk angkubah merokok, ditandakan sebagai 1 jika pesakit adalah perokok dan 0 jika sebaliknya. Rajah 14.2 adalah model regressi berbilang yang diterbitkan dari Jadual 14.4 dengan menggunakan pakej perisian Excel untuk meramalkan angkubah bebas, risiko oleh tiga angkubah bebas, umur, tekanan darah dan tabiat merokok.

Jadual 14.4Data untuk Kajian Serangan Strok

Pesakit RISK AGE SMOKER1 12 57 02 24 67 03 13 58 04 56 86 15 28 59 06 51 76 17 18 56 18 31 78 09 37 80 110 15 78 011 22 71 012 36 70 113 15 67 114 48 77 115 15 60 016 36 82 117 8 66 018 34 80 119 3 62 020 37 59 1

Rajah 14.2Output Regressi untuk Kajian Serangan Strok

SUMMARY OUTPUT

Regression StatisticsMultiple R 0.7927

21

Page 22: Chapter 15

Pengenalan Kepada Statistik Ekonomi dan Perniagaan

R Square 0.6284Adjusted R Square 0.5846Standard Error 9.5719Observations 20

ANOVA  df SS MS F Significance F

Regression 2 2633.388 1316.694 14.371 0.000Residual 17 1557.562 91.621Total 19 4190.950     

  Coefficients Standard Error t Stat P-valueIntercept -28.0856 16.7070 -1.6811 0.1110AGE 0.6888 0.2505 2.7501 0.0137SMOKER 14.3962 4.6951 3.0662 0.0070

Output komputer Rajah 14.2 mengandungi persamaan regressi untuk model ini ialah

STROK = -23.0856 + 0.6888 AGE + 14.3962 SMOKER

Pengujian terhadap nilai-t menunjukkan angkubah patung “SMOKER” mempunyai keoffisien regressi yang signifikat pada = 0.01 (t = 3.0662, p = 0.0070). Model keseluruhan adalah signifikan pada = 0.001 (F = 14.372, p = 0.0000). Ralat piawai penganggar, Se = 9.5719, menunjukkan lebih kurang 68% ralat peramalan disekitar 9.5719. Nilai R2 adalah sederhana tinggi pada 62.843% dan R2 diselaraskan pada 58.46%.

Nilai-t untuk “SMOKER” menunjukkan tabiat merokok peramal yang signifikan terhadap risiko serangan strok bagi model ini. Ini dapat jelas kelihatan apabila angkubah patung dilihat dengan cara yang lain. Rajah 14.3 menunjukkan geraf persamaan regressi apabila SMOKER = 1 (perokok) dan geraf persamaan regressi apabila SMOKER = 0 (tidak merokok).

Rajah 14.3Model Regressi untuk Perokok dan Bukan Perokok

22

Page 23: Chapter 15

Analisis Regressi Berbilang

Apabila SMOKER = 1, persamaan regressi menjadi

STROK = -23.0856 + 0.6888 AGE + 14.3962 (1)STROK = -8.6894 + 0.6888 AGE

Apabila SMOKER = 0, persamaan regressi menjadi

STROK = -23.0856 + 0.6888 AGE + 14.3962 (0)STROK = -23.0856 + 0.6888 AGE

Rajah 14.3 menunjukkan dua garisan. Perhatikan perbezaan hanya terdapat bagi dua garisan ini ialah pintasan Y. Memerhatikan risiko terhadap perokok, ditunjukkan oleh , berbanding risiko strok bagi mereka yang tidak merokok ditanda sebagai . perbezaan didalam pintasan Y bagi dua garisan ini ialah 14.3962, yang merupakan keoffisien bagi angkubah SMOKER. Ini menunjukkan bahawa perokok mempunyai risiko 14.3962 lebih tinggi menghadapi serangan strok berbanding bukan perokok.

23

Perokok

Bukan Perokok